還記得《鋼鐵俠》中托尼·斯塔克常用的炫酷無比的全息黑科技嗎?現(xiàn)在,MIT和布朗大學(xué)聯(lián)合開發(fā)了一套觸屏式交互數(shù)據(jù)分析和預(yù)測系統(tǒng),可能讓用戶找到一點電影中的感覺。整個系統(tǒng)就像一塊無限大的“交互式畫布”,僅需幾秒就能生成預(yù)測結(jié)果。
在電影《鋼鐵俠》中,托尼·斯塔克使用全息計算機將3D數(shù)據(jù)投射到空氣中,用雙手操縱,并從中找到解決超級英雄麻煩的辦法?,F(xiàn)在,麻省理工學(xué)院和布朗大學(xué)的研究人員也開發(fā)了出一套在觸摸屏上運行的交互式數(shù)據(jù)分析系統(tǒng),讓每個人都能解決現(xiàn)實問題。
這套交互式數(shù)據(jù)科學(xué)系統(tǒng)名為Northstar,在云中運行,但系統(tǒng)界面支持任何觸摸屏設(shè)備,包括智能手機和大型交互式平板。用戶提供系統(tǒng)數(shù)據(jù)集,并使用手指或數(shù)字筆在用戶友好的界面上操作,組合和提取功能。
在ACM SIGMOD 2019上發(fā)表的該項目的研究論文中,研究人員詳細介紹了Northstar的一個新組件,有“虛擬數(shù)據(jù)科學(xué)家”之稱的VDS,它可以立即生成機器學(xué)習(xí)模型,在數(shù)據(jù)集上運行預(yù)測任務(wù)。比如,醫(yī)生可以使用該系統(tǒng)來預(yù)測哪些患者更容易患某些疾病,企業(yè)主可以用它來預(yù)測銷售情況。每個團隊成員都可以利用交互式設(shè)備實現(xiàn)實時的協(xié)作。
論文鏈接:
https://dl.acm.org/citation.cfm?id=3319863
研究人員稱,Northstar的目的是通過快速準確地進行復(fù)雜分析,推進數(shù)據(jù)科學(xué)的普及。
“即使是不了解數(shù)據(jù)科學(xué)的咖啡店老板,也應(yīng)該能夠在未來幾周內(nèi)預(yù)測銷售情況,確定要進多少貨?!闭撐墓餐髡咧?、長期擔任Northstar的項目負責人的蒂姆·克拉斯卡說。他還擔任麻省理工學(xué)院計算機科學(xué)與人工智能實驗室(CSAIL)電氣工程與計算機科學(xué)副教授,新數(shù)據(jù)系統(tǒng)與AI實驗室(DSAIL)的創(chuàng)始聯(lián)合主任?!霸趽碛袛?shù)據(jù)科學(xué)家的公司中,數(shù)據(jù)科學(xué)家和非專業(yè)人士之間有很多交流,我們可以將他們都聚到一個地方來?!?/p>
VDS基于自動機器學(xué)習(xí)(AutoML)技術(shù)開發(fā),該技術(shù)讓數(shù)據(jù)科學(xué)基礎(chǔ)不高的人也能夠訓(xùn)練AI模型,根據(jù)自己的數(shù)據(jù)集進行預(yù)測。目前,該工具在DARPA舉辦的D3M AutoML競賽中處于領(lǐng)先地位,這項賽事每六個月舉辦一次,決出性能最高的AutoML工具。
此論文作者還包括:第一作者、MIT研究生Zeyuan Shang,以及EmanS,CSAIL和DSAIL項目的博士后Emanuel Zgraggen。布朗大學(xué)的Benedetto Buratti,Yeounoh Chung,Philipp Eichmann和Eli Upfal,以及最近從布朗大學(xué)調(diào)任德國達姆施塔特技術(shù)大學(xué)的Carsten Binnig。
"一塊無限大的交互式畫布”
這項新研究是麻省理工學(xué)院和布朗大學(xué)在Northstar項目上多年合作的成果。過去四年多以來,研究人員發(fā)表了大量詳細介紹Northstar各個組成部分的論文,包括交互式界面,多平臺操作、加速結(jié)果以及用戶行為研究。
Northstar的初始界面是一塊空白屏幕。用戶將數(shù)據(jù)集上傳到系統(tǒng)中,該數(shù)據(jù)集顯示在左側(cè)的“數(shù)據(jù)集”框中。任何數(shù)據(jù)標簽都會自動填入下面的獨立“屬性”框。還有一個“運算符”框,其中包含各種算法和新的AutoML工具。所有數(shù)據(jù)都在云中存儲和分析。
“這就像一塊無限大的畫布,你可以在這里展示想要的一切?!?Northstar互動界面的主要開發(fā)人員Zgraggen說。“然后可以將所有內(nèi)容鏈接在一起,創(chuàng)建更復(fù)雜的數(shù)據(jù)問題。”
史上最快AutoML工具:生成近似結(jié)果只需幾秒
使用VDS,用戶現(xiàn)在還可以通過使模型適合其任務(wù)(例如數(shù)據(jù)預(yù)測,圖像分類或分析復(fù)雜圖形結(jié)構(gòu))來對該數(shù)據(jù)運行預(yù)測分析。
比如,醫(yī)學(xué)研究人員希望根據(jù)數(shù)據(jù)集中的所有特征預(yù)測哪些患者可能患有血液病。他們可以從算法列表中拖出“AutoML”。首先會生成一個空白框,會帶出有一個“目標”標簽,在這個標簽下,再拖出“血液”特征。系統(tǒng)將自動找到性能最佳的機器學(xué)習(xí)流程,不斷更新預(yù)測精度,并以百分數(shù)顯示在屏幕上。用戶可以隨時停止這個過程,進行優(yōu)化搜索,并檢查每個模型的錯誤率、結(jié)構(gòu)、計算和其他事項。
研究人員表示,VDS是迄今為止速度最快的交互式AutoML工具,部分原因是他們的定制化“估計引擎”的作用。該引擎作用于用戶交互界面和云存儲之間,能夠自動創(chuàng)建數(shù)據(jù)集的幾個有代表性的樣本,以便逐步處理,在幾秒鐘內(nèi)就能生成高質(zhì)量的結(jié)果。
“我們花了兩年時間設(shè)計VDS,模仿數(shù)據(jù)科學(xué)家是怎么想的,”論文第一作者Zeyuan Shang說,也就是說針對某項特定任務(wù),VDS可以立即基于一系列編碼規(guī)則,判斷出應(yīng)該/不該使用哪些模型,實施哪些預(yù)處理步驟。它首先從那些可能的機器學(xué)習(xí)流程的大量列表中進行選擇,并在樣本集上運行模擬。同時記住結(jié)果并改進選擇方案。在迅速提供一個近似結(jié)果后,系統(tǒng)會在后端對結(jié)果進行細化,但最終結(jié)果通常與第一次近似結(jié)果非常接近。
“用戶使用預(yù)測器,肯定不希望等四個小時才獲得第一個結(jié)果。他們希望已經(jīng)看到預(yù)測的過程,如果發(fā)現(xiàn)錯誤,可以立即糾正。這在任何其他系統(tǒng)中通常是不可能實現(xiàn)的?!癒raska說。
研究人員在300個真實數(shù)據(jù)集上對VDS工具進行了評估。與其他最先進的AutoML系統(tǒng)相比,VDS給出的預(yù)測近似結(jié)果精度相當,但用時僅幾秒鐘,比其他工具(幾分鐘到幾小時)快得多。
未來,研究人員還準備為該工具添加一項新功能,提醒用戶潛在的數(shù)據(jù)偏差或錯誤。比如,為了保護患者隱私,研究人員有時會在醫(yī)療數(shù)據(jù)集中將患者的年齡標記為0歲(表示年齡未知)或200歲(表示患者年齡超過95歲)。新手可能無法識別這樣的“錯誤”標記,這種標記可能會對分析造成很大干擾。
“對于新用戶來說,你可能會覺得獲得的結(jié)果已經(jīng)很棒了,”Kraska說?!暗覀兿M梢蕴嵝延脩?,實際上數(shù)據(jù)集中可能存在一些異常值,表明存在某些問題。”
-
人工智能
+關(guān)注
關(guān)注
1792文章
47387瀏覽量
238899 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1452瀏覽量
34075 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24730
原文標題:MIT推出最快AutoML交互預(yù)測工具,秒速觸屏再現(xiàn)《鋼鐵俠》黑科技
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論