對(duì)于現(xiàn)代機(jī)器學(xué)習(xí)系統(tǒng)來(lái)說(shuō),最大的瓶頸在于訓(xùn)練過(guò)程中對(duì)數(shù)據(jù)龐大的需求。創(chuàng)建大規(guī)模的數(shù)據(jù)集是十分昂貴的過(guò)程,需要消耗大量的人力物力來(lái)標(biāo)注數(shù)據(jù),并且隨著應(yīng)用的迭代已有的數(shù)據(jù)集可能不能滿(mǎn)足實(shí)際的需要還需要重新標(biāo)注甚至創(chuàng)建新的數(shù)據(jù)集。為了克服工業(yè)級(jí)大規(guī)模數(shù)據(jù)的瓶頸,世界各地的研究人員在這個(gè)方向上進(jìn)行了深入的努力。近日,來(lái)自谷歌斯坦福和布朗大學(xué)的研究人員們提出了一種稱(chēng)為”Snorkel Drybell”的新方法,基于弱監(jiān)督學(xué)習(xí)的方法可以再很大程度上緩解大規(guī)模工業(yè)數(shù)據(jù)集生成的問(wèn)題,利用已有的知識(shí)迅速的標(biāo)注出大規(guī)模的數(shù)據(jù)。
研究人員基于開(kāi)源框架Snorkel開(kāi)發(fā)了這套實(shí)驗(yàn)標(biāo)注系統(tǒng),并在實(shí)驗(yàn)中發(fā)現(xiàn)這套系統(tǒng)可以獲得與手工標(biāo)記成千上萬(wàn)個(gè)數(shù)據(jù)點(diǎn)相同的效果,并揭示了如何為現(xiàn)代機(jī)器學(xué)習(xí)系統(tǒng)創(chuàng)造訓(xùn)練數(shù)據(jù)和核心原理。值得一提的是,Snorkel是一套專(zhuān)門(mén)基于弱監(jiān)督創(chuàng)建訓(xùn)練數(shù)據(jù)的框架,它能基于內(nèi)部模型、本體、規(guī)則知識(shí)圖譜等各種形式的知識(shí)為機(jī)器學(xué)習(xí)模型創(chuàng)建大規(guī)模的數(shù)據(jù)。
與傳統(tǒng)手工標(biāo)注不同,新系統(tǒng)創(chuàng)造出為數(shù)據(jù)打標(biāo)的標(biāo)注函數(shù),程序化地完成數(shù)據(jù)標(biāo)記工作。研究人員主要探索了這些標(biāo)注函數(shù)是如何捕獲工程師的經(jīng)驗(yàn),如何基于現(xiàn)有資源啟發(fā)式的進(jìn)行弱監(jiān)督學(xué)習(xí)的。
舉個(gè)例子,如果我們想識(shí)別出與名人相關(guān)的內(nèi)容,一方面可以使用現(xiàn)有的命名實(shí)體識(shí)別(NER)模型來(lái)標(biāo)注出不包含與名人無(wú)關(guān)的人的內(nèi)容來(lái)實(shí)現(xiàn)這一任務(wù)。這就巧妙地將已有的知識(shí)資源與簡(jiǎn)單的邏輯結(jié)合起來(lái),為新的模型創(chuàng)造了訓(xùn)練數(shù)據(jù)。更重要的是這一標(biāo)注函數(shù)將在大多數(shù)情況下返回None(與名人相關(guān)的相對(duì)較少),這就意味著在整個(gè)數(shù)據(jù)集中只有少量數(shù)據(jù)需要打標(biāo),我們可以利用這些數(shù)據(jù)標(biāo)簽來(lái)訓(xùn)練對(duì)于另一任務(wù)具有泛化性的新模型。
實(shí)驗(yàn)中的標(biāo)注函數(shù),將現(xiàn)有知識(shí)與簡(jiǎn)單的邏輯代碼相結(jié)合啟發(fā)式的進(jìn)行數(shù)據(jù)標(biāo)注。
自動(dòng)化的程序標(biāo)注顯然比人工方法要高效和靈活,但質(zhì)量卻無(wú)法與手工標(biāo)注媲美。標(biāo)注函數(shù)常常會(huì)出現(xiàn)標(biāo)簽重疊和不一致的情況。這主要是用于標(biāo)注函數(shù)的精度未知、與已有數(shù)據(jù)的關(guān)聯(lián)方式也存在不確定性。為了解決這一問(wèn)題,研究人員利用生成模型來(lái)對(duì)標(biāo)記函數(shù)的精度和相關(guān)性進(jìn)行可溯源的自動(dòng)估計(jì),在無(wú)需基準(zhǔn)訓(xùn)練數(shù)據(jù)的情況下將輸出重新賦權(quán)并為每一個(gè)數(shù)據(jù)點(diǎn)合成單一概率標(biāo)簽。此外還可以基于協(xié)方差觀察標(biāo)記函數(shù)之間的一致性,并學(xué)習(xí)出標(biāo)記函數(shù)精度和相關(guān)性的參數(shù),更好的解釋標(biāo)注的輸出情況。
基于多源知識(shí)的弱監(jiān)督學(xué)習(xí)
在研究Snorkel Drybell的過(guò)程中,研究人員使用了網(wǎng)絡(luò)內(nèi)容分類(lèi)、是否提及特定產(chǎn)品以及實(shí)時(shí)事件的檢測(cè)等生產(chǎn)任務(wù)及數(shù)據(jù)來(lái)進(jìn)行實(shí)驗(yàn)?;谛碌目蚣?,可以充分綜合各種信息源和已有資源:
啟發(fā)和規(guī)則:例如特定領(lǐng)域作者的規(guī)則
主題模型、標(biāo)記器和分類(lèi)器:例如目標(biāo)或相關(guān)領(lǐng)域的機(jī)器學(xué)習(xí)模型
統(tǒng)計(jì)匯總:例如目標(biāo)領(lǐng)域的相關(guān)指標(biāo)
知識(shí)或?qū)嶓w圖譜:例如目標(biāo)領(lǐng)域的數(shù)據(jù)庫(kù)
在Snorkel DryBell中,為了訓(xùn)練模型對(duì)對(duì)Web數(shù)據(jù)進(jìn)行內(nèi)容或事件分類(lèi)。 用戶(hù)無(wú)需手工標(biāo)注,而是編程組織已有資源并自動(dòng)加權(quán)生成新數(shù)據(jù)集。
研究人員利用MapReduce中的模板來(lái)實(shí)現(xiàn)資源的組織和數(shù)據(jù)標(biāo)簽生成,但結(jié)果卻不盡如人意。得到的數(shù)據(jù)標(biāo)簽噪聲很大,要么與其他標(biāo)簽沖突,要么對(duì)于目標(biāo)任務(wù)粒度太大。為了解決這一問(wèn)題研究人員在自動(dòng)數(shù)據(jù)清洗和整合上又進(jìn)行了深入的研究。
對(duì)準(zhǔn)確度建模以結(jié)合&重用現(xiàn)有資源
為了處理標(biāo)簽中的噪聲,需要將標(biāo)記函數(shù)的輸出基于置信度加權(quán)整合為單一的數(shù)據(jù)點(diǎn)標(biāo)簽。但最大的難點(diǎn)在于沒(méi)有基準(zhǔn)數(shù)據(jù)。所以研究人員引入了生成模型技術(shù),基于無(wú)標(biāo)記數(shù)據(jù)學(xué)習(xí)出每一個(gè)標(biāo)記函數(shù)的精度。通過(guò)標(biāo)記函數(shù)輸出的一致性矩陣并綜合已知的相關(guān)性結(jié)構(gòu)來(lái)進(jìn)行學(xué)習(xí)。在Snorkel DryBell研究人員還實(shí)現(xiàn)了一套快速無(wú)采樣的建模方法,在tensorflow中處理web級(jí)別的數(shù)據(jù)。通過(guò)對(duì)標(biāo)記函數(shù)的輸出進(jìn)行組合與建模,在Snorkel DryBell中實(shí)現(xiàn)了高質(zhì)量的數(shù)據(jù)標(biāo)記。事實(shí)上,在手工標(biāo)記的訓(xùn)練數(shù)據(jù)可用于比較的兩個(gè)應(yīng)用中,Snorkel DryBell打標(biāo)的數(shù)據(jù)分別與12,000和80,000個(gè)人工標(biāo)記數(shù)據(jù)點(diǎn)在同一模型的訓(xùn)練中得到了相同的預(yù)測(cè)精度。
將非服務(wù)知識(shí)轉(zhuǎn)移到可服務(wù)模型中
在很多情況下可用于生產(chǎn)的服務(wù)特征與非服務(wù)特征之間也存在重要區(qū)別,非服務(wù)特征在生產(chǎn)中使用面臨著速度和成本的問(wèn)題。但非服務(wù)特征中可能具有非常豐富的信號(hào),但問(wèn)題在于如何使用這些信號(hào)來(lái)進(jìn)行訓(xùn)練或輔助服務(wù)模型在生成中進(jìn)行部署呢?
用戶(hù)可以自行編寫(xiě)標(biāo)簽函數(shù),利用在生產(chǎn)中無(wú)法使用的特征歷來(lái)組織知識(shí)資源(a)例如在生產(chǎn)中使用太慢或太昂貴的聚合統(tǒng)計(jì),內(nèi)部模型或知識(shí)圖 來(lái)訓(xùn)練可服務(wù)的生產(chǎn)模型,利用如便宜,實(shí)時(shí)的網(wǎng)絡(luò)信號(hào)來(lái)進(jìn)行服務(wù)
在Snorkel DryBell中,用戶(hù)可以自行編寫(xiě)標(biāo)簽函數(shù)來(lái)組織已有的知識(shí)資源,并利用輸出的數(shù)據(jù)來(lái)訓(xùn)練具有不同的可服務(wù)特征的新模型。這種特征交叉遷移將基準(zhǔn)數(shù)據(jù)上的表現(xiàn)平均提高了52%。更重要的是,這種方法將緩慢(昂貴的模型或者聚合統(tǒng)計(jì))、私密(實(shí)體或知識(shí)圖譜)或者其他不適合部署的特征充分利用起來(lái),并訓(xùn)練了基于迅速和便捷特征的新模型。這種簡(jiǎn)單但強(qiáng)大的方式可以被視為一種全新的遷移學(xué)習(xí)方法,在不同特征集上的知識(shí)遷移代替了在不同數(shù)據(jù)集間的模型遷移,具有廣泛的應(yīng)用潛力!
展 望
研究人員將在未來(lái)的工作中將其他形式的知識(shí)應(yīng)用于弱監(jiān)督標(biāo)簽生成中,并探索Snorkel DryBell在信息復(fù)用和跨域知識(shí)共享中的應(yīng)用。
-
分類(lèi)器
+關(guān)注
關(guān)注
0文章
152瀏覽量
13204 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132842 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24749
原文標(biāo)題:谷歌等研究員提出弱監(jiān)督學(xué)習(xí)新方法,突破數(shù)據(jù)瓶頸
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門(mén)創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論