作為工作中最關鍵的部分,數(shù)據(jù)預處理同時也是大多數(shù)數(shù)據(jù)科學家耗時最長的項目,他們大約80%的時間花在這上面。
這些任務有怎樣重要性?有哪些學習方法和技巧?本文就將重點介紹來自著名大學和研究團隊在不同培訓數(shù)據(jù)主題上的學術論文。主題包括人類注釋者的重要性,如何在相對較短的時間內(nèi)創(chuàng)建大型數(shù)據(jù)集,如何安全處理可能包含私人信息的訓練數(shù)據(jù)等等。
1. 人類注釋器(human annotators)是多么重要?
本文介紹了注釋器質(zhì)量如何極大地影響訓練數(shù)據(jù),進而影響模型的準確性的第一手資料。在這個情緒分類項目里,Joef Stefan研究所的研究人員用多種語言分析了sentiment-annotated tweet的大型數(shù)據(jù)集。
有趣的是,該項目的結果表明頂級分類模型的性能在統(tǒng)計學上沒有重大差異。相反,人類注釋器的質(zhì)量是決定模型準確性的更大因素。
為了評估他們的注釋器,團隊使用了注釋器之間的認同過程和自我認同過程。研究發(fā)現(xiàn),雖然自我認同是去除表現(xiàn)不佳的注釋器的好方法,但注釋者之間的認同可以用來衡量任務的客觀難度。
研究論文:《多語言Twitter情緒分類:人類注釋器的角色》(MultilingualTwitter Sentiment Classification: The Role of Human Annotators)
作者/供稿人:Igor Mozetic, Miha Grcar, Jasmina Smailovic(所有作者均來自Jozef Stefan研究所)
出版/最后更新日期:2016年5月5日
2.機器學習的數(shù)據(jù)收集調(diào)查
這篇論文來自韓國先進科學技術研究所的一個研究團隊,非常適合那些希望更好地了解數(shù)據(jù)收集、管理和注釋的初學者。此外,本文還介紹和解釋了數(shù)據(jù)采集、數(shù)據(jù)擴充和數(shù)據(jù)生成的過程。
對于剛接觸機器學習的人來說,這篇文章是一個很好的資源,可以幫助你了解許多常見的技術,這些技術可以用來創(chuàng)建高質(zhì)量的數(shù)據(jù)集。
研究論文:《機器學習的數(shù)據(jù)收集調(diào)查》(A Survey on Data Collection for MachineLearning)
作者/供稿人: Yuji Roh, Geon Heo, Steven Euijong Whang (所有作者均來自韓國科學技術院)
出版/最后更新日期:2019年8月12日
3.用于半監(jiān)督式學習和遷移學習的高級數(shù)據(jù)增強技術
目前數(shù)據(jù)科學家面臨的最大問題之一就是獲得訓練數(shù)據(jù)。也可以說,深度學習所面臨最大的問題之一,是大多數(shù)模型都需要大量的標簽數(shù)據(jù)才能以較高的精度發(fā)揮作用。
為了解決這些問題,來自谷歌和卡內(nèi)基·梅隆大學的研究人員提出了一個在大幅降低數(shù)據(jù)量的情況下訓練模型的框架。該團隊提出使用先進的數(shù)據(jù)增強方法來有效地將噪音添加到半監(jiān)督式學習模型中使用的未標記數(shù)據(jù)樣本中,這個框架能夠取得令人難以置信的結果。
該團隊表示,在IMDB文本分類數(shù)據(jù)集上,他們的方法只需在20個標記樣本上進行訓練,就能夠超越最先進的模型。此外,在CIFAR-10基準上,他們的方法表現(xiàn)優(yōu)于此前所有的方法。
論文題目:《用于一致性訓練的無監(jiān)督數(shù)據(jù)增強》(UnsupervisedData Augmentation for Consistency Training)
作者/供稿人:Qizhe Xie (1,2), Zihang Dai (1,2), Eduard Hovy (2),Minh-Thang Luong (1), Quoc V. Le (1) (1 – Google研究院,谷歌大腦團隊, 2 – 卡耐基·梅隆大學)
發(fā)布日期 / 最后更新:2019年9月30日
4.利用弱監(jiān)督對大量數(shù)據(jù)進行標注
對于許多機器學習項目來說,獲取和注釋大型數(shù)據(jù)集需要花費大量的時間。在這篇論文中,來自斯坦福大學的研究人員提出了一個通過稱為“數(shù)據(jù)編程”的過程自動創(chuàng)建數(shù)據(jù)集的系統(tǒng)。
上表是直接從論文中提取的,使用數(shù)據(jù)編程(DP)顯示了與遠程監(jiān)督的ITR方法相比的精度、召回率和F1得分。
該系統(tǒng)采用弱監(jiān)管策略來標注數(shù)據(jù)子集。產(chǎn)生的標簽和數(shù)據(jù)可能會有一定程度的噪音。然而,該團隊隨后通過將訓練過程表示為生成模型,從數(shù)據(jù)中去除噪音,并提出了修改損失函數(shù)的方法,以確保它對“噪音感知”。
研究論文:《數(shù)據(jù)編程:快速創(chuàng)建大型訓練集》(DataProgramming: Creating Large Training Sets, Quickly)
作者/供稿人:Alexander Ratner, Christopher De Sa, Sen Wu, DanielSelsam, Christopher Re(作者均來自斯坦福大學)
發(fā)布/最后更新日期:2017年1月8日
5.如何使用半監(jiān)督式知識轉移來處理個人身份信息(PII)
來自谷歌和賓夕法尼亞州立大學的研究人員介紹了一種處理敏感數(shù)據(jù)的方法,例如病歷和用戶隱私信息。這種方法被稱為教師集合私有化(PATE),可以應用于任何模型,并且能夠在MNIST和SVHN數(shù)據(jù)集上實現(xiàn)最先進的隱私/效用權衡。
然而,正如數(shù)據(jù)科學家Alejandro Aristizabal在文章中所說,PATE所設計的一個主要問題為該框架要求學生模型與教師模型共享其數(shù)據(jù)。在這個過程中,隱私得不到保障。
為此Aristizabal提出了一個額外的步驟,為學生模型的數(shù)據(jù)集加密。你可以在他的文章Making PATEBidirectionally Private中讀到這個過程,但一定要先閱讀其原始研究論文。
論文題目:《從隱私訓練數(shù)據(jù)進行深度學習的半監(jiān)督式知識轉移》(Semi-SupervisedKnowledge Transfer for Deep Learning From Private Training Data)
作者/供稿人:Nicolas Papernot(賓夕法尼亞州立大學)、Martin Abadi(谷歌大腦)、Ulfar Erlingsson(谷歌)、Ian Goodfellow(谷歌大腦)、Kunal Talwar(谷歌大腦)。
發(fā)布日期 / 最后更新:2017年3月3日
閱讀頂尖學術論文是了解學術前沿的不二法門,同時也是從他人實踐中內(nèi)化重要知識、學習優(yōu)秀研究方法的好辦法,多讀讀論文絕對會對你有幫助。
-
機器學習
+關注
關注
66文章
8428瀏覽量
132850 -
論文
+關注
關注
1文章
103瀏覽量
14970 -
數(shù)據(jù)預處理
+關注
關注
1文章
20瀏覽量
2794
發(fā)布評論請先 登錄
相關推薦
評論