0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

機器學習的任務:從學術論文中學習數(shù)據(jù)預處理

如意 ? 來源:百家號 ? 作者: 讀芯術 ? 2020-07-01 09:37 ? 次閱讀

作為工作中最關鍵的部分,數(shù)據(jù)預處理同時也是大多數(shù)數(shù)據(jù)科學家耗時最長的項目,他們大約80%的時間花在這上面。

這些任務有怎樣重要性?有哪些學習方法和技巧?本文就將重點介紹來自著名大學和研究團隊在不同培訓數(shù)據(jù)主題上的學術論文。主題包括人類注釋者的重要性,如何在相對較短的時間內(nèi)創(chuàng)建大型數(shù)據(jù)集,如何安全處理可能包含私人信息的訓練數(shù)據(jù)等等。

1. 人類注釋器(human annotators)是多么重要?

機器學習的任務:從學術論文中學習數(shù)據(jù)預處理

本文介紹了注釋器質(zhì)量如何極大地影響訓練數(shù)據(jù),進而影響模型的準確性的第一手資料。在這個情緒分類項目里,Joef Stefan研究所的研究人員用多種語言分析了sentiment-annotated tweet的大型數(shù)據(jù)集。

有趣的是,該項目的結果表明頂級分類模型的性能在統(tǒng)計學上沒有重大差異。相反,人類注釋器的質(zhì)量是決定模型準確性的更大因素。

為了評估他們的注釋器,團隊使用了注釋器之間的認同過程和自我認同過程。研究發(fā)現(xiàn),雖然自我認同是去除表現(xiàn)不佳的注釋器的好方法,但注釋者之間的認同可以用來衡量任務的客觀難度。

研究論文:《多語言Twitter情緒分類:人類注釋器的角色》(MultilingualTwitter Sentiment Classification: The Role of Human Annotators)

作者/供稿人:Igor Mozetic, Miha Grcar, Jasmina Smailovic(所有作者均來自Jozef Stefan研究所)

出版/最后更新日期:2016年5月5日

2.機器學習的數(shù)據(jù)收集調(diào)查

機器學習的任務:從學術論文中學習數(shù)據(jù)預處理

這篇論文來自韓國先進科學技術研究所的一個研究團隊,非常適合那些希望更好地了解數(shù)據(jù)收集、管理和注釋的初學者。此外,本文還介紹和解釋了數(shù)據(jù)采集、數(shù)據(jù)擴充和數(shù)據(jù)生成的過程。

對于剛接觸機器學習的人來說,這篇文章是一個很好的資源,可以幫助你了解許多常見的技術,這些技術可以用來創(chuàng)建高質(zhì)量的數(shù)據(jù)集。

研究論文:《機器學習的數(shù)據(jù)收集調(diào)查》(A Survey on Data Collection for MachineLearning)

作者/供稿人: Yuji Roh, Geon Heo, Steven Euijong Whang (所有作者均來自韓國科學技術院)

出版/最后更新日期:2019年8月12日

3.用于半監(jiān)督式學習和遷移學習的高級數(shù)據(jù)增強技術

機器學習的任務:從學術論文中學習數(shù)據(jù)預處理

目前數(shù)據(jù)科學家面臨的最大問題之一就是獲得訓練數(shù)據(jù)。也可以說,深度學習所面臨最大的問題之一,是大多數(shù)模型都需要大量的標簽數(shù)據(jù)才能以較高的精度發(fā)揮作用。

為了解決這些問題,來自谷歌和卡內(nèi)基·梅隆大學的研究人員提出了一個在大幅降低數(shù)據(jù)量的情況下訓練模型的框架。該團隊提出使用先進的數(shù)據(jù)增強方法來有效地將噪音添加到半監(jiān)督式學習模型中使用的未標記數(shù)據(jù)樣本中,這個框架能夠取得令人難以置信的結果。

該團隊表示,在IMDB文本分類數(shù)據(jù)集上,他們的方法只需在20個標記樣本上進行訓練,就能夠超越最先進的模型。此外,在CIFAR-10基準上,他們的方法表現(xiàn)優(yōu)于此前所有的方法。

論文題目:《用于一致性訓練的無監(jiān)督數(shù)據(jù)增強》(UnsupervisedData Augmentation for Consistency Training)

作者/供稿人:Qizhe Xie (1,2), Zihang Dai (1,2), Eduard Hovy (2),Minh-Thang Luong (1), Quoc V. Le (1) (1 – Google研究院,谷歌大腦團隊, 2 – 卡耐基·梅隆大學)

發(fā)布日期 / 最后更新:2019年9月30日

4.利用弱監(jiān)督對大量數(shù)據(jù)進行標注

對于許多機器學習項目來說,獲取和注釋大型數(shù)據(jù)集需要花費大量的時間。在這篇論文中,來自斯坦福大學的研究人員提出了一個通過稱為“數(shù)據(jù)編程”的過程自動創(chuàng)建數(shù)據(jù)集的系統(tǒng)。

機器學習的任務:從學術論文中學習數(shù)據(jù)預處理

上表是直接從論文中提取的,使用數(shù)據(jù)編程(DP)顯示了與遠程監(jiān)督的ITR方法相比的精度、召回率和F1得分。

該系統(tǒng)采用弱監(jiān)管策略來標注數(shù)據(jù)子集。產(chǎn)生的標簽和數(shù)據(jù)可能會有一定程度的噪音。然而,該團隊隨后通過將訓練過程表示為生成模型,從數(shù)據(jù)中去除噪音,并提出了修改損失函數(shù)的方法,以確保它對“噪音感知”。

研究論文:《數(shù)據(jù)編程:快速創(chuàng)建大型訓練集》(DataProgramming: Creating Large Training Sets, Quickly)

作者/供稿人:Alexander Ratner, Christopher De Sa, Sen Wu, DanielSelsam, Christopher Re(作者均來自斯坦福大學)

發(fā)布/最后更新日期:2017年1月8日

5.如何使用半監(jiān)督式知識轉移來處理個人身份信息(PII)

機器學習的任務:從學術論文中學習數(shù)據(jù)預處理

來自谷歌和賓夕法尼亞州立大學的研究人員介紹了一種處理敏感數(shù)據(jù)的方法,例如病歷和用戶隱私信息。這種方法被稱為教師集合私有化(PATE),可以應用于任何模型,并且能夠在MNIST和SVHN數(shù)據(jù)集上實現(xiàn)最先進的隱私/效用權衡。

然而,正如數(shù)據(jù)科學家Alejandro Aristizabal在文章中所說,PATE所設計的一個主要問題為該框架要求學生模型與教師模型共享其數(shù)據(jù)。在這個過程中,隱私得不到保障。

為此Aristizabal提出了一個額外的步驟,為學生模型的數(shù)據(jù)集加密。你可以在他的文章Making PATEBidirectionally Private中讀到這個過程,但一定要先閱讀其原始研究論文。

論文題目:《從隱私訓練數(shù)據(jù)進行深度學習的半監(jiān)督式知識轉移》(Semi-SupervisedKnowledge Transfer for Deep Learning From Private Training Data)

作者/供稿人:Nicolas Papernot(賓夕法尼亞州立大學)、Martin Abadi(谷歌大腦)、Ulfar Erlingsson(谷歌)、Ian Goodfellow(谷歌大腦)、Kunal Talwar(谷歌大腦)。

發(fā)布日期 / 最后更新:2017年3月3日

閱讀頂尖學術論文是了解學術前沿的不二法門,同時也是從他人實踐中內(nèi)化重要知識、學習優(yōu)秀研究方法的好辦法,多讀讀論文絕對會對你有幫助。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8428

    瀏覽量

    132850
  • 論文
    +關注

    關注

    1

    文章

    103

    瀏覽量

    14970
  • 數(shù)據(jù)預處理

    關注

    1

    文章

    20

    瀏覽量

    2794
收藏 人收藏

    評論

    相關推薦

    傳統(tǒng)機器學習方法和應用指導

    在上一篇文章中,我們介紹了機器學習的關鍵概念術語。在本文中,我們會介紹傳統(tǒng)機器學習的基礎知識和多種算法特征,供各位老師選擇。 01 傳統(tǒng)
    的頭像 發(fā)表于 12-30 09:16 ?301次閱讀
    傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

    《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型

    學習任務、上下文長度、記憶和隱藏狀態(tài)提高適應性。 任務適應 依賴數(shù)據(jù)采集和微調(diào),可能效率較低。 利用復雜指令并自動多樣的上下
    發(fā)表于 12-24 15:03

    自然語言處理機器學習的關系 自然語言處理的基本概念及步驟

    Learning,簡稱ML)是人工智能的一個核心領域,它使計算機能夠數(shù)據(jù)中學習并做出預測或決策。自然語言處理機器
    的頭像 發(fā)表于 12-05 15:21 ?586次閱讀

    什么是機器學習?通過機器學習方法能解決哪些問題?

    計算機系統(tǒng)自身的性能”。事實上,由于“經(jīng)驗”在計算機系統(tǒng)中主要以數(shù)據(jù)的形式存在,因此機器學習需要設法對數(shù)據(jù)進行分析學習,這就使得它逐漸成為智
    的頭像 發(fā)表于 11-16 01:07 ?463次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    NPU與機器學習算法的關系

    在人工智能領域,機器學習算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習
    的頭像 發(fā)表于 11-15 09:19 ?539次閱讀

    eda在機器學習中的應用

    機器學習項目中,數(shù)據(jù)預處理和理解是成功構建模型的關鍵。探索性數(shù)據(jù)分析(EDA)是這一過程中不可或缺的一部分。 1.
    的頭像 發(fā)表于 11-13 10:42 ?353次閱讀

    人工智能、機器學習和深度學習存在什么區(qū)別

    人工智能指的是在某種程度上顯示出類似人類智能的設備。AI有很多技術,但其中一個很大的子集是機器學習——讓算法數(shù)據(jù)中學習。
    發(fā)表于 10-24 17:22 ?2515次閱讀
    人工智能、<b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>存在什么區(qū)別

    機器學習中的數(shù)據(jù)分割方法

    機器學習中,數(shù)據(jù)分割是一項至關重要的任務,它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器
    的頭像 發(fā)表于 07-10 16:10 ?2027次閱讀

    機器學習中的數(shù)據(jù)預處理與特征工程

    機器學習的整個流程中,數(shù)據(jù)預處理與特征工程是兩個至關重要的步驟。它們直接決定了模型的輸入質(zhì)量,進而影響模型的訓練效果和泛化能力。本文將從數(shù)據(jù)
    的頭像 發(fā)表于 07-09 15:57 ?521次閱讀

    深度學習在視覺檢測中的應用

    深度學習機器學習領域中的一個重要分支,其核心在于通過構建具有多層次的神經(jīng)網(wǎng)絡模型,使計算機能夠大量數(shù)據(jù)中自動
    的頭像 發(fā)表于 07-08 10:27 ?800次閱讀

    遷移學習的基本概念和實現(xiàn)方法

    遷移學習(Transfer Learning)是機器學習領域中的一個重要概念,其核心思想是利用在一個任務或領域中學到的知識來加速或改進另一個
    的頭像 發(fā)表于 07-04 17:30 ?1843次閱讀

    人工神經(jīng)網(wǎng)絡與傳統(tǒng)機器學習模型的區(qū)別

    在人工智能領域,機器學習和神經(jīng)網(wǎng)絡是兩個核心概念,它們各自擁有獨特的特性和應用場景。雖然它們都旨在使計算機系統(tǒng)能夠自動數(shù)據(jù)中學習和提升,但
    的頭像 發(fā)表于 07-04 14:08 ?1455次閱讀

    機器學習算法原理詳解

    機器學習作為人工智能的一個重要分支,其目標是通過讓計算機自動數(shù)據(jù)中學習并改進其性能,而無需進行明確的編程。本文將深入解讀幾種常見的
    的頭像 發(fā)表于 07-02 11:25 ?1223次閱讀

    機器學習數(shù)據(jù)分析中的應用

    隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)量的爆炸性增長對數(shù)據(jù)分析提出了更高的要求。機器學習作為一種強大的工具,通過訓練模型
    的頭像 發(fā)表于 07-02 11:22 ?708次閱讀

    數(shù)據(jù)預處理和特征工程的常用功能

    機器學習最基礎的5個流程,分別是數(shù)據(jù)獲取,數(shù)據(jù)預處理,特征工程,建模、測試和預測,上線與部署。
    的頭像 發(fā)表于 01-25 11:26 ?785次閱讀