0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google AI最新研究用無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)推進(jìn)半監(jiān)督學(xué)習(xí),取得令人矚目的成果

DPVg_AI_era ? 來(lái)源:lq ? 2019-07-13 07:31 ? 次閱讀

Google AI最新研究用無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)推進(jìn)半監(jiān)督學(xué)習(xí),取得令人矚目的成果。該方法超越了所有現(xiàn)有的半監(jiān)督學(xué)習(xí)方法,并實(shí)現(xiàn)了僅使用極少量標(biāo)記樣本即可達(dá)到使用大量標(biāo)記樣本訓(xùn)練集的精度。

深度學(xué)習(xí)之所以能夠成功的關(guān)鍵因素,是算法的進(jìn)步,以及并行處理硬件(GPU / TPU)以及大型標(biāo)記數(shù)據(jù)集(如ImageNet)。

然而,當(dāng)標(biāo)記數(shù)據(jù)稀缺時(shí),深度學(xué)習(xí)就像缺了一條腿。在這種情況下,需要應(yīng)用數(shù)據(jù)增強(qiáng)方法,例如對(duì)句子進(jìn)行釋義或?qū)D像進(jìn)行旋轉(zhuǎn),以有效地增加標(biāo)記的訓(xùn)練數(shù)據(jù)的量。

如今,在諸如自然語(yǔ)言處理(NLP),視覺(jué)和語(yǔ)音等各種領(lǐng)域的數(shù)據(jù)增強(qiáng)方法的設(shè)計(jì)上,已經(jīng)取得了重大進(jìn)展。不幸的是,數(shù)據(jù)增加通常僅限于監(jiān)督學(xué)習(xí),需要標(biāo)簽從原始示例轉(zhuǎn)移到增強(qiáng)示例。

上圖:基于文本(頂部)或基于圖像(底部)訓(xùn)練數(shù)據(jù)的示例增強(qiáng)操作。

在谷歌最近“用于一致性訓(xùn)練的無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)(UDA)”的研究中,證明還可以對(duì)未標(biāo)記數(shù)據(jù)執(zhí)行數(shù)據(jù)增強(qiáng),以顯著改善半監(jiān)督學(xué)習(xí)(SSL)。

谷歌的結(jié)果促進(jìn)了半監(jiān)督學(xué)習(xí)的復(fù)興,而且還發(fā)現(xiàn)3點(diǎn)有趣的現(xiàn)象:(1)SSL可以匹配甚至優(yōu)于使用數(shù)量級(jí)更多標(biāo)記數(shù)據(jù)的純監(jiān)督學(xué)習(xí)。(2)SSL在文本和視覺(jué)兩個(gè)領(lǐng)域都能很好地工作。(3)SSL能夠與遷移學(xué)習(xí)很好地結(jié)合。

此外谷歌還開(kāi)放了代碼在GitHub。

GitHub地址:

https://github.com/google-research/uda

無(wú)監(jiān)督數(shù)據(jù)擴(kuò)充

無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)同時(shí)使用標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)。在標(biāo)記數(shù)據(jù)方面,它使用監(jiān)督學(xué)習(xí)的標(biāo)準(zhǔn)方法來(lái)計(jì)算損失函數(shù)以訓(xùn)練模型,如下圖的左側(cè)部分所示。

而對(duì)于未標(biāo)記的數(shù)據(jù),則應(yīng)用一致性訓(xùn)練來(lái)強(qiáng)制預(yù)測(cè)未標(biāo)記的示例和增強(qiáng)的未標(biāo)記示例是否相似,如下圖的右側(cè)部分所示。

這里,相同的模型被同時(shí)應(yīng)用于未標(biāo)記的示例和增強(qiáng)的對(duì)應(yīng)物,以產(chǎn)生兩個(gè)模型預(yù)測(cè),從中計(jì)算一致性損失(即,兩個(gè)預(yù)測(cè)分布之間的距離)。

然后,UDA通過(guò)聯(lián)合優(yōu)化標(biāo)記數(shù)據(jù)的監(jiān)督損失和未標(biāo)記數(shù)據(jù)的無(wú)監(jiān)督一致性損失,來(lái)計(jì)算最終損失。

通過(guò)最小化一致性損失,UDA允許標(biāo)簽信息從標(biāo)記的示例平滑地傳播到未標(biāo)記的示例。

直覺(jué)上,人們可以將UDA視為隱含的迭代過(guò)程:該模型依賴于少量標(biāo)記的示例,來(lái)對(duì)一些未標(biāo)記的示例進(jìn)行正確的預(yù)測(cè),從中通過(guò)一致性損失,并將標(biāo)簽信息傳播到增強(qiáng)的對(duì)應(yīng)物。隨著時(shí)間的推移,越來(lái)越多未標(biāo)記的示例終將被正確預(yù)測(cè),這反映了模型的改進(jìn)的泛化。

谷歌對(duì)各種其他類型的噪聲進(jìn)行一致性訓(xùn)練測(cè)試(例如高斯噪聲、對(duì)抗性噪聲等)后,在各種各樣的噪聲上實(shí)現(xiàn)了最先進(jìn)的性能。

UDA根據(jù)任務(wù)應(yīng)用不同的現(xiàn)有增強(qiáng)方法,包括反向翻譯、自動(dòng)增強(qiáng)和TF-IDF單詞替換。

新的NLP和計(jì)算機(jī)視覺(jué)的基準(zhǔn)

UDA在低數(shù)據(jù)體系中出乎意料地有效。只用20個(gè)標(biāo)記示例,UDA通過(guò)50000個(gè)未標(biāo)記的示例,在IMDb情緒分析任務(wù)中實(shí)現(xiàn)了4.20的錯(cuò)誤率。

該結(jié)果優(yōu)于先前使用25000個(gè)標(biāo)記示例訓(xùn)練的最先進(jìn)模型(錯(cuò)誤率為4.32)。在大數(shù)據(jù)制度中,通過(guò)完整的訓(xùn)練集,UDA也提供了強(qiáng)大的收益。

IMDb的基準(zhǔn),是一種情緒分析任務(wù)。UDA在不同培訓(xùn)規(guī)模的監(jiān)督學(xué)習(xí)中超越了最先進(jìn)的成果,如下圖。

在CIFAR-10半監(jiān)督學(xué)習(xí)基準(zhǔn)測(cè)試中,UDA的表現(xiàn)同樣優(yōu)于所有現(xiàn)有的SSL方法,如VAT、ICT和MixMatch。

在4k示例情況下,UDA實(shí)現(xiàn)了5.27的錯(cuò)誤率,與使用50k示例的完全監(jiān)督模型的性能相匹配。

此外,通過(guò)更先進(jìn)的PyramidNet+ShakeDro架構(gòu)p,UDA實(shí)現(xiàn)了2.7的新的最新錯(cuò)誤率,與之前的最佳半監(jiān)督結(jié)果相比,錯(cuò)誤率降低了45%以上。

在SVHN上,UDA僅使用250個(gè)標(biāo)記示例,就實(shí)現(xiàn)了2.85的錯(cuò)誤率,與使用70k標(biāo)記示例訓(xùn)練的完全監(jiān)督模型的性能相匹配。

CIFAR-10的SSL基準(zhǔn)測(cè)試,圖像分類任務(wù)。UDA超越了所有現(xiàn)有的半監(jiān)督學(xué)習(xí)方法,所有這些方法都使用Wide-ResNet-28-2架構(gòu)。在4000個(gè)示例中,UDA將完全監(jiān)督設(shè)置的性能與50000個(gè)示例相匹配。

在具有10%標(biāo)記示例的ImageNet上,UDA將TOP 1精度從55.1%提高到68.7%。

在具有完全標(biāo)記集和1.3M額外未標(biāo)記示例的高數(shù)據(jù)體系中,UDA繼續(xù)為前1精度提供78.3%至79.0%的增益。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Google
    +關(guān)注

    關(guān)注

    5

    文章

    1765

    瀏覽量

    57527
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4331

    瀏覽量

    62604
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24700

原文標(biāo)題:讓半監(jiān)督學(xué)習(xí)再次偉大!谷歌最新無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)研究,全面超越現(xiàn)有半監(jiān)督學(xué)習(xí)方法

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學(xué)習(xí)數(shù)據(jù)增強(qiáng)技術(shù)

    本文提出了一種適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學(xué)習(xí)數(shù)據(jù)增強(qiáng)技術(shù)。 ? 自監(jiān)督學(xué)習(xí)算法在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域
    的頭像 發(fā)表于 09-04 10:07 ?1119次閱讀
    適用于任意<b class='flag-5'>數(shù)據(jù)</b>模態(tài)的自<b class='flag-5'>監(jiān)督學(xué)習(xí)</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>增強(qiáng)</b>技術(shù)

    基于監(jiān)督學(xué)習(xí)的跌倒檢測(cè)系統(tǒng)設(shè)計(jì)_李仲年

    基于監(jiān)督學(xué)習(xí)的跌倒檢測(cè)系統(tǒng)設(shè)計(jì)_李仲年
    發(fā)表于 03-19 19:11 ?4次下載

    基于監(jiān)督學(xué)習(xí)框架的識(shí)別算法

    人體行為識(shí)別是計(jì)算機(jī)視覺(jué)研究的熱點(diǎn)問(wèn)題,現(xiàn)有的行為識(shí)別方法都是基于監(jiān)督學(xué)習(xí)框架.為了取得較好的識(shí)別效果,通常需要大量的有標(biāo)記樣本來(lái)建模.然而,獲取有標(biāo)記樣本是一個(gè)費(fèi)時(shí)又費(fèi)力的工作.為了解決這個(gè)
    發(fā)表于 01-21 10:41 ?1次下載

    你想要的機(jī)器學(xué)習(xí)課程筆記在這:主要討論監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)

    with experience E(一個(gè)程序從經(jīng)驗(yàn)E中學(xué)習(xí)解決任務(wù)T進(jìn)行某一任務(wù)量度P,通過(guò)P測(cè)量在T的表現(xiàn)而提高經(jīng)驗(yàn)E(另一種定義:機(jī)器學(xué)習(xí)數(shù)據(jù)或以往的經(jīng)驗(yàn),以此優(yōu)化計(jì)算機(jī)程序
    發(fā)表于 12-03 17:12 ?553次閱讀

    如何用Python進(jìn)行無(wú)監(jiān)督學(xué)習(xí)

    無(wú)監(jiān)督學(xué)習(xí)是一種用于在數(shù)據(jù)中查找模式的機(jī)器學(xué)習(xí)技術(shù)。無(wú)監(jiān)督算法給出的
    的頭像 發(fā)表于 01-21 17:23 ?4260次閱讀

    谷歌:監(jiān)督學(xué)習(xí)其實(shí)正在悄然的進(jìn)化

    上圖可以看出來(lái),最開(kāi)始的時(shí)候,監(jiān)督學(xué)習(xí)訓(xùn)練確實(shí)有種提升監(jiān)督學(xué)習(xí)效果的趨勢(shì),然而實(shí)際操作中,我們經(jīng)常陷入從“可怕又不可用”的狀態(tài),到“不那么可怕但仍然完全不可用”。
    的頭像 發(fā)表于 05-25 09:58 ?2947次閱讀
    谷歌:<b class='flag-5'>半</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>其實(shí)正在悄然的進(jìn)化

    無(wú)監(jiān)督機(jī)器學(xué)習(xí)如何保護(hù)金融

    無(wú)監(jiān)督機(jī)器學(xué)習(xí)是近年才發(fā)展起來(lái)的反欺詐手法。目前國(guó)內(nèi)反欺詐金融服務(wù)主要是應(yīng)用黑白名單、有監(jiān)督學(xué)習(xí)無(wú)監(jiān)督
    發(fā)表于 05-01 22:11 ?1012次閱讀

    機(jī)器學(xué)習(xí)算法中有監(jiān)督無(wú)監(jiān)督學(xué)習(xí)的區(qū)別

    無(wú)監(jiān)督學(xué)習(xí)的好處之一是,它不需要監(jiān)督學(xué)習(xí)必須經(jīng)歷的費(fèi)力的數(shù)據(jù)標(biāo)記過(guò)程。但是,要權(quán)衡的是,評(píng)估其性能的有效性也非常困難。相反,通過(guò)將監(jiān)督學(xué)習(xí)
    的頭像 發(fā)表于 07-07 10:18 ?5766次閱讀

    最基礎(chǔ)的監(jiān)督學(xué)習(xí)

    標(biāo)記數(shù)據(jù)訓(xùn)練的監(jiān)督學(xué)習(xí)技術(shù)得到更好的結(jié)果。這是監(jiān)督學(xué)習(xí)系列文章的第1部分,對(duì)這個(gè)機(jī)器學(xué)習(xí)的重要子領(lǐng)域進(jìn)行了簡(jiǎn)要的介紹。 區(qū)分
    的頭像 發(fā)表于 11-02 16:08 ?2654次閱讀

    監(jiān)督學(xué)習(xí)最基礎(chǔ)的3個(gè)概念

    有趣的方法,用來(lái)解決機(jī)器學(xué)習(xí)中缺少標(biāo)簽數(shù)據(jù)的問(wèn)題。SSL利用未標(biāo)記的數(shù)據(jù)和標(biāo)記的數(shù)據(jù)集來(lái)學(xué)習(xí)任務(wù)。SSL的目標(biāo)是得到比單獨(dú)使用標(biāo)記
    的頭像 發(fā)表于 11-02 16:14 ?2968次閱讀
    <b class='flag-5'>半</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>最基礎(chǔ)的3個(gè)概念

    為什么監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)的未來(lái)?

    揭示了添加無(wú)監(jiān)督數(shù)據(jù)可以提高模型泛化和性能。事實(shí)上,在非常多的場(chǎng)景中,帶有標(biāo)簽的數(shù)據(jù)并不容易獲得。監(jiān)督
    的頭像 發(fā)表于 11-27 10:42 ?3909次閱讀

    監(jiān)督學(xué)習(xí):比監(jiān)督學(xué)習(xí)做的更好

    監(jiān)督學(xué)習(xí)是人工智能領(lǐng)域的第一種學(xué)習(xí)類型。從它的概念開(kāi)始,無(wú)數(shù)的算法,從簡(jiǎn)單的邏輯回歸到大規(guī)模的神經(jīng)網(wǎng)絡(luò),都已經(jīng)被研究用來(lái)提高精...
    的頭像 發(fā)表于 12-08 23:32 ?1413次閱讀

    機(jī)器學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)應(yīng)用在哪些領(lǐng)域

    監(jiān)督學(xué)習(xí)|機(jī)器學(xué)習(xí)| 集成學(xué)習(xí)|進(jìn)化計(jì)算| 非監(jiān)督學(xué)習(xí)| 監(jiān)督學(xué)習(xí)| 自
    發(fā)表于 01-20 10:52 ?4969次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>中的<b class='flag-5'>無(wú)</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>應(yīng)用在哪些領(lǐng)域

    監(jiān)督學(xué)習(xí)代碼庫(kù)存在的問(wèn)題與挑戰(zhàn)

    當(dāng)使用監(jiān)督學(xué)習(xí)(Supervised Learning)對(duì)大量高質(zhì)量的標(biāo)記數(shù)據(jù)(Labeled Data)進(jìn)行訓(xùn)練時(shí),神經(jīng)網(wǎng)絡(luò)模型會(huì)產(chǎn)生有競(jìng)爭(zhēng)力的結(jié)果。例如,根據(jù)Paperswithcode網(wǎng)站統(tǒng)計(jì)
    的頭像 發(fā)表于 10-18 16:28 ?1301次閱讀

    深度學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)方法綜述

    深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要分支,近年來(lái)在多個(gè)領(lǐng)域取得了顯著的成果,特別是在圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域。然而,深度學(xué)習(xí)模型
    的頭像 發(fā)表于 07-09 10:50 ?729次閱讀