0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何用更少的數(shù)據(jù)自動(dòng)將文本分類,同時(shí)精確度還比原來(lái)的方法高

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-05-21 15:53 ? 次閱讀

編者按:這篇文章作者是數(shù)據(jù)科學(xué)家Jeremy Howard和自然語(yǔ)言處理專家Sebastian Ruder,目的是幫助新手和外行人更好地了解他們的新論文。該論文展示了如何用更少的數(shù)據(jù)自動(dòng)將文本分類,同時(shí)精確度還比原來(lái)的方法高。本文會(huì)用簡(jiǎn)單的術(shù)語(yǔ)解釋自然語(yǔ)言處理、文本分類、遷移學(xué)習(xí)、語(yǔ)言建模、以及他們的方法是如何將這幾個(gè)概念結(jié)合在一起的。如果你已經(jīng)對(duì)NLP和深度學(xué)習(xí)很熟悉了,可以直接進(jìn)入項(xiàng)目主頁(yè).

簡(jiǎn)介

5月14日,我們發(fā)表了論文Universal Language Model Fine-tuning for Text Classification(ULMFiT),這是一個(gè)預(yù)訓(xùn)練模型,同時(shí)用Python進(jìn)行了開(kāi)源。論文已經(jīng)經(jīng)過(guò)了同行評(píng)議,并且將在ACL 2018上作報(bào)告。上面的鏈接提供了對(duì)論文方法的深度講解視頻,以及所用到的Python模塊、與訓(xùn)練模型和搭建自己模型的腳本。

這一模型顯著提高了文本分類的效率,同時(shí),代碼和與訓(xùn)練模型能讓每位用戶用這種新方法更好地解決以下問(wèn)題:

找到與某一法律案件相關(guān)的文件;

辨別垃圾信息、惡意評(píng)論或機(jī)器人回復(fù);

對(duì)商品積極和消極的評(píng)價(jià)進(jìn)行分類;

對(duì)文章進(jìn)行政治傾向分類;

其他

ULMFiT所需的數(shù)量比其他方法少

所以,這項(xiàng)新技術(shù)到底帶來(lái)了哪些改變呢?首先讓我們看看摘要部分講了什么,之后在文章的其他部分我們會(huì)展開(kāi)來(lái)講這是什么意思:

遷移學(xué)習(xí)為計(jì)算機(jī)視覺(jué)帶來(lái)了巨大改變,但是現(xiàn)有的NLP技術(shù)仍需要針對(duì)具體任務(wù)改進(jìn)模型,并且從零開(kāi)始訓(xùn)練。我們提出了一種有效的遷移學(xué)習(xí)方法,可以應(yīng)用到NLP領(lǐng)域的任何一種任務(wù)上,同時(shí)提出的技術(shù)對(duì)調(diào)整語(yǔ)言模型來(lái)說(shuō)非常關(guān)鍵。我們的方法在六種文本分類任務(wù)上比現(xiàn)有的技術(shù)都要優(yōu)秀,除此之外,這種方法僅用100個(gè)帶有標(biāo)簽的樣本進(jìn)行訓(xùn)練,最終的性能就達(dá)到了從零開(kāi)始、擁有上萬(wàn)個(gè)訓(xùn)練數(shù)據(jù)的模型性能。

NLP、深度學(xué)習(xí)和分類

自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的特殊任務(wù),顧名思義,就是用計(jì)算機(jī)處理世界上的語(yǔ)言。自然語(yǔ)言指的是我們每天用來(lái)交流的話語(yǔ),例如英語(yǔ)或中文,與專業(yè)語(yǔ)言相對(duì)(計(jì)算機(jī)代碼或音符)。NLP的應(yīng)用范圍十分廣泛,例如搜索、私人助理、總結(jié)等等??偟膩?lái)說(shuō),由于編寫(xiě)的計(jì)算機(jī)代碼很難表達(dá)出語(yǔ)言的不同情感和細(xì)微差別,缺少靈活性,就導(dǎo)致自然語(yǔ)言處理是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)??赡苣阍谏钪幸呀?jīng)體驗(yàn)過(guò)與NLP打交道的事了,例如與自動(dòng)回復(fù)機(jī)器人打電話,或者和Siri對(duì)話,但是體驗(yàn)不太流暢。

過(guò)去幾年,我們開(kāi)始看到深度學(xué)習(xí)正超越傳統(tǒng)計(jì)算機(jī),在NLP領(lǐng)域取得了不錯(cuò)的成果。與之前需要由程序定義一系列固定規(guī)則不同,深度學(xué)習(xí)使用的是從數(shù)據(jù)中直接學(xué)到豐富的非線性關(guān)系的神經(jīng)網(wǎng)絡(luò)進(jìn)行處理計(jì)算。當(dāng)然,深度學(xué)習(xí)最顯著的成就還是在計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域,我們可以在之前的ImageNet圖像分類競(jìng)賽中感受到它快速的進(jìn)步。

深度學(xué)習(xí)同樣在NLP領(lǐng)域取得了很多成功,例如《紐約時(shí)報(bào)》曾報(bào)道過(guò)的自動(dòng)翻譯已經(jīng)有了許多應(yīng)用。這些成功的NLP任務(wù)都有一個(gè)共同特征,即它們?cè)谟?xùn)練模型時(shí)都有大量標(biāo)記過(guò)的數(shù)據(jù)可用。然而,直到現(xiàn)在,這些應(yīng)用也只能用于能夠收集到大量帶標(biāo)記的數(shù)據(jù)集的模型上,同時(shí)還要求有計(jì)算機(jī)群組能長(zhǎng)時(shí)間計(jì)算。

深度學(xué)習(xí)在NLP領(lǐng)域最具挑戰(zhàn)性的問(wèn)題正是CV領(lǐng)域最成功的問(wèn)題:分類。這指的是將任意物品歸類到某一群組中,例如將文件或圖像歸類到狗或貓的數(shù)據(jù)集中,或者判斷是積極還是消極的等等?,F(xiàn)實(shí)中的很多問(wèn)題都能看作是分類問(wèn)題,這也是為什么深度學(xué)習(xí)在ImageNet上分類的成功催生了各類相關(guān)的商業(yè)應(yīng)用。在NLP領(lǐng)域,目前的技術(shù)能很好地做出“識(shí)別”,例如,想要知道一篇影評(píng)是積極還是消極,要做的就是“情感分析”。但是隨著文章的情感越來(lái)越模糊,模型就難以判斷,因?yàn)闆](méi)有足夠可學(xué)的標(biāo)簽數(shù)據(jù)。

遷移學(xué)習(xí)

我們的目標(biāo)就是解決這兩個(gè)問(wèn)題:

在NLP問(wèn)題中,當(dāng)我們沒(méi)有大規(guī)模數(shù)據(jù)和計(jì)算資源時(shí),怎么辦?

讓NLP的分類變得簡(jiǎn)單

研究的參與者(Jeremy Howard和Sebastian Ruder)所從事的領(lǐng)域恰好能解決這一問(wèn)題,即遷移學(xué)習(xí)。遷移學(xué)習(xí)指的是用某種解決特定問(wèn)題的模型(例如對(duì)ImageNet的圖像進(jìn)行分類)作為基礎(chǔ),去解決與之類似的問(wèn)題。常見(jiàn)方法是對(duì)原始模型進(jìn)行微調(diào),例如Jeremy Howard曾經(jīng)將上述分類模型遷移到CT圖像分類以檢測(cè)是否有癌癥。由于調(diào)整后的模型無(wú)需從零開(kāi)始學(xué)習(xí),它所能達(dá)到的精度要比數(shù)據(jù)較少、計(jì)算時(shí)間較短的模型更高。

許多年來(lái),只使用單一權(quán)重層的簡(jiǎn)單遷移學(xué)習(xí)非常受歡迎,例如谷歌的word2vec嵌入。然而,實(shí)際中的完全神經(jīng)網(wǎng)絡(luò)包含很多層,所以只在單一層運(yùn)用遷移學(xué)習(xí)僅僅解決了表面問(wèn)題。

重點(diǎn)是,想要解決NLP問(wèn)題,我們應(yīng)該從哪里遷移學(xué)習(xí)?這一問(wèn)題困擾了Jeremy Howard很久,然而當(dāng)他的朋友Stephen Merity宣布開(kāi)發(fā)出AWD LSTM語(yǔ)言模型,這對(duì)語(yǔ)言建模是重大進(jìn)步。一個(gè)語(yǔ)言模型是一個(gè)NLP模型,它可以預(yù)測(cè)一句話中下一個(gè)單詞是什么。例如,手機(jī)內(nèi)置的語(yǔ)言模型可以猜到發(fā)信息時(shí)下一步你會(huì)打哪個(gè)字。這項(xiàng)成果之所以非常重要,是因?yàn)橐粋€(gè)語(yǔ)言模型要想正確猜測(cè)接下來(lái)你要說(shuō)什么,它就要具備很多知識(shí),同時(shí)對(duì)語(yǔ)法、語(yǔ)義及其他自然語(yǔ)言的元素有著非常全面的了解。我們?cè)陂喿x或分類文本時(shí)也具備這種能力,只是我們對(duì)此并不自知。

我們發(fā)現(xiàn),將這種方法應(yīng)用于遷移學(xué)習(xí),有助于成為NLP遷移學(xué)習(xí)的通用方法:

不論文件大小、數(shù)量多少以及標(biāo)簽類型,該方法都適用

它只有一種結(jié)構(gòu)和訓(xùn)練過(guò)程

它無(wú)需定制特殊的工程和預(yù)處理

它無(wú)需額外的相關(guān)文件或標(biāo)簽

開(kāi)始工作

ULMFiT的高層次方法(以IMDb為例)

這種方法之前曾嘗試過(guò),但是為了達(dá)到合格的性能,需要上百萬(wàn)個(gè)文本。我們發(fā)現(xiàn),通過(guò)調(diào)整語(yǔ)言模型,就能達(dá)到更好的效果。特別是,我們發(fā)現(xiàn)如果仔細(xì)控制模型的學(xué)習(xí)速度,并更新預(yù)訓(xùn)練模型以保證它不會(huì)遺忘此前所學(xué)內(nèi)容,那么模型可以在新數(shù)據(jù)集上適應(yīng)得更好。令人激動(dòng)的是,我們發(fā)現(xiàn)模型能夠在有限的樣本中學(xué)得更好。在含有兩種類別的文本分類數(shù)據(jù)集上,我們發(fā)現(xiàn)將我們的模型在100個(gè)樣本上訓(xùn)練達(dá)到的效果和從零開(kāi)始、在10000個(gè)標(biāo)記樣本上訓(xùn)練的效果相同。

另外一個(gè)重要的特點(diǎn)是,我們可以用任何足夠大且通用的語(yǔ)料庫(kù)建立一個(gè)全球通用的語(yǔ)言模型,從而可以針對(duì)任意目標(biāo)語(yǔ)料進(jìn)行調(diào)整。我們決定用Stephen Merity的WikiText 103數(shù)據(jù)集來(lái)做,其中包含了經(jīng)過(guò)與處理的英文維基百科子集。

NLP領(lǐng)域的許多研究都是在英文環(huán)境中的,如果用非英語(yǔ)語(yǔ)言訓(xùn)練模型,就會(huì)帶來(lái)一系列難題。通常,公開(kāi)的非英語(yǔ)語(yǔ)言數(shù)據(jù)集非常少,如果你想訓(xùn)練泰語(yǔ)的文本分類模型,你就得自己收集數(shù)據(jù)。收集非英語(yǔ)文本數(shù)據(jù)意味著你需要自己標(biāo)注或者尋找標(biāo)注者,因?yàn)轭愃?a href="http://www.wenjunhu.com/tags/亞馬遜/" target="_blank">亞馬遜的Mechanical Turk這種眾籌服務(wù)通常只有英文標(biāo)注者。

有了ULMFiT,我們可以非常輕松地訓(xùn)練英語(yǔ)之外的文本分類模型,目前已經(jīng)支持301種語(yǔ)言。為了讓這一工作變得更容易,我們未來(lái)將發(fā)布一個(gè)模型合集(model zoo),其中內(nèi)置各種語(yǔ)言的預(yù)訓(xùn)練模型。

ULMFiT的未來(lái)

我們已經(jīng)證明,這項(xiàng)技術(shù)在相同配置下的不同任務(wù)中表現(xiàn)得都很好。除了文本分類,我們希望ULMFiT未來(lái)能解決其他重要的NLP問(wèn)題,例如序列標(biāo)簽或自然語(yǔ)言生成等。

計(jì)算機(jī)視覺(jué)領(lǐng)域遷移學(xué)習(xí)和預(yù)訓(xùn)練ImageNet模型的成功已經(jīng)轉(zhuǎn)移到了NLP領(lǐng)域。許多企業(yè)家、科學(xué)家和工程師目前都用調(diào)整過(guò)的ImageNet模型解決重要的視覺(jué)問(wèn)題,現(xiàn)在這款工具已經(jīng)能用于語(yǔ)言處理,我們希望看到這一領(lǐng)域會(huì)有更多相關(guān)應(yīng)用產(chǎn)生。

盡管我們已經(jīng)展示了文本分類的最新進(jìn)展,為了讓我們的NLP遷移學(xué)習(xí)發(fā)揮最大作用,還需要很多努力。在計(jì)算機(jī)視覺(jué)領(lǐng)域有許多重要的論文分析,深度分析了遷移學(xué)習(xí)在該領(lǐng)域的成果。Yosinski等人曾試著回答:“深度神經(jīng)網(wǎng)絡(luò)中的特征是如何可遷移的”這一問(wèn)題,而Huh等人研究了“為什么ImageNet適合遷移學(xué)習(xí)”。Yosinski甚至創(chuàng)造了豐富的視覺(jué)工具包,幫助參與者更好地理解他們計(jì)算機(jī)視覺(jué)模型中的特征。如果你在新的數(shù)據(jù)集上用ULMFiT解決了新問(wèn)題,請(qǐng)?jiān)?a href="http://www.wenjunhu.com/article/bbs/" target="_blank">論壇里分享反饋!

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5511

    瀏覽量

    121353
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    289

    瀏覽量

    13374
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    489

    瀏覽量

    22065

原文標(biāo)題:用遷移學(xué)習(xí)創(chuàng)造的通用語(yǔ)言模型ULMFiT,達(dá)到了文本分類的最佳水平

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    準(zhǔn)確、精密度和精確度

    了系統(tǒng)誤差和隨機(jī)誤差綜合的影響程度。精確度,說(shuō)明準(zhǔn)確及精密度都,意味著系統(tǒng)誤差及偶然誤差都小。一切測(cè)量都應(yīng)力求實(shí)現(xiàn)既精密而又準(zhǔn)確。誤差來(lái)源、誤差
    發(fā)表于 02-08 09:21

    pyhanlp文本分類與情感分析

    預(yù)測(cè)接口都是線程安全的(被設(shè)計(jì)為不儲(chǔ)存中間結(jié)果,所有中間結(jié)果放入?yún)?shù)棧中)。情感分析可以利用文本分類在情感極性語(yǔ)料上訓(xùn)練的模型做淺層情感分析。目前公開(kāi)的情感分析語(yǔ)料庫(kù)有:中文情感挖掘語(yǔ)料
    發(fā)表于 02-20 15:37

    NLPIR平臺(tái)在文本分類方面的技術(shù)解析

    文本分類問(wèn)題就是一篇文檔歸入預(yù)先定義的幾個(gè)類別中的一個(gè)或幾個(gè),而文本自動(dòng)分類則是使用計(jì)算機(jī)程序來(lái)實(shí)現(xiàn)這種
    發(fā)表于 11-18 17:46

    基于文章標(biāo)題信息的漢語(yǔ)自動(dòng)文本分類

    文本分類文本挖掘的一個(gè)重要組成部分,是信息搜索領(lǐng)域的一項(xiàng)重要研究課題。該文提出一種基于文章標(biāo)題信息的漢語(yǔ)自動(dòng)文本分類方法,在HNC理論的領(lǐng)
    發(fā)表于 04-13 08:31 ?10次下載

    基于GA和信息熵的文本分類規(guī)則抽取方法

    文本分類文本數(shù)據(jù)挖掘中一個(gè)非常重要的技術(shù),已經(jīng)被廣泛地應(yīng)用于信息管理、搜索引擎、推薦系統(tǒng)等多個(gè)領(lǐng)域?,F(xiàn)有的文本分類方法,大多是基于向量空間模型的算法。這
    發(fā)表于 06-03 09:22 ?26次下載

    基于apiori算法改進(jìn)的knn文本分類方法

    隨著互聯(lián)網(wǎng)信息的飛速增長(zhǎng),文本分類變成了一項(xiàng)處理和資質(zhì)文本信息的關(guān)鍵技術(shù)。文本分類技術(shù)可用于分類新聞,在互聯(lián)網(wǎng)上尋找有趣的信息,或者通過(guò)超文本
    發(fā)表于 11-09 10:25 ?9次下載
    基于apiori算法改進(jìn)的knn<b class='flag-5'>文本分類</b><b class='flag-5'>方法</b>

    融合詞語(yǔ)類別特征和語(yǔ)義的短文本分類方法

    針對(duì)短文本內(nèi)容簡(jiǎn)短、特征稀疏等特點(diǎn),提出一種新的融合詞語(yǔ)類別特征和語(yǔ)義的短文本分類方法。該方法采用改進(jìn)的特征選擇方法從短
    發(fā)表于 11-22 16:29 ?0次下載
    融合詞語(yǔ)類別特征和語(yǔ)義的短<b class='flag-5'>文本分類</b><b class='flag-5'>方法</b>

    如何使用Spark計(jì)算框架進(jìn)行分布式文本分類方法的研究

    針對(duì)傳統(tǒng)文本分類算法在面對(duì)日益增多的海量文本數(shù)據(jù)時(shí)效率低下的問(wèn)題,論文在Spark計(jì)算框架上設(shè)計(jì)并實(shí)現(xiàn)了一種并行化樸素貝葉斯文本分類器,并著重介紹了基于Spark計(jì)算框架的文本分類實(shí)現(xiàn)
    發(fā)表于 12-18 14:19 ?3次下載
    如何使用Spark計(jì)算框架進(jìn)行分布式<b class='flag-5'>文本分類</b><b class='flag-5'>方法</b>的研究

    基于深度神經(jīng)網(wǎng)絡(luò)的文本分類分析

      隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,許多研究者嘗試?yán)蒙疃葘W(xué)習(xí)來(lái)解決文本分類問(wèn)題,特別是在卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)方面,出現(xiàn)了許多新穎且有效的分類方法。對(duì)基于深度神經(jīng)網(wǎng)絡(luò)的文本分類問(wèn)題進(jìn)
    發(fā)表于 03-10 16:56 ?37次下載
    基于深度神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>文本分類</b>分析

    基于主題相似聚類的文本分類算法綜述

    傳統(tǒng)的文本分類方法僅使用一種模型進(jìn)行分類,容易忽略不同類別特征詞出現(xiàn)交叉的情況,影響分類性能。為提高文本分類的準(zhǔn)確率,提岀基于主題相似性聚類
    發(fā)表于 05-12 16:25 ?6次下載

    基于不同神經(jīng)網(wǎng)絡(luò)的文本分類方法研究對(duì)比

    神經(jīng)網(wǎng)絡(luò)、時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)、結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)和預(yù)訓(xùn)練模型等主流方法文本分類中應(yīng)用的發(fā)展歷程比較不同模型基于常用數(shù)據(jù)集的分類效果,表明利用人工神經(jīng)網(wǎng)絡(luò)伂構(gòu)
    發(fā)表于 05-13 16:34 ?49次下載

    基于雙通道詞向量的卷積膠囊網(wǎng)絡(luò)文本分類算法

    基于向量空間模型的文本分類方法文本表示具有高緯度、稀疏的特點(diǎn),特征表達(dá)能力較弱,且特征工程依賴人工提取,成本較髙。針對(duì)該問(wèn)題,提出基于雙通道詞向量的卷積膠囊網(wǎng)絡(luò)
    發(fā)表于 05-24 15:07 ?6次下載

    基于主題分布優(yōu)化的模糊文本分類方法

    在對(duì)類別模糊的文本進(jìn)行分類時(shí),主題模型只考慮文檔和主題級(jí)別信息,未考慮底層詞語(yǔ)間的隱含信息且多數(shù)主題信息復(fù)雜、中心不明確。為此,提出一種改進(jìn)的文本分類方法。通過(guò)分位數(shù)選擇中心明確的主題
    發(fā)表于 05-25 16:33 ?5次下載

    基于LSTM的表示學(xué)習(xí)-文本分類模型

    文本表示和分類是自然語(yǔ)言理解領(lǐng)域的研究熱點(diǎn)。目前已有很多文本分類方法,包括卷積網(wǎng)絡(luò)、遞歸網(wǎng)絡(luò)、自注意力機(jī)制以及它們的結(jié)合。但是,復(fù)雜的網(wǎng)絡(luò)并不能從根本上提高
    發(fā)表于 06-15 16:17 ?18次下載

    PyTorch文本分類任務(wù)的基本流程

    文本分類是NLP領(lǐng)域的較為容易的入門(mén)問(wèn)題,本文記錄文本分類任務(wù)的基本流程,大部分操作使用了**torch**和**torchtext**兩個(gè)庫(kù)。 ## 1. 文本數(shù)據(jù)預(yù)處理
    的頭像 發(fā)表于 02-22 14:23 ?1136次閱讀