近日,在美國明尼蘇達(dá)州明尼阿波利斯的NAACL2019上,Sebastian Ruder, Matthew Peters, Swabha Swayamdipta和Thomas Wolf分享了一個(gè)長達(dá)238頁P(yáng)PT關(guān)于“NLP中的遷移學(xué)習(xí)”的教程,今天拿來和大家分享。
經(jīng)典的監(jiān)督機(jī)器學(xué)習(xí)范式是基于對使用單個(gè)數(shù)據(jù)集的任務(wù)的單個(gè)預(yù)測模型的孤立學(xué)習(xí)。這種方法需要大量的訓(xùn)練示例,并且對于定義明確、范圍狹窄的任務(wù)效果最好。遷移學(xué)習(xí)指的是一組方法,這些方法通過利用來自其他域或任務(wù)的數(shù)據(jù)來訓(xùn)練具有更好泛化特性的模型來擴(kuò)展此方法。
近兩年來,自然語言處理(NLP)領(lǐng)域出現(xiàn)了幾種轉(zhuǎn)移學(xué)習(xí)方法和體系結(jié)構(gòu),這些方法和體系結(jié)構(gòu)大大提高了NLP任務(wù)的先進(jìn)性。
這些改進(jìn),加上這些方法的廣泛可用性和易集成性,使人們想起了導(dǎo)致計(jì)算機(jī)視覺中預(yù)訓(xùn)練字嵌入和ImageNet預(yù)訓(xùn)練成功的因素,并表明這些方法很可能成為NLP中的一種常用工具以及一個(gè)重要的研究方向。
我們將概述NLP中的現(xiàn)代遷移學(xué)習(xí)方法,如何對模型進(jìn)行預(yù)培訓(xùn),它們所學(xué)習(xí)的表示捕獲哪些信息,并回顧有關(guān)如何在下游NLP任務(wù)中集成和適應(yīng)這些模型的示例和案例研究。
什么是遷移學(xué)習(xí)?
(a)傳統(tǒng)機(jī)器學(xué)習(xí)的學(xué)習(xí)過程:
任務(wù)1:學(xué)習(xí)系統(tǒng)
任務(wù)2:學(xué)習(xí)系統(tǒng)
任務(wù)3:學(xué)習(xí)系統(tǒng)
(b)遷移學(xué)習(xí)的學(xué)習(xí)過程:
源任務(wù):知識
目標(biāo)任務(wù):學(xué)習(xí)系統(tǒng)
為什么是NLP遷移學(xué)習(xí)?
許多NLP任務(wù)都有共同的語言知識(例如語言表示、結(jié)構(gòu)相似性)
任務(wù)可以互相通知,例如語法和語義
注釋數(shù)據(jù)很少,盡可能多地利用監(jiān)督
從經(jīng)驗(yàn)上講,遷移學(xué)習(xí)已經(jīng)在SOTA形成了許多被監(jiān)督的NLP任務(wù)(例如分類、信息提取、問答等)
為什么是NLP遷移學(xué)習(xí)?(憑經(jīng)驗(yàn))
在命名實(shí)體識別(NER)CONLL-2003(英語)上隨著時(shí)間推移的表現(xiàn)
NLP中遷移學(xué)習(xí)的類型
本教程到底講什么?
本教程講的是什么,不講的是什么:
目標(biāo):提供NLP中遷移方法的廣泛概述,重點(diǎn)介紹截至目前(2019年年中)最成功的經(jīng)驗(yàn)方法。
提供實(shí)用的、實(shí)際操作的建議→在教程結(jié)束時(shí),每個(gè)人都有能力將最新進(jìn)展應(yīng)用到文本分類任務(wù)中。
不講的是什么:全面的(不可能在一個(gè)教程中涵蓋所有相關(guān)的論文?。?/p>
(Bender Rule: 本教程主要是針對用英語完成的工作,其他語言的可擴(kuò)展性取決于監(jiān)督是否可用。)
框架:
1、介紹
2、預(yù)訓(xùn)練
3、代表中有什么?
4、適應(yīng)
5、下游
6、開放問題
順序遷移學(xué)習(xí)
了解一個(gè)任務(wù)/數(shù)據(jù)集,然后遷移到另一個(gè)任務(wù)/數(shù)據(jù)集
預(yù)訓(xùn)練:
word2vec
GloVe
skip-thought
InferSent
ELMo
ULMFiT
GPT
BERT
適應(yīng):
分類
序列標(biāo)記
問答
預(yù)培訓(xùn)任務(wù)和數(shù)據(jù)集
未標(biāo)記數(shù)據(jù)和自我監(jiān)督:
易于收集的大型語料庫:維基百科、新聞、網(wǎng)絡(luò)爬蟲、社交媒體等。
訓(xùn)練利用了分布假設(shè):“你應(yīng)該知道它所保存的一個(gè)詞”(Firth,1957),通常形式化為訓(xùn)練某種語言模型的變體。
注重高效算法利用豐富的數(shù)據(jù)
監(jiān)督預(yù)培訓(xùn):
在視覺上非常常見,由于缺乏大的監(jiān)控?cái)?shù)據(jù)集,在NLP中較少見。
機(jī)器翻譯
句子表達(dá)的NLI
從一個(gè)問答數(shù)據(jù)集到另一個(gè)問答數(shù)據(jù)集的任務(wù)特定傳輸
目標(biāo)任務(wù)和數(shù)據(jù)集
目標(biāo)任務(wù)通常是受監(jiān)控的,跨越一系列常見的NLP任務(wù):
句子或文檔分類(如情感)
句子對分類(如NLI、釋義)
字級(例如序列標(biāo)記、提取性問答)
結(jié)構(gòu)化預(yù)測(如解析)
生成(例如對話、總結(jié))
具體示例——詞向量
單詞嵌入方法(例如word2vec)每個(gè)單詞學(xué)習(xí)一個(gè)向量
主題:從單詞到語境中的單詞
主題:從單詞到語境中的單詞
詞向量 句子/doc向量 語境中詞向量
主題:LM預(yù)訓(xùn)練
許多成功的預(yù)培訓(xùn)方法都是基于語言建模的
非正式地,LM學(xué)習(xí)p(文本)或p(文本/其他文本)
不需要人工注釋
許多語言有足夠的文本來學(xué)習(xí)大容量模型
多才多藝,能學(xué)習(xí)句子和詞的表達(dá),具有多種客觀功能
主題:由淺入深
1層 24層
主題:預(yù)培訓(xùn)與目標(biāo)任務(wù)
預(yù)培訓(xùn)和目標(biāo)任務(wù)的選擇是耦合的
句子/文檔表示法對單詞級預(yù)測無效
詞向量可以跨上下文匯集,但通常比其他方法更好。
在語境詞向量中,雙向語境很重要
一般來說:
類似的預(yù)培訓(xùn)和目標(biāo)任務(wù)→最佳結(jié)果
-
nlp
+關(guān)注
關(guān)注
1文章
488瀏覽量
22038 -
遷移學(xué)習(xí)
+關(guān)注
關(guān)注
0文章
74瀏覽量
5563
原文標(biāo)題:【干貨】NLP中的遷移學(xué)習(xí)教程來啦?。?38頁P(yáng)PT下載)
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論