現(xiàn)實(shí)中的自然語言處理面臨著多領(lǐng)域、多語種上的多種類型的任務(wù),為每個(gè)任務(wù)都單獨(dú)進(jìn)行數(shù)據(jù)標(biāo)注是不大可行的。遷移學(xué)習(xí)可以將學(xué)習(xí)的知識(shí)遷移到相關(guān)的場景下。本文介紹 Sebastian Ruder 博士的面向自然語言處理的神經(jīng)網(wǎng)絡(luò)遷移學(xué)習(xí)的答辯 PPT。
NLP 領(lǐng)域活躍的技術(shù)博主Sebastian Ruder 最近順利 PhD 畢業(yè),下周即將進(jìn)入 DeepMind 開啟 AI 研究員生涯。
Sebastian Ruder 博士的答辯 PPT《Neural Transfer Learning for Natural Language Processing》介紹了面向自然語言的遷移學(xué)習(xí)的動(dòng)機(jī)、研究現(xiàn)狀、缺陷以及自己的工作。
Sebastian Ruder 博士在 PPT 中闡述了使用遷移學(xué)習(xí)的動(dòng)機(jī):
state-of-the-art 的有監(jiān)督學(xué)習(xí)算法比較脆弱:
易受到對抗樣本的影響
易受到噪音數(shù)據(jù)的影響
易受到釋義的影響
現(xiàn)實(shí)中的自然語言處理面臨著多領(lǐng)域、多語種上的多種類型的任務(wù),為每個(gè)任務(wù)都單獨(dú)進(jìn)行數(shù)據(jù)標(biāo)注是不大可行的,而遷移學(xué)習(xí)可以將學(xué)習(xí)的知識(shí)遷移到相關(guān)的場景下
許多基礎(chǔ)的前沿的 NLP 技術(shù)都可以被看成是遷移學(xué)習(xí):
潛在語義分析 (Latent semantic analysis)
Brown clusters
預(yù)訓(xùn)練詞向量(Pretrained word embeddings)
已有的遷移學(xué)習(xí)方法往往有著下面的局限性:
過度約束:預(yù)定義的相似度指標(biāo),硬參數(shù)共享
設(shè)置定制化:在一個(gè)任務(wù)上進(jìn)行評價(jià),任務(wù)級別的共享策略
弱 baseline:缺少和傳統(tǒng)方法的對比
脆弱:在領(lǐng)域外表現(xiàn)很差,依賴語種、任務(wù)的相似性
低效:需要更多的參數(shù)、時(shí)間和樣本
因此,作者認(rèn)為研究遷移學(xué)習(xí)需要解決下面的這些問題:
克服源和目標(biāo)之間的差距
引起歸納偏置
結(jié)合傳統(tǒng)和現(xiàn)有的方法
在 NLP 任務(wù)中跨層次遷移
泛化設(shè)置
作者圍繞遷移學(xué)習(xí)做了 4 個(gè)方面的工作:
領(lǐng)域適應(yīng)(Domain Adaption)
跨語種學(xué)習(xí)(Cross-lingual learning)
多任務(wù)學(xué)習(xí)(Multi-task learning)
序列遷移學(xué)習(xí)(Sequential transfer learning)
具體內(nèi)容可在 Sebastian Ruder 博士的完整答辯 PPT 中查看。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100778 -
自然語言處理
+關(guān)注
關(guān)注
1文章
618瀏覽量
13561 -
nlp
+關(guān)注
關(guān)注
1文章
488瀏覽量
22038
原文標(biāo)題:NLP博士答辯41頁P(yáng)PT,面向自然語言處理的神經(jīng)網(wǎng)絡(luò)遷移學(xué)習(xí)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論