導(dǎo)讀
NLP遷移學(xué)習(xí)中的一些問題,感覺有點道理。
自然語言處理(NLP)最近取得了巨大的進(jìn)步,每隔幾天就會發(fā)布最新的結(jié)果。排行榜瘋狂是指最常見的NLP基準(zhǔn),如GLUE和SUPERGLUE,它們的得分越來越接近人類的水平。這些結(jié)果大多是通過超大(數(shù)十億個參數(shù))模型從大規(guī)模數(shù)據(jù)集中遷移學(xué)習(xí)得到的。本文的目的是指出遷移學(xué)習(xí)面臨的問題和挑戰(zhàn),并提出一些可能的解決方法。
計算量
目前NLP中最成功的遷移學(xué)習(xí)形式是序列遷移學(xué)習(xí)(STL),通常采用語言預(yù)訓(xùn)練的形式(https://arxiv.org/abs/1801.06146)。最近幾乎所有的SOTA結(jié)果主要是由兩步方案驅(qū)動的:
大型通用語料庫上進(jìn)行語言模型的建模(數(shù)據(jù)越多越好)。
Finetune目標(biāo)任務(wù)上的模型(或其子集)。
ELMO, BERT, GPT, GPT-2, XLNET and RoBERTa是都是用的同樣的技術(shù)。這些方法的一個主要問題是巨大的資源需求。我所說的資源是指數(shù)據(jù)和計算能力。例如,據(jù)估計,在512個TPU v3芯片上訓(xùn)練XLNET大約需要25萬美元,相比于在3/4的數(shù)據(jù)集中訓(xùn)練的BERT,只提升了1-2%。
這就引出了下一個問題:
難以復(fù)現(xiàn)
可復(fù)現(xiàn)性已經(jīng)成為機(jī)器學(xué)習(xí)研究中的一個問題。例如,Dacrema et al.)分析了18個不同的基于神經(jīng)的推薦系統(tǒng),發(fā)現(xiàn)其中只有7個經(jīng)過合理的努力是可復(fù)現(xiàn)的。一般來說,為了能夠使用或建立在一個特定的研究理念,這個理念必須易于復(fù)現(xiàn)。由于需要大量的計算資源來訓(xùn)練這些巨大的NLP模型并復(fù)現(xiàn)它們的結(jié)果,小型科技公司、初創(chuàng)公司、研究實驗室和獨立研究人員將無法競爭。
不再需要排行榜的任務(wù)
Anna Rogers在她的博客文章為什么“更多的數(shù)據(jù)和計算= SOTA”不是研究新聞。她認(rèn)為,排行榜的主要問題在于,一個模型的排名完全取決于它的任務(wù)分?jǐn)?shù),而沒有考慮到達(dá)到這個分?jǐn)?shù)所需的數(shù)據(jù)量、計算量或訓(xùn)練時間。
Rohit Pgarg建議在任務(wù)精度和計算資源的二維尺度上比較模型的性能。請看下面的圖表。我建議我們添加另一個維度,它對應(yīng)于模型訓(xùn)練時候的數(shù)據(jù)量。但是,這種可視化并不能洞察哪種模型通常更好。還有Alexandr Savinov的一個非常有趣的評論,他建議使用算法能夠在一單位CPU時間內(nèi)將多少輸入信息“打包”到一單位輸出(模型參數(shù))表示中。
在比較模型性能時,使用計算資源作為任務(wù)準(zhǔn)確性的額外度量
這不像是我們學(xué)習(xí)的方式
孩子們通過嘈雜、模糊的輸入和極少的監(jiān)督來學(xué)習(xí)語言。一個孩子只要接觸一個單詞幾次,就能開始理解它的意思。這與STL設(shè)置中使用的訓(xùn)練前步驟非常不同,在STL設(shè)置中,模型需要查看數(shù)百萬個上下文,其中包括一個特定的單詞,以掌握該單詞的含義。一個非常重要的問題是,是否可以只從原始文本中學(xué)習(xí)語義而不受任何外部監(jiān)督。如果你對關(guān)于這個話題的twitter辯論感興趣,請訪問這個帖子:https://twitter.com/jacobandreas/status/1023246560082063366。如果答案是否定的,那就意味著在訓(xùn)練前,這些模型實際上并沒有給他們真正的語言理解能力。然而,我們在日常生活中確實使用了遷移學(xué)習(xí)。例如,如果我們知道如何駕駛一輛手動汽車,我們就很容易利用所學(xué)的知識(如使用剎車和油門踏板)來駕駛一輛自動汽車。但這是人類學(xué)習(xí)語言的必經(jīng)之路嗎?不太可能。然而,有人可能會說,只要一種方法能產(chǎn)生好的結(jié)果,它是否與人類的學(xué)習(xí)方式相似實際上并不重要。不幸的是,這些模型產(chǎn)生的一些好的結(jié)果是有問題的,我們將在下一節(jié)看到。
從另一個角度來看,人類在語言學(xué)習(xí)上采取了一種持續(xù)終生的學(xué)習(xí)方式。每當(dāng)我們學(xué)習(xí)一個新任務(wù)時,這種學(xué)習(xí)通常不會干擾之前學(xué)習(xí)過的任務(wù)。另一方面,當(dāng)新的訓(xùn)練數(shù)據(jù)的分布發(fā)生變化的時候,普通的只在一個任務(wù)上訓(xùn)練過的機(jī)器學(xué)習(xí)模型(包括遷移學(xué)習(xí)方法)通常不能利用過去學(xué)到知識,這種現(xiàn)象稱為災(zāi)難性的遺忘。
膚淺的語言理解
語言建模任務(wù)的確是一個復(fù)雜的任務(wù)。例如這個句子:“The man in the red shirt is running fast. He must be…”,為了讓模型完成這句話,模型必須理解running fast通常意味著being in a hurry。那么這些預(yù)先訓(xùn)練過的模型到底能理解多少語言呢?不幸的是,事實并非如此。Niven et al., 2019分析了BERT在論證推理和理解任務(wù)(ARCT)上的表現(xiàn)。ARCT可以這樣描述:給定一個聲明和一個推理,任務(wù)是選擇正確的證據(jù),而不是另一個干擾項。正確的證明應(yīng)符合,而其他證明應(yīng)符合。參見下圖。
論證和理解任務(wù)的范例
值得一提的是,BERT在這項任務(wù)中獲得了極具競爭力的77%的準(zhǔn)確性,僅比人類基線低3分。首先,這說明BERT有很強(qiáng)的推理能力。為了進(jìn)一步調(diào)查,Niven et al., 2019使用了所謂的“探針”。也就是說,他們在這個任務(wù)上對BERT進(jìn)行了finetune,但是對BERT的輸入只是正確的和可選的證據(jù),而沒有暴露它的聲明或推理。假設(shè)是,如果BERT依賴證據(jù)中的一些統(tǒng)計線索,即使他只看到證據(jù)而沒有其他信息,他也應(yīng)該表現(xiàn)良好。有趣的是,他們的研究結(jié)果顯示,與使用推理和聲明相比,他們的準(zhǔn)確率僅下降了6%。這表明,BERT實際上并沒有進(jìn)行任何類型的推理,但證明本身有足夠的線索,使BERT能夠達(dá)到如此高的準(zhǔn)確性。值得注意的是,用一個沒有BERT所依賴的這些線索的對抗性的測試集代替了這個測試集,BERT只能達(dá)到53%的正確率,剛好高于隨機(jī)概率。
另一篇相關(guān)論文是“Can a Machine Really Finish your Sentence?”(Zellers et al., 2019)。他們考慮的是常識自然語言推理的任務(wù),即機(jī)器應(yīng)該選擇最可能的后續(xù)語句。例如,給定句子:“the team played so well”,系統(tǒng)應(yīng)該選擇“They won the game”作為后續(xù)。作者認(rèn)為,盡管BERT能夠達(dá)到86%的正確率(僅比人類基線低2點),如此高的正確率并不是由于BERT的高級推理形式,而是由于BERT學(xué)會了識別數(shù)據(jù)集特有的分布偏差。他們發(fā)現(xiàn),通過對抗性篩選(一種旨在為任何可能的訓(xùn)練、測試分割生成對抗性數(shù)據(jù)集的技術(shù))創(chuàng)建一個更困難的數(shù)據(jù)集(HellaSwag), BERT準(zhǔn)確率下降到53%。本文討論了數(shù)據(jù)集性能和任務(wù)性能之間的細(xì)微差別。對特定任務(wù)的數(shù)據(jù)集執(zhí)行得非常好并不意味著解決了底層任務(wù)。
BERT在SWAG上的表現(xiàn)與HellaSwag相比
很明顯,這里發(fā)生了一些事情。是否可能BERT的好結(jié)果實際上是由它利用各種分布線索和偏差劫持目標(biāo)數(shù)據(jù)集的能力驅(qū)動的?對BERT的研究結(jié)果進(jìn)行更多的調(diào)查能得出其他類似的發(fā)現(xiàn)和結(jié)論嗎?如果是這樣,我相信我們不僅需要建立更好的模型,還需要建立更好的數(shù)據(jù)集。我們需要的數(shù)據(jù)集能夠真實地反映底層任務(wù)的困難,而不是讓模型很容易達(dá)到欺騙的準(zhǔn)確性和排行榜分?jǐn)?shù)。
高碳不環(huán)保
信不信由你,但是訓(xùn)練這些壯觀的模型對環(huán)境有負(fù)面影響。Strubell等人比較了訓(xùn)練大型Transformer架構(gòu)產(chǎn)生的 排放與其他來源造成的排放。令人驚訝的是,使用神經(jīng)結(jié)構(gòu)搜索訓(xùn)練單個Transformer arhcitectue所釋放的 大約是一輛汽車一生所釋放的 的6.0倍。
Schwartz等人介紹了他們所謂的“綠色人工智能”,這是一種實踐,使人工智能更加“高效”和“包容”。與我們上面討論的類似,他們強(qiáng)烈建議除了任務(wù)準(zhǔn)確性之外,還應(yīng)該增加效率。他們還認(rèn)為,研究論文有必要包括“價格標(biāo)簽”或模型訓(xùn)練的成本。這將鼓勵對更高效、更少資源需求的模型架構(gòu)的研究。
-
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22064 -
遷移學(xué)習(xí)
+關(guān)注
關(guān)注
0文章
74瀏覽量
5574
發(fā)布評論請先 登錄
相關(guān)推薦
評論