01
研究動(dòng)機(jī)
近期的大語(yǔ)言模型(LLM)在自然語(yǔ)言理解和生成上展現(xiàn)出了接近人類(lèi)的強(qiáng)大能力,遠(yuǎn)遠(yuǎn)優(yōu)于先前的BERT等預(yù)訓(xùn)練模型(PLM)。然而,尚不清楚這是否意味著模型的計(jì)算過(guò)程更加接近了人類(lèi)的語(yǔ)言感知方式。此前的研究表明,與人類(lèi)行為和神經(jīng)數(shù)據(jù)具有更高相關(guān)性的模型,在自然語(yǔ)言任務(wù)上的表現(xiàn)也越好[1],但在大模型技術(shù)井噴的當(dāng)下,最新、性能最強(qiáng)的大模型是否仍然與人類(lèi)數(shù)據(jù)相關(guān),也需要進(jìn)一步檢驗(yàn)。
同時(shí),LLM較PLM等先前模型等能力提升的背后機(jī)制尚不清楚。由于現(xiàn)有LLM的基本架構(gòu)與先前模型一樣是Transformer架構(gòu),因此這種提升很可能來(lái)自與訓(xùn)練過(guò)程的差異:可能來(lái)自于擴(kuò)大了的參數(shù)和數(shù)據(jù)規(guī)模,也可能來(lái)自于預(yù)訓(xùn)練后的指令微調(diào)。
為了解決上述的兩方面問(wèn)題,本文嘗試比較LLM與人類(lèi)閱讀時(shí)行為數(shù)據(jù)的相關(guān)性,通過(guò)比較擴(kuò)大規(guī)模與指令微調(diào)兩個(gè)因素對(duì)于LLM語(yǔ)言理解過(guò)程的作用,幫助人們更好地認(rèn)識(shí)LLM的運(yùn)行機(jī)制。由于自注意力(self-attention)機(jī)制是Transformer模型的關(guān)鍵機(jī)制,并且天然與人類(lèi)的注意力機(jī)制在形式上相似,因此適合用來(lái)分析和解釋模型的計(jì)算過(guò)程。本文收集了現(xiàn)有的不同種類(lèi)(LLaMA,Alpaca,Vicuna)不同大?。?B到65B)的開(kāi)源LLM在英文文本上的自注意力矩陣進(jìn)行對(duì)比分析,并計(jì)算了它們與人類(lèi)閱讀相同文本時(shí)的眼動(dòng)數(shù)據(jù)的相關(guān)性,有效分析了兩個(gè)因素的作用。
02
貢獻(xiàn)
本文的分析主要包括三方面:一,我們逐層計(jì)算了不同LLM在所選文本數(shù)據(jù)上的注意力分布差異;二,我們?cè)u(píng)估并比較了不同LLM與人類(lèi)眼動(dòng)數(shù)據(jù)的相似度;三,我們分析了模型注意力矩陣對(duì)常見(jiàn)平凡特征的依賴(lài)性,并展示了這種依賴(lài)性與模型語(yǔ)言理解特點(diǎn)的關(guān)系。本文的主要發(fā)現(xiàn)有:
1)規(guī)模擴(kuò)大可以顯著改變模型在普通文本上的注意力分布,而指令微調(diào)對(duì)此的改變較為有限。然而,指令微調(diào)可以提高模型對(duì)指令前綴的敏感程度;
2)LLM的人類(lèi)相似度越高,語(yǔ)言建模的能力也越好。規(guī)模擴(kuò)大對(duì)人類(lèi)相似度的提高基本符合縮放法則[2],而指令微調(diào)反而降低了人類(lèi)相似度。同時(shí),雖然所有模型都以英文為主訓(xùn)練,但它們都與英語(yǔ)為第二語(yǔ)言的人群(L2)有更高的相似度,而不是母語(yǔ)人群(L1);
3)規(guī)模擴(kuò)大可以顯著降低模型對(duì)平凡特征的依賴(lài)性,而指令微調(diào)不能。同時(shí),L2的眼動(dòng)模式也比L1更加依賴(lài)于平凡特征。
03
方法
3.1 比較不同模型的注意力差異
我們使用Jensen-Shannon (J-S) 散度來(lái)比較不同模型在相同輸入句子上的注意力分布差別。比較具有相同層數(shù)的模型時(shí),我們逐層計(jì)算此J-S散度;比較具有不同層數(shù)的模型時(shí),我們分別將兩個(gè)模型的層平均分為4部分,比較每個(gè)部分的平均注意力的J-S散度。
為了幫助判斷J-S散度的大小,我們提出用Vicuna v0 與 v1.1的注意力J-S散度作為其他比較的參考值。兩個(gè)模型擁有一致的架構(gòu)、大小與訓(xùn)練數(shù)據(jù),只是數(shù)據(jù)格式有較小的差別。當(dāng)其他兩個(gè)模型的J-S散度大于此參考值時(shí),我們認(rèn)為這是注意力模式上的較大差別,反之則是較小的差別。
此J-S散度也被用來(lái)比較模型在普通文本與指令文本上的注意力分布差別。我們?cè)谄胀ㄎ谋镜拿總€(gè)句子前加上指令前綴,如“Please translate this sentence into German:”,并在計(jì)算J-S散度時(shí)將前綴部分的注意力分?jǐn)?shù)忽略,計(jì)算添加指令前后,模型注意力的J-S散度。同時(shí),我們還使用了一個(gè)噪聲前綴進(jìn)行同樣的實(shí)驗(yàn),作為控制組,更好地評(píng)價(jià)指令前綴的影響。
3.2 模型與人類(lèi)眼動(dòng)的相似度
人類(lèi)眼動(dòng)數(shù)據(jù)的形式如圖1所示。我們將模型的每個(gè)注意力頭作為一個(gè)自變量,將人類(lèi)注意力作為目標(biāo),建立線性回歸模型,計(jì)算此模型的擬合分?jǐn)?shù),并與人類(lèi)被試之間的擬合分?jǐn)?shù)作商,作為人類(lèi)相似度分?jǐn)?shù)。
圖1 單人與群體平均的眼動(dòng)矩陣示例
3.3 平凡特征依賴(lài)性
已有研究表明,Transformer模型的注意力模式可能包含一些簡(jiǎn)單、固定的特征,包括每個(gè)詞都關(guān)注句子中第一個(gè)詞、每個(gè)詞都關(guān)注自身、每個(gè)詞都關(guān)注前一個(gè)詞等[3,4]。我們將這三種平凡特征作為自變量,人類(lèi)注意力與模型注意力分別作為目標(biāo),建立線性回歸模型,同樣計(jì)算擬合分?jǐn)?shù),作為對(duì)這三種平凡特征的依賴(lài)性的度量。
04
實(shí)驗(yàn)
我們使用了Reading Brain數(shù)據(jù)集[5]中的文本和人類(lèi)行為數(shù)據(jù)。文本數(shù)據(jù)包括5篇英語(yǔ)說(shuō)明文,人類(lèi)行為數(shù)據(jù)包括52名英語(yǔ)母語(yǔ)者與56名非母語(yǔ)者的數(shù)據(jù)。對(duì)于眼動(dòng)數(shù)據(jù),我們使用眼跳動(dòng)次數(shù),而不是注視時(shí)間,以減少其他因素(如單詞長(zhǎng)度)對(duì)眼動(dòng)數(shù)據(jù)的影響。對(duì)于LLM,我們選用了774M(GPT-2 Large),7B(LLaMA, Alpaca, Vicuna),13B(LLaMA, Alpaca, Vicuna),65B(LLaMA)的多個(gè)模型。
4.1 模型注意力分布差異
隨著參數(shù)規(guī)模擴(kuò)大,模型注意力分布發(fā)生顯著變化,而指令微調(diào)的作用有限。圖2展示了不同大小模型的J-S散度結(jié)果。結(jié)果顯示,LLaMA,Alpaca和Vicuna模型均在7B與13B大小之間顯示出較大的注意力分布差異,說(shuō)明參數(shù)規(guī)模擴(kuò)大對(duì)整體注意力分布有較大改變。圖3展示了-經(jīng)過(guò)指令微調(diào)(Alpaca,Vicuna)與未經(jīng)過(guò)(LLaMA)的模型注意力的J-S散度結(jié)果。結(jié)果表明,只有Vicuna 13B模型較微調(diào)前產(chǎn)生了高于參考值的注意力散度,說(shuō)明指令微調(diào)對(duì)整體注意力分布的影響有限。
圖2 7B與13B模型注意力的平均J-S散度
然而,指令微調(diào)提高了模型對(duì)指令前綴的敏感程度。圖4顯示了不同模型在普通文本與指令文本上的注意力J-S散度,可以發(fā)現(xiàn),所有模型均在兩種文本上顯示出了高于參考值的注意力差異,但這種差異在LLaMA(未經(jīng)過(guò)指令微調(diào))的深層逐漸衰減,在Alpaca和Vicuna的深層卻保持在較高水平。這種現(xiàn)象在噪聲前綴的場(chǎng)景下沒(méi)有出現(xiàn)。這說(shuō)明在指令微調(diào)前,模型已經(jīng)具備了一定的識(shí)別指令前綴的能力,但這種能力主要集中在模型淺層;在指令微調(diào)后,模型識(shí)別指令前綴的能力向深層移動(dòng),因此能對(duì)模型的生成過(guò)程產(chǎn)生更直接的改變。
圖3 經(jīng)過(guò)與未經(jīng)過(guò)指令微調(diào)的模型注意力的J-S散度
圖4 普通文本與指令文本上的模型注意力的J-S散度
4.2 人類(lèi)相似度
人類(lèi)相似度與語(yǔ)言建模能力正相關(guān)。圖5展示了各個(gè)模型在Reading Brain數(shù)據(jù)集的文本上的下一個(gè)單詞預(yù)測(cè)(Next Token Prediction, NTP)損失與它們所有層中最大的人類(lèi)相似度分?jǐn)?shù),以及兩者的線性關(guān)系??梢园l(fā)現(xiàn),人類(lèi)相似度越高,NTP損失越低,即語(yǔ)言建模能力越強(qiáng)。這說(shuō)明人類(lèi)相似度分?jǐn)?shù)的確與語(yǔ)言感知能力有關(guān)。
圖5 各模型的NTP損失與人類(lèi)相似度及其相關(guān)性
參數(shù)規(guī)模擴(kuò)大能夠提升人類(lèi)相似度,而指令微調(diào)會(huì)降低人類(lèi)相似度。圖6展示了未經(jīng)過(guò)指令微調(diào)的不同大小模型(GPT-2 774M到LLaMA 65B)的所有層中,最大的人類(lèi)相似度分?jǐn)?shù)??梢园l(fā)現(xiàn),隨著參數(shù)規(guī)模的指數(shù)增加,模型的人類(lèi)相似度分?jǐn)?shù)約呈現(xiàn)線性提升,符合縮放法則。表1則展示了7B與13B的LLaMA模型在指令微調(diào)前后的人類(lèi)相似度??梢园l(fā)現(xiàn),指令微調(diào)不僅不能提升人類(lèi)相似度,反而會(huì)造成輕微的降低。相對(duì)t檢驗(yàn)結(jié)果顯示,指令微調(diào)顯著降低人類(lèi)相似度的層數(shù),遠(yuǎn)高于顯著提升人類(lèi)相似度的層數(shù)。
圖6 不同大小模型的所有層中最大的人類(lèi)相似度分?jǐn)?shù)
表1 指令微調(diào)前后模型的人類(lèi)相似度
4.3 平凡特征依賴(lài)性
參數(shù)規(guī)模擴(kuò)大可以降低平凡特征依賴(lài)性,而指令微調(diào)會(huì)提高平凡特征依賴(lài)性。圖7展示了7B模型到13B模型到平凡特征依賴(lài)性分?jǐn)?shù)變化,可以發(fā)現(xiàn)尤其在深層,模型的依賴(lài)性分?jǐn)?shù)發(fā)生了較大下降。反之,圖8展示了指令微調(diào)前后模型平凡特征依賴(lài)性分?jǐn)?shù)的變化,可以發(fā)現(xiàn)依賴(lài)性分?jǐn)?shù)在深層上升了。這說(shuō)明參數(shù)規(guī)模擴(kuò)大可以讓模型的語(yǔ)言理解過(guò)程更加靈活,而指令微調(diào)則會(huì)讓其更加固定。
圖7 7B到13B大小的平凡特征依賴(lài)性分?jǐn)?shù)變化
圖8 指令微調(diào)后的平凡特征依賴(lài)性分?jǐn)?shù)變化
L2對(duì)平凡特征的依賴(lài)程度更高。表2展示了L1與L2人群的眼動(dòng)模式對(duì)平凡特征的依賴(lài)性分?jǐn)?shù)??梢园l(fā)現(xiàn),L2在最小值、最大值與平均值上均高于L1,獨(dú)立t檢驗(yàn)結(jié)果也支持L2分?jǐn)?shù)顯著高于L1。這說(shuō)明非母語(yǔ)人群在閱讀英語(yǔ)文本時(shí)的眼動(dòng)模式比母語(yǔ)人群顯示出更多的固定、簡(jiǎn)單模式。
表2 L1與L2的平凡特征依賴(lài)性分?jǐn)?shù),SE為標(biāo)準(zhǔn)差
05
總結(jié)
本文評(píng)估了參數(shù)規(guī)模擴(kuò)大與指令微調(diào)對(duì)模型在自然語(yǔ)言理解過(guò)程中的注意力的影響。我們發(fā)現(xiàn),參數(shù)規(guī)模擴(kuò)大可以有效改變模型的整體注意力分布,提高模型的人類(lèi)相似度,并降低模型對(duì)平凡特征的依賴(lài)程度;而指令微調(diào)基本上起到相反的效果,但也會(huì)提高模型對(duì)指令內(nèi)容的敏感性。同時(shí),我們的結(jié)果也展示出,目前的以英語(yǔ)為主的開(kāi)源LLM的注意力模式更接近非英語(yǔ)母語(yǔ)者的眼動(dòng)模式,提示了當(dāng)前模型與人類(lèi)在語(yǔ)言感知上的差異。
審核編輯:劉清
-
PLM
+關(guān)注
關(guān)注
2文章
121瀏覽量
20869 -
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
524瀏覽量
10277 -
LLM
+關(guān)注
關(guān)注
0文章
288瀏覽量
338
原文標(biāo)題:EMNLP2023 | 模型與人類(lèi)的注意力視角下參數(shù)規(guī)模擴(kuò)大與指令微調(diào)對(duì)模型語(yǔ)言理解的作用
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論