4438x麻豆,国产999精品久久久久久

研究動機

近期的大語言模型（LLM）在自然語言理解和生成上展現(xiàn)出了接近人類的強大能力，遠遠優(yōu)于先前的BERT等預(yù)訓練模型（PLM）。然而，尚不清楚這是否意味著模型的計算過程更加接近了人類的語言感知方式。此前的研究表明，與人類行為和神經(jīng)數(shù)據(jù)具有更高相關(guān)性的模型，在自然語言任務(wù)上的表現(xiàn)也越好[1]，但在大模型技術(shù)井噴的當下，最新、性能最強的大模型是否仍然與人類數(shù)據(jù)相關(guān)，也需要進一步檢驗。

同時，LLM較PLM等先前模型等能力提升的背后機制尚不清楚。由于現(xiàn)有LLM的基本架構(gòu)與先前模型一樣是Transformer架構(gòu)，因此這種提升很可能來自與訓練過程的差異：可能來自于擴大了的參數(shù)和數(shù)據(jù)規(guī)模，也可能來自于預(yù)訓練后的指令微調(diào)。

為了解決上述的兩方面問題，本文嘗試比較LLM與人類閱讀時行為數(shù)據(jù)的相關(guān)性，通過比較擴大規(guī)模與指令微調(diào)兩個因素對于LLM語言理解過程的作用，幫助人們更好地認識LLM的運行機制。由于自注意力（self-attention）機制是Transformer模型的關(guān)鍵機制，并且天然與人類的注意力機制在形式上相似，因此適合用來分析和解釋模型的計算過程。本文收集了現(xiàn)有的不同種類（LLaMA，Alpaca，Vicuna）不同大?。?B到65B）的開源LLM在英文文本上的自注意力矩陣進行對比分析，并計算了它們與人類閱讀相同文本時的眼動數(shù)據(jù)的相關(guān)性，有效分析了兩個因素的作用。

貢獻

本文的分析主要包括三方面：一，我們逐層計算了不同LLM在所選文本數(shù)據(jù)上的注意力分布差異；二，我們評估并比較了不同LLM與人類眼動數(shù)據(jù)的相似度；三，我們分析了模型注意力矩陣對常見平凡特征的依賴性，并展示了這種依賴性與模型語言理解特點的關(guān)系。本文的主要發(fā)現(xiàn)有：

1）規(guī)模擴大可以顯著改變模型在普通文本上的注意力分布，而指令微調(diào)對此的改變較為有限。然而，指令微調(diào)可以提高模型對指令前綴的敏感程度；

2）LLM的人類相似度越高，語言建模的能力也越好。規(guī)模擴大對人類相似度的提高基本符合縮放法則[2]，而指令微調(diào)反而降低了人類相似度。同時，雖然所有模型都以英文為主訓練，但它們都與英語為第二語言的人群（L2）有更高的相似度，而不是母語人群（L1）；

3）規(guī)模擴大可以顯著降低模型對平凡特征的依賴性，而指令微調(diào)不能。同時，L2的眼動模式也比L1更加依賴于平凡特征。

方法

3.1 比較不同模型的注意力差異

我們使用Jensen-Shannon (J-S) 散度來比較不同模型在相同輸入句子上的注意力分布差別。比較具有相同層數(shù)的模型時，我們逐層計算此J-S散度；比較具有不同層數(shù)的模型時，我們分別將兩個模型的層平均分為4部分，比較每個部分的平均注意力的J-S散度。

為了幫助判斷J-S散度的大小，我們提出用Vicuna v0 與 v1.1的注意力J-S散度作為其他比較的參考值。兩個模型擁有一致的架構(gòu)、大小與訓練數(shù)據(jù)，只是數(shù)據(jù)格式有較小的差別。當其他兩個模型的J-S散度大于此參考值時，我們認為這是注意力模式上的較大差別，反之則是較小的差別。

此J-S散度也被用來比較模型在普通文本與指令文本上的注意力分布差別。我們在普通文本的每個句子前加上指令前綴，如“Please translate this sentence into German:”，并在計算J-S散度時將前綴部分的注意力分數(shù)忽略，計算添加指令前后，模型注意力的J-S散度。同時，我們還使用了一個噪聲前綴進行同樣的實驗，作為控制組，更好地評價指令前綴的影響。

3.2 模型與人類眼動的相似度

人類眼動數(shù)據(jù)的形式如圖1所示。我們將模型的每個注意力頭作為一個自變量，將人類注意力作為目標，建立線性回歸模型，計算此模型的擬合分數(shù)，并與人類被試之間的擬合分數(shù)作商，作為人類相似度分數(shù)。

圖1 單人與群體平均的眼動矩陣示例

3.3 平凡特征依賴性

已有研究表明，Transformer模型的注意力模式可能包含一些簡單、固定的特征，包括每個詞都關(guān)注句子中第一個詞、每個詞都關(guān)注自身、每個詞都關(guān)注前一個詞等[3,4]。我們將這三種平凡特征作為自變量，人類注意力與模型注意力分別作為目標，建立線性回歸模型，同樣計算擬合分數(shù)，作為對這三種平凡特征的依賴性的度量。

實驗

我們使用了Reading Brain數(shù)據(jù)集[5]中的文本和人類行為數(shù)據(jù)。文本數(shù)據(jù)包括5篇英語說明文，人類行為數(shù)據(jù)包括52名英語母語者與56名非母語者的數(shù)據(jù)。對于眼動數(shù)據(jù)，我們使用眼跳動次數(shù)，而不是注視時間，以減少其他因素（如單詞長度）對眼動數(shù)據(jù)的影響。對于LLM，我們選用了774M（GPT-2 Large），7B（LLaMA, Alpaca, Vicuna），13B（LLaMA, Alpaca, Vicuna），65B（LLaMA）的多個模型。

4.1 模型注意力分布差異

隨著參數(shù)規(guī)模擴大，模型注意力分布發(fā)生顯著變化，而指令微調(diào)的作用有限。圖2展示了不同大小模型的J-S散度結(jié)果。結(jié)果顯示，LLaMA，Alpaca和Vicuna模型均在7B與13B大小之間顯示出較大的注意力分布差異，說明參數(shù)規(guī)模擴大對整體注意力分布有較大改變。圖3展示了-經(jīng)過指令微調(diào)（Alpaca，Vicuna）與未經(jīng)過（LLaMA）的模型注意力的J-S散度結(jié)果。結(jié)果表明，只有Vicuna 13B模型較微調(diào)前產(chǎn)生了高于參考值的注意力散度，說明指令微調(diào)對整體注意力分布的影響有限。

圖2 7B與13B模型注意力的平均J-S散度

然而，指令微調(diào)提高了模型對指令前綴的敏感程度。圖4顯示了不同模型在普通文本與指令文本上的注意力J-S散度，可以發(fā)現(xiàn)，所有模型均在兩種文本上顯示出了高于參考值的注意力差異，但這種差異在LLaMA（未經(jīng)過指令微調(diào)）的深層逐漸衰減，在Alpaca和Vicuna的深層卻保持在較高水平。這種現(xiàn)象在噪聲前綴的場景下沒有出現(xiàn)。這說明在指令微調(diào)前，模型已經(jīng)具備了一定的識別指令前綴的能力，但這種能力主要集中在模型淺層；在指令微調(diào)后，模型識別指令前綴的能力向深層移動，因此能對模型的生成過程產(chǎn)生更直接的改變。

圖3 經(jīng)過與未經(jīng)過指令微調(diào)的模型注意力的J-S散度

圖4 普通文本與指令文本上的模型注意力的J-S散度

4.2 人類相似度

人類相似度與語言建模能力正相關(guān)。圖5展示了各個模型在Reading Brain數(shù)據(jù)集的文本上的下一個單詞預(yù)測（Next Token Prediction, NTP）損失與它們所有層中最大的人類相似度分數(shù)，以及兩者的線性關(guān)系?？梢园l(fā)現(xiàn)，人類相似度越高，NTP損失越低，即語言建模能力越強。這說明人類相似度分數(shù)的確與語言感知能力有關(guān)。

圖5 各模型的NTP損失與人類相似度及其相關(guān)性

參數(shù)規(guī)模擴大能夠提升人類相似度，而指令微調(diào)會降低人類相似度。圖6展示了未經(jīng)過指令微調(diào)的不同大小模型（GPT-2 774M到LLaMA 65B）的所有層中，最大的人類相似度分數(shù)?？梢园l(fā)現(xiàn)，隨著參數(shù)規(guī)模的指數(shù)增加，模型的人類相似度分數(shù)約呈現(xiàn)線性提升，符合縮放法則。表1則展示了7B與13B的LLaMA模型在指令微調(diào)前后的人類相似度?？梢园l(fā)現(xiàn)，指令微調(diào)不僅不能提升人類相似度，反而會造成輕微的降低。相對t檢驗結(jié)果顯示，指令微調(diào)顯著降低人類相似度的層數(shù)，遠高于顯著提升人類相似度的層數(shù)。

圖6 不同大小模型的所有層中最大的人類相似度分數(shù)

表1 指令微調(diào)前后模型的人類相似度

4.3 平凡特征依賴性

參數(shù)規(guī)模擴大可以降低平凡特征依賴性，而指令微調(diào)會提高平凡特征依賴性。圖7展示了7B模型到13B模型到平凡特征依賴性分數(shù)變化，可以發(fā)現(xiàn)尤其在深層，模型的依賴性分數(shù)發(fā)生了較大下降。反之，圖8展示了指令微調(diào)前后模型平凡特征依賴性分數(shù)的變化，可以發(fā)現(xiàn)依賴性分數(shù)在深層上升了。這說明參數(shù)規(guī)模擴大可以讓模型的語言理解過程更加靈活，而指令微調(diào)則會讓其更加固定。

圖7 7B到13B大小的平凡特征依賴性分數(shù)變化

圖8 指令微調(diào)后的平凡特征依賴性分數(shù)變化

L2對平凡特征的依賴程度更高。表2展示了L1與L2人群的眼動模式對平凡特征的依賴性分數(shù)?？梢园l(fā)現(xiàn)，L2在最小值、最大值與平均值上均高于L1，獨立t檢驗結(jié)果也支持L2分數(shù)顯著高于L1。這說明非母語人群在閱讀英語文本時的眼動模式比母語人群顯示出更多的固定、簡單模式。

表2 L1與L2的平凡特征依賴性分數(shù)，SE為標準差

總結(jié)

本文評估了參數(shù)規(guī)模擴大與指令微調(diào)對模型在自然語言理解過程中的注意力的影響。我們發(fā)現(xiàn)，參數(shù)規(guī)模擴大可以有效改變模型的整體注意力分布，提高模型的人類相似度，并降低模型對平凡特征的依賴程度；而指令微調(diào)基本上起到相反的效果，但也會提高模型對指令內(nèi)容的敏感性。同時，我們的結(jié)果也展示出，目前的以英語為主的開源LLM的注意力模式更接近非英語母語者的眼動模式，提示了當前模型與人類在語言感知上的差異。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

PLM

PLM

+關(guān)注

關(guān)注
2

文章
132

瀏覽量
21222
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
556

瀏覽量
10577
LLM

LLM

+關(guān)注

關(guān)注
1

文章
316

瀏覽量
627

原文標題：EMNLP2023 | 模型與人類的注意力視角下參數(shù)規(guī)模擴大與指令微調(diào)對模型語言理解的作用

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

Transformer架構(gòu)，利用自注意力機制對文本進行編碼，通過預(yù)訓練、有監(jiān)督微調(diào)和強化學習等階段，不斷提升性能，展現(xiàn)出強大的語言理解和生成能力。大

發(fā)表于 05-04 23:55

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

模型仍以Transformer為基礎(chǔ)進行訓練。Transformer是一種基于自注意力機制的編碼器-解碼器結(jié)構(gòu)，其核心由編碼器和解碼器組成，每個部分均由多個相同層堆疊而成。自注意力機制使

發(fā)表于 05-05 12:17

【大語言模型：原理與工程實踐】大語言模型的評測

的工具。通過這一框架，研究人員和使用者可以更準確地了解模型在實際應(yīng)用中的表現(xiàn)，為后續(xù)的優(yōu)化和產(chǎn)品化提供有力支持。針對語言理解類評測任務(wù)，特別是古文及諺語理解，我們深入評估了

發(fā)表于 05-07 17:12

【大語言模型：原理與工程實踐】大語言模型的應(yīng)用

。關(guān)于大語言模型是否具備與人類“系統(tǒng)2”相似的能力，存在廣泛的爭議。然而，隨著模型參數(shù)量的增加和大規(guī)

發(fā)表于 05-07 17:21

【大規(guī)模語言模型：從理論到實踐】- 閱讀體驗

再次感謝電子發(fā)燒友提供的書籍試讀機會。今天來分享下我在學習大模型訓練中 注意力機制的心得體會。雖然注意力機制可以顯著提高模型處理長序列數(shù)

發(fā)表于 06-07 14:44

【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學習

并捕捉長距離依賴關(guān)系的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。Transformer通過編碼器（Encoder）和解碼器（Decoder）兩部分實現(xiàn)語言的編碼和解碼。 注意力機制：Transformer中的注意力機制使得

發(fā)表于 08-02 11:03

【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調(diào)技術(shù)解讀

微調(diào)：通過在預(yù)訓練模型中插入適配器模塊來適應(yīng)特定任務(wù)，既保留了原始模型的性能，又能快速適應(yīng)新任務(wù)。Prefix-Tuning：通過在輸入序列的前面添加特定前綴來微調(diào)

發(fā)表于 01-14 16:51

基于注意力機制的深度學習模型AT-DPCNN

情感分析是自然語言處理領(lǐng)域的一個重要分支，卷積神經(jīng)網(wǎng)絡(luò)（CNN）在文本情感分析方面取得了較好的效果，但其未充分提取文本信息中的關(guān)鍵情感信息。為此，建立一種基于注意力機制的深度學習模型AT-

發(fā)表于 03-17 09:53 ?12次下載

一種注意力增強的自然語言推理模型aESIM

在自然語言處理任務(wù)中使用注意力機制可準確衡量單詞重要度。為此，提出一種注意力增強的自然語言推理模型aESM。將詞

發(fā)表于 03-25 11:34 ?9次下載

基于語音、字形和語義的層次注意力神經(jīng)網(wǎng)絡(luò)模型

結(jié)合英文幽默語言學特征，提出基于語音、字形和語義的層次注意力神經(jīng)網(wǎng)絡(luò)模型（ PFSHAN）進行幽默識別。在特征提取階段，將幽默文本表示為音素、字符以及攜帶歧義性等級信息的語義形式，分別采用卷積

發(fā)表于 03-26 15:38 ?14次下載

基于多層CNN和注意力機制的文本摘要模型

基于注意力機制的編解碼模型在文本摘要、杌器翻譯等序列到序列任務(wù)上得到了廣泛的應(yīng)用。在深度學習框架中，深層神經(jīng)網(wǎng)絡(luò)能夠提取輸λ數(shù)據(jù)不冋的特征表示，因此傳統(tǒng)編解碼模型中通常堆疊多層解碼器來提高模型

發(fā)表于 04-07 11:35 ?2次下載

基于循環(huán)卷積注意力模型的文本情感分類方法

和全局信息。文中針對單標記和多標記情感分類任務(wù)，提出一種循環(huán)卷積注意力模型（ LSTM-CNN-ATT，LCA）。該模型利用注意力機制融合卷積神經(jīng)網(wǎng)絡(luò)（ Convolutional n

發(fā)表于 04-14 14:39 ?10次下載

基于注意力機制等的社交網(wǎng)絡(luò)熱度預(yù)測模型

基于注意力機制等的社交網(wǎng)絡(luò)熱度預(yù)測模型

發(fā)表于 06-07 15:12 ?14次下載

基于注意力機制的新聞文本分類模型

基于注意力機制的新聞文本分類模型

發(fā)表于 06-27 15:32 ?30次下載

PyTorch教程-16.5。自然語言推理：使用注意力

)提出用注意力機制解決自然語言推理，并將其稱為“可分解注意力模型”。這導致模型沒有循環(huán)層或卷積層，在 SNLI 數(shù)據(jù)集上以更少的

發(fā)表于 06-05 15:44 ?704次閱讀