0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

模型與人類(lèi)的注意力視角下參數(shù)規(guī)模擴(kuò)大與指令微調(diào)對(duì)模型語(yǔ)言理解的作用

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:南大NLP ? 2024-01-04 14:06 ? 次閱讀

01

研究動(dòng)機(jī)

近期的大語(yǔ)言模型(LLM)在自然語(yǔ)言理解和生成上展現(xiàn)出了接近人類(lèi)的強(qiáng)大能力,遠(yuǎn)遠(yuǎn)優(yōu)于先前的BERT等預(yù)訓(xùn)練模型(PLM)。然而,尚不清楚這是否意味著模型的計(jì)算過(guò)程更加接近了人類(lèi)的語(yǔ)言感知方式。此前的研究表明,與人類(lèi)行為和神經(jīng)數(shù)據(jù)具有更高相關(guān)性的模型,在自然語(yǔ)言任務(wù)上的表現(xiàn)也越好[1],但在大模型技術(shù)井噴的當(dāng)下,最新、性能最強(qiáng)的大模型是否仍然與人類(lèi)數(shù)據(jù)相關(guān),也需要進(jìn)一步檢驗(yàn)。

同時(shí),LLM較PLM等先前模型等能力提升的背后機(jī)制尚不清楚。由于現(xiàn)有LLM的基本架構(gòu)與先前模型一樣是Transformer架構(gòu),因此這種提升很可能來(lái)自與訓(xùn)練過(guò)程的差異:可能來(lái)自于擴(kuò)大了的參數(shù)和數(shù)據(jù)規(guī)模,也可能來(lái)自于預(yù)訓(xùn)練后的指令微調(diào)。

為了解決上述的兩方面問(wèn)題,本文嘗試比較LLM與人類(lèi)閱讀時(shí)行為數(shù)據(jù)的相關(guān)性,通過(guò)比較擴(kuò)大規(guī)模與指令微調(diào)兩個(gè)因素對(duì)于LLM語(yǔ)言理解過(guò)程的作用,幫助人們更好地認(rèn)識(shí)LLM的運(yùn)行機(jī)制。由于自注意力(self-attention)機(jī)制是Transformer模型的關(guān)鍵機(jī)制,并且天然與人類(lèi)的注意力機(jī)制在形式上相似,因此適合用來(lái)分析和解釋模型的計(jì)算過(guò)程。本文收集了現(xiàn)有的不同種類(lèi)(LLaMA,Alpaca,Vicuna)不同大?。?B到65B)的開(kāi)源LLM在英文文本上的自注意力矩陣進(jìn)行對(duì)比分析,并計(jì)算了它們與人類(lèi)閱讀相同文本時(shí)的眼動(dòng)數(shù)據(jù)的相關(guān)性,有效分析了兩個(gè)因素的作用。

02

貢獻(xiàn)

本文的分析主要包括三方面:一,我們逐層計(jì)算了不同LLM在所選文本數(shù)據(jù)上的注意力分布差異;二,我們?cè)u(píng)估并比較了不同LLM與人類(lèi)眼動(dòng)數(shù)據(jù)的相似度;三,我們分析了模型注意力矩陣對(duì)常見(jiàn)平凡特征的依賴(lài)性,并展示了這種依賴(lài)性與模型語(yǔ)言理解特點(diǎn)的關(guān)系。本文的主要發(fā)現(xiàn)有:

1)規(guī)模擴(kuò)大可以顯著改變模型在普通文本上的注意力分布,而指令微調(diào)對(duì)此的改變較為有限。然而,指令微調(diào)可以提高模型對(duì)指令前綴的敏感程度;

2)LLM的人類(lèi)相似度越高,語(yǔ)言建模的能力也越好。規(guī)模擴(kuò)大對(duì)人類(lèi)相似度的提高基本符合縮放法則[2],而指令微調(diào)反而降低了人類(lèi)相似度。同時(shí),雖然所有模型都以英文為主訓(xùn)練,但它們都與英語(yǔ)為第二語(yǔ)言的人群(L2)有更高的相似度,而不是母語(yǔ)人群(L1);

3)規(guī)模擴(kuò)大可以顯著降低模型對(duì)平凡特征的依賴(lài)性,而指令微調(diào)不能。同時(shí),L2的眼動(dòng)模式也比L1更加依賴(lài)于平凡特征。

03

方法

3.1 比較不同模型的注意力差異

我們使用Jensen-Shannon (J-S) 散度來(lái)比較不同模型在相同輸入句子上的注意力分布差別。比較具有相同層數(shù)的模型時(shí),我們逐層計(jì)算此J-S散度;比較具有不同層數(shù)的模型時(shí),我們分別將兩個(gè)模型的層平均分為4部分,比較每個(gè)部分的平均注意力的J-S散度。

為了幫助判斷J-S散度的大小,我們提出用Vicuna v0 與 v1.1的注意力J-S散度作為其他比較的參考值。兩個(gè)模型擁有一致的架構(gòu)、大小與訓(xùn)練數(shù)據(jù),只是數(shù)據(jù)格式有較小的差別。當(dāng)其他兩個(gè)模型的J-S散度大于此參考值時(shí),我們認(rèn)為這是注意力模式上的較大差別,反之則是較小的差別。

此J-S散度也被用來(lái)比較模型在普通文本與指令文本上的注意力分布差別。我們?cè)谄胀ㄎ谋镜拿總€(gè)句子前加上指令前綴,如“Please translate this sentence into German:”,并在計(jì)算J-S散度時(shí)將前綴部分的注意力分?jǐn)?shù)忽略,計(jì)算添加指令前后,模型注意力的J-S散度。同時(shí),我們還使用了一個(gè)噪聲前綴進(jìn)行同樣的實(shí)驗(yàn),作為控制組,更好地評(píng)價(jià)指令前綴的影響。

3.2 模型與人類(lèi)眼動(dòng)的相似度

人類(lèi)眼動(dòng)數(shù)據(jù)的形式如圖1所示。我們將模型的每個(gè)注意力頭作為一個(gè)自變量,將人類(lèi)注意力作為目標(biāo),建立線性回歸模型,計(jì)算此模型的擬合分?jǐn)?shù),并與人類(lèi)被試之間的擬合分?jǐn)?shù)作商,作為人類(lèi)相似度分?jǐn)?shù)。

4b909f5e-aab8-11ee-8b88-92fbcf53809c.png

圖1 單人與群體平均的眼動(dòng)矩陣示例

3.3 平凡特征依賴(lài)性

已有研究表明,Transformer模型的注意力模式可能包含一些簡(jiǎn)單、固定的特征,包括每個(gè)詞都關(guān)注句子中第一個(gè)詞、每個(gè)詞都關(guān)注自身、每個(gè)詞都關(guān)注前一個(gè)詞等[3,4]。我們將這三種平凡特征作為自變量,人類(lèi)注意力與模型注意力分別作為目標(biāo),建立線性回歸模型,同樣計(jì)算擬合分?jǐn)?shù),作為對(duì)這三種平凡特征的依賴(lài)性的度量。

04

實(shí)驗(yàn)

我們使用了Reading Brain數(shù)據(jù)集[5]中的文本和人類(lèi)行為數(shù)據(jù)。文本數(shù)據(jù)包括5篇英語(yǔ)說(shuō)明文,人類(lèi)行為數(shù)據(jù)包括52名英語(yǔ)母語(yǔ)者與56名非母語(yǔ)者的數(shù)據(jù)。對(duì)于眼動(dòng)數(shù)據(jù),我們使用眼跳動(dòng)次數(shù),而不是注視時(shí)間,以減少其他因素(如單詞長(zhǎng)度)對(duì)眼動(dòng)數(shù)據(jù)的影響。對(duì)于LLM,我們選用了774M(GPT-2 Large),7B(LLaMA, Alpaca, Vicuna),13B(LLaMA, Alpaca, Vicuna),65B(LLaMA)的多個(gè)模型。

4.1 模型注意力分布差異

隨著參數(shù)規(guī)模擴(kuò)大,模型注意力分布發(fā)生顯著變化,而指令微調(diào)的作用有限。圖2展示了不同大小模型的J-S散度結(jié)果。結(jié)果顯示,LLaMA,Alpaca和Vicuna模型均在7B與13B大小之間顯示出較大的注意力分布差異,說(shuō)明參數(shù)規(guī)模擴(kuò)大對(duì)整體注意力分布有較大改變。圖3展示了-經(jīng)過(guò)指令微調(diào)(Alpaca,Vicuna)與未經(jīng)過(guò)(LLaMA)的模型注意力的J-S散度結(jié)果。結(jié)果表明,只有Vicuna 13B模型較微調(diào)前產(chǎn)生了高于參考值的注意力散度,說(shuō)明指令微調(diào)對(duì)整體注意力分布的影響有限。

4b9fedf6-aab8-11ee-8b88-92fbcf53809c.png

圖2 7B與13B模型注意力的平均J-S散度

然而,指令微調(diào)提高了模型對(duì)指令前綴的敏感程度。圖4顯示了不同模型在普通文本與指令文本上的注意力J-S散度,可以發(fā)現(xiàn),所有模型均在兩種文本上顯示出了高于參考值的注意力差異,但這種差異在LLaMA(未經(jīng)過(guò)指令微調(diào))的深層逐漸衰減,在Alpaca和Vicuna的深層卻保持在較高水平。這種現(xiàn)象在噪聲前綴的場(chǎng)景下沒(méi)有出現(xiàn)。這說(shuō)明在指令微調(diào)前,模型已經(jīng)具備了一定的識(shí)別指令前綴的能力,但這種能力主要集中在模型淺層;在指令微調(diào)后,模型識(shí)別指令前綴的能力向深層移動(dòng),因此能對(duì)模型的生成過(guò)程產(chǎn)生更直接的改變。

4bb789f2-aab8-11ee-8b88-92fbcf53809c.png

圖3 經(jīng)過(guò)與未經(jīng)過(guò)指令微調(diào)的模型注意力的J-S散度

4bd0b382-aab8-11ee-8b88-92fbcf53809c.png

圖4 普通文本與指令文本上的模型注意力的J-S散度

4.2 人類(lèi)相似度

人類(lèi)相似度與語(yǔ)言建模能力正相關(guān)。圖5展示了各個(gè)模型在Reading Brain數(shù)據(jù)集的文本上的下一個(gè)單詞預(yù)測(cè)(Next Token Prediction, NTP)損失與它們所有層中最大的人類(lèi)相似度分?jǐn)?shù),以及兩者的線性關(guān)系??梢园l(fā)現(xiàn),人類(lèi)相似度越高,NTP損失越低,即語(yǔ)言建模能力越強(qiáng)。這說(shuō)明人類(lèi)相似度分?jǐn)?shù)的確與語(yǔ)言感知能力有關(guān)。

4bf3221e-aab8-11ee-8b88-92fbcf53809c.png

圖5 各模型的NTP損失與人類(lèi)相似度及其相關(guān)性

參數(shù)規(guī)模擴(kuò)大能夠提升人類(lèi)相似度,而指令微調(diào)會(huì)降低人類(lèi)相似度。圖6展示了未經(jīng)過(guò)指令微調(diào)的不同大小模型(GPT-2 774M到LLaMA 65B)的所有層中,最大的人類(lèi)相似度分?jǐn)?shù)??梢园l(fā)現(xiàn),隨著參數(shù)規(guī)模的指數(shù)增加,模型的人類(lèi)相似度分?jǐn)?shù)約呈現(xiàn)線性提升,符合縮放法則。表1則展示了7B與13B的LLaMA模型在指令微調(diào)前后的人類(lèi)相似度??梢园l(fā)現(xiàn),指令微調(diào)不僅不能提升人類(lèi)相似度,反而會(huì)造成輕微的降低。相對(duì)t檢驗(yàn)結(jié)果顯示,指令微調(diào)顯著降低人類(lèi)相似度的層數(shù),遠(yuǎn)高于顯著提升人類(lèi)相似度的層數(shù)。

4bff78b6-aab8-11ee-8b88-92fbcf53809c.png

圖6 不同大小模型的所有層中最大的人類(lèi)相似度分?jǐn)?shù)

表1 指令微調(diào)前后模型的人類(lèi)相似度

4c09c7f8-aab8-11ee-8b88-92fbcf53809c.png

4.3 平凡特征依賴(lài)性

參數(shù)規(guī)模擴(kuò)大可以降低平凡特征依賴(lài)性,而指令微調(diào)會(huì)提高平凡特征依賴(lài)性。圖7展示了7B模型到13B模型到平凡特征依賴(lài)性分?jǐn)?shù)變化,可以發(fā)現(xiàn)尤其在深層,模型的依賴(lài)性分?jǐn)?shù)發(fā)生了較大下降。反之,圖8展示了指令微調(diào)前后模型平凡特征依賴(lài)性分?jǐn)?shù)的變化,可以發(fā)現(xiàn)依賴(lài)性分?jǐn)?shù)在深層上升了。這說(shuō)明參數(shù)規(guī)模擴(kuò)大可以讓模型的語(yǔ)言理解過(guò)程更加靈活,而指令微調(diào)則會(huì)讓其更加固定。

4c1bf658-aab8-11ee-8b88-92fbcf53809c.png

圖7 7B到13B大小的平凡特征依賴(lài)性分?jǐn)?shù)變化

4c27c35c-aab8-11ee-8b88-92fbcf53809c.png

圖8 指令微調(diào)后的平凡特征依賴(lài)性分?jǐn)?shù)變化

L2對(duì)平凡特征的依賴(lài)程度更高。表2展示了L1與L2人群的眼動(dòng)模式對(duì)平凡特征的依賴(lài)性分?jǐn)?shù)??梢园l(fā)現(xiàn),L2在最小值、最大值與平均值上均高于L1,獨(dú)立t檢驗(yàn)結(jié)果也支持L2分?jǐn)?shù)顯著高于L1。這說(shuō)明非母語(yǔ)人群在閱讀英語(yǔ)文本時(shí)的眼動(dòng)模式比母語(yǔ)人群顯示出更多的固定、簡(jiǎn)單模式。

表2 L1與L2的平凡特征依賴(lài)性分?jǐn)?shù),SE為標(biāo)準(zhǔn)差

4c36c6ea-aab8-11ee-8b88-92fbcf53809c.png

05

總結(jié)

本文評(píng)估了參數(shù)規(guī)模擴(kuò)大與指令微調(diào)對(duì)模型在自然語(yǔ)言理解過(guò)程中的注意力的影響。我們發(fā)現(xiàn),參數(shù)規(guī)模擴(kuò)大可以有效改變模型的整體注意力分布,提高模型的人類(lèi)相似度,并降低模型對(duì)平凡特征的依賴(lài)程度;而指令微調(diào)基本上起到相反的效果,但也會(huì)提高模型對(duì)指令內(nèi)容的敏感性。同時(shí),我們的結(jié)果也展示出,目前的以英語(yǔ)為主的開(kāi)源LLM的注意力模式更接近非英語(yǔ)母語(yǔ)者的眼動(dòng)模式,提示了當(dāng)前模型與人類(lèi)在語(yǔ)言感知上的差異。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • PLM
    PLM
    +關(guān)注

    關(guān)注

    2

    文章

    121

    瀏覽量

    20869
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    524

    瀏覽量

    10277
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    288

    瀏覽量

    338

原文標(biāo)題:EMNLP2023 | 模型與人類(lèi)的注意力視角下參數(shù)規(guī)模擴(kuò)大與指令微調(diào)對(duì)模型語(yǔ)言理解的作用

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    Transformer架構(gòu),利用自注意力機(jī)制對(duì)文本進(jìn)行編碼,通過(guò)預(yù)訓(xùn)練、有監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)等階段,不斷提升性能,展現(xiàn)出強(qiáng)大的語(yǔ)言理解和生成能力。 大
    發(fā)表于 05-04 23:55

    【大語(yǔ)言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    其預(yù)訓(xùn)練和微調(diào),直到模型的部署和性能評(píng)估。以下是對(duì)這些技術(shù)的綜述: 模型架構(gòu): LLMs通常采用深層的神經(jīng)網(wǎng)絡(luò)架構(gòu),最常見(jiàn)的是Transformer網(wǎng)絡(luò),它包含多個(gè)自注意力層,能夠捕
    發(fā)表于 05-05 10:56

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    模型仍以Transformer為基礎(chǔ)進(jìn)行訓(xùn)練。Transformer是一種基于自注意力機(jī)制的編碼器-解碼器結(jié)構(gòu),其核心由編碼器和解碼器組成,每個(gè)部分均由多個(gè)相同層堆疊而成。自注意力機(jī)制使
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

    的工具。通過(guò)這一框架,研究人員和使用者可以更準(zhǔn)確地了解模型在實(shí)際應(yīng)用中的表現(xiàn),為后續(xù)的優(yōu)化和產(chǎn)品化提供有力支持。針對(duì)語(yǔ)言理解類(lèi)評(píng)測(cè)任務(wù),特別是古文及諺語(yǔ)理解,我們深入評(píng)估了
    發(fā)表于 05-07 17:12

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

    。 關(guān)于大語(yǔ)言模型是否具備與人類(lèi)“系統(tǒng)2”相似的能力,存在廣泛的爭(zhēng)議。然而,隨著模型參數(shù)量的增加和大規(guī)
    發(fā)表于 05-07 17:21

    【大規(guī)模語(yǔ)言模型:從理論到實(shí)踐】- 閱讀體驗(yàn)

    再次感謝電子發(fā)燒友提供的書(shū)籍試讀機(jī)會(huì)。今天來(lái)分享我在學(xué)習(xí)大模型訓(xùn)練中 注意力機(jī)制 的心得體會(huì)。 雖然注意力機(jī)制可以顯著提高模型處理長(zhǎng)序列數(shù)
    發(fā)表于 06-07 14:44

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    并捕捉長(zhǎng)距離依賴(lài)關(guān)系的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。Transformer通過(guò)編碼器(Encoder)和解碼器(Decoder)兩部分實(shí)現(xiàn)語(yǔ)言的編碼和解碼。 注意力機(jī)制:Transformer中的注意力機(jī)制使得
    發(fā)表于 08-02 11:03

    基于注意力機(jī)制的深度學(xué)習(xí)模型AT-DPCNN

    情感分析是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要分支,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在文本情感分析方面取得了較好的效果,但其未充分提取文本信息中的關(guān)鍵情感信息。為此,建立一種基于注意力機(jī)制的深度學(xué)習(xí)模型AT-
    發(fā)表于 03-17 09:53 ?12次下載
    基于<b class='flag-5'>注意力</b>機(jī)制的深度學(xué)習(xí)<b class='flag-5'>模型</b>AT-DPCNN

    一種注意力增強(qiáng)的自然語(yǔ)言推理模型aESIM

    在自然語(yǔ)言處理任務(wù)中使用注意力機(jī)制可準(zhǔn)確衡量單詞重要度。為此,提出一種注意力增強(qiáng)的自然語(yǔ)言推理模型aESM。將詞
    發(fā)表于 03-25 11:34 ?9次下載
    一種<b class='flag-5'>注意力</b>增強(qiáng)的自然<b class='flag-5'>語(yǔ)言</b>推理<b class='flag-5'>模型</b>aESIM

    基于語(yǔ)音、字形和語(yǔ)義的層次注意力神經(jīng)網(wǎng)絡(luò)模型

    結(jié)合英文幽默語(yǔ)言學(xué)特征,提出基于語(yǔ)音、字形和語(yǔ)義的層次注意力神經(jīng)網(wǎng)絡(luò)模型( PFSHAN)進(jìn)行幽默識(shí)別。在特征提取階段,將幽默文本表示為音素、字符以及攜帶歧義性等級(jí)信息的語(yǔ)義形式,分別采用卷積
    發(fā)表于 03-26 15:38 ?14次下載
    基于語(yǔ)音、字形和語(yǔ)義的層次<b class='flag-5'>注意力</b>神經(jīng)網(wǎng)絡(luò)<b class='flag-5'>模型</b>

    基于多層CNN和注意力機(jī)制的文本摘要模型

    基于注意力機(jī)制的編解碼模型在文本摘要、杌器翻譯等序列到序列任務(wù)上得到了廣泛的應(yīng)用。在深度學(xué)習(xí)框架中,深層神經(jīng)網(wǎng)絡(luò)能夠提取輸λ數(shù)據(jù)不冋的特征表示,因此傳統(tǒng)編解碼模型中通常堆疊多層解碼器來(lái)提高模型
    發(fā)表于 04-07 11:35 ?2次下載
    基于多層CNN和<b class='flag-5'>注意力</b>機(jī)制的文本摘要<b class='flag-5'>模型</b>

    基于循環(huán)卷積注意力模型的文本情感分類(lèi)方法

    和全局信息。文中針對(duì)單標(biāo)記和多標(biāo)記情感分類(lèi)任務(wù),提出一種循環(huán)卷積注意力模型( LSTM-CNN-ATT,LCA)。該模型利用注意力機(jī)制融合卷積神經(jīng)網(wǎng)絡(luò)( Convolutional n
    發(fā)表于 04-14 14:39 ?10次下載
    基于循環(huán)卷積<b class='flag-5'>注意力</b><b class='flag-5'>模型</b>的文本情感分類(lèi)方法

    基于注意力機(jī)制等的社交網(wǎng)絡(luò)熱度預(yù)測(cè)模型

    基于注意力機(jī)制等的社交網(wǎng)絡(luò)熱度預(yù)測(cè)模型
    發(fā)表于 06-07 15:12 ?14次下載

    基于注意力機(jī)制的新聞文本分類(lèi)模型

    基于注意力機(jī)制的新聞文本分類(lèi)模型
    發(fā)表于 06-27 15:32 ?30次下載

    PyTorch教程-16.5。自然語(yǔ)言推理:使用注意力

    )提出用注意力機(jī)制解決自然語(yǔ)言推理,并將其稱(chēng)為“可分解注意力模型”。這導(dǎo)致模型沒(méi)有循環(huán)層或卷積層,在 SNLI 數(shù)據(jù)集上以更少的
    的頭像 發(fā)表于 06-05 15:44 ?569次閱讀
    PyTorch教程-16.5。自然<b class='flag-5'>語(yǔ)言</b>推理:使用<b class='flag-5'>注意力</b>