0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

BERT的自注意力模式

汽車玩家 ? 來源:AI公園 ? 作者:Anna Rogers ? 2020-04-19 11:37 ? 次閱讀

導讀

在finetune BERT的時候發(fā)生了什么?

2019年可以被稱為NLP的Transformer之年:這種架構(gòu)主導了排行榜并激發(fā)了許多分析研究。毫無疑問,最受歡迎的Transformer是BERT(Devlin, Chang, Lee, & Toutanova, 2019)。除了其眾多的應用,許多研究探索了各種語言知識的模型,通常得出這樣的結(jié)論,這種語言知識確實存在,至少在某種程度上(Goldberg, 2019; Hewitt & Manning, 2019; Ettinger, 2019)。

這項工作的重點是補充的問題:在finetune BERT的時候發(fā)生了什么?特別是,有多少可從語言學角度解釋的自注意力模式被認為是它的優(yōu)勢,可以實際用來解決下游的任務?

為了回答這個問題,我們用BERT finetune了以下GLUE (Wang et al., 2018)的任務和數(shù)據(jù)集:

語義檢測 (MRPC and QQP);

文本相似度 (STS-B);

情感分析 (SST-2);

文本蘊含 (RTE);

自然語言推理 (QNLI, MNLI).

BERT的簡單介紹

BERT代表Transformer的雙向編碼器表示。該模型基本上是一個多層雙向Transformer編碼器 (Devlin, Chang, Lee, & Toutanova, 2019),有多個關(guān)于它的工作原理的優(yōu)秀指南,包括圖解的Transformer.。我們關(guān)注的是Transformer架構(gòu)的一個特定組件,即self-attention。簡而言之,它是一種衡量輸入和輸出序列組件的方法,以便對它們之間的關(guān)系(甚至遠程依賴關(guān)系)進行建模。

作為一個簡單的例子,讓我們假設我們需要創(chuàng)建一個句子“Tom is a black cat”的表示。BERT在對“cat”進行編碼時,可能會選擇更多地關(guān)注“Tom”,而較少關(guān)注“is”、“a”、“black”。這可以表示為權(quán)重向量(對于句子中的每個單詞)。當模型對序列中的每個單詞進行編碼時,就會計算出這些向量,從而得到一個方陣,我們稱之為“自注意力圖”。

現(xiàn)在,我們還不清楚“Tom”和“cat”之間的關(guān)系是否總是最好的。要回答關(guān)于貓的顏色的問題,模特最好關(guān)注“black”而不是“Tom”。幸運的是,它不必選擇。BERT(和其他Transformer)很強大很大程度上歸功于這樣一個事實:在多層中有多個頭,它們都學會了構(gòu)建獨立的自注意力圖。理論上,這可以賦予模型“在不同位置關(guān)注來自不同表示子空間的信息”的能力(Vaswani et al., 2017)。換句話說,模型將能夠在當前任務的幾個備選表示之間進行選擇。

自注意力權(quán)重的計算大部分發(fā)生在BERT的預訓練中:該模型(預)針對兩項任務(Masked語言模型和下一個句子預測)進行訓練,然后針對個別下游任務(如情緒分析)進行finetune。這種分離的基本思想訓練過程分為semi-supervised訓練和finetune階段,其中finetune階段是監(jiān)督學習:遷移任務的數(shù)據(jù)集通常太小,一般不夠了解整個語言,但大型文本語料庫可以通過語言建模用于此目的(和其他類似的)。因此,我們可以獲得獨立于任務的句子和文本的信息表示,然后這些句子和文本可以“適應”后續(xù)任務。

讓我們在這里指出,“適應”應該工作的確切方式在BERT論文或GPT技術(shù)報告(其中強調(diào)了預訓練/finetune方法)中都沒有詳細描述。然而,如果注意力本身是為了提供一種對部分的輸入序列“鏈接”,增加信息量,多頭,多層架構(gòu)需要提供多個可選擇的自注意力圖,可能finetune過程會教模型依靠對手頭的任務更有用的自注意力圖。例如,在情感分析任務中,名詞和形容詞之間的關(guān)系比名詞和介詞之間的關(guān)系更重要,因此,finetune會理想地教會模型更多地依賴更有用的自注意力圖。

學到的自注意力模式是什么類型的,每種類型有多少?

那么BERT的自注意力模式是什么呢?我們找到了五個,如下圖所示:

BERT的自注意力模式

圖1,BERT自注意力模式的類型。每個圖像上的兩個軸表示輸入樣本的BERT標記,顏色表示絕對注意力權(quán)重(深色表示更大的權(quán)重)。

垂直模式表示對單個標記的關(guān)注,它通常是[SEP]標記(表示句子結(jié)束的特殊標記)或[CLS]標記(作為提供給分類器的完整序列表示使用的特殊BERT標記)。

對角線模式表示注意前面/后面的單詞;

塊模式表示對序列中所有標記的關(guān)注或多或少是一致的;

從理論上講,異構(gòu)模式是唯一能夠?qū)斎胄蛄懈鞑糠种g的任何有意義的關(guān)系的模式(盡管不一定如此)。

以下是BERT在七項GLUE任務中五種注意力的比例(每一列代表所有層中所有頭部的100%):

BERT的自注意力模式

圖2所示。在選定的GLUE任務上,BERT的自注意映射類型的比例進行了微調(diào)。

雖然具體的比例因任務而異,但在大多數(shù)情況下,可能有意義的模式占BERT所有自注意力權(quán)重的不到一半。至少有三分之一的BERT head只關(guān)注[SEP]和[CLS] —— 這種策略不能為下一層的表示提供很多有意義的信息。它還表明,該模型嚴重參數(shù)化過度,這解釋了最近蒸餾方法的成功嘗試 (Sanh, Debut, Chaumond, & Wolf, 2019; Jiao et al., 2019)。

值得注意的是,我們使用的是BERT-base,即較小的模型,在16層中有12個頭。如果它已經(jīng)被過度參數(shù)化了,這就意味著BERT-large和所有后來的模型,都是過度參數(shù)化的,其中一些是30倍大(Wu et al., 2016)。

這樣對[SEP]和[CLS]的依賴也可能表明,要么BERT以某種方式“吸收”了前面層獲得的信息表示,后續(xù)的self-attention圖并不需要太多,要么BERT某種程度上整體不依賴于self-attention。

fine-tuning的時候發(fā)生了什么?

我們的下一個問題是BERT的微調(diào)過程中發(fā)生了什么變化。下面的熱圖顯示了在finetune之前和之后,每個頭和每一層扁平的自注意映射矩陣之間的余弦相似性。較深的顏色表示在表現(xiàn)上有更多的差異。對于所有的GLUE任務,進行了3個epochs的finetune。

BERT的自注意力模式

圖3所示,在經(jīng)過訓練和調(diào)整的BERT中,平展的自注意圖之間存在余弦相似性。顏色越深表示差異越大。

我們發(fā)現(xiàn),大多數(shù)注意力的權(quán)重并沒有發(fā)生太大的變化,對于大多數(shù)任務來說,最后兩層變化最大。這些變化似乎不支持任何特定類型的有意義的注意力模式。相反,我們發(fā)現(xiàn)這個模型基本上更依賴于垂直注意力模式。在SST的例子中,在最后一層中較厚的垂直注意模式是由于對最終[SEP]和它之前的標點符號的聯(lián)合注意,我們觀察到這是垂直注意模式的另一個常見目標。

BERT的自注意力模式

圖4,自注意力圖的一個單獨的例子,在SST上對BERT進行finetune。

這有兩個可能的解釋:

垂直模式在某種程度上是足夠的,也就是說,標記表示在某種程度上吸收了前一層的有意義的注意力模式。我們確實發(fā)現(xiàn)最早的層更關(guān)注[CLS],然后[SEP]開始主導大多數(shù)任務(見圖6)

手頭的任務實際上并不需要細粒度的、有意義的注意力模式,而這種模式本應是Transformers的主要特征。

finetune會造成多大的區(qū)別?

考慮到在預訓練和調(diào)優(yōu)中使用的數(shù)據(jù)集的巨大差異,以及非常不同的訓練目標,研究調(diào)優(yōu)實際上產(chǎn)生了多大的差異是很有趣的。據(jù)我們所知,這個問題以前沒有人提出過。

我們對每個選擇的GLUE數(shù)據(jù)集進行了三個實驗:

預訓練模型的權(quán)重凍結(jié),并使用特定任務的分類器,看看BERT的表現(xiàn)

從正態(tài)分布中隨機初始化模型,并對任務數(shù)據(jù)集進行3個epochs的finetune,然后看看BERT的表現(xiàn)

使用官方的預訓練BERT-base模型,在任務數(shù)據(jù)集上finetune3個epochs,然后看看BERT的表現(xiàn)

實驗結(jié)果如下:

BERT的自注意力模式

雖然很明顯,預訓練+finetune設置可以產(chǎn)生最高的結(jié)果,但隨機+finetune的BERT在所有任務上都表現(xiàn)得令人不安,除了文本相似性。事實上,對于情緒分析來說,隨機初始化和finetune BERT可以得到80%的準確率,而且不需要任何預訓練??紤]到大型預訓練變壓Transformer的規(guī)模,這就提出了一個嚴重的問題:昂貴的預訓練是否能帶來足夠的經(jīng)濟效益。它還提出了關(guān)于NLP數(shù)據(jù)集的嚴重問題,這些數(shù)據(jù)集顯然可以在沒有太多任務無關(guān)的語言知識的情況下解決,而這些任務無關(guān)的語言知識是預xunl+finetune設置應該提供的。

18.01.2020更新:感謝Sam Bowman指出,隨機BERT結(jié)果總體上可與預訓練Transformer的GLUE基線相當,并且可以很好地解釋為這些任務在沒有深入語言知識的情況下可以解決的程度。NLP社區(qū)在更困難的數(shù)據(jù)集上需要更多的工作,實際上需要這樣的知識,在過渡期間,我們至少應該切換到SuperGLUE。請注意,對于這些任務,GLUE基線和大多數(shù)發(fā)布的結(jié)果都使用單詞嵌入或基于計數(shù)的單詞向量作為輸入,而我們的隨機BERT是完全隨機的。因此,直接比較并不完全公平。然而,特別是對于SST,這種比較可以與原始的遞歸神經(jīng)張量網(wǎng)絡進行比較(Socher et al., 2013)。這個2013年的模型相比之下很小,而且也采用隨機向量作為輸入表示,但是它在二進制分類上比我們的隨機+finetuneBERT多7點。

有沒有可以在語言學上解釋的自注意力頭?

在這一點上,有幾項研究試圖找出自注意力的頭編碼特定類型的信息,但大多數(shù)集中在語法上。我們做了一個實驗,關(guān)注框架語義元素:我們從FrameNet 1.7抽取了473個句子,最多12個標記的長度,并且核心框架元素距離目標詞至少2個標記。在下面的例子中,是體驗者和分詞之間的關(guān)系喚起了emotion_directframe??梢哉f,這種關(guān)系對于理解一個給定的句子所描述的情況是至關(guān)重要的,任何聲稱能夠提供語言信息的自注意力圖的機制都應該反映出這些關(guān)系(可能包括許多其他關(guān)系)。

我們通過預訓練的BERT得到這些句子的表示法,計算與標注的框架語義關(guān)系對應的標記對之間的最大權(quán)值。圖5表示FrameNet數(shù)據(jù)集中所有示例的這些分數(shù)的平均值。我們發(fā)現(xiàn)兩個頭(第1層的頭2,第7層的頭6)比其他頭更關(guān)注這些框架語義關(guān)系。

BERT的自注意力模式

但是,在推理的時候,到底是什么信息在起作用呢?

我們認為,通過對訓練前的BERT權(quán)值進行探查,得出某些信息實際上是編碼的結(jié)論,未免過于草率??紤]到模型的大小,可能會發(fā)現(xiàn)任何其他關(guān)系的編碼的類似證明(事實上,Jawahar等人發(fā)現(xiàn)在那個方向上的不同分解方案之間沒有顯著的差異)。真正的問題是,模型在推理時是否真的依賴于這些信息。

為了確定我們認為對幀語義關(guān)系編碼有用的兩個頭是否真的被finetune過的BERT使用,我們進行了一項消融研究,一次禁用一個頭(即用統(tǒng)一注意力替換習得的注意力權(quán)重)。圖6顯示了在我們的示例中所有GLUE任務的熱圖,每個單元格顯示的是總體性能,當給定的頭被關(guān)閉。很明顯,雖然整體模式不同任務之間,我們最好隨機刪除頭 —— 包括那些我們確認為編碼有意義的信息,應該為最相關(guān)的任務。許多頭也可以在不影響任何性能的情況下關(guān)閉,這再次表明,即使是BERT-base也嚴重參數(shù)化了。

BERT的自注意力模式

圖6,模型的性能,一次禁用一個頭,藍色線表示沒有禁用頭的基線性能。較深的顏色對應較高的性能分數(shù)。

機器翻譯任務也得出了類似的獨立結(jié)論,即將注意力權(quán)重歸零,而不是用統(tǒng)一注意力代替它們(Michel, Levy, & Neubig, 2019)。我們進一步表明,這種觀察不僅擴展到頭,而且擴展到整個層:根據(jù)任務的不同,整個層可能對模型性能有害!

BERT的自注意力模式

圖7,禁用一個層的模型的性能。

討論

我們的主要貢獻在于,雖然BERT的大多數(shù)研究都集中在探索預訓練好的模型上,但我們提出了一個問題,即在微調(diào)過程中會發(fā)生什么,以及通過自注意力機制獲得的表征有多大意義。到目前為止,我們還沒有找到語言上有意義的自注意力圖對微調(diào)BERT的表現(xiàn)至關(guān)重要的證據(jù)。我們的研究結(jié)果有助于從以下幾個方向?qū)赥ransformer模型的屬性進行持續(xù)的討論:

a)BERT過度參數(shù)化了。在我們的實驗中,我們一次只禁用一個頭,而在大多數(shù)情況下,模型的性能并沒有受到影響,這一事實表明,許多頭具有功能重復,即禁用一個頭不會損害模型,因為相同的信息可以在其他地方獲得。這個結(jié)果指向了過度參數(shù)化,并解釋了像ALBert和TinyBERT這樣的小型BERT的成功。

這種過度參數(shù)化意味著,BERT可能會有一些非常重要的頭,它們在語言上具有有意義的自注意力模式,但為了證明這一點,我們必須嘗試禁用所有可能的頭組合(這是不可行的)。在同一時期的一項研究中提出了一個很有前途的替代方案:(Voita, Talbot, Moiseev, Sennrich, & Titov, 2019)通過使用具有修剪效果的正則化目標對模型進行finetune,確定了基礎(chǔ)Transformer的“重要”頭。

b)BERT不需要那么聰明來完成這些任務。BERT在沒有預訓練的情況下可以很好地完成大多數(shù)GLUE任務,這一事實表明,在很大程度上,不需要太多的語言知識就可以解決這些問題。與口頭推理不同,它可能學會依靠數(shù)據(jù)集中的各種捷徑、偏見和人為因素來做出正確的預測。在這種情況下,它的自注意力圖不一定對我們有意義。這一發(fā)現(xiàn)支持了當前許多數(shù)據(jù)集問題的最新發(fā)現(xiàn)(Gururangan et al., 2018; McCoy, Pavlick, & Linzen, 2019)。

另一種解釋是BERT的成功是由于玄學,而不是由于自注意力。例如,在finetune之后對標點符號的高度關(guān)注可能意味著該模型實際上學會了依賴于某些其他組件,或者存在一些我們無法理解的深層模式。此外,注意力在多大程度上可以用來解釋模型預測的原則目前正在辯論(Jain & Wallace, 2019;Serrano & Smith, 2019;Wiegreffe & Pinter, 2019)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3645

    瀏覽量

    134580
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    488

    瀏覽量

    22046
收藏 人收藏

    評論

    相關(guān)推薦

    企業(yè)AI算租賃模式的好處

    構(gòu)建和維護一個高效、可擴展的AI算基礎(chǔ)設施,不僅需要巨額的初期投資,還涉及復雜的運維管理和持續(xù)的技術(shù)升級。而AI算租賃模式為企業(yè)提供了一種靈活、高效且成本可控的解決方案。下面,AI部落小編帶您探討企業(yè)采用AI算
    的頭像 發(fā)表于 12-24 10:49 ?114次閱讀

    ADS1299S是否推薦有與DEMO匹配的傳感器頭?

    我們目前有個項目主要用于檢測幼兒的注意力,請問一下,TI ADS1299S是否推薦有與DEMO匹配的傳感器頭?如果有,請推薦。
    發(fā)表于 11-26 08:30

    一種基于因果路徑的層次圖卷積注意力網(wǎng)絡

    機電系統(tǒng)中的故障檢測對其可維護性和安全性至關(guān)重要。然而,系統(tǒng)監(jiān)測變量往往具有復雜的聯(lián)系,很難表征它們的關(guān)系并提取有效的特征。本文開發(fā)了一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(HGCAN),以提高復雜
    的頭像 發(fā)表于 11-12 09:52 ?297次閱讀
    一種基于因果路徑的層次圖卷積<b class='flag-5'>注意力</b>網(wǎng)絡

    一種創(chuàng)新的動態(tài)軌跡預測方法

    本文提出了一種動態(tài)軌跡預測方法,通過結(jié)合歷史幀和歷史預測結(jié)果來提高預測的穩(wěn)定性和準確性。它引入了歷史預測注意力模塊,以編碼連續(xù)預測之間的動態(tài)關(guān)系,并通過三重因子注意力模塊實現(xiàn)了最先進的性能。本方法能夠生成準確且穩(wěn)定的未來軌跡,這對于自動駕駛系統(tǒng)落地至關(guān)重要。
    的頭像 發(fā)表于 10-28 14:34 ?426次閱讀
    一種創(chuàng)新的動態(tài)軌跡預測方法

    內(nèi)置誤碼率測試儀(BERT)和采樣示波器一體化測試儀器安立MP2110A

    BERTWave MP2110A是一款內(nèi)置誤碼率測試儀(BERT)和采用示波器的一體化測量儀器,支持光模塊的誤碼率(BERT)測量、眼圖模式測試、眼圖分析等評估操作
    的頭像 發(fā)表于 09-23 14:34 ?356次閱讀
    內(nèi)置誤碼率測試儀(<b class='flag-5'>BERT</b>)和采樣示波器一體化測試儀器安立MP2110A

    2024 年 19 種最佳大型語言模型

    ,當時一篇題為“通過聯(lián)合學習對齊和翻譯的神經(jīng)機器翻譯”的研究論文中引入了注意力機制(一種旨在模仿人類認知注意力的機器學習技術(shù))。2017年,另一篇論文“注意力就是你
    的頭像 發(fā)表于 08-30 12:56 ?538次閱讀
    2024 年 19 種最佳大型語言模型

    AWG和BERT常見問題解答

    隨著信號的速率越來越高,調(diào)制格式越來越復雜,對測試儀器的性能要求也越來越高。是德科技也一直在推出業(yè)界領(lǐng)先的高帶寬、高采樣率的AWG和高性能的BERT。
    的頭像 發(fā)表于 08-06 17:27 ?676次閱讀

    腦機接囗疲勞預測解決方案

    注意力集中度。 人工危險做業(yè)的場景。 易發(fā)生危險事故的場景。 節(jié)奏快的流水線場景。 需要人工注意力高度集中的場景。 *在以上場景里,Galvani-E都可以與現(xiàn)有的安全帽、工作帽或者頭盔進行集成,成本可控。 腦電產(chǎn)品的作用 判斷注意力
    的頭像 發(fā)表于 07-15 17:37 ?321次閱讀
    腦機接囗疲勞預測解決方案

    llm模型有哪些格式

    : 基于Transformer的模型 Transformer是一種基于注意力機制的模型,廣泛應用于NLP領(lǐng)域?;赥ransformer的LLM模型包括: a. BERT(Bidirectional Encoder
    的頭像 發(fā)表于 07-09 09:59 ?636次閱讀

    【大規(guī)模語言模型:從理論到實踐】- 閱讀體驗

    再次感謝電子發(fā)燒友提供的書籍試讀機會。今天來分享下我在學習大模型訓練中 注意力機制 的心得體會。 雖然注意力機制可以顯著提高模型處理長序列數(shù)據(jù)的能力,但這也帶來了計算成本的增加。在大型模型中,
    發(fā)表于 06-07 14:44

    【大語言模型:原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

    模型仍以Transformer為基礎(chǔ)進行訓練。Transformer是一種基于注意力機制的編碼器-解碼器結(jié)構(gòu),其核心由編碼器和解碼器組成,每個部分均由多個相同層堆疊而成。注意力機制
    發(fā)表于 05-05 12:17

    采用單片超構(gòu)表面與元注意力網(wǎng)絡實現(xiàn)快照式近紅外光譜成像

    日前,北京理工大學王涌天教授、黃玲玲教授團隊聯(lián)合張軍院士、邊麗蘅教授團隊,采用單片超構(gòu)表面與元注意力網(wǎng)絡實現(xiàn)快照式近紅外光譜成像。
    的頭像 發(fā)表于 04-25 09:08 ?1160次閱讀
    采用單片超構(gòu)表面與元<b class='flag-5'>注意力</b>網(wǎng)絡實現(xiàn)快照式近紅外光譜成像

    視覺Transformer基本原理及目標檢測應用

    視覺Transformer的一般結(jié)構(gòu)如圖2所示,包括編碼器和解碼器兩部分,其中編碼器每一層包括一個多頭注意力模塊(self-attention)和一個位置前饋神經(jīng)網(wǎng)絡(FFN)。
    發(fā)表于 04-03 10:32 ?3527次閱讀
    視覺Transformer基本原理及目標檢測應用

    阿里巴巴發(fā)布AtomoVideo,兼容多款文生圖模型的高保真圖像視頻框架

    AtomoVideo運用預設的 T2I 模型,在每個空間卷積層和注意力層后新增一維時空卷積和注意力模塊?,F(xiàn)有的 T2I 模型參數(shù)固定不變,它們只會訓練新增的時空層,而輸入的串聯(lián)圖像信息由 VAE 編碼解析
    的頭像 發(fā)表于 03-07 11:22 ?813次閱讀

    模型與人類的注意力視角下參數(shù)規(guī)模擴大與指令微調(diào)對模型語言理解的作用

    近期的大語言模型(LLM)在自然語言理解和生成上展現(xiàn)出了接近人類的強大能力,遠遠優(yōu)于先前的BERT等預訓練模型(PLM)。
    的頭像 發(fā)表于 01-04 14:06 ?469次閱讀
    模型與人類的<b class='flag-5'>注意力</b>視角下參數(shù)規(guī)模擴大與指令微調(diào)對模型語言理解的作用