0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大型語言模型能否捕捉到它們所處理和生成的文本中的語義信息

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-05-25 11:34 ? 次閱讀

大型語言模型能否捕捉到它們所處理和生成的文本中的語義信息?這一問題在計(jì)算機(jī)科學(xué)和自然語言處理領(lǐng)域一直存在爭議。然而,MIT的一項(xiàng)新研究表明,僅基于文本形式訓(xùn)練、用于預(yù)測下一個(gè)token的語言模型確實(shí)能學(xué)習(xí)和表示文本的意義。

雖然大型預(yù)訓(xùn)練語言模型(LLM)在一系列下游任務(wù)中展現(xiàn)出飛速提升的性能,但它們是否真的理解其使用和生成的文本語義?

長期以來,AI社區(qū)對這一問題存在很大的分歧。有一種猜測是,純粹基于語言的形式(例如訓(xùn)練語料庫中token的條件分布)進(jìn)行訓(xùn)練的語言模型不會(huì)獲得任何語義。相反,它們僅僅是根據(jù)從訓(xùn)練數(shù)據(jù)中收集的表面統(tǒng)計(jì)相關(guān)性來生成文本,其強(qiáng)大的涌現(xiàn)能力則歸因于模型和訓(xùn)練數(shù)據(jù)的規(guī)模。這部分人將LLM稱為「隨機(jī)鸚鵡」。

但也有一部分人不認(rèn)同此觀點(diǎn)。一項(xiàng)最近的研究表明,大約51%的NLP社區(qū)受訪者同意:「一些僅通過文本訓(xùn)練的生成模型,在擁有足夠的數(shù)據(jù)和計(jì)算資源的情況下,可以以某種有意義的方式理解自然語言(超越表面層面的統(tǒng)計(jì)關(guān)聯(lián),涉及對語言背后的語義和概念的理解)」。

為了探究這個(gè)懸而未決的問題,來自MIT CSAIL的研究人員展開了詳細(xì)研究。

01ef082a-fa2a-11ed-90ce-dac502259ad0.png論文地址:https://paperswithcode.com/paper/evidence-of-meaning-in-language-models

該研究使用的語言模型僅訓(xùn)練成為文本預(yù)測下一個(gè)token的模型,并制定兩個(gè)假設(shè):

H1:僅通過對文本進(jìn)行下一個(gè)token預(yù)測訓(xùn)練的LM在根本上受限于重復(fù)其訓(xùn)練語料庫中的表面層次統(tǒng)計(jì)相關(guān)性;

H2LM無法對其消化和生成的文本賦予意義。

為了探究 H1 和 H2兩個(gè)假設(shè)的正確性,該研究將語言建模應(yīng)用于程序合成任務(wù),即在給定輸入輸出示例形式規(guī)范的情況下合成程序。該研究采用這種方法的主要是因?yàn)槌绦虻囊饬x(和正確性)完全由編程語言的語義決定。

具體來說,該研究在程序及其規(guī)范的語料庫上訓(xùn)練語言模型(LM),然后使用線性分類器探測 LM 對于程序語義表征的隱藏狀態(tài)。該研究發(fā)現(xiàn)探測器提取語義的能力在初始化時(shí)是隨機(jī)的,然后在訓(xùn)練期間經(jīng)歷相變,這種相變與 LM 在未見過規(guī)范的情況下生成正確程序的能力強(qiáng)相關(guān)。此外,該研究還展示了一項(xiàng)介入實(shí)驗(yàn)的結(jié)果,該實(shí)驗(yàn)表明語義在模型狀態(tài)中得以表征(而不是通過探測器(probe)進(jìn)行學(xué)習(xí))。

該研究的主要貢獻(xiàn)包括:

1、實(shí)驗(yàn)結(jié)果表明,在執(zhí)行預(yù)測下一個(gè)token任務(wù)的 LM 中出現(xiàn)了有意義的表征。具體來說,該研究使用經(jīng)過訓(xùn)練的 LM 在給定幾個(gè)輸入輸出示例的情況下生成程序,然后訓(xùn)練一個(gè)線性探測器,以從模型狀態(tài)中提取有關(guān)程序狀態(tài)的信息。研究者發(fā)現(xiàn)內(nèi)部表征包含以下線性編碼:(1) 抽象語義(抽象解釋)——在程序執(zhí)行過程中跟蹤指定輸入;(2) 與尚未生成的程序token對應(yīng)的未來程序狀態(tài)預(yù)測。在訓(xùn)練期間,這些語義的線性表征與 LM 在訓(xùn)練步驟中生成正確程序的能力同步發(fā)展。

2、該研究設(shè)計(jì)并評估了一種新穎的介入(interventional)方法,以探究從表征中提取意義時(shí)LM 和探測器的貢獻(xiàn)。具體來說,該研究試圖分析以下兩個(gè)問題中哪個(gè)成立:(1) LM 表征包含純(句法)轉(zhuǎn)錄本(transcript),同時(shí)探測器學(xué)習(xí)解釋轉(zhuǎn)錄本以推斷含義;(2)LM 表征包含語義狀態(tài),探測器只是從語義狀態(tài)中提取含義。實(shí)驗(yàn)結(jié)果表明 LM 表征實(shí)際上與原始語義對齊(而不是僅僅編碼一些詞匯和句法內(nèi)容),這說明假設(shè)H2是錯(cuò)誤的。01f7408a-fa2a-11ed-90ce-dac502259ad0.png

3、該研究表明 LM 的輸出與訓(xùn)練分布不同,具體表現(xiàn)為LM 傾向于生成比訓(xùn)練集中的程序更短的程序(并且仍然是正確的)。雖然 LM 合成正確程序的能力有所提高,但LM 在訓(xùn)練集中的程序上的困惑度仍然很高,這表明假設(shè)H1是錯(cuò)誤的。

總的來說,該研究提出了一個(gè)框架,用于根據(jù)編程語言的語義對 LM 進(jìn)行實(shí)證研究。這種方法使我們能夠定義、測量和試驗(yàn)來自底層編程語言的精確形式語義的概念,從而有助于理解當(dāng)前 LM 的涌現(xiàn)能力。

研究背景

該研究使用跟蹤語義作為程序含義模型。作為編程語言理論中一個(gè)基礎(chǔ)主題,形式語義學(xué)主要研究如何正式地為語言中的字符串分配語義。該研究使用的語義模型包括跟蹤程序的執(zhí)行:給定一組輸入(即變量賦值),一個(gè)(句法)程序的含義是用從表達(dá)式中計(jì)算出的語義值標(biāo)識的,跟蹤軌跡是根據(jù)輸入執(zhí)行程序時(shí)生成的中間值序列。

將跟蹤軌跡用于程序含義模型具有幾個(gè)重要原因:首先,準(zhǔn)確跟蹤一段代碼的能力與解釋代碼的能力直接相關(guān);其次,計(jì)算機(jī)科學(xué)教育也強(qiáng)調(diào)跟蹤是理解程序開發(fā)和定位推理錯(cuò)誤的重要方法;第三,專業(yè)的程序開發(fā)依賴基于跟蹤的調(diào)試器(dbugger)。

該研究使用的訓(xùn)練集包含100萬個(gè)隨機(jī)抽樣的Karel程序。20世紀(jì)70年代,斯坦福大學(xué)畢業(yè)生 Rich Pattis 設(shè)計(jì)了一個(gè)程序環(huán)境,讓學(xué)生教機(jī)器人來解決簡單的問題,這個(gè)機(jī)器人被稱為Karel機(jī)器人。

該研究通過隨機(jī)采樣來構(gòu)造訓(xùn)練樣本的參考程序,然后采樣5個(gè)隨機(jī)輸入并執(zhí)行程序得到對應(yīng)的5個(gè)輸出。LM 被訓(xùn)練為對樣本語料庫執(zhí)行下一個(gè)token預(yù)測。在測試時(shí),該研究只提供輸入輸出前綴給LM,并使用貪心解碼完成程序。下圖1描繪了一個(gè)實(shí)際的參考程序和經(jīng)過訓(xùn)練的 LM 的完成情況。

01fff2de-fa2a-11ed-90ce-dac502259ad0.png

該研究訓(xùn)練了一個(gè)現(xiàn)成的 Transformer 模型對數(shù)據(jù)集執(zhí)行下一個(gè)token預(yù)測。經(jīng)過 64000 個(gè)訓(xùn)練步驟(training step),大約 1.5 個(gè) epoch,最終訓(xùn)練好的 LM 在測試集上達(dá)到了 96.4% 的生成準(zhǔn)確率。每 2000 個(gè)訓(xùn)練步驟,該研究會(huì)捕獲一個(gè)跟蹤數(shù)據(jù)集。對于每個(gè)訓(xùn)練軌跡數(shù)據(jù)集,該研究訓(xùn)練一個(gè)線性探測器來預(yù)測給定模型狀態(tài)的程序狀態(tài)。

意義的涌現(xiàn)

研究者對以下假設(shè)進(jìn)行了研究:在訓(xùn)練語言模型執(zhí)行下一個(gè)token預(yù)測的過程中,語義狀態(tài)的表示會(huì)作為副產(chǎn)品出現(xiàn)在模型狀態(tài)中??紤]到最終訓(xùn)練得到的語言模型達(dá)到了96.4%的生成準(zhǔn)確性,如果否定這個(gè)假設(shè),將與H2一致,即語言模型已經(jīng)學(xué)會(huì)「僅僅」利用表面統(tǒng)計(jì)來一致生成正確的程序。

為了測試這個(gè)假設(shè),研究者訓(xùn)練了一個(gè)線性探測器,將語義狀態(tài)從模型狀態(tài)中提取出來,作為5個(gè)獨(dú)立的4-way任務(wù)(每個(gè)輸入面向一個(gè)方向),如第2.2節(jié)所述。

意義的涌現(xiàn)與生成準(zhǔn)確性呈正相關(guān)

圖2展示了主要結(jié)果。研究者的第一個(gè)觀察結(jié)果是,語義內(nèi)容從隨機(jī)猜測的基線表現(xiàn)(25%)開始,并且在訓(xùn)練過程中顯著增加。這個(gè)結(jié)果表明,語言模型的隱藏狀態(tài)確實(shí)包含語義狀態(tài)的(線性)編碼,并且關(guān)鍵的是,這種意義是在一個(gè)純粹用于對文本執(zhí)行下一個(gè)token預(yù)測的語言模型中出現(xiàn)的。

將生成準(zhǔn)確性與語義內(nèi)容進(jìn)行線性回歸,二者在訓(xùn)練步驟中呈現(xiàn)出意外的強(qiáng)大且具有統(tǒng)計(jì)學(xué)意義的線性相關(guān)性(R2 = 0.968, p < 0.001),即LM合成正確程序的能力的變化幾乎完全由LM的隱藏層的語義內(nèi)容所解釋。這表明,在本文的實(shí)驗(yàn)設(shè)置范圍內(nèi),學(xué)習(xí)建模正確程序的分布與學(xué)習(xí)程序的意義直接相關(guān),這否定了語言模型無法獲取意義的觀點(diǎn)(H2)。

0206256e-fa2a-11ed-90ce-dac502259ad0.png

表征是對未來程序語義的預(yù)測

前一節(jié)討論了語言模型能否表示其生成的文本的意義。本文的結(jié)果對這個(gè)問題給出了積極的答案,即語言模型能夠(抽象地)解釋生成的程序。然而,解釋者(interpreter)并不等同于合成者(synthesizer),僅有理解能力是不足以進(jìn)行生成的。就人類語言的產(chǎn)生而言,廣泛的共識是語言起源于思維中的一種非言語的信息,然后被轉(zhuǎn)化為反映初始概念的話語(utterance)。研究者假設(shè)訓(xùn)練后的語言模型的生成過程遵循類似的機(jī)制,即語言模型的表示編碼了尚未生成的文本的語義。

為了驗(yàn)證這個(gè)假設(shè),他們使用與上述相同的方法訓(xùn)練了一個(gè)線性探測器,來預(yù)測從模型狀態(tài)中得到的未來語義狀態(tài)。需要注意的是,由于他們使用貪婪解碼策略,未來的語義狀態(tài)也是確定性的,因此這個(gè)任務(wù)是明確定義的。

圖3展示了線性探測器在預(yù)測未來1步和2步的語義狀態(tài)方面的表現(xiàn)(綠段線表示「Semantic (+1)」,綠點(diǎn)線表示「Semantic (+2)」)。與先前的結(jié)果類似,探測器的性能從隨機(jī)猜測的基線開始,然后隨著訓(xùn)練顯著提高,并且他們還發(fā)現(xiàn)未來狀態(tài)的語義內(nèi)容與生成準(zhǔn)確性(藍(lán)線)在訓(xùn)練步驟中呈現(xiàn)出強(qiáng)烈的相關(guān)性。將語義內(nèi)容與生成準(zhǔn)確性進(jìn)行線性回歸分析得到的R2值分別為0.919和0.900,對應(yīng)于未來1步和2步的語義狀態(tài),兩者的p值均小于0.001。

020d0640-fa2a-11ed-90ce-dac502259ad0.png

他們還考慮了這樣一個(gè)假設(shè),即模型的表示只編碼了當(dāng)前的語義狀態(tài),而探測器僅僅是從當(dāng)前語義狀態(tài)預(yù)測未來的語義狀態(tài)。為了測試這個(gè)假設(shè),他們計(jì)算了一個(gè)最優(yōu)分類器,將當(dāng)前程序中的ground truth面向方向映射到未來程序中的4個(gè)面向方向之一。

需要注意的是,其中的5個(gè)操作中有3個(gè)保持了面向方向,并且下一個(gè) token是均勻采樣的。因此他們預(yù)期,對于未來1步的情況,預(yù)測未來的語義狀態(tài)的最優(yōu)分類器應(yīng)該通過預(yù)測面向方向保持不變來達(dá)到60%的準(zhǔn)確率。事實(shí)上,通過直接擬合測試集,他們發(fā)現(xiàn)從當(dāng)前語義狀態(tài)預(yù)測未來語義狀態(tài)的上限分別為62.2%和40.7%(對應(yīng)于未來1步和2步的情況)。相比之下,當(dāng)給定探測器正確預(yù)測當(dāng)前狀態(tài)的條件下,探測器在預(yù)測未來狀態(tài)方面的準(zhǔn)確率分別為68.4%和61.0%。

這表明,探測器從模型狀態(tài)中提取未來語義狀態(tài)的能力不能僅僅通過從當(dāng)前語義狀態(tài)的表示中推斷得出。因此,他們的結(jié)果表明,語言模型會(huì)學(xué)習(xí)去表示尚未生成的token的含義,這否定了語言模型無法學(xué)習(xí)意義的觀點(diǎn)(H2),并且也表明生成過程不僅僅基于純粹的表面統(tǒng)計(jì)(H1)。

生成的輸出與訓(xùn)練分布不同

接下來,研究者通過比較訓(xùn)練后的語言模型生成的程序分布與訓(xùn)練集中的程序分布,提供反駁H1的證據(jù)。如果H1成立,他們預(yù)期兩個(gè)分布應(yīng)該大致相等,因?yàn)檎Z言模型只是在重復(fù)訓(xùn)練集中文本的統(tǒng)計(jì)相關(guān)性。

圖6a顯示了LM生成的程序的平均長度隨時(shí)間的變化情況(實(shí)線藍(lán)色線條),與訓(xùn)練集中參考程序的平均長度(虛線紅色線條)進(jìn)行對比。他們發(fā)現(xiàn)二者存在統(tǒng)計(jì)學(xué)上的顯著差異,這表明LM的輸出分布確實(shí)與其訓(xùn)練集中的程序分布不同。這與H1中提到的觀點(diǎn)(即LM只能重復(fù)其訓(xùn)練數(shù)據(jù)中的統(tǒng)計(jì)相關(guān)性)相矛盾。

021561dc-fa2a-11ed-90ce-dac502259ad0.png

最后,他們還測量了LM在訓(xùn)練集中的程序上的困惑度隨時(shí)間的變化情況。圖6b展示了他們的結(jié)果??梢钥吹剑琇M從來沒有學(xué)會(huì)很好地?cái)M合訓(xùn)練集中程序的分布,這進(jìn)一步反駁了H1的觀點(diǎn)。這可能是因?yàn)樵谟?xùn)練集中隨機(jī)抽樣的程序包含了許多無操作指令,而LM更傾向于生成更簡潔的程序。有趣的是,困惑度的急劇增加——當(dāng)LM超越了模仿階段——似乎導(dǎo)致了生成準(zhǔn)確率(和語義內(nèi)容)的提高。由于程序等價(jià)性問題與程序語義密切相關(guān),LM能夠生成簡短且正確的程序表明它確實(shí)學(xué)到了語義的某個(gè)方面。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7026

    瀏覽量

    89025
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    524

    瀏覽量

    10277
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    288

    瀏覽量

    13350

原文標(biāo)題:有證據(jù)了,MIT表明:大型語言模型≠隨機(jī)鸚鵡,確實(shí)能學(xué)到語義

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【大語言模型:原理與工程實(shí)踐】揭開大語言模型的面紗

    維基百科、網(wǎng)頁內(nèi)容和書籍等,不僅掌握了語言的語法、語義和上下文信息,還能生成結(jié)構(gòu)連貫、語義合理的句子和段落。大
    發(fā)表于 05-04 23:55

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    的特征,并且這些特征融合了這些詞在當(dāng)前序列的上下文語義,因此能夠解決一詞多義的問題。憑借這種優(yōu)勢,基于動(dòng)態(tài)詞向量語言模型進(jìn)行預(yù)訓(xùn)練的方法被廣泛應(yīng)用于自然語言
    發(fā)表于 05-05 12:17

    MCU能否捕捉到穩(wěn)定的低信號電平?

    Vext=3.3V 我有一個(gè)問題,你可以看我的圖片,如果信號有一些雜波,并且高于 0.5V,但低于 1.4V。 MCU能否捕捉到穩(wěn)定的低信號電平?
    發(fā)表于 07-02 06:17

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識學(xué)習(xí)

    一些局限性。例如,模型可能無法完全理解文本的深層含義和語境信息;同時(shí),由于訓(xùn)練數(shù)據(jù)可能存在偏差和噪聲,生成的答案也可能存在不準(zhǔn)確或誤導(dǎo)性的
    發(fā)表于 08-02 11:03

    飛凌嵌入式-ELFBOARD 解決PCB布線時(shí)無法捕捉到焊盤中心的問題

    1、 文檔目標(biāo) 解決PCB布線時(shí)無法捕捉到焊盤中心的問題 2、 問題場景 PCB布線時(shí),發(fā)現(xiàn)十字光標(biāo)無法捕捉焊盤中心點(diǎn),如圖1所示,綠色十字光標(biāo)靠近焊盤中心,卻沒有自動(dòng)捕捉到,這是什么原因? 圖
    發(fā)表于 09-10 10:50

    NLPIR語義分析是對自然語言處理的完美理解

    和邏輯表示。語義分析就是對信息所包含的語義的識別,并建立一種計(jì)算模型,使其能夠像人那樣理解自然語言。語義
    發(fā)表于 10-19 11:34

    請問在28027對ECAP功能,捕捉到下降沿的同時(shí)能否自動(dòng)讀取某一個(gè)32位定時(shí)器的計(jì)數(shù)值?

    請問在28027對ECAP功能,捕捉到下降沿的同時(shí)能否自動(dòng)讀取某一個(gè)32位定時(shí)器的計(jì)數(shù)值?如果不能,通過編程讀取應(yīng)該是可行的吧?
    發(fā)表于 10-31 15:11

    邏輯分析儀捕捉到的脈沖與常見的NEC協(xié)議捕捉到的脈沖有何不同

    邏輯分析儀捕捉到的脈沖與常見的NEC協(xié)議捕捉到的脈沖有何不同?
    發(fā)表于 02-15 06:22

    基于語義感知的中文短文本摘要生成技術(shù)

    文本摘要生成技術(shù)能夠從海量數(shù)據(jù)概括岀關(guān)鍵信息,有效解決用戶信息過載的問題。目前序列到序列模型
    發(fā)表于 05-28 15:45 ?2次下載

    大型語言模型有哪些用途?

    通過大規(guī)模數(shù)據(jù)集訓(xùn)練來學(xué)習(xí)識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。 大型語言模型是 Transformer 模型最成功的應(yīng)用之一。
    的頭像 發(fā)表于 02-23 19:50 ?5191次閱讀

    大型語言模型有哪些用途?大型語言模型如何運(yùn)作呢?

    大型語言模型能識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。
    的頭像 發(fā)表于 03-08 13:57 ?8038次閱讀

    如何正確的觀察電流探頭捕捉到的電流波形

    市面上的電流探頭一般輸出阻抗50ohm,并搭配示波器組合使用觀察信號,那如何正確的觀察電流探頭捕捉到的電流波形呢?
    的頭像 發(fā)表于 08-23 15:20 ?735次閱讀
    如何正確的觀察電流探頭<b class='flag-5'>捕捉到</b>的電流波形

    Meta發(fā)布一款可以使用文本提示生成代碼的大型語言模型Code Llama

    今天,Meta發(fā)布了Code Llama,一款可以使用文本提示生成代碼的大型語言模型(LLM)。
    的頭像 發(fā)表于 08-25 09:06 ?1500次閱讀
    Meta發(fā)布一款可以使用<b class='flag-5'>文本</b>提示<b class='flag-5'>生成</b>代碼的<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>Code Llama

    如何正確的觀察電流探頭捕捉到的電流波形?

    電流探頭是示波器用于測量和顯示電流波形的重要工具。正確地觀察電流探頭捕捉到的電流波形對于分析電路的性能和診斷問題至關(guān)重要。
    的頭像 發(fā)表于 05-19 16:34 ?1017次閱讀

    使用LLM進(jìn)行自然語言處理的優(yōu)缺點(diǎn)

    語言任務(wù),如文本分類、情感分析、機(jī)器翻譯等。以下是使用LLM進(jìn)行NLP的一些優(yōu)缺點(diǎn): 優(yōu)點(diǎn) 強(qiáng)大的語言理解能力 : LLM通過訓(xùn)練學(xué)習(xí)了大量的語言模式和結(jié)構(gòu),能夠理解和
    的頭像 發(fā)表于 11-08 09:27 ?449次閱讀