0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大型語(yǔ)言模型在關(guān)鍵任務(wù)和實(shí)際應(yīng)用中的挑戰(zhàn)

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2023-08-15 09:33 ? 次閱讀

大型語(yǔ)言模型的出現(xiàn)極大地推動(dòng)了自然語(yǔ)言處理領(lǐng)域的進(jìn)步,但同時(shí)也存在一些局限性,比如模型可能會(huì)產(chǎn)生看似合理但實(shí)際上是錯(cuò)誤或虛假的內(nèi)容,這一現(xiàn)象被稱為幻覺(hallucination)?;糜X的存在使得大型語(yǔ)言模型在關(guān)鍵任務(wù)和實(shí)際應(yīng)用中的可靠性受到挑戰(zhàn)。

模型產(chǎn)生幻覺可能是由于模型缺乏或錯(cuò)誤地理解了相關(guān)的知識(shí)。當(dāng)人類思考和記憶事物時(shí),本體知識(shí)在我們的思維過(guò)程中扮演著重要角色。本體知識(shí)涉及類別、屬性以及它們之間的關(guān)系。它幫助我們理解世界、組織和分類信息,并且能夠推導(dǎo)出新的知識(shí)。對(duì)于語(yǔ)言模型,我們可以通過(guò)設(shè)計(jì)探測(cè)任務(wù),模型內(nèi)部的隱含知識(shí)和學(xué)習(xí)偏差。

背景介紹

為了探索大模型在預(yù)訓(xùn)練階段學(xué)習(xí)到的各類知識(shí),研究者們通過(guò)設(shè)計(jì)探針任務(wù)來(lái)對(duì)這些模型進(jìn)行測(cè)試。通過(guò)模型在這些任務(wù)上的表現(xiàn),我們可以了解語(yǔ)言模型在不同方面的學(xué)習(xí)偏差、錯(cuò)誤或限制,并嘗試改進(jìn)模型的性能和可靠性。然而,現(xiàn)有的知識(shí)探針主要研究模型對(duì)事實(shí)性知識(shí)的記憶,也就是描述具體事實(shí)、屬性和關(guān)系的知識(shí)。比如,我們知道在《西游記》中“孫悟空三打白骨精”,這就是一條具體的事實(shí)性知識(shí)。

相比事實(shí)性知識(shí),本體知識(shí)關(guān)注類和屬性、以及它們之間的關(guān)系,能夠描述概念之間的層級(jí)關(guān)系、屬性約束等關(guān)聯(lián),為理解世界知識(shí)提供了一種結(jié)構(gòu)化的方式。如下就是一個(gè)本體知識(shí)圖譜,從“孫悟空三打白骨精”這樣一條事實(shí)性知識(shí),發(fā)散出了更多概念之間的關(guān)聯(lián),包括實(shí)例類型(type)、子類(subclass)、子屬性(subproperty)、屬性領(lǐng)域(domain)和屬性范圍(range)。

38f0abf2-3ab3-11ee-9e74-dac502259ad0.png

本體知識(shí)可以幫助模型更好地理解現(xiàn)實(shí)世界中的對(duì)象及其關(guān)系,在問答等許多 NLP 任務(wù)中起著至關(guān)重要的作用。因此,探究預(yù)訓(xùn)練語(yǔ)言模型是否記憶和理解本體知識(shí),能夠拓展學(xué)術(shù)界對(duì)語(yǔ)言模型認(rèn)知能力的認(rèn)識(shí),在這個(gè)大模型快速發(fā)展的時(shí)代具有重要意義。

探針方法

我們研究了基于編碼器的預(yù)訓(xùn)練語(yǔ)言模型 BERT 和 RoBERTa,以及基于解碼器的大模型 ChatGPT。對(duì)于編碼器結(jié)構(gòu)模型,我們使用基于提示詞(prompt)的探針方法,探究模型是否能夠根據(jù)未被遮蓋的上下文預(yù)測(cè)出正確的答案;而對(duì)于解碼器結(jié)構(gòu)模型,我們則將需要填空的提示詞轉(zhuǎn)化成多項(xiàng)選擇題,探究模型是否能夠給出正確的選擇。2.1記憶任務(wù)

我們?cè)O(shè)計(jì)了五個(gè)記憶任務(wù)子測(cè)試,每個(gè)任務(wù)子測(cè)試都是為了探測(cè)預(yù)訓(xùn)練語(yǔ)言模型對(duì)于一種本體關(guān)系的記憶能力:

1. 給定實(shí)例的類型;

2. 給定類的上級(jí)類別;

3. 給定屬性的上級(jí)屬性;

4. 給定屬性的領(lǐng)域約束;

5. 給定屬性的范圍約束。

對(duì)于 BERT 模型,我們使用人工提示和可訓(xùn)練的軟提示(soft prompt)進(jìn)行探針測(cè)試,為每種本體關(guān)系設(shè)計(jì)了如下提示詞。模型基于對(duì)數(shù)概率預(yù)測(cè),對(duì)候選詞進(jìn)行排序。

397df6f6-3ab3-11ee-9e74-dac502259ad0.png

2.2推理任務(wù)

我們根據(jù)資源描述框架模式(Resource Description Framework Schema, RDFS)中規(guī)定的規(guī)則構(gòu)建推理任務(wù),每個(gè)推理子任務(wù)探索預(yù)訓(xùn)練語(yǔ)言模型按照一條三段論規(guī)則進(jìn)行推理的能力。對(duì)于每個(gè)前提,我們區(qū)分模型輸入中是否明確包含前提,并利用記憶任務(wù)的探針結(jié)果進(jìn)一步區(qū)分這個(gè)前提是否被模型記憶,探究前提的不同形式對(duì)模型推理的影響。

為了防止模型通過(guò)對(duì)假設(shè)的記憶而非推理過(guò)程得出正確結(jié)論,我們使用生造詞替換假設(shè)提示中包含的特定實(shí)例、類和屬性。對(duì)于編碼器結(jié)構(gòu)的模型,我們通過(guò)創(chuàng)建沒有特殊語(yǔ)義的詞嵌入來(lái)獲得預(yù)訓(xùn)練語(yǔ)言模型的生造詞。

實(shí)驗(yàn)結(jié)果與發(fā)現(xiàn)

3.1記憶任務(wù)

通過(guò)對(duì)實(shí)驗(yàn)數(shù)據(jù)的分析,我們發(fā)現(xiàn):BERT 和 RoBERTa 模型可以記憶一定的本體知識(shí),但并不完美。

BERT和 RoBERTa 在記憶任務(wù)中擊敗了一個(gè)較強(qiáng)的頻率基線模型。這表明,在預(yù)訓(xùn)練過(guò)程中,語(yǔ)言模型不僅學(xué)習(xí)了關(guān)于實(shí)體的事實(shí)性知識(shí),而且學(xué)習(xí)了事實(shí)背后更加抽象的本體關(guān)系,這對(duì)于模型更好地組織對(duì)于世界的認(rèn)識(shí)至關(guān)重要。然而,模型在五個(gè)子任務(wù)上的準(zhǔn)確率還有很大提升空間,表明模型對(duì)本體知識(shí)記憶的局限性。

39d278e8-3ab3-11ee-9e74-dac502259ad0.png

ChatGPT 相比于 BERT 模型,在記憶任務(wù)中準(zhǔn)確率有了顯著提升。

由于多項(xiàng)選擇與填空的難度并不直接可比,我們將多項(xiàng)選擇形式的提示詞輸入給 BERT-base-uncased 模型,并與 ChatGPT 進(jìn)行比較。從下表可以看出,在大多數(shù)與本體知識(shí)相關(guān)的記憶任務(wù)中,ChatGPT 在準(zhǔn)確性方面明顯優(yōu)于 BERT-base-uncased,展現(xiàn)出更強(qiáng)的本體知識(shí)記憶能力。

3a29db92-3ab3-11ee-9e74-dac502259ad0.png

3.2推理任務(wù)

通過(guò)對(duì)實(shí)驗(yàn)數(shù)據(jù)的分析,我們發(fā)現(xiàn):BERT 和 RoBERTa 模型對(duì)本體知識(shí)的理解也是比較有限的。

下圖展示了對(duì)所有推理規(guī)則和 BERT 與 RoBERTa 模型取平均之后的推理表現(xiàn)。當(dāng)輸入文本中明確給出 時(shí),模型能夠顯著提高正確答案的排名。由于 包含了需要預(yù)測(cè)的正確答案,這就使人懷疑表現(xiàn)的提升并非通過(guò)邏輯推理獲得的,而是因?yàn)槟P蛢A向于預(yù)測(cè)輸入中出現(xiàn)的詞及相關(guān)詞匯。 當(dāng)前提被隱式給定時(shí),MRR 高于前提末給定時(shí)。這意味著一定程度上,預(yù)訓(xùn)練語(yǔ)言模型可以利用編碼的本體知識(shí),選擇正確的推理規(guī)則進(jìn)行推理。但是,所有的前提組合都不能給出近乎完美(MRR 接近 1)的推理表現(xiàn),說(shuō)明預(yù)訓(xùn)練語(yǔ)言模型對(duì)本體知識(shí)的理解能力仍具有局限性。

3a506c76-3ab3-11ee-9e74-dac502259ad0.png

ChatGPT 具有更強(qiáng)大的推理和理解本體知識(shí)的能力。

當(dāng)模型輸入或記憶中包含推理前提時(shí),ChatGPT 在各項(xiàng)推理子任務(wù)中展現(xiàn)出了很高的準(zhǔn)確性。同時(shí),與 BERT-base-uncased 模型相比,ChatGPT 的顯式推理能力也更加優(yōu)秀(97.1% vs 88.2%)。

3a70d74a-3ab3-11ee-9e74-dac502259ad0.png

總結(jié)

在本研究中,我們對(duì)預(yù)訓(xùn)練語(yǔ)言模型是否能夠在預(yù)訓(xùn)練過(guò)程中對(duì)本體知識(shí)進(jìn)行有效編碼以及是否能夠深入理解語(yǔ)義內(nèi)容進(jìn)行了全面系統(tǒng)的探討,發(fā)現(xiàn)語(yǔ)言模型確實(shí)具備一定的能力來(lái)記憶和理解本體知識(shí),并且能夠根據(jù)這些隱含的知識(shí)遵循本體知識(shí)推理規(guī)則進(jìn)行一定程度的推理。然而,模型的記憶和推理都具有局限性。同時(shí),ChatGPT 在兩個(gè)任務(wù)上的亮眼表現(xiàn)證明了模型對(duì)本體知識(shí)的記憶和理解仍具有進(jìn)一步提升的可能。

責(zé)任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1143

    瀏覽量

    40741
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7030

    瀏覽量

    89034
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    524

    瀏覽量

    10277
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    618

    瀏覽量

    13561
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2450

    瀏覽量

    2706

原文標(biāo)題:ACL 2023杰出論文 | 探測(cè)語(yǔ)言模型對(duì)本體知識(shí)的記憶與理解

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    探索高效的大型語(yǔ)言模型!大型語(yǔ)言模型的高效學(xué)習(xí)方法

    大型語(yǔ)言模型(LLMs)的應(yīng)用,提示工程(Prompt Engineering)是一種關(guān)鍵
    發(fā)表于 12-13 14:21 ?597次閱讀
    探索高效的<b class='flag-5'>大型</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>!<b class='flag-5'>大型</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的高效學(xué)習(xí)方法

    【大語(yǔ)言模型:原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

    處理預(yù)訓(xùn)練架構(gòu)Transformer,以及這些技術(shù)現(xiàn)實(shí)世界的如何應(yīng)用。通過(guò)具體案例的分析,作者展示了大語(yǔ)言模型
    發(fā)表于 04-30 15:35

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開大語(yǔ)言模型的面紗

    化能力和適應(yīng)性。自然語(yǔ)言處理任務(wù),大語(yǔ)言模型展現(xiàn)出卓越的
    發(fā)表于 05-04 23:55

    【大語(yǔ)言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    的復(fù)雜模式和長(zhǎng)距離依賴關(guān)系。 預(yù)訓(xùn)練策略: 預(yù)訓(xùn)練是LLMs訓(xùn)練過(guò)程的第一階段,模型大量的文本數(shù)據(jù)上學(xué)習(xí)語(yǔ)言的通用表示。常用的預(yù)訓(xùn)練任務(wù)包括遮蔽
    發(fā)表于 05-05 10:56

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    語(yǔ)言模型基礎(chǔ)技術(shù)21隨著Transformer結(jié)構(gòu)機(jī)器翻譯領(lǐng)域取得巨大成功,研究人員開始探索其在其他自然語(yǔ)言處理任務(wù)
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

    函數(shù),位置編碼以及其他關(guān)鍵模塊。這些模塊和設(shè)計(jì)選型都是大語(yǔ)言模型處理各種自然語(yǔ)言處理任務(wù)時(shí)的基
    發(fā)表于 05-07 17:10

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

    任務(wù)、評(píng)測(cè)集構(gòu)建標(biāo)準(zhǔn)和評(píng)測(cè)方式三個(gè)部分。特別地,為了關(guān)注大語(yǔ)言模型中文場(chǎng)景的優(yōu)化和應(yīng)用,該框架特別注重中文特有語(yǔ)境下的能力考察。其貢獻(xiàn)在于不僅能更準(zhǔn)確地反映
    發(fā)表于 05-07 17:12

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

    操作。所謂零樣本提示(Zero-Shot Prompt),指的是提示詞不包含與指令任務(wù)相似的任何示例。 當(dāng)大語(yǔ)言模型訓(xùn)練完成后,它便具
    發(fā)表于 05-07 17:21

    基因組學(xué)大型語(yǔ)言模型多項(xiàng)任務(wù)均展現(xiàn)出卓越的性能和應(yīng)用擴(kuò)展空間

    。 這一聯(lián)合團(tuán)隊(duì)的研究指出,經(jīng)過(guò)基因組學(xué)訓(xùn)練的大型語(yǔ)言模型(LLM)可將應(yīng)用擴(kuò)展到大量基因組學(xué)任務(wù)。 該團(tuán)隊(duì)使用 NVIDIA 的超級(jí)計(jì)算機(jī) Cambridge-1 來(lái)訓(xùn)練參數(shù)規(guī)模從
    的頭像 發(fā)表于 01-17 01:05 ?714次閱讀

    大型語(yǔ)言模型有哪些用途?

    大型語(yǔ)言模型能識(shí)別、總結(jié)、翻譯、預(yù)測(cè)和生成文本及其他內(nèi)容。 AI 應(yīng)用在大型語(yǔ)言模型的幫助下,可
    的頭像 發(fā)表于 02-23 19:50 ?5193次閱讀

    大型語(yǔ)言模型有哪些用途?大型語(yǔ)言模型如何運(yùn)作呢?

    大型語(yǔ)言模型能識(shí)別、總結(jié)、翻譯、預(yù)測(cè)和生成文本及其他內(nèi)容。
    的頭像 發(fā)表于 03-08 13:57 ?8042次閱讀

    大型語(yǔ)言模型能否捕捉到它們所處理和生成的文本的語(yǔ)義信息

    確實(shí)能學(xué)習(xí)和表示文本的意義。 雖然大型預(yù)訓(xùn)練語(yǔ)言模型(LLM)一系列下游任務(wù)展現(xiàn)出飛速提升的
    的頭像 發(fā)表于 05-25 11:34 ?726次閱讀
    <b class='flag-5'>大型</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>能否捕捉到它們所處理和生成的文本<b class='flag-5'>中</b>的語(yǔ)義信息

    大型語(yǔ)言模型的應(yīng)用

    該領(lǐng)域。在過(guò)去幾年中,LLM 的規(guī)模每年增加 10 倍,而且隨著這些模型的復(fù)雜程度和規(guī)模的增加,其性能也不斷發(fā)展。 大型語(yǔ)言模型現(xiàn)在正在為
    的頭像 發(fā)表于 07-05 10:27 ?2093次閱讀

    語(yǔ)言模型推斷的批處理效應(yīng)

    隨著開源預(yù)訓(xùn)練大型語(yǔ)言模型(Large Language Model, LLM )變得更加強(qiáng)大和開放,越來(lái)越多的開發(fā)者將大語(yǔ)言模型納入到他們
    的頭像 發(fā)表于 01-04 12:32 ?636次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>推斷<b class='flag-5'>中</b>的批處理效應(yīng)

    FP8數(shù)據(jù)格式大型模型訓(xùn)練的應(yīng)用

    本文主要介紹了 FP8 數(shù)據(jù)格式大型模型訓(xùn)練的應(yīng)用、挑戰(zhàn)及最佳實(shí)踐,展示了 FP8 提升訓(xùn)練速度和效率方面的潛力和
    的頭像 發(fā)表于 11-19 14:54 ?291次閱讀
    FP8數(shù)據(jù)格式<b class='flag-5'>在</b><b class='flag-5'>大型模型</b>訓(xùn)練<b class='flag-5'>中</b>的應(yīng)用