0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

最新研究綜述——探索基礎(chǔ)模型中的“幻覺”現(xiàn)象

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-09-22 16:57 ? 次閱讀

“幻覺”問題即模型生成的內(nèi)容可能包含虛構(gòu)的信息。它不僅在大語(yǔ)言模型(LLMs)中存在,也存在于圖像、視頻音頻等其他一系列基礎(chǔ)模型中。

針對(duì)這一問題,一篇最近的綜述論文對(duì)目前所有基礎(chǔ)模型的“幻覺”問題進(jìn)行了第一次全面的調(diào)查,詳細(xì)分類了各類基礎(chǔ)模型中的幻覺現(xiàn)象,審視了現(xiàn)有的減輕幻覺問題的策略,并提出了一套用于評(píng)估幻覺程度的標(biāo)準(zhǔn)。

3eef975a-591e-11ee-939d-92fbcf53809c.png

Paper:A Survey of Hallucination in “Large” Foundation Models
Link:https://arxiv.org/pdf/2309.05922.pdf

注:本篇解讀僅對(duì)部分文獻(xiàn)進(jìn)行總結(jié),更多細(xì)節(jié)請(qǐng)進(jìn)一步閱讀原論文綜述。

前言

基礎(chǔ)模型Foundation Models(FMs)是通過自監(jiān)督學(xué)習(xí)方法,在大量未標(biāo)簽數(shù)據(jù)上訓(xùn)練得來的AI模型。這些模型不僅可以在圖像分類、自然語(yǔ)言處理和問答等多個(gè)領(lǐng)域中提供高精度的表現(xiàn),還可以處理涉及創(chuàng)作和人際互動(dòng)的任務(wù),比如制作營(yíng)銷內(nèi)容或根據(jù)簡(jiǎn)短提示創(chuàng)作復(fù)雜藝術(shù)品。

雖然基礎(chǔ)模型非常強(qiáng)大,但在將其適配到企業(yè)應(yīng)用時(shí)也會(huì)遇到一系列的挑戰(zhàn),其中一個(gè)重要的問題就是“幻覺”現(xiàn)象?!盎糜X”現(xiàn)象是指模型生成包含虛假信息或完全捏造的細(xì)節(jié)。這主要是因?yàn)槟P透鶕?jù)訓(xùn)練數(shù)據(jù)中學(xué)到的模式來創(chuàng)造看似合理的內(nèi)容,即便這樣的內(nèi)容與真實(shí)情況相去甚遠(yuǎn)。

這種“幻覺”現(xiàn)象可能是無(wú)意中產(chǎn)生的,它可以由多種因素導(dǎo)致,包括訓(xùn)練數(shù)據(jù)集中存在的偏見、模型不能獲取最新的信息,或是其在理解和生成準(zhǔn)確回應(yīng)時(shí)的固有限制。為了確保我們可以安全、有效地利用基礎(chǔ)模型,特別是在新聞、醫(yī)療和法律等需要事實(shí)準(zhǔn)確的領(lǐng)域,我們必須認(rèn)真對(duì)待和解決“幻覺”問題。目前,研究人員正在努力探索各種方式來減少“幻覺”現(xiàn)象,從而提高模型的可靠性和信任度。

下圖展示了本篇綜述的一個(gè)基本框架,主要從文本、圖片、音頻和語(yǔ)音等領(lǐng)域來總結(jié)目前的研究。其中,文本又可以進(jìn)一步細(xì)分為L(zhǎng)LMs,多語(yǔ)言LLMs和特定領(lǐng)域的LLMs(如新聞、醫(yī)療等領(lǐng)域)。

3f10b9c6-591e-11ee-939d-92fbcf53809c.png

LLM的幻覺問題

幻覺檢測(cè)和修正方法

SELFCHECKGPT [1] 是一個(gè)用于監(jiān)控和糾正LLMs中的“幻覺”現(xiàn)象的工具,它能夠識(shí)別模型生成的不準(zhǔn)確或未驗(yàn)證的信息,無(wú)需額外資源或標(biāo)記數(shù)據(jù)。這種方法能夠在沒有外部指南或數(shù)據(jù)集的情況下提高LLMs的可靠性和可信度。

PURR [2] 則專注于編輯和糾正語(yǔ)言模型中的誤導(dǎo)信息,它通過利用去噪語(yǔ)言模型的損壞來識(shí)別和修正幻覺,目的是提升模型輸出的質(zhì)量和準(zhǔn)確性。

幻覺檢測(cè)數(shù)據(jù)集

幻覺問題通常和知識(shí)缺口有關(guān)。但研究 [3] 提出,有時(shí)模型會(huì)嘗試合理化之前生成的錯(cuò)誤信息,從而產(chǎn)生更多的誤導(dǎo)內(nèi)容。為了深入研究這一現(xiàn)象,這項(xiàng)研究創(chuàng)建了三個(gè)問答數(shù)據(jù)集來收集模型產(chǎn)生錯(cuò)誤答案和附帶虛假斷言的實(shí)例。

HaluEval [4] 提供了一個(gè)綜合基準(zhǔn)來評(píng)估LLMs中的幻覺問題,幫助研究人員和開發(fā)人員更好地理解和提高模型的可靠性。

利用外部知識(shí)來緩解幻覺問題

為了減輕LLM的幻覺問題,研究人員正在探索如何利用外部知識(shí)來提高模型的輸出質(zhì)量和準(zhǔn)確性。其中,[5] 提出了一種交互式問題-知識(shí)對(duì)齊方法,側(cè)重于將生成的文本與相關(guān)的事實(shí)知識(shí)對(duì)齊,使用戶能夠交互式地指導(dǎo)模型的回答,以產(chǎn)生更準(zhǔn)確和可靠的信息。類似地,[6] 提出了LLMAUGMENTER方法,結(jié)合外部知識(shí)來源和自動(dòng)化反饋機(jī)制來提高LLM輸出的準(zhǔn)確性和可靠性。而 [7] 提出了“知識(shí)鏈”框架來鏈接LLMs和結(jié)構(gòu)化知識(shí)庫(kù)。

此外,相比于其更大的對(duì)應(yīng)體,小型開源LLMs通常會(huì)遇到更嚴(yán)重的幻覺問題。為了解決這個(gè)問題,[8] 提出了一系列方法來評(píng)估和減輕BLOOM 7B這類弱小型開源LLMs的幻覺問題。

采用prompting來緩解幻覺問題

也有研究致力于通過prompting來減少LLMs生成的不準(zhǔn)確或幻覺信息。[9] 在2023年提出了一種由迭代提示指導(dǎo)的方法來去除LLMs的幻覺,提高輸出的準(zhǔn)確性和可靠性。

多語(yǔ)言LLM的幻覺問題

大型多語(yǔ)言機(jī)器翻譯系統(tǒng)在直接翻譯多種語(yǔ)言方面展示了令人印象深刻的能力。但是,這些模型可能會(huì)產(chǎn)生“幻覺翻譯”,在部署時(shí)會(huì)引發(fā)信任和安全問題。目前關(guān)于幻覺的研究主要集中在小型雙語(yǔ)模型和高資源語(yǔ)言上,這留下了一個(gè)空白:在多種翻譯場(chǎng)景中大規(guī)模多語(yǔ)言模型的幻覺理解。

為了解決這個(gè)問題,[10] 對(duì)傳統(tǒng)的神經(jīng)機(jī)器翻譯模型的M2M家族和ChatGPT進(jìn)行了全面的分析,后者可以用于提示翻譯。這項(xiàng)調(diào)查涵蓋了廣泛的語(yǔ)言背景,包括100多個(gè)翻譯方向。

特定領(lǐng)域LLM的幻覺問題

在諸如醫(yī)學(xué)、銀行、金融、法律等關(guān)鍵領(lǐng)域中,可靠性和準(zhǔn)確性是至關(guān)重要的,任何形式的幻覺都可能對(duì)結(jié)果和操作產(chǎn)生重大和有害的影響。

醫(yī)學(xué):LLMs中的幻覺問題,特別是在醫(yī)學(xué)領(lǐng)域,生成看似合理但不準(zhǔn)確的信息可能是有害的。為了解決這個(gè)問題,[11] 引入了一個(gè)名為Med-HALT(醫(yī)學(xué)領(lǐng)域幻覺測(cè)試)的新基準(zhǔn)和數(shù)據(jù)集。它專門設(shè)計(jì)用于評(píng)估和減輕LLMs中的幻覺。它包括來自不同國(guó)家的醫(yī)學(xué)檢查的多元化的多國(guó)數(shù)據(jù)集,并包括創(chuàng)新的測(cè)試方法。Med-HALT包括兩類測(cè)試:基于推理和基于記憶的幻覺測(cè)試,旨在評(píng)估LLMs在醫(yī)學(xué)背景下的問題解決和信息檢索能力。

法律:ChatLaw [12]是一個(gè)專門用于法律領(lǐng)域的開源LLM。為了確保高質(zhì)量的數(shù)據(jù),作者們創(chuàng)建了一個(gè)精心設(shè)計(jì)的法律領(lǐng)域微調(diào)數(shù)據(jù)集。為了解決法律數(shù)據(jù)篩選過程中模型幻覺的問題,他們提出了一種將矢量數(shù)據(jù)庫(kù)檢索與關(guān)鍵字檢索相結(jié)合的方法。這種方法有效地減少了在法律背景下僅依賴矢量數(shù)據(jù)庫(kù)檢索來檢索參考數(shù)據(jù)時(shí)可能出現(xiàn)的不準(zhǔn)確性。

大圖像模型中的幻覺問題

對(duì)比學(xué)習(xí)模型利用Siamese結(jié)構(gòu)在自監(jiān)督學(xué)習(xí)中展示了令人印象深刻的表現(xiàn)。它們的成功依賴于兩個(gè)關(guān)鍵條件:存在足夠數(shù)量的正樣本對(duì),并在它們之間存在充足的變化。如果不滿足這些條件,這些框架可能缺乏有意義的語(yǔ)義區(qū)別并容易過擬合。為了解決這些挑戰(zhàn),[13] 引入了Hallucinator,它可以高效地生成額外的正樣本來增強(qiáng)對(duì)比。Hallucinator是可微分的,在特征空間中運(yùn)作,使其適合直接在預(yù)訓(xùn)練任務(wù)中進(jìn)行優(yōu)化,同時(shí)帶來最小的計(jì)算開銷。

受LLMs的啟發(fā),為復(fù)雜的多模態(tài)任務(wù)加強(qiáng)LVLMs面臨一個(gè)重大的挑戰(zhàn):對(duì)象幻覺,其中LVLMs在描述中生成不一致的對(duì)象。[14] 系統(tǒng)地研究了指令調(diào)整的大視覺語(yǔ)言模型(LVLMs)中的對(duì)象幻覺問題,并發(fā)現(xiàn)這是一個(gè)常見問題。視覺指令,特別是經(jīng)常出現(xiàn)或共同出現(xiàn)的對(duì)象,影響了這個(gè)問題。現(xiàn)有的評(píng)估方法也受到輸入指令和LVLM生成樣式的影響。為了解決這個(gè)問題,該研究引入了一種改進(jìn)的評(píng)估方法,稱為POPE,為L(zhǎng)VLMs中的對(duì)象幻覺提供了更穩(wěn)定和靈活的評(píng)估。

LVLMs在處理各種多模態(tài)任務(wù)方面取得了重大進(jìn)展,包括視覺問題回答(VQA)。然而,為這些模型生成詳細(xì)和視覺上準(zhǔn)確的回答仍然是一個(gè)挑戰(zhàn)。即使是最先進(jìn)的LVLMs,如InstructBLIP,也存在高幻覺文本率,包括30%的不存在的對(duì)象、不準(zhǔn)確的描述和錯(cuò)誤的關(guān)系。為了解決這個(gè)問題,[15] 引入了MHalDetect1,這是一個(gè)多模態(tài)幻覺檢測(cè)數(shù)據(jù)集,專為訓(xùn)練和評(píng)估旨在檢測(cè)和預(yù)防幻覺的模型而設(shè)計(jì)。MHalDetect包含16000個(gè)關(guān)于VQA示例的精細(xì)詳細(xì)注釋,使其成為檢測(cè)詳細(xì)圖像描述中幻覺的首個(gè)全面數(shù)據(jù)集。

大視頻模型中的幻覺問題

幻覺可能發(fā)生在模型對(duì)視頻幀做出錯(cuò)誤或富有想象的假設(shè)時(shí),導(dǎo)致產(chǎn)生人工或錯(cuò)誤的視覺信息,如下圖所示。

3f34d090-591e-11ee-939d-92fbcf53809c.png

一個(gè)解決方法是通過一種能夠生動(dòng)地將人插入場(chǎng)景的方法來理解場(chǎng)景可供性的挑戰(zhàn)。[16] 使用標(biāo)有區(qū)域的場(chǎng)景圖像和一個(gè)人的圖像,該模型無(wú)縫地將人集成到場(chǎng)景中,同時(shí)考慮場(chǎng)景的特點(diǎn)。該模型能夠根據(jù)場(chǎng)景環(huán)境推斷出現(xiàn)實(shí)的姿勢(shì),相應(yīng)地調(diào)整人的姿勢(shì),并確保視覺上令人愉悅的構(gòu)圖。自我監(jiān)督訓(xùn)練使模型能夠在尊重場(chǎng)景環(huán)境的同時(shí)生成各種可能的姿勢(shì)。此外,該模型還可以自行生成逼真的人和場(chǎng)景,允許進(jìn)行交互式編輯。

VideoChat [17] 是一個(gè)全面的系統(tǒng),采用面向聊天的方法來理解視頻。VideoChat將基礎(chǔ)視頻模型與LLMs結(jié)合,使用一個(gè)可適應(yīng)的神經(jīng)界面,展示出在理解空間、時(shí)間、事件定位和推斷因果關(guān)系方面的卓越能力。為了有效地微調(diào)這個(gè)系統(tǒng),他們引入了一個(gè)專門為基于視頻的指導(dǎo)設(shè)計(jì)的數(shù)據(jù)集,包括成千上萬(wàn)的與詳細(xì)描述和對(duì)話配對(duì)的視頻。這個(gè)數(shù)據(jù)集強(qiáng)調(diào)了時(shí)空推理和因果關(guān)系等技能,使其成為訓(xùn)練面向聊天的視頻理解系統(tǒng)的有價(jià)值的資源。

最近在視頻修復(fù)方面取得了顯著的進(jìn)步,特別是在光流這樣的顯式指導(dǎo)可以幫助將缺失的像素傳播到各個(gè)幀的情況下。然而,當(dāng)跨幀信息缺失時(shí),就會(huì)出現(xiàn)挑戰(zhàn)。因此,模型集中解決逆向問題,而不是從其他幀借用像素。[18] 引入了一個(gè)雙模態(tài)兼容的修復(fù)框架,稱為Deficiency-aware Masked Transformer(DMT)。預(yù)訓(xùn)練一個(gè)圖像修復(fù)模型來作為訓(xùn)練視頻模型的先驗(yàn)有一個(gè)優(yōu)點(diǎn),可以改善處理信息不足的情況。

視頻字幕的目標(biāo)是使用自然語(yǔ)言來描述視頻事件,但它經(jīng)常引入事實(shí)錯(cuò)誤,降低了文本質(zhì)量。盡管在文本到文本的任務(wù)中已經(jīng)廣泛研究了事實(shí)一致性,但在基于視覺的文本生成中卻受到了較少的關(guān)注。[19] 對(duì)視頻字幕中的事實(shí)進(jìn)行了詳細(xì)的人類評(píng)估,揭示了57.0%的模型生成的句子包含事實(shí)錯(cuò)誤。現(xiàn)有的評(píng)估指標(biāo)主要基于n-gram匹配,與人類評(píng)估不太一致。為了解決這個(gè)問題,他們引入了一個(gè)基于模型的事實(shí)度量稱為FactVC,它在評(píng)估視頻字幕中的事實(shí)度方面優(yōu)于之前的指標(biāo)。

大型音頻模型中的幻覺

自動(dòng)音樂字幕,即為音樂曲目生成文本描述,有可能增強(qiáng)對(duì)龐大音樂數(shù)據(jù)的組織?,F(xiàn)有音樂語(yǔ)言數(shù)據(jù)集的大小有限,收集過程昂貴。為了解決這種稀缺,[20] 使用了LLMs從廣泛的標(biāo)簽數(shù)據(jù)集生成描述。他們創(chuàng)建了一個(gè)名為L(zhǎng)P-MusicCaps的數(shù)據(jù)集,包含約220萬(wàn)個(gè)與50萬(wàn)個(gè)音頻剪輯配對(duì)的字幕。他們還使用各種量化自然語(yǔ)言處理指標(biāo)和人類評(píng)估對(duì)這個(gè)大規(guī)模音樂字幕數(shù)據(jù)集進(jìn)行了全面評(píng)估。他們?cè)谶@個(gè)數(shù)據(jù)集上訓(xùn)練了一個(gè)基于變換器的音樂字幕模型,并在零射擊和遷移學(xué)習(xí)場(chǎng)景中評(píng)估了其性能。

理想情況下,視頻應(yīng)該增強(qiáng)音頻,[21]使用了一個(gè)先進(jìn)的語(yǔ)言模型進(jìn)行數(shù)據(jù)擴(kuò)充,而不需要人工標(biāo)注。此外,他們利用音頻編碼模型有效地適應(yīng)了一個(gè)預(yù)訓(xùn)練的文本到圖像生成模型,用于文本到音頻生成。

幻覺并非總是有害

從一個(gè)不同的角度來看,[22]討論了幻覺模型如何可以提供創(chuàng)意,提供可能不完全基于事實(shí)但仍然提供有價(jià)值線索來探索的輸出。創(chuàng)意地利用幻覺可以帶來不容易被大多數(shù)人想到的結(jié)果或新奇的創(chuàng)意組合?!盎糜X”變得有害是當(dāng)生成的陳述事實(shí)上不準(zhǔn)確或違反普遍的人類、社會(huì)或特定文化規(guī)范時(shí)。這在一個(gè)人依賴LLM來提供專家知識(shí)的情況下尤其關(guān)鍵。然而,在需要?jiǎng)?chuàng)意或藝術(shù)的背景下,產(chǎn)生不可預(yù)見結(jié)果的能力可能相當(dāng)有利。對(duì)查詢的意外響應(yīng)可以驚喜人類并激發(fā)發(fā)現(xiàn)新奇想法聯(lián)系的可能性。

結(jié)論與未來方向

這篇綜述對(duì)現(xiàn)有關(guān)于基礎(chǔ)模型內(nèi)部的幻覺問題進(jìn)行了簡(jiǎn)單的分類和分析,研究涵蓋了幻覺檢測(cè),緩解,數(shù)據(jù)集,以及評(píng)估標(biāo)準(zhǔn)。以下是一些可能的未來研究方向。

對(duì)幻覺的自動(dòng)評(píng)估

幻覺指的是AI模型生成的不正確或捏造的信息。在像文本生成這樣的應(yīng)用中,這可能是一個(gè)重大的問題,因?yàn)槟繕?biāo)是提供準(zhǔn)確和可靠的信息。以下是對(duì)錯(cuò)覺自動(dòng)評(píng)估的潛在未來方向:

評(píng)估指標(biāo)的開發(fā):研究者可以努力創(chuàng)建能夠檢測(cè)生成內(nèi)容中的幻覺的專門的評(píng)估指標(biāo)。這些指標(biāo)可能會(huì)考慮事實(shí)的準(zhǔn)確性、連貫性和一致性。可以訓(xùn)練高級(jí)機(jī)器學(xué)習(xí)模型根據(jù)這些指標(biāo)評(píng)估生成的文本。

人工智能合作:將人類判斷與自動(dòng)評(píng)估系統(tǒng)結(jié)合是一個(gè)有前景的方向。眾包平臺(tái)可以用來收集人類對(duì)AI生成內(nèi)容的評(píng)估,然后用于訓(xùn)練自動(dòng)評(píng)估的模型。這種混合方法可以幫助捕捉對(duì)自動(dòng)系統(tǒng)來說具有挑戰(zhàn)性的細(xì)微差別。

對(duì)抗性測(cè)試:研究者可以開發(fā)對(duì)抗性測(cè)試方法,其中AI系統(tǒng)被暴露于專門設(shè)計(jì)的輸入,以觸發(fā)幻覺。這有助于識(shí)別AI模型的弱點(diǎn)并提高其抵抗錯(cuò)覺的魯棒性。

微調(diào)策略:特別為減少幻覺而微調(diào)預(yù)訓(xùn)練的語(yǔ)言模型是另一個(gè)潛在的方向。模型可以在強(qiáng)調(diào)事實(shí)檢查和準(zhǔn)確性的數(shù)據(jù)集上進(jìn)行微調(diào),以鼓勵(lì)生成更可靠的內(nèi)容。

改進(jìn)檢測(cè)和緩解幻覺的策略

檢測(cè)和緩解AI生成文本中的偏見、錯(cuò)誤信息和低質(zhì)量?jī)?nèi)容對(duì)于負(fù)責(zé)任的AI開發(fā)至關(guān)重要。策劃的知識(shí)來源在實(shí)現(xiàn)這一目標(biāo)中可以起到重要作用。以下是一些未來的方向:

知識(shí)圖譜集成:將知識(shí)圖譜和策劃的知識(shí)庫(kù)集成到AI模型中可以增強(qiáng)它們對(duì)事實(shí)信息和概念之間關(guān)系的理解。這既可以幫助生成內(nèi)容,也可以幫助事實(shí)檢查。

事實(shí)檢查和驗(yàn)證模型:開發(fā)專門的模型,專注于事實(shí)檢查和內(nèi)容驗(yàn)證。這些模型可以使用策劃的知識(shí)來源來交叉引用生成的內(nèi)容,識(shí)別不準(zhǔn)確或不一致之處。

偏見檢測(cè)和緩解:策劃的知識(shí)來源可以用來訓(xùn)練AI模型識(shí)別和減少生成內(nèi)容中的偏見。AI系統(tǒng)可以被編程來檢查內(nèi)容是否存在潛在的偏見,并提議更加平衡的替代方案。

主動(dòng)學(xué)習(xí):通過主動(dòng)學(xué)習(xí)不斷更新和完善策劃的知識(shí)來源。AI系統(tǒng)可以被設(shè)計(jì)為尋求人類對(duì)模糊或新信息的輸入和驗(yàn)證,從而提高策劃知識(shí)的質(zhì)量。

道德指導(dǎo)和監(jiān)管:未來的方向還可能包括為AI開發(fā)中使用外部知識(shí)來源制定道德指南和監(jiān)管框架。這可以確保負(fù)責(zé)任和透明地使用策劃知識(shí)來緩解潛在風(fēng)險(xiǎn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30887

    瀏覽量

    269065
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3243

    瀏覽量

    48836
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    524

    瀏覽量

    10277
  • 知識(shí)圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    7707

原文標(biāo)題:最新研究綜述——探索基礎(chǔ)模型中的“幻覺”現(xiàn)象

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    大型語(yǔ)言模型在關(guān)鍵任務(wù)和實(shí)際應(yīng)用的挑戰(zhàn)

    大型語(yǔ)言模型的出現(xiàn)極大地推動(dòng)了自然語(yǔ)言處理領(lǐng)域的進(jìn)步,但同時(shí)也存在一些局限性,比如模型可能會(huì)產(chǎn)生看似合理但實(shí)際上是錯(cuò)誤或虛假的內(nèi)容,這一現(xiàn)象被稱為幻覺(hallucination)。
    的頭像 發(fā)表于 08-15 09:33 ?1520次閱讀
    大型語(yǔ)言<b class='flag-5'>模型</b>在關(guān)鍵任務(wù)和實(shí)際應(yīng)用<b class='flag-5'>中</b>的挑戰(zhàn)

    TaD+RAG-緩解大模型幻覺”的組合新療法

    TaD:任務(wù)感知解碼技術(shù)(Task-aware Decoding,簡(jiǎn)稱TaD),京東聯(lián)合清華大學(xué)針對(duì)大語(yǔ)言模型幻覺問題提出的一項(xiàng)技術(shù),成果收錄于IJCAI2024。 RAG:檢索增強(qiáng)生成技術(shù)
    的頭像 發(fā)表于 07-16 15:01 ?2054次閱讀
    TaD+RAG-緩解大<b class='flag-5'>模型</b>“<b class='flag-5'>幻覺</b>”的組合新療法

    【大語(yǔ)言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    其預(yù)訓(xùn)練和微調(diào),直到模型的部署和性能評(píng)估。以下是對(duì)這些技術(shù)的綜述模型架構(gòu): LLMs通常采用深層的神經(jīng)網(wǎng)絡(luò)架構(gòu),最常見的是Transformer網(wǎng)絡(luò),它包含多個(gè)自注意力層,能夠捕捉輸入數(shù)據(jù)
    發(fā)表于 05-05 10:56

    【大語(yǔ)言模型:原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》2.0

    《大語(yǔ)言模型“原理與工程實(shí)踐”》是關(guān)于大語(yǔ)言模型內(nèi)在機(jī)理和應(yīng)用實(shí)踐的一次深入探索。作者不僅深入討論了理論,還提供了豐富的實(shí)踐案例,幫助讀者理解如何將理論知識(shí)應(yīng)用于解決實(shí)際問題。書中的案例分析有助于
    發(fā)表于 05-07 10:30

    圖像的文本定位技術(shù)研究綜述_晉瑾 電子書

    圖像的文本定位技術(shù)研究綜述_晉瑾
    發(fā)表于 06-29 12:24

    有限集模型預(yù)測(cè)控制策略綜述

    有限集模型預(yù)測(cè)控制的綜述
    發(fā)表于 11-20 11:27

    數(shù)字流域研究綜述

    本文對(duì)數(shù)字流域的框架研究、基礎(chǔ)平臺(tái)建設(shè)、數(shù)字流域模型及相關(guān)技術(shù)、數(shù)字流域應(yīng)用系統(tǒng)建設(shè)四個(gè)方面的研究進(jìn)展進(jìn)行了綜述。數(shù)字流域的整體框架可分為三層:數(shù)據(jù)層、
    發(fā)表于 04-07 12:16 ?26次下載

    基于深度學(xué)習(xí)的文本主題模型研究綜述

    基于深度學(xué)習(xí)的文本主題模型研究綜述
    發(fā)表于 06-24 11:49 ?68次下載

    電子器件靜電現(xiàn)象的防護(hù)技術(shù)綜述

    電子器件靜電現(xiàn)象的防護(hù)技術(shù)綜述
    發(fā)表于 07-13 09:23 ?29次下載

    OpenAI稱找到新方法減輕大模型幻覺

    據(jù)說,如果open ai開發(fā)的chatgpt和谷歌開發(fā)的bard等模型完全捏造信息,就像羅列事實(shí)一樣,顯示ai的“幻覺(hallucination)”。例如,在谷歌今年2月公開的bard宣傳視頻,聊天機(jī)器人對(duì)詹姆斯-韋伯太空望
    的頭像 發(fā)表于 06-02 09:50 ?1882次閱讀

    模型現(xiàn)存的10個(gè)問題和挑戰(zhàn)

    減輕幻覺問題并開發(fā)用于衡量幻覺的度量標(biāo)準(zhǔn)是一個(gè)蓬勃發(fā)展的研究課題。有許多初創(chuàng)公司專注于解決這個(gè)問題。還有一些降低幻覺的方法,例如在提示添加
    的頭像 發(fā)表于 09-05 17:05 ?1027次閱讀

    模型現(xiàn)存的10個(gè)問題和挑戰(zhàn)

    來源:Coggle數(shù)據(jù)科學(xué)大模型現(xiàn)存的問題和挑戰(zhàn)這篇文章介紹了關(guān)于大型語(yǔ)言模型(LLMs)研究的十個(gè)主要方向和問題:1.減少和度量幻覺
    的頭像 發(fā)表于 09-04 16:42 ?1742次閱讀
    大<b class='flag-5'>模型</b>現(xiàn)存的10個(gè)問題和挑戰(zhàn)

    幻覺降低30%!首個(gè)多模態(tài)大模型幻覺修正工作Woodpecker

    ;這一現(xiàn)象,如下圖所示: 圖中體現(xiàn)了兩種幻覺,紅色部分錯(cuò)誤地描述了狗的顏色( 屬性幻覺 ),藍(lán)色部分描述了圖中實(shí)際不存在的事物( 目標(biāo)幻覺 )。幻覺
    的頭像 發(fā)表于 10-30 11:05 ?497次閱讀
    <b class='flag-5'>幻覺</b>降低30%!首個(gè)多模態(tài)大<b class='flag-5'>模型</b><b class='flag-5'>幻覺</b>修正工作Woodpecker

    LLM的幻覺問題最新綜述

    幻覺被描述為無(wú)意義或不忠實(shí)于所提供源內(nèi)容的生成內(nèi)容。根據(jù)與源內(nèi)容的矛盾,這些幻覺又進(jìn)一步分為內(nèi)在幻覺和外在幻覺。在LLMs,
    的頭像 發(fā)表于 11-22 17:40 ?1095次閱讀
    LLM的<b class='flag-5'>幻覺</b>問題最新<b class='flag-5'>綜述</b>

    阿里達(dá)摩院提出“知識(shí)鏈”框架,降低大模型幻覺

    近日,阿里巴巴達(dá)摩院(湖畔實(shí)驗(yàn)室)攜手新加坡南洋理工大學(xué)等研究機(jī)構(gòu),共同推出了大模型知識(shí)鏈(CoK)框架。該框架不僅可實(shí)時(shí)檢索異構(gòu)知識(shí)源,還能逐步糾正推理錯(cuò)誤,有效提高了大模型在回答知識(shí)型問題時(shí)的準(zhǔn)確率,并顯著降低了所謂的“
    的頭像 發(fā)表于 05-10 11:46 ?694次閱讀