RAG(檢索增強(qiáng)生成)通過(guò)檢索系統(tǒng)找到用戶(hù)問(wèn)題相關(guān)的信息片段,利用大模型綜合生成一個(gè)答案,極大解決了大模型幻覺(jué)、信息更新不及時(shí)等問(wèn)題,已經(jīng)成為了大模型落地的重要手段。
但在檢索過(guò)程中,往往會(huì)檢索到與問(wèn)題極度相似、但又不包含答案或包含干擾答案的片段,這些答案無(wú)關(guān)片段對(duì)大模型生成答案有何影響呢?
今天正好刷到一篇相關(guān)文章,帶給大家《How Easily do Irrelevant Inputs Skew the Responses of Large Language Models?》
Paper:?https://arxiv.org/abs/2404.03302 Github:?https://github.com/Di-viner/LLM-Robustness-to-Irrelevant-Information
?
?
先放相關(guān)結(jié)論,后面補(bǔ)充相關(guān)細(xì)節(jié)。
與常見(jiàn)語(yǔ)義無(wú)關(guān)的答案無(wú)關(guān)片段相比,LLMs更容易受到高度語(yǔ)義相關(guān)的答案無(wú)關(guān)片段的影響;
隨著答案無(wú)關(guān)片段的增加,LLMs更容易分心,識(shí)別正確信息的能力降低;
LLMs對(duì)答案無(wú)關(guān)片段的的識(shí)別能力隨著問(wèn)題格式的不同有所不同,自由式問(wèn)答>是非性問(wèn)答>多項(xiàng)選擇式問(wèn)答;
系統(tǒng)提示詞中增加“忽略無(wú)關(guān)片段”等相關(guān)內(nèi)容,對(duì)LLMs的識(shí)別能力有提升,但較??;
存在高度語(yǔ)義相關(guān)的答案無(wú)關(guān)片段時(shí),COT或者ICL會(huì)導(dǎo)致LLMs過(guò)度思考,識(shí)別能力變差。
數(shù)據(jù)&片段構(gòu)造
將答案無(wú)關(guān)片段,分成三類(lèi):
無(wú)關(guān):與問(wèn)題主題無(wú)關(guān)但相似性得分高的段落
部分相關(guān):不僅在相似性度量上得分高,而且與問(wèn)題的主題部分內(nèi)容重疊
相關(guān):不僅在相似性度量上得分高,而且與問(wèn)題的主題內(nèi)容重疊,但不包含正確答案。
數(shù)據(jù)構(gòu)造:
無(wú)關(guān):通過(guò)檢索器直接檢索Top10的段落;
部分相關(guān):從檢索Top10的段落中選擇一個(gè)包含subj,但缺少obj的段落,作為前半段;然后找到一個(gè)包含錯(cuò)誤答案obj'的片段作為后半段;
相關(guān):與“部分相關(guān)”相比,“相關(guān)”片段與問(wèn)題高度語(yǔ)義相關(guān),但并不包含正確答案,主要涉及系誤導(dǎo)性聯(lián)類(lèi)型、共同特征類(lèi)型和虛構(gòu)軼事類(lèi)型。
相關(guān)樣例如下圖所示,
通過(guò)Contriever model計(jì)算不同片段相似度得分,相關(guān)和部分相關(guān)與問(wèn)題的相似度甚至比真實(shí)片段更高,說(shuō)明數(shù)據(jù)構(gòu)造有效。
評(píng)價(jià)指標(biāo):
誤表述比率(Misrepresentation Ratio,MR):LLMs因受到答案無(wú)關(guān)信息影響而改變正確回答內(nèi)容的比例,用于衡量LLMs被無(wú)關(guān)信息誤導(dǎo)的傾向;
不確定比率(Uncertainty Ratio,UR):LLMs因受到答案無(wú)關(guān)信息影響而在回答中表述“不確定”的比例,用于衡量LLMs對(duì)干擾后生成答案的信心程度。
為了方便評(píng)測(cè),采用多項(xiàng)選擇題的形式進(jìn)行LLMs評(píng)估,將“正確答案”、“錯(cuò)誤答案”以及“不確定”作為選擇供LLMs選擇。
結(jié)論實(shí)驗(yàn)
評(píng)估了LLMs在面對(duì)三個(gè)不同語(yǔ)義相關(guān)性級(jí)別的答案無(wú)關(guān)片段時(shí)的表現(xiàn),如下表所示,隨著片段的相關(guān)性增高,不同模型的效果均有所下降,對(duì)于干擾后生成的答案的信心更足。閉源模型的效果遠(yuǎn)好于開(kāi)源模型。
PS:開(kāi)源模型只做了Llama2-7B,感覺(jué)應(yīng)該補(bǔ)充補(bǔ)充~
隨著片段個(gè)數(shù)的不斷增加,LLMs分心更嚴(yán)重,如下表所示,隨著答案無(wú)關(guān)片段的數(shù)據(jù)增加,更愿意選擇無(wú)關(guān)答案。
為了方便評(píng)估,選擇多項(xiàng)選擇的形式來(lái)對(duì)LLMs進(jìn)行分析。但其他形式的問(wèn)法表現(xiàn)如何?如下表所示,自由問(wèn)答形式的問(wèn)題受答案無(wú)關(guān)片段影響最小、其次是是否類(lèi)型,影響最大的是多項(xiàng)選擇式問(wèn)題。
PS:對(duì)于自由式問(wèn)題由于沒(méi)有約束,答案較為散亂,不易評(píng)估,由采用了GPT3.5進(jìn)行了答案對(duì)齊操作,人工抽檢300條,準(zhǔn)確率在97%,認(rèn)為可靠。
忽略式Prompt對(duì)結(jié)果有微弱的改善,COT、忽略式Prompt+ICL對(duì)結(jié)果有害,效果變得更差。
寫(xiě)在最后
一個(gè)蠻有趣的實(shí)驗(yàn)報(bào)告,探索檢索片段對(duì)RAG系統(tǒng)帶來(lái)的額外影響。
審核編輯:黃飛
?
評(píng)論
查看更多