本文作者:程思源(浙江大學(xué))、田博中(浙江大學(xué))、劉慶斌(騰訊)、陳曦(騰訊)、王永恒(之江實(shí)驗(yàn)室)、陳華鈞(浙江大學(xué))、張寧豫(浙江大學(xué))
在博士畢業(yè)就有10篇ACL一作的師兄指導(dǎo)下是種什么體驗(yàn)
引言
世界不但是文字的世界,我們生活的世界本質(zhì)上是多模態(tài)的。我們需要不斷處理和整合來自不同模態(tài)的信息,如視覺信息、聽覺信息等,利用這些信息我們可以更好地與周圍環(huán)境互動,提升認(rèn)知世界的能力。隨著OpenAI開放了ChatGPT的多模態(tài)功能,多模態(tài)大語言模型再一次成為了焦點(diǎn)?,F(xiàn)有的主流多模態(tài)大語言模型框架是利用訓(xùn)練好的大語言模型和圖像編碼器,用一個圖文特征對齊模塊進(jìn)行連接,從而讓語言模型能夠理解圖像特征并進(jìn)行更深層的問答推理。代表作有VisualGLM、BLIP 2和MiniGPT-4等。
但是目前復(fù)雜的多模態(tài)大語言模型都面臨一個重大的挑戰(zhàn):對象幻覺(Object Hallucination)。就算是高質(zhì)量的多模態(tài)語言模型,比如InstructBLIP,也存在高幻覺的文本率。多模態(tài)模型幻覺的主要原因可能有兩點(diǎn):1、多模態(tài)指令微調(diào)過程導(dǎo)致LVLMs 更容易在多模態(tài)指令數(shù)據(jù)集中頻繁出現(xiàn)/共現(xiàn)的物體上產(chǎn)生幻覺;2、一些幻覺繼承于原先的LLMs,由于使用的LLMs本來就存在一些錯誤/謬誤知識,導(dǎo)致多模態(tài)語言模型也繼承了這些錯誤知識,從而出現(xiàn)幻覺。
最近隨著一種可以精確修改模型中特定知識的范式出現(xiàn),對解決模型幻覺問題提供了一個新的可行性思路,這種方法被稱作模型編輯。模型編輯可以在不重新訓(xùn)練模型的基礎(chǔ)上,去修改模型的參數(shù)知識,這可以節(jié)約大量的資源。但是現(xiàn)有的模型編輯技術(shù)大部分都是針對單模態(tài)的,那多模態(tài)的模型是否是可編輯的呢?本文就是去探究編輯多模態(tài)大語言模型的可行性,作者構(gòu)建了多模態(tài)語言模型知識編輯場景的benckmark,即設(shè)計了多模態(tài)模型編輯的指標(biāo)和構(gòu)建了相關(guān)數(shù)據(jù)集。并類比人類視覺問答場景,提出了編輯多模態(tài)語言模型的兩種方式。其中多模態(tài)模型編輯的展示如下圖所示:
MMEdit
指標(biāo)
不同于單模態(tài)模型編輯,多模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單模態(tài)模型編輯入手,將單模態(tài)模型編輯拓展到多模態(tài)模型編輯,主要從以下三個方面:可靠性(Reliability),穩(wěn)定性(Locality)和泛化性(Generality)。
可靠性:模型編輯需要能夠保證正確修改模型的知識,可靠性就是衡量編輯后模型的準(zhǔn)確率。多模態(tài)模型編輯亦是如此,作者定義如下:
穩(wěn)定性:穩(wěn)定性是判別模型編輯影響模型其余知識的程度。模型編輯希望在編輯完相關(guān)知識過后,不影響模型中其余的一些知識。多模態(tài)模型編輯與單模態(tài)不同,由于我們需要編輯多個模型區(qū)域,所以我們需要判斷多模態(tài)模型進(jìn)行編輯之后到底是對哪部分產(chǎn)生的影響多,哪部分少。所以作者提出了兩種穩(wěn)定性測試:T-Locality和M-Locality,一個測試純語言模型的穩(wěn)定性,一個測試多模態(tài)整體模型的穩(wěn)定性,其定義如下:
泛化性:編輯需要對一定編輯范圍內(nèi)的數(shù)據(jù)都要具有編輯效應(yīng),單模態(tài)模型編輯泛化性只考慮一種數(shù)據(jù)形式,即同義語義集合。多模態(tài)模型需要考慮更多模態(tài)數(shù)據(jù),VLMs多增加了一個圖片模態(tài)數(shù)據(jù),所以作者提出兩種泛化性指標(biāo):
數(shù)據(jù)集
對于上述所有評估指標(biāo),本文作者都構(gòu)造了對應(yīng)的數(shù)據(jù)集來進(jìn)行測試,其中針對可靠性數(shù)據(jù)集,作者收集了現(xiàn)有多模態(tài)大語言模型表現(xiàn)不佳的任務(wù)數(shù)據(jù)來作為編輯對象數(shù)據(jù)集,本文采用兩個不同的多模態(tài)任務(wù)分別是VQA和Image Caption。并設(shè)計兩種任務(wù)編輯數(shù)據(jù)集E-VQA和E-IC。
對于泛化性數(shù)據(jù),多模態(tài)模型由于本身的數(shù)據(jù)也是多模態(tài)的,所以需要考慮更多模態(tài)的泛化數(shù)據(jù)情況。其中多模態(tài)泛化性數(shù)據(jù)例子如下:
對文本數(shù)據(jù),本文作者利用不同的方法構(gòu)造相關(guān)泛化數(shù)據(jù)集。首先對于VQA數(shù)據(jù),文章作者使用ChatGLM去生成文本類的泛化數(shù)據(jù)集,通過構(gòu)造相關(guān)的prompt,讓對話模型吐出相似句子。Image Caption任務(wù)由于其本身的數(shù)據(jù)比較簡單,生成效果并不佳,所以作者人工構(gòu)建了幾十條相似文本數(shù)據(jù),然后通過隨機(jī)替換的方式作為Image Caption任務(wù)的泛化數(shù)據(jù)集。
然后對于圖片數(shù)據(jù),作者利用COCO數(shù)據(jù)集中提供的圖片描述。通過現(xiàn)有效果非常不錯的圖片生成模型Stable Diffusion 2.1來生成與圖片描述相似的圖片。具體構(gòu)造流程如下圖所示:
對于穩(wěn)定性數(shù)據(jù)集,作者為了考量編輯不同區(qū)域?qū)δP偷挠绊?,所以將穩(wěn)定性數(shù)據(jù)分為了Text Stability測試數(shù)據(jù)和Vision Stability測試數(shù)據(jù)。這部分?jǐn)?shù)據(jù)不用構(gòu)造,作者直接使用了之前的已有數(shù)據(jù)集。對于文本,沿用MEND中的NQ數(shù)據(jù)集,對于多模態(tài)數(shù)據(jù),文章使用了多模態(tài)中比較簡單的問答數(shù)據(jù)集OK-VQA作為測試數(shù)據(jù)集。
最后數(shù)據(jù)集統(tǒng)計如下:
多模態(tài)模型編輯
對于如何去編輯多模態(tài)語言模型,文章類比人類視覺問答場景出錯場景,來設(shè)計多模態(tài)模型編輯實(shí)驗(yàn)。以VQA任務(wù)為例子,人類在做VQA題目時有兩種出錯的可能:
視覺出錯:人類可能在圖片識別這個階段就出錯,可能是看錯,也有可能是視覺細(xì)胞本身就存在問題。例如人類色盲患者沒有辦法正確識別圖片的顏色特征,就會在顏色識別的任務(wù)上出錯。針對這個,文章作者提出了Vision Edit,針對VLMs的視覺模塊進(jìn)行編輯。
知識出錯:人類可能正確識別了圖片中的關(guān)鍵特征,但是本身的知識庫里卻沒有相關(guān)特征的知識,這就導(dǎo)致人犯“指鹿為馬”的失誤。針對這個問題,作者提出了Language Edit,由于多模態(tài)語言模型的知識庫都來自于LLMs,所以這部分編輯也就是針對語言模型。
多模態(tài)模型編輯的主要流程圖作如下圖所示:
實(shí)驗(yàn)
文章實(shí)驗(yàn)展示了現(xiàn)有主流的編輯方法在多模態(tài)大語言模型上的編輯效果,并對比了一些傳統(tǒng)的基于微調(diào)的處理方法。結(jié)果展示如下:
可以看到微調(diào)的效果都比較一般,而且會對于模型中的其他知識造成災(zāi)難性遺忘。模型編輯在可靠性上表現(xiàn)的都還不錯,并且對于模型的穩(wěn)定性也維持的比較好,不會造成模型的過擬合和災(zāi)難性遺忘。
此外作者還展示了編輯不同模塊區(qū)域的效果展示:
可以看到編輯編輯不同區(qū)域效果差異非常大,編輯視覺模塊是比較困難的事情。作者覺得這可能和模型的架構(gòu)有關(guān),編輯語言模型部分可以直接影響模型的輸出,而編輯視覺部分只能影響模型輸入。而且大部分的知識都是保存在LLMs中的,所以編輯視覺模塊的效果不佳。最后展示幾組編輯case:
總結(jié)
多模態(tài)模型是非常重要的領(lǐng)域,如何解決目前面臨的幻覺問題是非常關(guān)鍵的問題。模型編輯技術(shù)為解決模型幻覺提供了一個不錯的思路,但是在多模態(tài)模型上依然有許多不足的地方,比如如何能夠更有效地進(jìn)行不同模態(tài)之間的協(xié)同編輯?如何解決編輯OOD數(shù)據(jù)?如何做到多模態(tài)的連續(xù)編輯?這些都是未來值得探討的方向。
編輯:黃飛
?
評論
查看更多