在 GPT-4 的發(fā)布報(bào)道上,GPT-4 的多模態(tài)能力讓人印象深刻,它可以理解圖片內(nèi)容給出圖片描述,甚至能在圖片內(nèi)容的基礎(chǔ)上理解其中的隱喻或推斷下一時(shí)刻的發(fā)展。無(wú)疑,面向所謂的 AGI(通用人工智能),多模態(tài)顯然是必經(jīng)之路。但是遺憾 GPT-4 的圖片輸入能力尚且沒(méi)有完全放開(kāi),而即使放開(kāi)我們對(duì) GPT-4 的模型結(jié)構(gòu)和訓(xùn)練方法也知之甚少。
而最近,中科院自動(dòng)化所帶來(lái)了一項(xiàng)有趣的工作,推出了多模態(tài)的大規(guī)模語(yǔ)言模型 X-LLM,同時(shí)支持圖片、語(yǔ)音以及視頻等多種模態(tài)信息作為大模型的輸入,并且展現(xiàn)了類似于 GPT-4 的表現(xiàn)。比如當(dāng)輸入圖像時(shí),X-LLM 可以識(shí)別圖像位置、理解圖像中的食物。當(dāng)輸入視頻時(shí),X-LLM 也可以總結(jié)視頻內(nèi)容,檢索電影片段的電影名稱,基于視頻內(nèi)容結(jié)合圖像回答問(wèn)題等等。以論文中的一張圖片為例,當(dāng)用戶希望 X-LLM 介紹輸入的圖片時(shí),X-LLM 準(zhǔn)確的理解了圖片相關(guān)于游戲王者榮耀,并且給出了一定的介紹。
從性能來(lái)看,作者團(tuán)隊(duì)使用了 30 張模型未見(jiàn)過(guò)的圖像,每張圖像都與相關(guān)于對(duì)話、詳細(xì)描述以及推理三類的問(wèn)題,從而形成了 90 個(gè)指令-圖像對(duì)以測(cè)試 X-LLM 與 GPT-4 的表現(xiàn)??梢钥吹?,通過(guò)使用 ChatGPT 從 1 到 10 為模型回復(fù)進(jìn)行評(píng)分,與 GPT-4 相比 X-LLM 取得了 84.5% 的相對(duì)分?jǐn)?shù),表明了模型在多模態(tài)的環(huán)境中是有效的。
除此之外,這篇工作也開(kāi)源了相關(guān)的代碼和一個(gè)簡(jiǎn)潔高質(zhì)量的中文多模態(tài)指令數(shù)據(jù)集,幫助后續(xù)工作使用 X-LLM 的框架進(jìn)行研究,
在進(jìn)入論文之前,首先來(lái)想想一個(gè)問(wèn)題,GPT-4 是如何獲得其強(qiáng)大的多模態(tài)能力的呢?論文作者給出了一個(gè)假設(shè):“GPT-4 的多模態(tài)能力來(lái)源于其更先進(jìn),更大的語(yǔ)音模型,即 GPT-4 是用語(yǔ)言的形式表達(dá)出了其他模態(tài)的內(nèi)容”。
這個(gè)假設(shè)也就是講,需要將多模態(tài)的數(shù)據(jù)“對(duì)齊”到語(yǔ)言數(shù)據(jù)之中,然后再投入大模型以獲得多模態(tài)能力,在這個(gè)假設(shè)的基礎(chǔ)上,作者提出了 X2L 接口,其中 X 意味著多模態(tài)數(shù)據(jù),而 L 則表示語(yǔ)言,X2L 接口即將多個(gè)單模態(tài)編碼器與一個(gè)大規(guī)模語(yǔ)言模型(LLM)進(jìn)行對(duì)齊。其中,圖像接口 I2L 采用 BLIP-2 中的 Q-Former,視頻接口 V2L 復(fù)用圖像接口的參數(shù),但是考慮了編碼后的視頻特征,語(yǔ)言接口 S2L 采用 CIF 與 Transformer 結(jié)構(gòu)將語(yǔ)音轉(zhuǎn)換為語(yǔ)言。整個(gè) X-LLM 的訓(xùn)練包含三個(gè)階段,分別是(1)轉(zhuǎn)換多模態(tài)信息;(2)將 X2L 對(duì)齊到 LLM;(3)將多模態(tài)數(shù)據(jù)整合到 LLM 中。
具體而言,多模態(tài)信息轉(zhuǎn)換的三個(gè)接口設(shè)計(jì)如下:
圖像接口:圖像接口由 Q-Formers 和 I-Adapter 模塊組成。Q-Formers的目標(biāo)是將圖像轉(zhuǎn)換為語(yǔ)言,將從圖像編碼器獲得的圖像特征轉(zhuǎn)換為長(zhǎng)度為 L 的準(zhǔn)語(yǔ)言嵌入的序列。I-Adapter 模塊旨在對(duì)齊準(zhǔn)語(yǔ)言嵌入的維數(shù)和 LLM 的嵌入維數(shù);
視頻接口:視頻接口與圖像接口采用相同的結(jié)構(gòu),并且均勻采樣使用 T 幀表示每個(gè)視頻,再將每幀視頻視為圖像,構(gòu)建長(zhǎng)度為 T x L 的準(zhǔn)語(yǔ)言嵌入序列;
語(yǔ)言接口:語(yǔ)音接口由兩部分組成,即 C-Former 和 S-Adaptor。C-Former 是 CIF 模塊和 12 層 Transformer 模塊的組合。CIF 模塊通過(guò)變長(zhǎng)下采樣將語(yǔ)音編碼器的語(yǔ)音特征序列壓縮為相同長(zhǎng)度的令牌級(jí)語(yǔ)音嵌入序列,而 Transformer 結(jié)構(gòu)為令牌級(jí)語(yǔ)音嵌入提供了更強(qiáng)的上下文建模。S-Adaptor 用于將 Transformer 結(jié)構(gòu)的輸出投影到 LLM 的輸入向量空間,從而進(jìn)一步縮小了語(yǔ)音與語(yǔ)言之間的差距。
而在第二階段,Q-Former 的參數(shù)來(lái)源于 BLIP2 中的 Q-Former 的參數(shù)。為了使得 Q-Former 適應(yīng)中文 LLM,作者們使用了一個(gè)總共包括約 1400 萬(wàn)個(gè)中文圖片-文本對(duì)的數(shù)據(jù)集進(jìn)行訓(xùn)練,并使用圖片中訓(xùn)練好的接口初始化視頻中的 Q-Former 和 V-Adapter,最后,使用 ASR 數(shù)據(jù)訓(xùn)練語(yǔ)音接口,使語(yǔ)音界面的輸出與 LLM 對(duì)齊。在整個(gè)過(guò)程中,Encoder 部分與 LLM 部分都不參與訓(xùn)練,只有接口部分進(jìn)行訓(xùn)練。
而最后第三階段,論文使用多模態(tài)聯(lián)合訓(xùn)練增強(qiáng) X-LLM 的多模態(tài)能力,但是可以看到,在沒(méi)有進(jìn)行聯(lián)合訓(xùn)練時(shí),X-LLM 已經(jīng)具有了識(shí)別多模態(tài)的能力,這種能力很有可能是來(lái)自于 LLM。而為了進(jìn)行聯(lián)合訓(xùn)練,作者構(gòu)建了一個(gè)多模態(tài)指令數(shù)據(jù)集對(duì)接口進(jìn)行微調(diào),包含(1) 圖像-文本指令數(shù)據(jù),(2)語(yǔ)音-文本指令數(shù)據(jù),(3) 視頻-文本指令數(shù)據(jù)以及 (4) 圖像-文本-語(yǔ)音指令數(shù)據(jù)。整個(gè)數(shù)據(jù)集主要來(lái)源于 MiniGPT-4(圖像,3.5k)、AISHELL-2(語(yǔ)音,2k)以及 ActivityNet(視頻,1k)。
而在實(shí)驗(yàn)方面,論文作者開(kāi)發(fā)了一個(gè)聊天界面,用以與其他開(kāi)源的多模態(tài)大規(guī)模語(yǔ)言模型( LLaVA 與 MiniGPT-4)做對(duì)比,整體而言,X-LLM 具備了相當(dāng)不錯(cuò)的閱讀和理解圖片的能力,并且可以更好的捕捉其中具有“中國(guó)特色”的預(yù)料,如下圖問(wèn)答所示,當(dāng)輸入天安門(mén)的圖片時(shí),X-LLM 準(zhǔn)確的識(shí)別出了它是北京的故宮,并且給出了一些歷史的介紹,而相應(yīng) LLaVA 與 MiniGPT-4 僅僅識(shí)別出來(lái)了中國(guó)的宮殿和旗幟,但是并沒(méi)有提到 Forbidden City。
同時(shí),X-LLM 也能準(zhǔn)確的識(shí)別和理解語(yǔ)音信息,這里的“詳細(xì)描述一下這個(gè)“照片”是以語(yǔ)音形式進(jìn)行的輸入,可以看到 X-LLM 也能給出相當(dāng)不錯(cuò)的回答,并且可以進(jìn)行延申交流。
此外,在視頻問(wèn)答方面,X-LLM 也表現(xiàn)得相當(dāng)不錯(cuò),對(duì)于輸入的水母游動(dòng)的視頻,X-LLM 可以頗為準(zhǔn)確的為視頻做出標(biāo)題,并配以文字。
對(duì)于敏感信息,X-LLM 也能做到識(shí)別
除了 X-LLM 這樣一個(gè)將大規(guī)模語(yǔ)音模型向多模態(tài)方向扎實(shí)推進(jìn)了一步的框架外,作者也意外的發(fā)現(xiàn),在英文數(shù)據(jù)集上訓(xùn)練的 Q-former 的參數(shù)可以轉(zhuǎn)移到其他語(yǔ)言(漢語(yǔ)),并仍然保持有效性。這種語(yǔ)言的可傳遞性極大地增加了使用英語(yǔ)圖像文本數(shù)據(jù)和其訓(xùn)練的模型參數(shù)平移到其他語(yǔ)言中的可能性,并提高了在其他語(yǔ)言中訓(xùn)練多模態(tài) LLM 的效率。
透過(guò)這篇工作,或許我們可以一窺多模態(tài)大模型光明的未來(lái),回到開(kāi)頭,多模型必然是 AGI 的必經(jīng)之路,那么以語(yǔ)言為基準(zhǔn)統(tǒng)一多模態(tài)可不可以實(shí)現(xiàn)呢?那就要看跟隨這篇工作出現(xiàn)的未來(lái)了吧!
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7104瀏覽量
89295 -
模型
+關(guān)注
關(guān)注
1文章
3279瀏覽量
48976 -
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
533瀏覽量
10302
原文標(biāo)題:中科院發(fā)布多模態(tài) ChatGPT,圖片、語(yǔ)言、視頻都可以 Chat ?中文多模態(tài)大模型力作
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論