0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPT-4 的模型結(jié)構(gòu)和訓(xùn)練方法

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-05-22 15:21 ? 次閱讀

在 GPT-4 的發(fā)布報(bào)道上,GPT-4 的多模態(tài)能力讓人印象深刻,它可以理解圖片內(nèi)容給出圖片描述,甚至能在圖片內(nèi)容的基礎(chǔ)上理解其中的隱喻或推斷下一時(shí)刻的發(fā)展。無(wú)疑,面向所謂的 AGI(通用人工智能),多模態(tài)顯然是必經(jīng)之路。但是遺憾 GPT-4 的圖片輸入能力尚且沒(méi)有完全放開(kāi),而即使放開(kāi)我們對(duì) GPT-4 的模型結(jié)構(gòu)和訓(xùn)練方法也知之甚少。

而最近,中科院自動(dòng)化所帶來(lái)了一項(xiàng)有趣的工作,推出了多模態(tài)的大規(guī)模語(yǔ)言模型 X-LLM,同時(shí)支持圖片、語(yǔ)音以及視頻等多種模態(tài)信息作為大模型的輸入,并且展現(xiàn)了類似于 GPT-4 的表現(xiàn)。比如當(dāng)輸入圖像時(shí),X-LLM 可以識(shí)別圖像位置、理解圖像中的食物。當(dāng)輸入視頻時(shí),X-LLM 也可以總結(jié)視頻內(nèi)容,檢索電影片段的電影名稱,基于視頻內(nèi)容結(jié)合圖像回答問(wèn)題等等。以論文中的一張圖片為例,當(dāng)用戶希望 X-LLM 介紹輸入的圖片時(shí),X-LLM 準(zhǔn)確的理解了圖片相關(guān)于游戲王者榮耀,并且給出了一定的介紹。

從性能來(lái)看,作者團(tuán)隊(duì)使用了 30 張模型未見(jiàn)過(guò)的圖像,每張圖像都與相關(guān)于對(duì)話、詳細(xì)描述以及推理三類的問(wèn)題,從而形成了 90 個(gè)指令-圖像對(duì)以測(cè)試 X-LLM 與 GPT-4 的表現(xiàn)??梢钥吹?,通過(guò)使用 ChatGPT 從 1 到 10 為模型回復(fù)進(jìn)行評(píng)分,與 GPT-4 相比 X-LLM 取得了 84.5% 的相對(duì)分?jǐn)?shù),表明了模型在多模態(tài)的環(huán)境中是有效的。

960f3906-f70c-11ed-90ce-dac502259ad0.png

除此之外,這篇工作也開(kāi)源了相關(guān)的代碼和一個(gè)簡(jiǎn)潔高質(zhì)量的中文多模態(tài)指令數(shù)據(jù)集,幫助后續(xù)工作使用 X-LLM 的框架進(jìn)行研究,

在進(jìn)入論文之前,首先來(lái)想想一個(gè)問(wèn)題,GPT-4 是如何獲得其強(qiáng)大的多模態(tài)能力的呢?論文作者給出了一個(gè)假設(shè):“GPT-4 的多模態(tài)能力來(lái)源于其更先進(jìn),更大的語(yǔ)音模型,即 GPT-4 是用語(yǔ)言的形式表達(dá)出了其他模態(tài)的內(nèi)容”。

這個(gè)假設(shè)也就是講,需要將多模態(tài)的數(shù)據(jù)“對(duì)齊”到語(yǔ)言數(shù)據(jù)之中,然后再投入大模型以獲得多模態(tài)能力,在這個(gè)假設(shè)的基礎(chǔ)上,作者提出了 X2L 接口,其中 X 意味著多模態(tài)數(shù)據(jù),而 L 則表示語(yǔ)言,X2L 接口即將多個(gè)單模態(tài)編碼器與一個(gè)大規(guī)模語(yǔ)言模型(LLM)進(jìn)行對(duì)齊。其中,圖像接口 I2L 采用 BLIP-2 中的 Q-Former,視頻接口 V2L 復(fù)用圖像接口的參數(shù),但是考慮了編碼后的視頻特征,語(yǔ)言接口 S2L 采用 CIF 與 Transformer 結(jié)構(gòu)將語(yǔ)音轉(zhuǎn)換為語(yǔ)言。整個(gè) X-LLM 的訓(xùn)練包含三個(gè)階段,分別是(1)轉(zhuǎn)換多模態(tài)信息;(2)將 X2L 對(duì)齊到 LLM;(3)將多模態(tài)數(shù)據(jù)整合到 LLM 中。

96193f0a-f70c-11ed-90ce-dac502259ad0.png

具體而言,多模態(tài)信息轉(zhuǎn)換的三個(gè)接口設(shè)計(jì)如下:

圖像接口:圖像接口由 Q-Formers 和 I-Adapter 模塊組成。Q-Formers的目標(biāo)是將圖像轉(zhuǎn)換為語(yǔ)言,將從圖像編碼器獲得的圖像特征轉(zhuǎn)換為長(zhǎng)度為 L 的準(zhǔn)語(yǔ)言嵌入的序列。I-Adapter 模塊旨在對(duì)齊準(zhǔn)語(yǔ)言嵌入的維數(shù)和 LLM 的嵌入維數(shù);

視頻接口:視頻接口與圖像接口采用相同的結(jié)構(gòu),并且均勻采樣使用 T 幀表示每個(gè)視頻,再將每幀視頻視為圖像,構(gòu)建長(zhǎng)度為 T x L 的準(zhǔn)語(yǔ)言嵌入序列;

語(yǔ)言接口:語(yǔ)音接口由兩部分組成,即 C-Former 和 S-Adaptor。C-Former 是 CIF 模塊和 12 層 Transformer 模塊的組合。CIF 模塊通過(guò)變長(zhǎng)下采樣將語(yǔ)音編碼器的語(yǔ)音特征序列壓縮為相同長(zhǎng)度的令牌級(jí)語(yǔ)音嵌入序列,而 Transformer 結(jié)構(gòu)為令牌級(jí)語(yǔ)音嵌入提供了更強(qiáng)的上下文建模。S-Adaptor 用于將 Transformer 結(jié)構(gòu)的輸出投影到 LLM 的輸入向量空間,從而進(jìn)一步縮小了語(yǔ)音與語(yǔ)言之間的差距。

而在第二階段,Q-Former 的參數(shù)來(lái)源于 BLIP2 中的 Q-Former 的參數(shù)。為了使得 Q-Former 適應(yīng)中文 LLM,作者們使用了一個(gè)總共包括約 1400 萬(wàn)個(gè)中文圖片-文本對(duì)的數(shù)據(jù)集進(jìn)行訓(xùn)練,并使用圖片中訓(xùn)練好的接口初始化視頻中的 Q-Former 和 V-Adapter,最后,使用 ASR 數(shù)據(jù)訓(xùn)練語(yǔ)音接口,使語(yǔ)音界面的輸出與 LLM 對(duì)齊。在整個(gè)過(guò)程中,Encoder 部分與 LLM 部分都不參與訓(xùn)練,只有接口部分進(jìn)行訓(xùn)練。

而最后第三階段,論文使用多模態(tài)聯(lián)合訓(xùn)練增強(qiáng) X-LLM 的多模態(tài)能力,但是可以看到,在沒(méi)有進(jìn)行聯(lián)合訓(xùn)練時(shí),X-LLM 已經(jīng)具有了識(shí)別多模態(tài)的能力,這種能力很有可能是來(lái)自于 LLM。而為了進(jìn)行聯(lián)合訓(xùn)練,作者構(gòu)建了一個(gè)多模態(tài)指令數(shù)據(jù)集對(duì)接口進(jìn)行微調(diào),包含(1) 圖像-文本指令數(shù)據(jù),(2)語(yǔ)音-文本指令數(shù)據(jù),(3) 視頻-文本指令數(shù)據(jù)以及 (4) 圖像-文本-語(yǔ)音指令數(shù)據(jù)。整個(gè)數(shù)據(jù)集主要來(lái)源于 MiniGPT-4(圖像,3.5k)、AISHELL-2(語(yǔ)音,2k)以及 ActivityNet(視頻,1k)。

9622e208-f70c-11ed-90ce-dac502259ad0.png

而在實(shí)驗(yàn)方面,論文作者開(kāi)發(fā)了一個(gè)聊天界面,用以與其他開(kāi)源的多模態(tài)大規(guī)模語(yǔ)言模型( LLaVA 與 MiniGPT-4)做對(duì)比,整體而言,X-LLM 具備了相當(dāng)不錯(cuò)的閱讀和理解圖片的能力,并且可以更好的捕捉其中具有“中國(guó)特色”的預(yù)料,如下圖問(wèn)答所示,當(dāng)輸入天安門(mén)的圖片時(shí),X-LLM 準(zhǔn)確的識(shí)別出了它是北京的故宮,并且給出了一些歷史的介紹,而相應(yīng) LLaVA 與 MiniGPT-4 僅僅識(shí)別出來(lái)了中國(guó)的宮殿和旗幟,但是并沒(méi)有提到 Forbidden City。

同時(shí),X-LLM 也能準(zhǔn)確的識(shí)別和理解語(yǔ)音信息,這里的“詳細(xì)描述一下這個(gè)“照片”是以語(yǔ)音形式進(jìn)行的輸入,可以看到 X-LLM 也能給出相當(dāng)不錯(cuò)的回答,并且可以進(jìn)行延申交流。

此外,在視頻問(wèn)答方面,X-LLM 也表現(xiàn)得相當(dāng)不錯(cuò),對(duì)于輸入的水母游動(dòng)的視頻,X-LLM 可以頗為準(zhǔn)確的為視頻做出標(biāo)題,并配以文字。

對(duì)于敏感信息,X-LLM 也能做到識(shí)別

除了 X-LLM 這樣一個(gè)將大規(guī)模語(yǔ)音模型向多模態(tài)方向扎實(shí)推進(jìn)了一步的框架外,作者也意外的發(fā)現(xiàn),在英文數(shù)據(jù)集上訓(xùn)練的 Q-former 的參數(shù)可以轉(zhuǎn)移到其他語(yǔ)言(漢語(yǔ)),并仍然保持有效性。這種語(yǔ)言的可傳遞性極大地增加了使用英語(yǔ)圖像文本數(shù)據(jù)和其訓(xùn)練的模型參數(shù)平移到其他語(yǔ)言中的可能性,并提高了在其他語(yǔ)言中訓(xùn)練多模態(tài) LLM 的效率。

透過(guò)這篇工作,或許我們可以一窺多模態(tài)大模型光明的未來(lái),回到開(kāi)頭,多模型必然是 AGI 的必經(jīng)之路,那么以語(yǔ)言為基準(zhǔn)統(tǒng)一多模態(tài)可不可以實(shí)現(xiàn)呢?那就要看跟隨這篇工作出現(xiàn)的未來(lái)了吧!

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7104

    瀏覽量

    89295
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3279

    瀏覽量

    48976
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    533

    瀏覽量

    10302

原文標(biāo)題:中科院發(fā)布多模態(tài) ChatGPT,圖片、語(yǔ)言、視頻都可以 Chat ?中文多模態(tài)大模型力作

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    ChatGPT升級(jí) OpenAI史上最強(qiáng)大模型GPT-4發(fā)布

    是 Generative Pre-trained Transformer 4 的縮寫(xiě),即生成型預(yù)訓(xùn)練變換模型 4,是一個(gè)多模態(tài)大型語(yǔ)言模型
    的頭像 發(fā)表于 03-15 18:15 ?2843次閱讀

    GPT-4多模態(tài)模型發(fā)布,對(duì)ChatGPT的升級(jí)和斷崖式領(lǐng)先

    而且 GPT-4 是多模態(tài)的,同時(shí)支持文本和圖像輸入功能。此外,GPT-4 比以前的版本“更大”,這意味著其已經(jīng)在更多的數(shù)據(jù)上進(jìn)行了訓(xùn)練,并且在模型文件中有更多的權(quán)重,這也使得它的運(yùn)行
    的頭像 發(fā)表于 03-17 10:31 ?3459次閱讀

    GPT-4是這樣搞電機(jī)的

    GPT-4寫(xiě)電機(jī)基礎(chǔ)程序沒(méi)問(wèn)題
    的頭像 發(fā)表于 04-17 09:41 ?1050次閱讀
    <b class='flag-5'>GPT-4</b>是這樣搞電機(jī)的

    最新、最強(qiáng)大的模型GPT-4將向美國(guó)政府機(jī)構(gòu)開(kāi)放

    最新、最強(qiáng)大的模型GPT-4將向美國(guó)政府機(jī)構(gòu)開(kāi)放 此前微軟已向其商業(yè)客戶提供了OpenAI模型,現(xiàn)在微軟宣布將向azure government云計(jì)算客戶開(kāi)放openai的人工智能模型
    的頭像 發(fā)表于 06-08 20:15 ?1528次閱讀

    人工通用智能的火花:GPT-4的早期實(shí)驗(yàn)

    ],是使用前所未有 的計(jì)算和數(shù)據(jù)規(guī)模訓(xùn)練出來(lái)的。在本文中,我們報(bào)告了我們對(duì)GPT-4早期版本的調(diào)查,當(dāng)時(shí)它還在OpenAI 的積極開(kāi)發(fā)中。我們認(rèn)為,(這個(gè)早期版本的)GPT-4是新一批LLM的一部分(例如,與ChatGPT和谷歌
    發(fā)表于 06-20 15:49 ?1次下載

    GPT-4已經(jīng)會(huì)自己設(shè)計(jì)芯片了嗎?

    ? GPT-4已經(jīng)會(huì)自己設(shè)計(jì)芯片了!芯片設(shè)計(jì)行業(yè)的一個(gè)老大難問(wèn)題HDL,已經(jīng)被GPT-4順利解決。并且,它設(shè)計(jì)的130nm芯片,已經(jīng)成功流片。 GPT-4,已經(jīng)可以幫人類造芯片了! 只用簡(jiǎn)單的英語(yǔ)
    的頭像 發(fā)表于 06-20 11:51 ?998次閱讀
    <b class='flag-5'>GPT-4</b>已經(jīng)會(huì)自己設(shè)計(jì)芯片了嗎?

    GPT-4催生的接口IP市場(chǎng)空間

    。陸奇稱由GPT-4開(kāi)啟的新時(shí)代在高速地進(jìn)行,速度越來(lái)越快。他將這種引起社會(huì)、產(chǎn)業(yè)發(fā)生的結(jié)構(gòu)性改變稱之為新范式。 從本質(zhì)上看,以GPT-4為代表的新范式是基于數(shù)據(jù)中心發(fā)展起來(lái)的新興AI應(yīng)用,可以通過(guò)大量的數(shù)據(jù)
    的頭像 發(fā)表于 07-03 14:17 ?891次閱讀

    爆了!GPT-4模型架構(gòu)、訓(xùn)練成本、數(shù)據(jù)集信息都被扒出來(lái)了

    文章稱,他們從許多來(lái)源收集了大量有關(guān) GPT-4 的信息,包括模型架構(gòu)、訓(xùn)練基礎(chǔ)設(shè)施、推理基礎(chǔ)設(shè)施、參數(shù)量、訓(xùn)練數(shù)據(jù)集組成、token 量、層數(shù)、并行策略、多模態(tài)視覺(jué)適應(yīng)、不同工程權(quán)衡
    的頭像 發(fā)表于 07-12 14:16 ?840次閱讀
    爆了!<b class='flag-5'>GPT-4</b><b class='flag-5'>模型</b>架構(gòu)、<b class='flag-5'>訓(xùn)練</b>成本、數(shù)據(jù)集信息都被扒出來(lái)了

    OpenAI宣布GPT-4 API全面開(kāi)放使用!

    OpenAI 在博客文章中寫(xiě)道:“自 3 月份以來(lái),數(shù)百萬(wàn)開(kāi)發(fā)者請(qǐng)求訪問(wèn) GPT-4 API,并且利用 GPT-4 的創(chuàng)新產(chǎn)品范圍每天都在增長(zhǎng)?!?“我們?cè)O(shè)想基于對(duì)話的模型未來(lái)可以支持任何用例?!?/div>
    的頭像 發(fā)表于 07-12 14:55 ?1279次閱讀

    GPT-3.5 vs GPT-4:ChatGPT Plus 值得訂閱費(fèi)嗎 國(guó)內(nèi)怎么付費(fèi)?

    每月20美元)更智能、更準(zhǔn)確。 OpenAI將GPT-4描述為“比其前身GPT-3.5先進(jìn)10倍”。 自從OpenAI的大語(yǔ)言模型(LLM)GPT-4發(fā)布以來(lái),我一直在使用它的最新版本
    的頭像 發(fā)表于 08-02 12:09 ?4318次閱讀
    <b class='flag-5'>GPT</b>-3.5 vs <b class='flag-5'>GPT-4</b>:ChatGPT Plus 值得訂閱費(fèi)嗎 國(guó)內(nèi)怎么付費(fèi)?

    GPT-4沒(méi)有推理能力嗎?

    今年三月,OpenAI 重磅發(fā)布了 GPT-4模型,帶來(lái)了比 ChatGPT 背后 GPT-3.5 更強(qiáng)的推理、計(jì)算、邏輯能力,也引發(fā)了全民使用的熱潮。在各行各領(lǐng)域研究人員、開(kāi)發(fā)者、設(shè)計(jì)師的使用過(guò)程中,「
    的頭像 發(fā)表于 08-11 14:20 ?925次閱讀
    <b class='flag-5'>GPT-4</b>沒(méi)有推理能力嗎?

    OpenAI最新大模型曝光!劍指多模態(tài),GPT-4之后最大升級(jí)!

    目前為止,OpenAI還沒(méi)有對(duì)爆料中的傳聞做出回應(yīng),但此前發(fā)布過(guò)多模態(tài)模型測(cè)試。CEO奧特曼在回應(yīng)有關(guān)GPT-5的傳聞時(shí),也暗示過(guò)GPT-4“正在增強(qiáng)”。
    的頭像 發(fā)表于 09-20 17:34 ?1247次閱讀
    OpenAI最新大<b class='flag-5'>模型</b>曝光!劍指多模態(tài),<b class='flag-5'>GPT-4</b>之后最大升級(jí)!

    ChatGPT plus有什么功能?OpenAI 發(fā)布 GPT-4 Turbo 目前我們所知道的功能

    OpenAI 發(fā)布 GPT-4 Turbo 目前我們所知道的功能分析解答 在最近的OpenAI DevDay上,該組織發(fā)布了一項(xiàng)備受期待的公告:推出GPT-4 Turbo,這是對(duì)其突破性AI模型
    的頭像 發(fā)表于 12-13 09:19 ?1189次閱讀
    ChatGPT plus有什么功能?OpenAI 發(fā)布 <b class='flag-5'>GPT-4</b> Turbo 目前我們所知道的功能

    微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

    起初,Copilot作為Bing Chat AI助手推出,初期采用GPT-3.5模型,隨后升級(jí)至GPT-4取得顯著進(jìn)步,如今再次更新至性能卓越的GPT-4 Turbo
    的頭像 發(fā)表于 03-13 13:42 ?761次閱讀

    ai大模型訓(xùn)練方法有哪些?

    AI大模型訓(xùn)練方法是一個(gè)復(fù)雜且不斷發(fā)展的領(lǐng)域。以下是ai大模型訓(xùn)練方法: 數(shù)據(jù)預(yù)處理和增強(qiáng) 數(shù)據(jù)清洗:去除噪聲和不完整的數(shù)據(jù)。 數(shù)據(jù)標(biāo)準(zhǔn)化:將數(shù)據(jù)縮放到統(tǒng)一的范圍。 數(shù)據(jù)增強(qiáng):通過(guò)旋轉(zhuǎn)
    的頭像 發(fā)表于 07-16 10:11 ?1660次閱讀