使用視覺和語言指令訓(xùn)練一個多模態(tài)聊天機(jī)器人!
基于開源多模態(tài)模型OpenFlamingo,作者使用公開數(shù)據(jù)集創(chuàng)建了各種視覺指令數(shù)據(jù),包括視覺問答、圖像字幕、視覺推理、文本 OCR 和視覺對話。此外,還使用僅包含語言指令數(shù)據(jù)的語言模型組件進(jìn)行了訓(xùn)練。
視覺和語言指令的聯(lián)合訓(xùn)練有效提高了模型的性能!
具體細(xì)節(jié)就跟隨小編繼續(xù)往下看看吧~
總結(jié)
本文提出一種多模態(tài)GPT(視覺、語言),與人類進(jìn)行多輪對話,同時設(shè)計了統(tǒng)一化多模態(tài)的指令數(shù)據(jù)模板
能夠遵循的指令類型:生成詳細(xì)的標(biāo)題、計算特定的對象、處理一般的詢問
基準(zhǔn)模型:OpenFlamingo(用LoRA方式訓(xùn)練)
聯(lián)合訓(xùn)練的數(shù)據(jù):1.純文本數(shù)據(jù) 2.圖像-文本數(shù)據(jù)
其他的一些多模態(tài)GPT模型:GPT-4[1]、Mini-GPT[2]、LLaVA[3]
提到的其他LLM:Vicuna[4]、LLaMA[5]
提到的其他數(shù)據(jù)集:VQA v2.0、Ok-vqa、GQA、CLEVR、NLVR
1.引言
人類交流/理解世界的方式:視覺、語言等
AI智能助手的作用:根據(jù)多種模態(tài)的指令,理解人類意圖,完成各種任務(wù)
之前的方法:將視覺表示與LLM的輸入空間對齊,隨后利用LLM中的原始自我注意來處理視覺信息
本文的方法:微調(diào)Flamingo(開源)
視覺編碼器
門限交叉注意力機(jī)制
預(yù)訓(xùn)練使用“圖文對”數(shù)據(jù)
統(tǒng)一多模態(tài)的指令模板
語言數(shù)據(jù)、語言-視覺數(shù)據(jù),進(jìn)行聯(lián)合訓(xùn)練
本文目標(biāo):在多模態(tài)對話任務(wù)上,接近人的性能表現(xiàn)
2.統(tǒng)一指令模板
主要是提出了一個統(tǒng)一的訓(xùn)練數(shù)據(jù)模板,把以下兩種數(shù)據(jù)整合起來,提高模型理解能力
2.1 僅語言的指令模板
僅包含語言的指令提示模板
{instruction},{input}為輸入文本,{response},
使用數(shù)據(jù):
Dolly15k數(shù)據(jù)集
AlpacaGPT4數(shù)據(jù)集
2.2 視覺-語言的指令模板
包含視覺-語言的指令提示模板
其中,{question}是原始文本,
使用數(shù)據(jù)集:
LLaVA
Mini-GPT4
A-OKVQA
COCOcaption(不直接作為訓(xùn)練集,而是用GPT-4轉(zhuǎn)化,再加入訓(xùn)練集)
OCRVQA
上述合成指令使得訓(xùn)練集較為豐富,則模型能夠更健壯
圖像描述的指令,舉例如下:
本文方法
模型結(jié)構(gòu)圖
基線模型:open-flamingo模型
組成:
視覺編碼器:CLIP
感知重采樣
語言解碼器:LLaMA (自注意力、交叉注意力、FFW中加入LoRA,便于微調(diào))
訓(xùn)練數(shù)據(jù):用2.1和2.2兩種數(shù)據(jù),進(jìn)行聯(lián)合訓(xùn)練
訓(xùn)練過程:通過預(yù)測文本的下一個標(biāo)記進(jìn)行訓(xùn)練,只有{responce}和標(biāo)記參與損失計算
4.實驗
實驗設(shè)置:
實驗參數(shù) | 取值 |
---|---|
GPU | A100*8 |
epoch | 1 |
batch_size | 1 |
LoRA參數(shù)更新 | 每16輪 |
learningrate | 1e-5 |
Demos展示:
給出一個烤千層面的食譜,并告訴用戶在哪里吃到它
能夠識別埃隆·馬斯克的形象,并回答關(guān)于埃隆·馬斯克的問題
我知道照片上有4個女人,也知道她們在做什么
認(rèn)得出電影,也知道電影是由哪個電影公司制作的
能識別圖像中的人物,并認(rèn)識該書的作者
可以回答關(guān)于用戶旅行的一般問題
可以為圖像生成詳細(xì)的描述,并有能力推理得到在圖像中的季節(jié)
在線網(wǎng)站
感興趣可以去官方網(wǎng)站[6]去嘗試下,真的很棒!點擊閱讀原文也可直達(dá)!
缺點是好像只支持英文~
審核編輯 :李倩
-
開源
+關(guān)注
關(guān)注
3文章
3349瀏覽量
42501 -
語言模型
+關(guān)注
關(guān)注
0文章
524瀏覽量
10277 -
聊天機(jī)器人
+關(guān)注
關(guān)注
0文章
339瀏覽量
12312
原文標(biāo)題:多模態(tài)GPT:國內(nèi)發(fā)布一款可以在線使用的多模態(tài)聊天機(jī)器人!快來把玩~
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論