這篇文章是由中科大和字節(jié)跳動(dòng)合作,在2023年8月23日上傳到arXiv上的文章。這篇文章提出UniDoc,一個(gè)統(tǒng)一的多模態(tài)大模型(LMM)。UniDoc主要聚焦于包含文字的圖像的多模態(tài)理解任務(wù)。相比于以往的多模態(tài)大模型,UniDoc具備它們所不具備的文字檢測(cè)、識(shí)別、spotting(端到端OCR)的能力。此外,文章中實(shí)驗(yàn)表明,這些能力的學(xué)習(xí)能夠彼此促進(jìn)。
方法框架
如上圖所示,UniDoc基于預(yù)訓(xùn)練的視覺(jué)大模型及大語(yǔ)言模型,將文字的檢測(cè)、識(shí)別、spotting(圖中未畫(huà)出)、多模態(tài)理解等四個(gè)任務(wù),通過(guò)多模態(tài)指令微調(diào)的方式,統(tǒng)一到一個(gè)框架中。具體地,輸入一張圖像以及一條指令(可以是檢測(cè)、識(shí)別、spotting、語(yǔ)義理解),UniDoc提取圖像中的視覺(jué)信息和文字信息,結(jié)合自然語(yǔ)言指令以及大語(yǔ)言模型的世界知識(shí),做出相應(yīng)回答。
訓(xùn)練數(shù)據(jù)采集
作者團(tuán)隊(duì)收集了大量的PPT圖像,并提取其中文字實(shí)例和對(duì)應(yīng)的bbox。在此基礎(chǔ)上構(gòu)建多任務(wù)的指令微調(diào)數(shù)據(jù)集。文章認(rèn)為,PPT圖片中文字具有各種各樣的大小、字體、顏色、風(fēng)格等,且PPT中視覺(jué)元素豐富多樣,適合用于構(gòu)建涉及文字圖像的多模態(tài)任務(wù)的訓(xùn)練。以spotting任務(wù)為例,其指令如下圖所示。其中的 term 表示”imgae“,”photo“等隨機(jī)名詞,以增加指令多樣性。
實(shí)驗(yàn)結(jié)果
多模態(tài)理解
從上述六個(gè)例子可以看到,UniDoc不僅可以有效提取圖像中的視覺(jué)信息、文字信息,更可以結(jié)合其豐富的世界知識(shí)進(jìn)行合理地回答。
對(duì)于無(wú)文字的圖像,UniDoc同樣可以準(zhǔn)確地進(jìn)行問(wèn)答。
在多個(gè)多模態(tài)問(wèn)答基準(zhǔn)數(shù)據(jù)集上,UniDoc實(shí)現(xiàn)了優(yōu)越的性能。
文字檢測(cè)、識(shí)別、spotting
上圖中,第一行的四個(gè)case來(lái)自于WordArt數(shù)據(jù)集,第二行的四個(gè)case來(lái)自于TotalText數(shù)據(jù)集??梢钥吹剑m然這些行級(jí)別的文字圖像呈現(xiàn)不同的字體以及不規(guī)則的文字分布,UniDoc仍然能夠進(jìn)行準(zhǔn)確地識(shí)別。
上圖中六個(gè)case中,文字存在部分的缺失,UniDoc仍然能夠進(jìn)行準(zhǔn)確地識(shí)別。
上圖中四個(gè)case展示了UniDoc在TotalText數(shù)據(jù)集上的檢測(cè)效果。
在多個(gè)文字識(shí)別基準(zhǔn)數(shù)據(jù)集上,UniDoc實(shí)現(xiàn)了優(yōu)越的性能。
消融實(shí)驗(yàn)
有趣的消融實(shí)驗(yàn):對(duì)于同一張輸入圖像,spotting指令(右)規(guī)避了識(shí)別指令(左)的識(shí)別遺漏現(xiàn)象。
-
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
524瀏覽量
10277 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24701 -
大模型
+關(guān)注
關(guān)注
2文章
2450瀏覽量
2706
原文標(biāo)題:中科大&字節(jié)提出UniDoc:統(tǒng)一的面向文字場(chǎng)景的多模態(tài)大模型
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論