0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中科大&字節(jié)提出UniDoc:統(tǒng)一的面向文字場(chǎng)景的多模態(tài)大模型

CVer ? 來(lái)源:CVer ? 2023-08-31 15:29 ? 次閱讀

這篇文章是由中科大和字節(jié)跳動(dòng)合作,在2023年8月23日上傳到arXiv上的文章。這篇文章提出UniDoc,一個(gè)統(tǒng)一的多模態(tài)大模型(LMM)。UniDoc主要聚焦于包含文字的圖像的多模態(tài)理解任務(wù)。相比于以往的多模態(tài)大模型,UniDoc具備它們所不具備的文字檢測(cè)、識(shí)別、spotting(端到端OCR)的能力。此外,文章中實(shí)驗(yàn)表明,這些能力的學(xué)習(xí)能夠彼此促進(jìn)。

方法框架

7fd66038-47c5-11ee-97a6-92fbcf53809c.png

如上圖所示,UniDoc基于預(yù)訓(xùn)練的視覺(jué)大模型及大語(yǔ)言模型,將文字的檢測(cè)、識(shí)別、spotting(圖中未畫(huà)出)、多模態(tài)理解等四個(gè)任務(wù),通過(guò)多模態(tài)指令微調(diào)的方式,統(tǒng)一到一個(gè)框架中。具體地,輸入一張圖像以及一條指令(可以是檢測(cè)、識(shí)別、spotting、語(yǔ)義理解),UniDoc提取圖像中的視覺(jué)信息和文字信息,結(jié)合自然語(yǔ)言指令以及大語(yǔ)言模型的世界知識(shí),做出相應(yīng)回答。

訓(xùn)練數(shù)據(jù)采集

7ff0ca86-47c5-11ee-97a6-92fbcf53809c.png

作者團(tuán)隊(duì)收集了大量的PPT圖像,并提取其中文字實(shí)例和對(duì)應(yīng)的bbox。在此基礎(chǔ)上構(gòu)建多任務(wù)的指令微調(diào)數(shù)據(jù)集。文章認(rèn)為,PPT圖片中文字具有各種各樣的大小、字體、顏色、風(fēng)格等,且PPT中視覺(jué)元素豐富多樣,適合用于構(gòu)建涉及文字圖像的多模態(tài)任務(wù)的訓(xùn)練。以spotting任務(wù)為例,其指令如下圖所示。其中的 term 表示”imgae“,”photo“等隨機(jī)名詞,以增加指令多樣性。

8092f2c0-47c5-11ee-97a6-92fbcf53809c.png

實(shí)驗(yàn)結(jié)果

多模態(tài)理解

80ab866e-47c5-11ee-97a6-92fbcf53809c.png

80c91328-47c5-11ee-97a6-92fbcf53809c.png

從上述六個(gè)例子可以看到,UniDoc不僅可以有效提取圖像中的視覺(jué)信息、文字信息,更可以結(jié)合其豐富的世界知識(shí)進(jìn)行合理地回答。

80effd58-47c5-11ee-97a6-92fbcf53809c.png

對(duì)于無(wú)文字的圖像,UniDoc同樣可以準(zhǔn)確地進(jìn)行問(wèn)答。

81128e04-47c5-11ee-97a6-92fbcf53809c.png

在多個(gè)多模態(tài)問(wèn)答基準(zhǔn)數(shù)據(jù)集上,UniDoc實(shí)現(xiàn)了優(yōu)越的性能。

文字檢測(cè)、識(shí)別、spotting

81326094-47c5-11ee-97a6-92fbcf53809c.png

上圖中,第一行的四個(gè)case來(lái)自于WordArt數(shù)據(jù)集,第二行的四個(gè)case來(lái)自于TotalText數(shù)據(jù)集??梢钥吹剑m然這些行級(jí)別的文字圖像呈現(xiàn)不同的字體以及不規(guī)則的文字分布,UniDoc仍然能夠進(jìn)行準(zhǔn)確地識(shí)別。

815f6df0-47c5-11ee-97a6-92fbcf53809c.png

上圖中六個(gè)case中,文字存在部分的缺失,UniDoc仍然能夠進(jìn)行準(zhǔn)確地識(shí)別。

81779934-47c5-11ee-97a6-92fbcf53809c.png

上圖中四個(gè)case展示了UniDoc在TotalText數(shù)據(jù)集上的檢測(cè)效果。

818baf5a-47c5-11ee-97a6-92fbcf53809c.png

在多個(gè)文字識(shí)別基準(zhǔn)數(shù)據(jù)集上,UniDoc實(shí)現(xiàn)了優(yōu)越的性能。

消融實(shí)驗(yàn)

81a99e2a-47c5-11ee-97a6-92fbcf53809c.png

有趣的消融實(shí)驗(yàn):對(duì)于同一張輸入圖像,spotting指令(右)規(guī)避了識(shí)別指令(左)的識(shí)別遺漏現(xiàn)象。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    524

    瀏覽量

    10277
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24701
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2450

    瀏覽量

    2706

原文標(biāo)題:中科大&字節(jié)提出UniDoc:統(tǒng)一的面向文字場(chǎng)景的多模態(tài)大模型

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    中科大人口模型講義

    中科大人口模型講義[hide] [/hide]
    發(fā)表于 09-15 12:01

    微機(jī)原理與接口技術(shù) 中科大教材

    微機(jī)原理與接口技術(shù) 中科大教材[/hide]
    發(fā)表于 12-07 11:15

    中科大發(fā)的論文《新代TSC2046觸摸屏控制器》

    中科大發(fā)的論文《新代TSC2046觸摸屏控制器》
    發(fā)表于 08-03 08:12

    51單片機(jī)C語(yǔ)言編程入門(mén)(中科大)

    51單片機(jī)C語(yǔ)言編程入門(mén)(中科大)
    發(fā)表于 08-06 12:20

    中科大嵌入式課件全集

    本帖最后由 eehome 于 2013-1-5 09:46 編輯 中科大嵌入式課件全集
    發(fā)表于 08-14 21:52

    溷沌數(shù)字通信(中科大出版的)

    溷沌數(shù)字通信(中科大出版的)
    發(fā)表于 08-16 16:49

    光電信號(hào)處理?。。?何兆湘 華中科大)

    光電信號(hào)處理?。。?何兆湘 華中科大)
    發(fā)表于 08-16 19:47

    51單片機(jī)C語(yǔ)言編程入門(mén)(中科大)

    51單片機(jī)C語(yǔ)言編程入門(mén)(中科大)
    發(fā)表于 08-17 16:02

    51單片機(jī)資料(中科大

    51單片機(jī)資料(中科大),超高新掃描版,上傳給初學(xué)者{:7:}
    發(fā)表于 06-23 12:51

    中科院中科大2003年量子力學(xué)考研試題答案

    中科院—中科大2003年量子力學(xué)考研試題答案
    發(fā)表于 11-25 16:05 ?0次下載
    <b class='flag-5'>中科院中科大</b>2003年量子力學(xué)考研試題答案

    人口模型講義 (中科大課程)

    人口模型課件 (中科大課程講義)
    發(fā)表于 09-15 11:59 ?24次下載

    《日本經(jīng)濟(jì)新聞》報(bào)道:中科大為何能對(duì)中國(guó)AI領(lǐng)域產(chǎn)生很的影響?

    近日,《日本經(jīng)濟(jì)新聞》的則報(bào)道指出:在左右著企業(yè)、國(guó)家和地區(qū)發(fā)展的人工智能領(lǐng)域,中科大少年班的人才支撐著中國(guó)的發(fā)展。中國(guó)自動(dòng)駕駛公司百度的總裁張亞勤、前阿里云人工智能首席科學(xué)家的閔萬(wàn)里、AI芯片
    的頭像 發(fā)表于 07-18 09:40 ?7523次閱讀

    在醫(yī)療AI領(lǐng)域砥礪前行的中科大學(xué)子

    作為國(guó)字號(hào)的科研基石,中科大依靠學(xué)術(shù)層面的踏實(shí)耕耘,很大程度上影響了中國(guó)的醫(yī)療科技風(fēng)向。 談?wù)?b class='flag-5'>一所大學(xué)撐起個(gè)城市的代表,中科大和合肥的CP組合,
    的頭像 發(fā)表于 05-10 09:36 ?4911次閱讀

    《51單片機(jī)C語(yǔ)言編程入門(mén)》(中科大編著)

    《51單片機(jī)C語(yǔ)言編程入門(mén)》(中科大編著)
    發(fā)表于 01-04 17:54 ?0次下載

    北大&amp;amp;華為提出模態(tài)基礎(chǔ)大模型的高效微調(diào)

    深度學(xué)習(xí)的大模型時(shí)代已經(jīng)來(lái)臨,越來(lái)越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺(jué)和模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個(gè)明顯
    的頭像 發(fā)表于 11-08 16:20 ?994次閱讀
    北大&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;華為<b class='flag-5'>提出</b>:<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>基礎(chǔ)大<b class='flag-5'>模型</b>的高效微調(diào)