东京热无码中文字幕aⅴ专区,女人18片毛片60分钟翻译,麻豆久久回家一区二区

中科大&字節(jié)提出UniDoc：統(tǒng)一的面向文字場(chǎng)景的多模態(tài)大模型

這篇文章是由中科大和字節(jié)跳動(dòng)合作，在2023年8月23日上傳到arXiv上的文章。這篇文章提出UniDoc，一個(gè)統(tǒng)一的多模態(tài)大模型（LMM）。UniDoc主要聚焦于包含文字的圖像的多模態(tài)理解任務(wù)。相比于以往的多模態(tài)大模型，UniDoc具備它們所不具備的文字檢測(cè)、識(shí)別、spotting(端到端OCR)的能力。此外，文章中實(shí)驗(yàn)表明，這些能力的學(xué)習(xí)能夠彼此促進(jìn)。

方法框架

如上圖所示，UniDoc基于預(yù)訓(xùn)練的視覺(jué)大模型及大語(yǔ)言模型，將文字的檢測(cè)、識(shí)別、spotting(圖中未畫(huà)出)、多模態(tài)理解等四個(gè)任務(wù)，通過(guò)多模態(tài)指令微調(diào)的方式，統(tǒng)一到一個(gè)框架中。具體地，輸入一張圖像以及一條指令（可以是檢測(cè)、識(shí)別、spotting、語(yǔ)義理解），UniDoc提取圖像中的視覺(jué)信息和文字信息，結(jié)合自然語(yǔ)言指令以及大語(yǔ)言模型的世界知識(shí)，做出相應(yīng)回答。

訓(xùn)練數(shù)據(jù)采集

作者團(tuán)隊(duì)收集了大量的PPT圖像，并提取其中文字實(shí)例和對(duì)應(yīng)的bbox。在此基礎(chǔ)上構(gòu)建多任務(wù)的指令微調(diào)數(shù)據(jù)集。文章認(rèn)為，PPT圖片中文字具有各種各樣的大小、字體、顏色、風(fēng)格等，且PPT中視覺(jué)元素豐富多樣，適合用于構(gòu)建涉及文字圖像的多模態(tài)任務(wù)的訓(xùn)練。以spotting任務(wù)為例，其指令如下圖所示。其中的 term 表示”imgae“，”photo“等隨機(jī)名詞，以增加指令多樣性。

實(shí)驗(yàn)結(jié)果

多模態(tài)理解

從上述六個(gè)例子可以看到，UniDoc不僅可以有效提取圖像中的視覺(jué)信息、文字信息，更可以結(jié)合其豐富的世界知識(shí)進(jìn)行合理地回答。

對(duì)于無(wú)文字的圖像，UniDoc同樣可以準(zhǔn)確地進(jìn)行問(wèn)答。

在多個(gè)多模態(tài)問(wèn)答基準(zhǔn)數(shù)據(jù)集上，UniDoc實(shí)現(xiàn)了優(yōu)越的性能。

文字檢測(cè)、識(shí)別、spotting

上圖中，第一行的四個(gè)case來(lái)自于WordArt數(shù)據(jù)集，第二行的四個(gè)case來(lái)自于TotalText數(shù)據(jù)集?？梢钥吹剑m然這些行級(jí)別的文字圖像呈現(xiàn)不同的字體以及不規(guī)則的文字分布，UniDoc仍然能夠進(jìn)行準(zhǔn)確地識(shí)別。

上圖中六個(gè)case中，文字存在部分的缺失，UniDoc仍然能夠進(jìn)行準(zhǔn)確地識(shí)別。

上圖中四個(gè)case展示了UniDoc在TotalText數(shù)據(jù)集上的檢測(cè)效果。

在多個(gè)文字識(shí)別基準(zhǔn)數(shù)據(jù)集上，UniDoc實(shí)現(xiàn)了優(yōu)越的性能。

消融實(shí)驗(yàn)

有趣的消融實(shí)驗(yàn)：對(duì)于同一張輸入圖像，spotting指令（右）規(guī)避了識(shí)別指令（左）的識(shí)別遺漏現(xiàn)象。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
524

瀏覽量
10277
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24701
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2450

瀏覽量
2706

原文標(biāo)題：中科大&字節(jié)提出UniDoc：統(tǒng)一的面向文字場(chǎng)景的多模態(tài)大模型

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

中科大人口模型講義

中科大人口模型講義[hide] [/hide]

發(fā)表于 09-15 12:01

微機(jī)原理與接口技術(shù) 中科大教材

微機(jī)原理與接口技術(shù) 中科大教材[/hide]

發(fā)表于 12-07 11:15

華中科大發(fā)的論文《新一代TSC2046觸摸屏控制器》

華中科大發(fā)的論文《新一代TSC2046觸摸屏控制器》

發(fā)表于 08-03 08:12

51單片機(jī)C語(yǔ)言編程入門(mén)(中科大)

51單片機(jī)C語(yǔ)言編程入門(mén)(中科大)

發(fā)表于 08-06 12:20

中科大嵌入式課件全集

本帖最后由 eehome 于 2013-1-5 09:46 編輯 中科大嵌入式課件全集

發(fā)表于 08-14 21:52

溷沌數(shù)字通信（中科大出版的）

溷沌數(shù)字通信（中科大出版的）

發(fā)表于 08-16 16:49

光電信號(hào)處理?。。?何兆湘華中科大)

光電信號(hào)處理?。。?何兆湘華中科大)

發(fā)表于 08-16 19:47

51單片機(jī)C語(yǔ)言編程入門(mén)(中科大)

51單片機(jī)C語(yǔ)言編程入門(mén)(中科大)

發(fā)表于 08-17 16:02

51單片機(jī)資料（中科大）

51單片機(jī)資料（中科大），超高新掃描版，上傳給初學(xué)者{:7:}

發(fā)表于 06-23 12:51

中科院中科大2003年量子力學(xué)考研試題答案

中科院—中科大2003年量子力學(xué)考研試題答案

發(fā)表于 11-25 16:05 ?0次下載

<b class='flag-5'>中科院中科大</b>2003年量子力學(xué)考研試題答案

人口模型講義 (中科大課程)

人口模型課件 (中科大課程講義)

發(fā)表于 09-15 11:59 ?24次下載

《日本經(jīng)濟(jì)新聞》報(bào)道：中科大為何能對(duì)中國(guó)AI領(lǐng)域產(chǎn)生很的影響？

近日，《日本經(jīng)濟(jì)新聞》的一則報(bào)道指出：在左右著企業(yè)、國(guó)家和地區(qū)發(fā)展的人工智能領(lǐng)域，中科大少年班的人才支撐著中國(guó)的發(fā)展。中國(guó)自動(dòng)駕駛公司百度的總裁張亞勤、前阿里云人工智能首席科學(xué)家的閔萬(wàn)里、AI芯片

發(fā)表于 07-18 09:40 ?7523次閱讀

在醫(yī)療AI領(lǐng)域砥礪前行的中科大學(xué)子

作為國(guó)字號(hào)的科研基石，中科大依靠學(xué)術(shù)層面的踏實(shí)耕耘，很大程度上影響了中國(guó)的醫(yī)療科技風(fēng)向。談?wù)?b class='flag-5'>一所大學(xué)撐起一個(gè)城市的代表，中科大和合肥的CP組合，一

發(fā)表于 05-10 09:36 ?4911次閱讀

《51單片機(jī)C語(yǔ)言編程入門(mén)》(中科大編著)

《51單片機(jī)C語(yǔ)言編程入門(mén)》(中科大編著)

發(fā)表于 01-04 17:54 ?0次下載

北大&amp;amp;華為提出：多模態(tài)基礎(chǔ)大模型的高效微調(diào)

深度學(xué)習(xí)的大模型時(shí)代已經(jīng)來(lái)臨,越來(lái)越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺(jué)和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個(gè)明顯

發(fā)表于 11-08 16:20 ?994次閱讀

搜索歷史

中科大&字節(jié)提出UniDoc：統(tǒng)一的面向文字場(chǎng)景的多模態(tài)大模型

評(píng)論

中科大人口模型講義

微機(jī)原理與接口技術(shù) 中科大教材

華中科大發(fā)的論文《新一代TSC2046觸摸屏控制器》

51單片機(jī)C語(yǔ)言編程入門(mén)(中科大)

中科大嵌入式課件全集

溷沌數(shù)字通信（中科大出版的）

光電信號(hào)處理?。。?何兆湘華中科大)

51單片機(jī)C語(yǔ)言編程入門(mén)(中科大)

51單片機(jī)資料（中科大）

中科院中科大2003年量子力學(xué)考研試題答案

人口模型講義 (中科大課程)

《日本經(jīng)濟(jì)新聞》報(bào)道：中科大為何能對(duì)中國(guó)AI領(lǐng)域產(chǎn)生很的影響？

在醫(yī)療AI領(lǐng)域砥礪前行的中科大學(xué)子

《51單片機(jī)C語(yǔ)言編程入門(mén)》(中科大編著)

北大&amp;華為提出：多模態(tài)基礎(chǔ)大模型的高效微調(diào)