想將一份文檔圖片轉(zhuǎn)換成 Markdown 格式?以往這一任務(wù)需要文本識(shí)別、布局檢測(cè)和排序、公式表格處理、文本清洗等多個(gè)步驟——
這一次,只需一句話命令,多模態(tài)大模型 Vary 直接端到端輸出結(jié)果:
無論是中英文的大段文字:
還是包含了公式的文檔圖片:
又或是手機(jī)頁面截圖:
甚至可以將圖片中的表格轉(zhuǎn)換成 Latex 格式:
當(dāng)然,作為多模大模型,通用能力的保持也是必須的:
Vary 表現(xiàn)出了很大的潛力和極高的上限,OCR 可以不再需要冗長的 pipline,直接端到端輸出,且可以按用戶的 prompt 輸出不同的格式如 Latex、Word、Markdown。通過 LLM 極強(qiáng)的語言先驗(yàn),這種架構(gòu)還可以避免 OCR 中的易錯(cuò)字,比如“杠桿”和“杜桿”等, 對(duì)于模糊文檔,也有望在語言先驗(yàn)的幫助下實(shí)現(xiàn)更強(qiáng)的 OCR 效果。
項(xiàng)目一出,引發(fā)了不少網(wǎng)友的關(guān)注,有網(wǎng)友看后直呼 “kill the game!”
那么這樣的效果,是如何做到的呢?
背后原理
目前的多模態(tài)大模型幾乎都是用 CLIP 作為 Vision Encoder 或者說視覺詞表。確實(shí),在 400M 圖像文本對(duì)訓(xùn)練的 CLIP 有很強(qiáng)的視覺文本對(duì)齊能力,可以覆蓋多數(shù)日常任務(wù)下的圖像編碼。但是對(duì)于密集和細(xì)粒度感知任務(wù),比如文檔級(jí)別的 OCR、Chart 理解,特別是在非英文場(chǎng)景,CLIP 表現(xiàn)出了明顯的編碼低效和 out-of-vocabulary問題。
受語言的 LLMs 啟發(fā),純 NLP 大模型(如 LLaMA)從英文到中文(外語)時(shí)因?yàn)樵荚~表編碼中文效率低,必須要擴(kuò)大 text 詞表。那么對(duì)于現(xiàn)在基于 CLIP 視覺詞表的多模大模型也是一樣的,遇到 “foreign language image”,如一頁論文密密麻麻的文字,很難高效地將圖片 token 化,Vary 提出就是解決這一問題,在不 overwrite 原有詞表前提下,高效擴(kuò)充視覺詞表。
不同于現(xiàn)有方法直接用現(xiàn)成的 CLIP 詞表,Vary 分兩個(gè)階段:第一階段先用一個(gè)很小的 Decoder-only 網(wǎng)絡(luò)用自回歸方式幫助產(chǎn)生一個(gè)強(qiáng)大的新視覺詞表;然后在第二階段融合新詞表和 CLIP 詞表,從而高效的訓(xùn)練多模大模型擁有新 feature。Vary 的訓(xùn)練方法和模型結(jié)構(gòu)如下圖:
通過在公開數(shù)據(jù)集以及渲染生成的文檔圖表等數(shù)據(jù)上訓(xùn)練,Vary 極大增強(qiáng)了細(xì)粒度的視覺感知能力。在保持 Vanilla 多模態(tài)能力的同時(shí),激發(fā)出了端到端的中英文圖片、公式截圖和圖表理解能力。
另外,原本可能需要幾千 tokens 的頁面內(nèi)容,通過文檔圖片輸入,信息被Vary壓縮在了 256 個(gè)圖像 tokens 中。這也為進(jìn)一步的頁面分析和總結(jié)提供了更多的想象空間。
目前,Vary 的代碼和模型均已開源,還給出了供大家試玩的網(wǎng)頁 demo。感興趣的小伙伴可以去試試了~
項(xiàng)目主頁:
https://varybase.github.io/
參考鏈接
?https://zhuanlan.zhihu.com/p/671420712
· ·
原文標(biāo)題:OCR終結(jié)了?曠視提出可以文檔級(jí)OCR的多模態(tài)大模型框架Vary,支持中英文,已開源!
文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2911文章
44837瀏覽量
375199
原文標(biāo)題:OCR終結(jié)了?曠視提出可以文檔級(jí)OCR的多模態(tài)大模型框架Vary,支持中英文,已開源!
文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論