0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OCR終結(jié)了?曠視提出可以文檔級(jí)OCR的多模態(tài)大模型框架Vary,支持中英文,已開源!

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-12-24 21:40 ? 次閱讀

想將一份文檔圖片轉(zhuǎn)換成 Markdown 格式?以往這一任務(wù)需要文本識(shí)別、布局檢測(cè)和排序、公式表格處理、文本清洗等多個(gè)步驟——

這一次,只需一句話命令,多模態(tài)大模型 Vary 直接端到端輸出結(jié)果:

無論是中英文的大段文字:

wKgaomWINeGAaauEAAxKvLvAgCc142.png

wKgaomWINeGAbodMAAWnaNFVZdU310.png

還是包含了公式的文檔圖片:

wKgaomWINeKAPlo4AAVxR6bKBYI081.png

又或是手機(jī)頁面截圖:

wKgaomWINeKAEyFZAAVVG-p7ANc741.png

甚至可以將圖片中的表格轉(zhuǎn)換成 Latex 格式:

wKgaomWINeKAKxFRAAOKXXcn73I239.png

當(dāng)然,作為多模大模型,通用能力的保持也是必須的:

Vary 表現(xiàn)出了很大的潛力和極高的上限,OCR 可以不再需要冗長的 pipline,直接端到端輸出,且可以按用戶的 prompt 輸出不同的格式如 Latex、Word、Markdown。通過 LLM 極強(qiáng)的語言先驗(yàn),這種架構(gòu)還可以避免 OCR 中的易錯(cuò)字,比如“杠桿”和“杜桿”等, 對(duì)于模糊文檔,也有望在語言先驗(yàn)的幫助下實(shí)現(xiàn)更強(qiáng)的 OCR 效果。

項(xiàng)目一出,引發(fā)了不少網(wǎng)友的關(guān)注,有網(wǎng)友看后直呼 “kill the game!”

wKgaomWINeKAMNzeAABoNqdAVf4240.png

wKgaomWINeOAXJiuAACEMhqdQXs796.png

那么這樣的效果,是如何做到的呢?

背后原理

目前的多模態(tài)大模型幾乎都是用 CLIP 作為 Vision Encoder 或者說視覺詞表。確實(shí),在 400M 圖像文本對(duì)訓(xùn)練的 CLIP 有很強(qiáng)的視覺文本對(duì)齊能力,可以覆蓋多數(shù)日常任務(wù)下的圖像編碼。但是對(duì)于密集和細(xì)粒度感知任務(wù),比如文檔級(jí)別的 OCR、Chart 理解,特別是在非英文場(chǎng)景,CLIP 表現(xiàn)出了明顯的編碼低效和 out-of-vocabulary問題。

受語言的 LLMs 啟發(fā),純 NLP 大模型(如 LLaMA)從英文到中文(外語)時(shí)因?yàn)樵荚~表編碼中文效率低,必須要擴(kuò)大 text 詞表。那么對(duì)于現(xiàn)在基于 CLIP 視覺詞表的多模大模型也是一樣的,遇到 “foreign language image”,如一頁論文密密麻麻的文字,很難高效地將圖片 token 化,Vary 提出就是解決這一問題,在不 overwrite 原有詞表前提下,高效擴(kuò)充視覺詞表。

wKgaomWINeOAO9tHAAKXZ72haLU845.png

不同于現(xiàn)有方法直接用現(xiàn)成的 CLIP 詞表,Vary 分兩個(gè)階段:第一階段先用一個(gè)很小的 Decoder-only 網(wǎng)絡(luò)用自回歸方式幫助產(chǎn)生一個(gè)強(qiáng)大的新視覺詞表;然后在第二階段融合新詞表和 CLIP 詞表,從而高效的訓(xùn)練多模大模型擁有新 feature。Vary 的訓(xùn)練方法和模型結(jié)構(gòu)如下圖:

wKgaomWINeOAHvnpAAUprQYQZIE046.png

通過在公開數(shù)據(jù)集以及渲染生成的文檔圖表等數(shù)據(jù)上訓(xùn)練,Vary 極大增強(qiáng)了細(xì)粒度的視覺感知能力。在保持 Vanilla 多模態(tài)能力的同時(shí),激發(fā)出了端到端的中英文圖片、公式截圖和圖表理解能力。

另外,原本可能需要幾千 tokens 的頁面內(nèi)容,通過文檔圖片輸入,信息被Vary壓縮在了 256 個(gè)圖像 tokens 中。這也為進(jìn)一步的頁面分析和總結(jié)提供了更多的想象空間。

目前,Vary 的代碼和模型均已開源,還給出了供大家試玩的網(wǎng)頁 demo。感興趣的小伙伴可以去試試了~

項(xiàng)目主頁:

https://varybase.github.io/

wKgaomWINeOACsCzAAAC0jQz1zo740.svg

參考鏈接

wKgaomWINeOACsCzAAAC0jQz1zo740.svg ?

https://zhuanlan.zhihu.com/p/671420712

· ·


原文標(biāo)題:OCR終結(jié)了?曠視提出可以文檔級(jí)OCR的多模態(tài)大模型框架Vary,支持中英文,已開源!

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:OCR終結(jié)了?曠視提出可以文檔級(jí)OCR的多模態(tài)大模型框架Vary,支持中英文,已開源!

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    商湯日日新模態(tài)模型權(quán)威評(píng)測(cè)第一

    剛剛,商湯科技日日新SenseNova模態(tài)模型,在權(quán)威綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass的模態(tài)評(píng)測(cè)中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?272次閱讀

    亮相2024數(shù)字科技生態(tài)大會(huì)

    2024數(shù)字科技生態(tài)大會(huì)上,展示了多項(xiàng)聯(lián)網(wǎng)領(lǐng)域的前沿技術(shù)及應(yīng)用成果,包括大模型、行業(yè)場(chǎng)景方案以及創(chuàng)新智能終端。
    的頭像 發(fā)表于 12-06 10:34 ?285次閱讀

    ElfBoard開源項(xiàng)目|車牌識(shí)別項(xiàng)目技術(shù)文檔

    車牌識(shí)別項(xiàng)目基于百度智能云平臺(tái),旨在利用其強(qiáng)大的OCR服務(wù)實(shí)現(xiàn)車牌號(hào)碼的自動(dòng)識(shí)別。選擇百度智能云的原因是其高效的API接口和穩(wěn)定的服務(wù)質(zhì)量,能夠幫助開發(fā)者快速實(shí)現(xiàn)車牌識(shí)別應(yīng)用。這個(gè)開源項(xiàng)目使用攝像頭
    的頭像 發(fā)表于 12-06 10:30 ?296次閱讀
    ElfBoard<b class='flag-5'>開源</b>項(xiàng)目|車牌識(shí)別項(xiàng)目技術(shù)<b class='flag-5'>文檔</b>

    一文理解模態(tài)大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態(tài)大語言模型 - 上》介紹了什么是模態(tài)大語言
    的頭像 發(fā)表于 12-03 15:18 ?164次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言<b class='flag-5'>模型</b>——下

    SAE J1939中英文資料

    最全的J1939中英文協(xié)議資料
    發(fā)表于 11-26 15:06 ?0次下載

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡單來說,
    的頭像 發(fā)表于 10-18 09:39 ?505次閱讀

    云知聲推出山海模態(tài)模型

    在人工智能技術(shù)的浩瀚星海中,模態(tài)交互技術(shù)正成為引領(lǐng)未來的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創(chuàng)新之姿,推出了其匠心獨(dú)運(yùn)的山海模態(tài)
    的頭像 發(fā)表于 08-27 15:20 ?407次閱讀

    明治案例 | PE編織袋【大視野】【OCR識(shí)別】

    OCR識(shí)別技術(shù)OCR識(shí)別技術(shù)在工業(yè)生產(chǎn)中扮演著至關(guān)重要的角色。它利用先進(jìn)的圖像處理技術(shù),自動(dòng)、高效地識(shí)別并轉(zhuǎn)換圖像中的文字信息為可編輯的文本數(shù)據(jù)。這一技術(shù)的應(yīng)用確保了生產(chǎn)數(shù)據(jù)的準(zhǔn)確性和實(shí)時(shí)性,為生
    的頭像 發(fā)表于 08-13 08:25 ?484次閱讀
    明治案例 | PE編織袋【大視野】【<b class='flag-5'>OCR</b>識(shí)別】

    基于AX650N芯片部署MiniCPM-V 2.0高效端側(cè)模態(tài)模型

    2.8B參數(shù)。MiniCPM-V 2.0具有領(lǐng)先的光學(xué)字符識(shí)別(OCR)和模態(tài)理解能力。該模型在綜合性OCR能力評(píng)測(cè)基準(zhǔn)OCRBench上
    的頭像 發(fā)表于 07-15 09:34 ?967次閱讀
    基于AX650N芯片部署MiniCPM-V 2.0高效端側(cè)<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    語坤川大模型智能體平臺(tái)亮相2024世界人工智能大會(huì)

    語坤川大模型智能體平臺(tái)兼容多種尺寸的大語言模型模態(tài)
    的頭像 發(fā)表于 07-09 14:38 ?267次閱讀
    <b class='flag-5'>視</b>語坤川大<b class='flag-5'>模型</b>智能體平臺(tái)亮相2024世界人工智能大會(huì)

    智能手機(jī)充電頭OCR精準(zhǔn)識(shí)別

    文本是人類最重要的信息來源之一,自然場(chǎng)景中充滿了形形色色的文字符號(hào)。光學(xué)字符識(shí)別(OCR)相信大家都不陌生。而工業(yè)場(chǎng)景的圖像文字識(shí)別更加復(fù)雜,OCR出現(xiàn)在很多不同的場(chǎng)合,對(duì)某些特殊的表面、產(chǎn)品整體上
    的頭像 發(fā)表于 06-11 08:24 ?487次閱讀
    智能手機(jī)充電頭<b class='flag-5'>OCR</b>精準(zhǔn)識(shí)別

    智譜AI發(fā)布全新模態(tài)開源模型GLM-4-9B

    近日,智譜AI在人工智能領(lǐng)域取得重大突破,成功推出全新開源模型GLM-4-9B。這款模型以其卓越的模態(tài)能力,再次刷新了業(yè)界對(duì)于大型語言
    的頭像 發(fā)表于 06-07 09:17 ?786次閱讀

    《環(huán)球時(shí)報(bào)》中英文刊發(fā)中國第三代自主超導(dǎo)量子計(jì)算機(jī)“悟空”研制團(tuán)隊(duì)主要負(fù)責(zé)人專訪

    《環(huán)球時(shí)報(bào)》中英文刊發(fā)中國第三代自主超導(dǎo)量子計(jì)算機(jī)“悟空”研制團(tuán)隊(duì)主要負(fù)責(zé)人專訪
    的頭像 發(fā)表于 06-01 08:22 ?388次閱讀
    《環(huán)球時(shí)報(bào)》<b class='flag-5'>中英文</b>刊發(fā)中國第三代自主超導(dǎo)量子計(jì)算機(jī)“悟空”研制團(tuán)隊(duì)主要負(fù)責(zé)人專訪

    如何判斷觸摸屏用有機(jī)硅OCR/LOCA性能的優(yōu)劣

    判斷OCR/LOCA性能的優(yōu)劣
    的頭像 發(fā)表于 02-29 10:48 ?620次閱讀

    機(jī)器人基于開源模態(tài)語言視覺大模型

    ByteDance Research 基于開源模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo
    發(fā)表于 01-19 11:43 ?431次閱讀
    機(jī)器人基于<b class='flag-5'>開源</b>的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>語言視覺大<b class='flag-5'>模型</b>