MiniCPM-V 2.0: 具備領(lǐng)先OCR和理解能力的高效端側(cè)多模態(tài)大模型
一背景
今年4月份,面壁智能&清華大學(xué)自然語言處理實(shí)驗(yàn)室推出MiniCPM系列的最新多模態(tài)版本MiniCPM-V 2.0。該模型基于MiniCPM 2.4B和SigLip-400M構(gòu)建,共擁有2.8B參數(shù)。MiniCPM-V 2.0具有領(lǐng)先的光學(xué)字符識(shí)別(OCR)和多模態(tài)理解能力。該模型在綜合性O(shè)CR能力評(píng)測(cè)基準(zhǔn)OCRBench上達(dá)到開源社區(qū)的最佳水平,甚至在場(chǎng)景文字理解方面實(shí)現(xiàn)接近Gemini Pro的性能。簡(jiǎn)單來說,就是能夠?qū)崿F(xiàn)更好地理解圖片中內(nèi)容,實(shí)現(xiàn)精準(zhǔn)的“以圖生文”的能力,所見即所得。
本文將通過走馬觀花的方式,初探MiniCPM-V 2.0的新特性。同時(shí)也將分享基于愛芯元智的AX650N芯片適配MiniCPM-V 2.0的最新進(jìn)展,向業(yè)界對(duì)端側(cè)多模態(tài)大模型部署的開發(fā)者提供一種新的思路,促進(jìn)社區(qū)對(duì)端側(cè)多模態(tài)大模型的探索。
二MiniCPM-V介紹
2.1 MiniCPM-V 2.0特性
● 領(lǐng)先的OCR和多模態(tài)理解能力。MiniCPM-V 2.0顯著提升了OCR和多模態(tài)理解能力,場(chǎng)景文字理解能力接近Gemini Pro,在多個(gè)主流評(píng)測(cè)基準(zhǔn)上性能超過了更大參數(shù)規(guī)模(例如17-34B)的主流模型。
● 可信行為。MiniCPM-V 2.0是第一個(gè)通過多模態(tài)RLHF對(duì)齊的端側(cè)多模態(tài)大模型。該模型在Object HalBench達(dá)到和GPT-4V相仿的性能。
● 任意長(zhǎng)寬比高清圖像高效編碼。MiniCPM-V 2.0可以接受180萬像素的任意長(zhǎng)寬比圖像輸入(基于最新的LLaVA-UHD技術(shù)),這使得模型可以感知到小物體、密集文字等更加細(xì)粒度的視覺信息。
● 高效部署。MiniCPM-V 2.0可以高效部署在大多數(shù)消費(fèi)級(jí)顯卡、個(gè)人電腦以及移動(dòng)手機(jī)等終端設(shè)備。
● 雙語支持。MiniCPM-V 2.0提供領(lǐng)先的中英雙語多模態(tài)能力支持。該能力通過VisCPM[ICLR'24]論文中提出的多模態(tài)能力的跨語言泛化技術(shù)實(shí)現(xiàn)。
2.2 多模態(tài)“小鋼炮”
MiniCPM-V 2.0與參數(shù)規(guī)模更大的多模態(tài)大模型相比,也表現(xiàn)出優(yōu)秀的成績(jī),不愧是業(yè)界“小鋼炮”。
三芯片介紹
3.1 AX650N
愛芯元智第三代高能效比智能視覺芯片AX650N。集成了八核Cortex-A55 CPU,高能效比NPU,支持8K@30fps的ISP,以及H.264、H.265編解碼的 VPU。接口方面,AX650N支持64bit LPDDR4x,多路MIPI輸入,千兆Ethernet、USB、以及HDMI 2.0b輸出,并支持32路1080p@30fps解碼內(nèi)置高算力和超強(qiáng)編解碼能力,滿足行業(yè)對(duì)高性能邊緣智能計(jì)算的需求。通過內(nèi)置多種深度學(xué)習(xí)算法,實(shí)現(xiàn)視覺結(jié)構(gòu)化、行為分析、狀態(tài)檢測(cè)等應(yīng)用,高效率支持基于Transformer結(jié)構(gòu)的視覺大模型和語言類大模型。提供豐富的開發(fā)文檔,方便用戶進(jìn)行二次開發(fā)。
四上版部署
我們已實(shí)現(xiàn)“命令行”和“UI”兩種示例,其中“命令行”版本已上傳到網(wǎng)盤中,歡迎試用。
4.1 命令行版本
測(cè)試圖片:
測(cè)試結(jié)果:
4.2 GUI版本
4.3 性能統(tǒng)計(jì)
項(xiàng)目 | 描述 |
輸入圖片大小 | 280 x 280 |
Image Encoder | 0.8s |
Input Prompt | 96 tokens |
Prefill Time | 0.4s |
Decoder | 5 tokens/s |
五結(jié)束語
隨著大語言模型小型化的快速發(fā)展,越來越多有趣的多模態(tài)AI應(yīng)用將逐漸從云端服務(wù)遷移到邊緣側(cè)設(shè)備和端側(cè)設(shè)備。我們會(huì)緊跟行業(yè)最新動(dòng)態(tài),適配更多的端側(cè)大模型,歡迎大家持續(xù)關(guān)注。
-
自然語言處理
+關(guān)注
關(guān)注
1文章
618瀏覽量
13561 -
愛芯元智
+關(guān)注
關(guān)注
1文章
80瀏覽量
4835 -
大模型
+關(guān)注
關(guān)注
2文章
2448瀏覽量
2701
原文標(biāo)題:愛芯分享 | 基于AX650N部署MiniCPM-V 2.0
文章出處:【微信號(hào):愛芯元智AXERA,微信公眾號(hào):愛芯元智AXERA】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論