0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

愛芯通元NPU適配Qwen2.5-VL-3B視覺多模態(tài)大模型

愛芯元智AXERA ? 來源:愛芯元智AXERA ? 2025-04-21 10:56 ? 次閱讀

Qwen2.5-VL:the new flagship vision-language model of Qwen and also a significant leap from the previous Qwen2-VL.

愛芯通元:以算子為原子指令集的AI計算處理器。高效支持混合精度算法設(shè)計和Transformer,為大模型(DeepSeek、Qwen、MiniCPM……)在“云—邊—端”的AI應(yīng)用提供強力基礎(chǔ)。

https://www.axera-tech.com/Skill/166.html

TLDR

7226b8ba-1bf5-11f0-9310-92fbcf53809c.png

背景

熟悉愛芯通元NPU的網(wǎng)友很清楚,從去年開始我們在端側(cè)多模態(tài)大模型適配上一直處于主動緊跟的節(jié)奏。先后適配了國內(nèi)最早開源的多模態(tài)大模MiniCPM V 2.0,上海人工智能實驗室的書生多模態(tài)大模型 InternVL2.5-1B/8B/MPO,Huggingface推出的全球最小多模態(tài)大模型SmloVLM-256M。為工業(yè)界提供了離線部署多模態(tài)大模型(VLM)實現(xiàn)圖片本地高效率理解的可行性方案。

從本文開始,我們將逐漸探索基于VLM的視頻理解方案,讓端側(cè)/邊緣設(shè)備智能化升級有更大的想象空間。

本文基于Qwen2.5-VL-3B走馬觀花介紹VLM是如何從圖片理解(Image Understand)延伸到視頻理解(Video Understand),并展示基于愛芯通元NPU平臺的最新適配情況,最后“腦洞”一些可能存在的產(chǎn)品落地場景。

Qwen2.5-VL

Qwen2.5-VL是由通義千問團隊開源的視覺多模態(tài)大模型。到目前為止已經(jīng)開源了3B、7B、32B、72B四種尺度,滿足不同算力設(shè)備靈活部署。

官方鏈接:https://github.com/QwenLM/Qwen2.5-VL

Huggingface:https://huggingface.co/Qwen/Qwen2.5-VL-3B-Instruct

wKgZO2gFtQOAblEVAAJFWeKIRZE836.jpg

Qwen2.5-VL是Qwen2-VL的版本更新,以下功能更新展示了Qwen2.5-VL在視覺-語言處理領(lǐng)域的強大功能和廣泛應(yīng)用前景。

增強功能

視覺理解能力:Qwen2.5-VL不僅擅長識別常見的物體如花、鳥、魚和昆蟲,還能高效地分析圖像中的文本、圖表、圖標、圖形和布局;

作為視覺代理的能力:該模型能夠直接充當一個視覺代理,具備推理能力和動態(tài)工具指導(dǎo)能力,適用于計算機和手機的使用;

長視頻理解和事件捕捉:Qwen2.5-VL能夠理解超過一小時的視頻內(nèi)容,并新增了通過精確定位相關(guān)視頻段來捕捉事件的能力;

不同格式的視覺定位能力:該模型能通過生成邊界框或點準確地在圖像中定位對象,并提供包含坐標和屬性的穩(wěn)定JSON輸出;

結(jié)構(gòu)化輸出:針對發(fā)票掃描件、表格、表單等數(shù)據(jù),Qwen2.5-VL支持其內(nèi)容的結(jié)構(gòu)化輸出,這在金融、商業(yè)等領(lǐng)域具有重要應(yīng)用價值。

架構(gòu)更新

為視頻理解進行的動態(tài)分辨率和幀率訓(xùn)練:通過采用動態(tài)FPS采樣將動態(tài)分辨率擴展到時間維度,使模型能夠在各種采樣率下理解視頻。相應(yīng)地,我們在時間維度上用ID和絕對時間對齊更新了mRoPE,讓模型能夠?qū)W習(xí)時間序列和速度,最終獲得定位特定時刻的能力。

跑分情況

7240cfb6-1bf5-11f0-9310-92fbcf53809c.jpg

愛芯通元

愛芯通元是愛芯元智自研的NPU IP品牌。本文基于內(nèi)置愛芯通元NPUv3架構(gòu)的愛芯派Pro(AX650N)進行示例展示。

愛芯派Pro

搭載愛芯元智第三代高能效比智能視覺芯片AX650N。集成了八核Cortex-A55 CPU,18TOPs@INT8 NPU以及H.264、H.265 編解碼的VPU。接口方面,AX650N支持64bit LPDDR4x,多路MIPI輸入,千兆Ethernet、USB、以及HDMI 2.0b輸出,并支持32路1080p@30fps解碼內(nèi)置高算力和超強編解碼能力,滿足行業(yè)對高性能邊緣智能計算的需求。通過內(nèi)置多種深度學(xué)習(xí)算法,實現(xiàn)視覺結(jié)構(gòu)化、行為分析、狀態(tài)檢測等應(yīng)用,高效率支持Transformer結(jié)構(gòu)的大模型。提供豐富的開發(fā)文檔,方便用戶進行二次開發(fā)。

72484d2c-1bf5-11f0-9310-92fbcf53809c.jpg

模型轉(zhuǎn)換

我們在Huggingface上提供了預(yù)編譯好的模型,建議直接使用。

如果有朋友想深入研究如何從Huggingface原生倉庫的safetytensor模型使用Pulsar2 NPU工具鏈轉(zhuǎn)換生成axmodel模型,請參考我們的開源項目:

https://github.com/AXERA-TECH/Qwen2.5-VL-3B-Instruct.axera

模型部署

預(yù)編譯文件

從Huggingface上獲取

https://huggingface.co/AXERA-TECH/Qwen2.5-VL-3B-Instruct

pipinstall -U huggingface_hub
exportHF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --resume-download AXERA-TECH/Qwen2.5-VL-3B-Instruct --local-dir Qwen2.5-VL-3B-Instruct

文件說明

root@ax650:/mnt/qtang/llm-test/Qwen2.5-VL-3B-Instruct# tree -L 1
.
|-- image
|-- main
|-- python
|-- qwen2_5-vl-3b-image-ax650
|-- qwen2_5-vl-3b-video-ax650
|-- qwen2_5-vl-tokenizer
|-- qwen2_tokenizer_image_448.py
|-- qwen2_tokenizer_video_308.py
|-- run_qwen2_5_vl_image.sh
|-- run_qwen2_5_vl_video.sh
`-- video

qwen2_5-vl-3b-image-ax650:存放圖片理解的axmodel文件

qwen2_5-vl-3b-video-ax650:存放視頻理解的axmodel文件

qwen2_tokenizer_image_448.py:適用于圖片理解的tokenizer解析服務(wù)

run_qwen2_5_vl_image.sh:圖片理解示例的執(zhí)行腳本

準備環(huán)境

使用transformer庫實現(xiàn)tokenizer解析服務(wù)。

pipinstall transformers==4.41.1

圖片理解示例

先啟動適用于圖片理解任務(wù)的tokenizer解析服務(wù)。

python3qwen2_tokenizer_image_448.py --port12345

7254149a-1bf5-11f0-9310-92fbcf53809c.jpg

運行圖片理解示例

./run_qwen2_5_vl_image.sh

輸入圖片

輸入文本(prompt):描述下圖片

輸出結(jié)果

726bdb7a-1bf5-11f0-9310-92fbcf53809c.png

輸入文本(prompt):目標檢測,穿著藍色衣服的人,輸出概率最高的一個結(jié)果

輸出結(jié)果

72766e14-1bf5-11f0-9310-92fbcf53809c.png

將原始圖片resize到448x448分辨率后,使用返回的坐標信息[188, 18, 311, 278],手動畫框結(jié)果還是挺準的。

視頻理解示例

提前將從某一段視頻抽取適當時間戳的8幀。先啟動適用于視頻理解任務(wù)的tokenizer解析服務(wù)。

pythonqwen2_tokenizer_video_308.py --port12345

7290e24e-1bf5-11f0-9310-92fbcf53809c.jpg

運行視頻理解示例

./run_qwen2_5_vl_video.sh

輸入視頻

輸入文本(prompt):描述下視頻

輸出結(jié)果

729d0646-1bf5-11f0-9310-92fbcf53809c.jpg

應(yīng)用場景探討

視頻理解能結(jié)合視頻中時間序列上的信息。能夠更佳準確的理解真實世界的行為語義。

家庭場景:老人摔倒,煙火檢測

工業(yè)場景:缺陷檢測,危險行為檢測

車載場景:駕艙內(nèi)外環(huán)境感知

其他場景:穿戴式視覺輔助設(shè)備

總結(jié)

隨著年初DeepSeek破圈,普通大眾已經(jīng)接受大模型與日常生活中的萬事萬物進行融合,單純的語言類大模型已經(jīng)無法滿足大眾的需求,多模態(tài)大模型、全模態(tài)大模型已經(jīng)成為今年的主流。

愛芯通元NPU結(jié)合原生支持Transformer、高能效比、易用性等技術(shù)優(yōu)勢,將積極適配業(yè)界優(yōu)秀的多模態(tài)大模型,提供端&邊大模型高效部署的軟硬件整體解決方案。推動“普惠AI造就美好生活”。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19811

    瀏覽量

    233603
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    34274

    瀏覽量

    275461
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3612

    瀏覽量

    43492
  • NPU
    NPU
    +關(guān)注

    關(guān)注

    2

    文章

    321

    瀏覽量

    19524
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3030

    瀏覽量

    3834

原文標題:愛芯分享 | 愛芯通元NPU適配Qwen2.5-VL-3B

文章出處:【微信號:愛芯元智AXERA,微信公眾號:愛芯元智AXERA】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏

    評論

    相關(guān)推薦
    熱點推薦

    Intel OpenVINO? Day0 實現(xiàn)阿里通義 Qwen3 快速部署

    本文將以 Qwen3-8B 為例,介紹如何利用 OpenVINO 的 Python API 在英特爾平臺(GPU, NPUQwen3 系列模型。
    的頭像 發(fā)表于 05-11 11:36 ?653次閱讀
    Intel OpenVINO? Day0 實現(xiàn)阿里通義 <b class='flag-5'>Qwen3</b> 快速部署

    《電子發(fā)燒友電子設(shè)計周報》聚焦硬科技領(lǐng)域核心價值 第9期:2025.04.21--2025.04.25

    /jishu_2482732_1_1.html 6、NPU適配Qwen2.5-VL-3B
    發(fā)表于 04-25 19:15

    阿里云開源視覺語言大模型Qwen-VL ,支持圖文雙模態(tài)輸入

    據(jù)介紹,Qwen-VL 是支持中英文等多種語言的視覺語言(Vision Language,VL模型。相較于此前的 VL
    的頭像 發(fā)表于 08-25 15:12 ?1695次閱讀
    阿里云開源<b class='flag-5'>視覺</b>語言大<b class='flag-5'>模型</b><b class='flag-5'>Qwen-VL</b> ,支持圖文雙<b class='flag-5'>模態(tài)</b>輸入

    2024 WAIC智能芯片及模態(tài)模型論壇丨AI處理器助力打造普惠智能

    近日,2024世界人工智能大會在上海召開,智于7月5日在大會上成功舉辦“領(lǐng)未來丨智能芯片及模態(tài)
    的頭像 發(fā)表于 07-05 21:15 ?1836次閱讀
    2024 WAIC智能芯片及<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>論壇丨<b class='flag-5'>愛</b><b class='flag-5'>芯</b>通<b class='flag-5'>元</b>AI處理器助力打造普惠智能

    通義千問發(fā)布第二代視覺語言模型Qwen2-VL

    Qwen2-VL系列模型模態(tài)處理領(lǐng)域取得了突破性進展,于多個權(quán)威測評中嶄露頭角,刷新了多項最佳成績記錄,展現(xiàn)出強大的視覺理解與語言交互
    的頭像 發(fā)表于 09-03 16:31 ?799次閱讀

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實現(xiàn)更加智能化的信息處理。簡單來說,
    的頭像 發(fā)表于 10-18 09:39 ?1079次閱讀

    PerfXCloud重磅升級 阿里開源最強視覺語言模型Qwen2-VL-7B強勢上線!

    「重磅通知」 :PerfXCloud 再度華麗升級,現(xiàn)已全面支持迄今為止 最為卓越的開源視覺模型 Qwen2-VL-7B 。這一重大突破將為用戶帶來更加震撼的視覺體驗,進一步拓展創(chuàng)意的
    的頭像 發(fā)表于 10-23 11:07 ?678次閱讀
    PerfXCloud重磅升級  阿里開源最強<b class='flag-5'>視覺</b>語言<b class='flag-5'>模型</b><b class='flag-5'>Qwen2-VL-7B</b>強勢上線!

    阿里云開源Qwen2.5-Coder代碼模型系列

    Qwen2.5-Coder-32B-Instruct,在代碼生成領(lǐng)域取得了顯著成就。據(jù)官方介紹,該模型在EvalPlus等十多個主流的代碼生成基準測試中,均刷新了開源模型的得分紀錄,展現(xiàn)出了卓越的性能。更值得一提的是,
    的頭像 發(fā)表于 11-14 11:28 ?799次閱讀

    阿里云發(fā)布開源模態(tài)推理模型QVQ-72B-Preview

    。 QVQ-72B-Preview展現(xiàn)出了令人矚目的視覺理解和推理能力,尤其在解決數(shù)學(xué)、物理、科學(xué)等領(lǐng)域的復(fù)雜推理問題上,其表現(xiàn)尤為突出。據(jù)多項評測數(shù)據(jù)顯示,QVQ在視覺理解方面已經(jīng)超越了此前的頂尖
    的頭像 發(fā)表于 12-27 10:28 ?514次閱讀

    利用英特爾OpenVINO在本地運行Qwen2.5-VL系列模型

    近期阿里通義實驗室在 Hugging Face 和 ModelScope 上開源了 Qwen2.5-VL 的 Base 和 Instruct 模型,包含 3B、7B 和 72
    的頭像 發(fā)表于 03-12 13:42 ?842次閱讀
    利用英特爾OpenVINO在本地運行<b class='flag-5'>Qwen2.5-VL</b>系列<b class='flag-5'>模型</b>

    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL模態(tài)理解模型

    模態(tài)理解模型是讓AI像人類一樣,通過整合多維度信息(如視覺、語言、聽覺等),理解數(shù)據(jù)背后的語義、情感、邏輯或場景,從而完成推理、決策等任務(wù)。
    的頭像 發(fā)表于 04-18 09:30 ?722次閱讀
    基于MindSpeed MM玩轉(zhuǎn)<b class='flag-5'>Qwen2.5VL</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>理解<b class='flag-5'>模型</b>

    B都有!BM1684X一鍵適配全系列Qwen3

    Qwen3發(fā)布,大小尺寸通吃Qwen3一發(fā)布,登頂開源大模型排行榜!235B、32B、8B、4
    的頭像 發(fā)表于 04-30 18:37 ?366次閱讀
    幾<b class='flag-5'>B</b>都有!BM1684X一鍵<b class='flag-5'>適配</b>全系列<b class='flag-5'>Qwen3</b>

    后摩智能NPU適配通義千問Qwen3系列模型

    近日,阿里云重磅推出Qwen3 系列開源混合推理模型。用時不到1天,后摩智能自研NPU迅速實現(xiàn)Qwen3 系列模型
    的頭像 發(fā)表于 05-07 16:46 ?380次閱讀

    Arm CPU適配通義千問Qwen3系列模型

    近日,阿里巴巴開源了新一代通義千問模型 Qwen3,Arm 率先成為首批成功適配模型的計算平臺廠商。與此同時,Arm 面向人工智能 (AI) 框架開發(fā)者的開源計算內(nèi)核 Arm Kle
    的頭像 發(fā)表于 05-12 16:37 ?444次閱讀

    壁仞科技完成Qwen3旗艦模型適配

    近日,在高效適配Qwen3系列模型推理后,壁仞科技宣布完成旗艦版Qwen3-235B-A22B模型的訓(xùn)練
    的頭像 發(fā)表于 05-16 16:23 ?287次閱讀

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品