一
背景
目標(biāo)檢測是計算機視覺領(lǐng)域一項重要的任務(wù)。開集目標(biāo)檢測(Open-set Object Detection)與閉集目標(biāo)檢測(Closed-set Object Detection)是目標(biāo)檢測領(lǐng)域的兩個概念。
之前我們已經(jīng)適配了基于Transformer結(jié)構(gòu)的開集目標(biāo)檢測經(jīng)典之作:OWL-ViT(Open-World Localization with Vision Transformers)。去年大模型、多模態(tài)模型學(xué)術(shù)界的研究也取得了爆發(fā)式的進(jìn)展,代表作是由IDEA-Research提出的GroundingDINO ,雖然GroundingDINO效果不錯,但畢竟是學(xué)術(shù)界的成果,在邊緣側(cè)/端側(cè)AI芯片上部署性能并不容易和理想。
到了2024年,是否學(xué)術(shù)界/工業(yè)級已經(jīng)迭代出了更快、更強、更易部署的開集目標(biāo)檢測模型了呢?
當(dāng)然有!它就是接下來走馬觀花分享的開集目標(biāo)檢測工業(yè)級力作:YOLO-World。同時我們還嘗試在AX650N、AX620Q上完成端到端的部署,給行業(yè)內(nèi)對邊緣側(cè)/端側(cè)部署開集目標(biāo)檢測模型的愛好者提供一種新的思路。
二
YOLO-World介紹
● 官方在線DEMO:
https://www.yoloworld.cc/
● 論文傳送門:
https://arxiv.org/pdf/2401.17270
● Github項目:
https://github.com/AILab-CVC/YOLO-World
YOLO-World由Tencent AI Lab、ARC Lab (AI Research Center) at Tencent PCG (Platform and Content Group) 以及華中科技大學(xué)電子信息與通信學(xué)院(School of EIC, Huazhong University of Science & Technology)合作提出的一個創(chuàng)新的實時開放詞匯目標(biāo)檢測方法,它通過結(jié)合視覺-語言建模和大規(guī)模數(shù)據(jù)集上的預(yù)訓(xùn)練,增強了YOLO(You Only Look Once)檢測器的開放詞匯檢測能力。
YOLO-World的主要貢獻(xiàn)和特點包括:
●開放詞匯檢測能力:YOLO-World能夠檢測超出預(yù)定義類別的更廣泛對象,這對于現(xiàn)實世界的復(fù)雜場景非常有用,因為現(xiàn)實世界中的對象類別是多樣且不斷變化的;
● 高效率:YOLO-World在保持高準(zhǔn)確度的同時,還實現(xiàn)了高效率的檢測,這對于需要實時處理的應(yīng)用場景(如自動駕駛、監(jiān)控等)至關(guān)重要;
●Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN):提出了一個新的網(wǎng)絡(luò)結(jié)構(gòu)RepVL-PAN,它通過更好的視覺-語義表示來增強文本和圖像特征之間的交互;
●區(qū)域-文本對比損失:引入了一種新的區(qū)域-文本對比損失函數(shù),以促進(jìn)模型學(xué)習(xí)區(qū)域和文本之間的對應(yīng)關(guān)系,這對于開放詞匯檢測的性能至關(guān)重要;
● 預(yù)訓(xùn)練方案:論文提出了一種有效的預(yù)訓(xùn)練方案,通過在大規(guī)模檢測、定位和圖像-文本數(shù)據(jù)集上進(jìn)行區(qū)域-文本對比學(xué)習(xí),將檢測數(shù)據(jù)、定位數(shù)據(jù)和圖像-文本數(shù)據(jù)統(tǒng)一為區(qū)域-文本對;
●零樣本性能:在LVIS數(shù)據(jù)集上的實驗結(jié)果表明,YOLO-World在零樣本設(shè)置下取得了35.4的平均精度(AP),同時保持了52.0 FPS的高幀率,這顯示了其在大規(guī)模詞匯檢測上的強大能力(精度&速度均領(lǐng)先 GLIP和Grounding DINO);
●下游任務(wù)的適應(yīng)性:預(yù)訓(xùn)練后的YOLO-World在多個下游任務(wù)上表現(xiàn)出色,包括對象檢測和開放詞匯實例分割,這表明了其良好的泛化能力;
●開源代碼和模型:論文承諾將預(yù)訓(xùn)練的權(quán)重和代碼開源,以便于更多的實際應(yīng)用和進(jìn)一步的研究。
總的來說,YOLO-World的提出為實時目標(biāo)檢測領(lǐng)域帶來了新的視角,特別是在處理開放詞匯和提高模型泛化能力方面,它的創(chuàng)新方法和優(yōu)異性能為未來的目標(biāo)檢測研究和應(yīng)用奠定了基礎(chǔ)。
三
愛芯派Pro(AX650N)
搭載愛芯元智第三代高能效比智能視覺芯片AX650N。集成了八核Cortex-A55 CPU,高能效比NPU,支持8K@30fps的ISP,以及H.264、H.265編解碼的VPU。接口方面,AX650N支持64bit LPDDR4x,多路MIPI輸入,千兆 Ethernet、USB、以及HDMI 2.0b輸出,并支持32路1080p@30fps解碼內(nèi)置高算力和超強編解碼能力,滿足行業(yè)對高性能邊緣智能計算的需求。通過內(nèi)置多種深度學(xué)習(xí)算法,實現(xiàn)視覺結(jié)構(gòu)化、行為分析、狀態(tài)檢測等應(yīng)用,高效率支持基于Transformer結(jié)構(gòu)的視覺大模型和語言類大模型。提供豐富的開發(fā)文檔,方便用戶進(jìn)行二次開發(fā)。
四
愛芯派Zero(AX620Q)
搭載愛芯元智第四代智能視覺芯片AX620Q,該芯片集成新一代智眸4.0 AI-ISP,最高支持5MP@30fps實時真黑光,同時集成新一代通元4.0高性能、場景優(yōu)化的NPU引擎,使得產(chǎn)品在低功耗、高畫質(zhì)、智能處理和分析等方面行業(yè)領(lǐng)先。提供穩(wěn)定易用的SDK軟件開發(fā)包,方便用戶低成本評估、二次開發(fā)和快速量產(chǎn)。幫助用戶在智能家居應(yīng)用和其他AIoT項目中發(fā)揮更大的價值。
五
模型獲得
相關(guān)材料
為方便大家轉(zhuǎn)換,我們提供一些必要的參考文件:
https://pan.baidu.com/share/init?surl=HIXFkv_OjqbnTx-9WhZ00Q&pwd=y94b
文件名 | 描述 |
ax620e文件夾 | 包含適用于 AX630C/AX620Q的DEMO 和NPU模型文件axmodel |
ax650文件夾 | 包含適用于AX650A/AX650N 的DEMO和NPU模型文件 axmodel |
onnx_edit.py | onnx yolo world后處理裁剪腳本 |
ssd_horse.jpg | 測試圖片 |
yolo_world_v2_s_xxx-sub.onnx | 已導(dǎo)出的ONNX模型 |
yolo_world.json | pulsar2 build依賴的配置文件 |
ONNX導(dǎo)出
雖然YOLO World相比Grounding DINO在工業(yè)部署上已經(jīng)方便很多,但由于開集目標(biāo)檢測網(wǎng)絡(luò)結(jié)構(gòu)必然的復(fù)雜性,仍然存在一些Trick值得深究。因此我們熟悉的創(chuàng)新模型部署大佬(ZHEQIUSHUI)貢獻(xiàn)了一些微不足道的修改(YOLO -World Optimize,https://github.com/ZHEQIUSHUI/YOLO-World/tree/not_einsum),在不影響精度的情況下,讓后續(xù)的上板部署更佳便捷。
python環(huán)境安裝
conda create --name=yolo_world python=py3.9 conda activate yolo_world
其他依賴安裝
pip install torch==1.11.0+cpu torchvision==0.12.0+cpu torchaudio==0.11.0 --extra-index-url https://download.pytorch.org/whl/cpu -i https://pypi.tuna.tsinghua.edu.cn/simple pip install mmcv==2.0.0 -i https://pypi.tuna.tsinghua.edu.cn/simple pip install mmdet==3.0.0 -i https://pypi.tuna.tsinghua.edu.cn/simple pip install onnx onnxruntime onnxsim -i https://pypi.tuna.tsinghua.edu.cn/simple pip install transformer -i https://pypi.tuna.tsinghua.edu.cn/simple pip install git+https://github.com/lvis-dataset/lvis-api.git -i https://pypi.tuna.tsinghua.edu.cn/simple
YOLO-World安裝并下載權(quán)重
git clone -b not_einsum --recursive https://github.com/ZHEQIUSHUI/YOLO-World.git cd YOLO-World pip install -e . -i https://pypi.tuna.tsinghua.edu.cn/simple wget https://huggingface.co/wondervictor/YOLO-World/resolve/main/yolo_world_s_clip_base_dual_vlpan_2e-3adamw_32xb16_100e_o365_goldg_train_pretrained-18bea4d2.pth
導(dǎo)出ONNX
python deploy/export_onnx.py configs/pretrain/yolo_world_v2_s_vlpan_bn_2e-3_100e_4x8gpus_obj365v1_goldg_train_lvis_minival.py ./yolo_world_v2_s_obj365v1_goldg_pretrain-55b943ea.pth --custom-text data/texts/coco_class_texts.json --opset 11 --device cpu --model-only --simplify
完成以上操作后,我們將得到y(tǒng)olo_world_v2_s_obj365v1_goldg_pretrain-55b943ea.onnx模型。
六
模型轉(zhuǎn)換
ONNX模型優(yōu)化
在使用pulsar2工具鏈轉(zhuǎn)換之前,先對前一步獲得的yolo_world_v2_s_xxx.onnx模型進(jìn)行必要的計算圖優(yōu)化,便于提高模型部署效率。使用onnx_edit.py優(yōu)化完成后,將獲得yolo_world_v2_s_xxx-sub.onnx。
import onnx input_path = "work_dir/yolo_world_v2_s_obj365v1_goldg_pretrain-55b943ea.onnx" output_path = "work_dir/yolo_world_v2_s_obj365v1_goldg_pretrain-55b943ea-sub.onnx" input_names = ["images"] output_names = [ "onnx::Reshape_1191", "onnx::Reshape_1260", "onnx::Reshape_1329", "onnx::Reshape_1172", "onnx::Reshape_1241", "onnx::Reshape_1310", ] onnx.utils.extract_model(input_path, output_path, input_names, output_names)
Pulsar2編譯
Pulsar2是新一代AI工具鏈,包含模型轉(zhuǎn)換、離線量化、模型編譯、異構(gòu)調(diào)度四合一超強功能,進(jìn)一步強化了網(wǎng)絡(luò)模型高效部署的需求。在針對第三代、第四代NPU架構(gòu)進(jìn)行了深度定制優(yōu)化的同時,也擴(kuò)展了算子&模型支持的能力及范圍,對Transformer結(jié)構(gòu)的網(wǎng)絡(luò)也有較好的支持。
一鍵完成圖優(yōu)化、離線量化、編譯、對分功能。整個過程耗時不到2分鐘,log信息量很大。
qtang@gpux2:$ pulsar2 build --input yolo_world_v2_s_obj365v1_goldg_pretrain-55b943ea-sub.onnx --config yolo-world.json --output_dir output --target_hardware AX650 --npu_mode NPU3 --output_name yolo_world_s_u8_npu3.axmodel 32 File(s) Loaded. Building onnx ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 0:00:00 Quant Config Table ┏━━━━━━━━┳━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━┳┓ ┃ Input ┃ Shape ┃ Dataset Directory ┃ Data Format ┃ Tensor Format ┃ Mean ┃ Std ┃ ┡━━━━━━━━╇━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━╇┩ │ images │ [1, 3, 640, 640] │ images │ Image │ BGR │ [0.0, 0.0, 0.0] │ [255.0, 255.0, 255.0]│ └────────┴──────────────────┴───────────────────┴─────────────┴┘ Transformer optimize level: 1 32 File(s) Loaded. [00:55:22] AX Set Float Op Table Pass Running ... Finished. [00:55:22] AX Set MixPrecision Pass Running ... Finished. [00:55:22] AX Transformer Optimize Pass Running ... Finished. [00:55:22] AX Set LN Quant dtype Quant Pass Running ... Finished. [00:55:22] AX Topk Operation Format Pass Running ... Finished. [00:55:22] AX Reset Mul Config Pass Running ... Finished. [00:55:22] AX Refine Operation Config Pass Running ... Finished. [00:55:22] AX Tanh Operation Format Pass Running ... Finished. [00:55:22] AX Confused Op Refine Pass Running ... Finished. [00:55:23] AX Quantization Fusion Pass Running ... Finished. [00:55:23] AX Quantization Simplify Pass Running ... Finished. [00:55:23] AX Parameter Quantization Pass Running ... Finished. Calibration Progress(Phase 1): 100%|██████████████████████| 32/32 [00:26<00:00, ?1.23it/s] Finished. [0049] AX Quantization Alignment Pass Running ... ? ? Finished. [0049] AX Refine Int Parameter Pass Running ... ? ? ? Finished. Finished. [0050] AX Passive Parameter Quantization Running ... ?Finished. [0050] AX Parameter Baking Pass Running ... ? ? ? ? ? Finished. ...... Network Quantization Finished. quant.axmodel export success: 50_output/yolo_world_s/quant/quant_axmodel.onnx Building native ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 000 ...... tiling op... ? ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 253/253 000 new_ddr_tensor = [] build op serially... ? ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 613/613 0:00:07 build op... ? ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1198/1198 0:00:00 ....... 2024-04-11 00:56:03.533 | INFO ? ? | yasched.test_onepass2467 - max_cycle = 4,302,999 build jobs ? ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 3796/3796 0:00:00 2024-04-11 00:56:08.932 | INFO ? ? | yamain.command.build1110 - fuse 1 subgraph(s)
編譯輸出的文件,保存在output文件夾中,其中 yolo_world_s_u8_npu3.axmodel將用于在AX650N Demo板上運行。
七
上版部署
AX-Samples
開源項目AX-Samples實現(xiàn)了常見的深度學(xué)習(xí)開源算法在愛芯元智的AI SoC上的示例代碼,方便社區(qū)開發(fā)者進(jìn)行快速評估和適配。
最新版本已開始提供AX650系列(AX650A、AX650N)、AX620E系列(AX630C、AX620E)的NPU示例,其中也包含了本文介紹的YOLO-World參考代碼。
https://github.com/AXERA-TECH/ax-samples
運行
/opt/test # ./ax_yolo_world -i ssd_horse.jpg -m yolo_world_s_u8_npu3.axmodel -------------------------------------- model file : yolo_world_s_u8_npu3.axmodel image file : ssd_horse.jpg img_h, img_w : 640 640 -------------------------------------- Engine creating handle is done. Engine creating context is done. Engine get io info is done. Engine alloc io is done. Engine push input is done. -------------------------------------- post process cost time:3.80 ms -------------------------------------- Repeat 1 times, avg time 4.52 ms, max_time 4.52 ms, min_time 4.52 ms -------------------------------------- detection num: 6 17: 98%, [ 216, 71, 420, 374], horse 16: 93%, [ 144, 204, 197, 347], dog 13: 86%, [ 469, 149, 499, 178], bench 0: 76%, [ 431, 124, 451, 178], person 0: 74%, [ 271, 13, 348, 236], person 2: 69%, [ 0, 105, 133, 196], car --------------------------------------
AX650N運行YOLO-World S耗時 <5 ms,完全滿足實時運行需求。
性能統(tǒng)計
目前我們已經(jīng)完成了基于AX650N、AX630C、AX620Q芯片平臺的YOLO-World適配。
Platform | FPS |
AX650N | 220 |
AX630C | 33 |
AX620Q | 24 |
八
結(jié)束語
隨著Open-Vocabulary Object Detection網(wǎng)絡(luò)模型的快速發(fā)展,越來越多有趣的多模態(tài)AI應(yīng)用將逐漸從云端服務(wù)遷移到邊緣側(cè)設(shè)備和端側(cè)設(shè)備。
審核編輯:劉清
-
編解碼器
+關(guān)注
關(guān)注
0文章
264瀏覽量
24257 -
計算機視覺
+關(guān)注
關(guān)注
8文章
1699瀏覽量
46048 -
PAN
+關(guān)注
關(guān)注
1文章
19瀏覽量
14288 -
自動駕駛
+關(guān)注
關(guān)注
784文章
13890瀏覽量
166676 -
AI芯片
+關(guān)注
關(guān)注
17文章
1897瀏覽量
35118
原文標(biāo)題:愛芯分享 | 基于AX650N/AX620Q部署YOLO-World
文章出處:【微信號:愛芯元智AXERA,微信公眾號:愛芯元智AXERA】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論