0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

手機識別模型案例

柴火創(chuàng)客空間 ? 來源:柴火創(chuàng)客空間 ? 2024-11-18 11:01 ? 次閱讀

導讀

2023年以ChatGPT為代表的大語言模型橫空出世,它的出現(xiàn)標志著自然語言處理領域取得了重大突破。它在文本生成、對話系統(tǒng)和語言理解等方面展現(xiàn)出了強大的能力,為人工智能技術的發(fā)展開辟了新的可能性。同時,人工智能技術正在進入各種應用領域,在智慧城市、智能制造、智慧醫(yī)療、智慧農(nóng)業(yè)等領域發(fā)揮著重要作用。

本期介紹:模型案例:|手機識別模型!

RT-DETR

RT-DETR是基于DETR架構的端到端對象檢測器,完全消除了對NMS的需求。通過這樣做,RT-DETR顯著減少了之前基于卷積神經(jīng)網(wǎng)絡(CNN)的對象檢測器(如YOLO系列)的延遲。它結合了強大的主干、混合編碼器和獨特的查詢選擇器,可以快速準確地處理特征。

c0fa46fa-9cc0-11ef-a511-92fbcf53809c.png

RT-DETR架構的關鍵組件

Backbone網(wǎng)絡:通常采用高效的卷積神經(jīng)網(wǎng)絡(CNN)作為特征提取的基礎,例如ResNet或EfficientNet,以獲取圖像的多尺度特征。從主干,RT-DETR提取三個級別的特征- S3,S4和S5,這些多尺度特征有助于模型理解圖像的高級和細粒度細節(jié)。

c1010922-9cc0-11ef-a511-92fbcf53809c.png

Transformer編碼器-解碼器:RT-DETR中使用了Transformer的編碼器-解碼器結構,該混合編碼器包括兩個主要部分:基于注意力的尺度內(nèi)特征交互(AIFI)和跨尺度特征融合(CCFF)。

基于注意力的尺度內(nèi)特征交互(AIFI)

這個組件的核心思想是利用自注意力機制在同一尺度內(nèi)進行特征交互。AIFI能夠讓模型有效地捕捉同一尺度特征圖中各個位置之間的關系。

具體而言,AIFI通過計算特征的注意力權重,使得模型能夠關注到重要的區(qū)域,并抑制冗余信息,從而增強對目標的定位和表征能力。

這種尺度內(nèi)的交互有助于在相似尺寸的物體之間建立聯(lián)系,提高對密集目標的檢測能力。

c11d7b70-9cc0-11ef-a511-92fbcf53809c.png

跨尺度特征融合(CCFF)

CCFF負責整合來自不同尺度的特征,以便于模型能夠從多層次的信息中獲得更全面的上下文。這一過程通常涉及將來自不同尺度的特征圖進行融合,通過卷積操作、上采樣或下采樣等方式,將這些特征進行對齊并結合在一起。

CCFF不僅允許模型綜合不同尺度特征的優(yōu)勢,還能提高對各種大小目標的檢測能力。

c13bcf26-9cc0-11ef-a511-92fbcf53809c.png

多尺度特征金字塔:RT-DETR通常會借助特征金字塔網(wǎng)絡(FPN)來融合來自不同層次的特征,以加強對不同大小目標的檢測能力。

目標查詢(Object Queries):解碼器使用的目標查詢是關鍵組件,它們用于引導模型對目標的檢測,允許模型在生成檢測結果時關注不同的潛在目標。

類別和邊界框回歸:在解碼器中,RT-DETR通過類別預測和邊界框回歸來輸出目標的類別和位置。

c14cadd2-9cc0-11ef-a511-92fbcf53809c.png

高效的訓練策略:RT-DETR往往結合了一些改進的訓練策略,如動態(tài)圖損失(Dynamic Loss)和圖像增強技術,以提高模型的收斂速度和檢測精度。

后處理:如NMS(非極大值抑制)處理步驟,以去除冗余的檢測框和優(yōu)化最終的檢測結果。

手機識別模型

該 AI 模型由 Swift yolo 算法生成,專為 Seeed Studio Grove Vision AI (V2) 設備設計,能夠高效識別和檢測到手機。

應用場景

該模型適用于多種應用場景,包括零售、安全、公共空間監(jiān)控和個人監(jiān)督。

在零售業(yè),該模型可以實時監(jiān)控手機庫存,幫助員工及時補貨;

在安全方面,它可以幫助識別和跟蹤丟失或被盜的手機;

在個人監(jiān)督,很多學生上課玩手機,可以通過此模型進行監(jiān)控。

SenseCraft Al平臺

SenseCraft Al平臺,是柴火母公司矽遞科技旗下的AI平臺,支持Grove-Vision AI V2、XIAO ESP32S3 Sense和NVIDlA Jetson設備的模型部署、模型訓練和數(shù)據(jù)輸出。

SenseCraft Al平臺為使用者提供海量模型,簡化模型訓練過程并提供專業(yè)的AI視覺工作空間。

c17ce59c-9cc0-11ef-a511-92fbcf53809c.png

在Grove - Vision AI V2模塊上部署模型

1、打開SenseCraft AI平臺,如果第一次使用請先注冊一個會員賬號,還可以設置語言為中文。

平臺地址:

https://sensecraft.seeed.cc/ai/#/model

c1971d86-9cc0-11ef-a511-92fbcf53809c.png

2、在頂部單擊【預訓練模型】菜單,在公共AI模型列表中找到【手機檢測】模型,單擊此模型圖片,如下圖所示。

c1b560a2-9cc0-11ef-a511-92fbcf53809c.png

3、進入【手機檢測】模型介紹頁面,單擊右側(cè)的“部署模型”按鈕,如下圖所示。

c1c91c82-9cc0-11ef-a511-92fbcf53809c.png

4、進入部署手機檢測模型頁面,按提示步驟先連接攝像頭,再連接設備到電腦USB接口上,最后單擊【連接設備】按鈕,如下圖所示。

c1ee4d54-9cc0-11ef-a511-92fbcf53809c.png

5、彈出部署模型窗口,單擊“確定”按鈕,如下圖所示。

c2021654-9cc0-11ef-a511-92fbcf53809c.png

6、彈出連接到串行端口窗口,選擇端口號后單擊“連接”按鈕,如下圖所示。

c20d4362-9cc0-11ef-a511-92fbcf53809c.png

7、開始進行模型部署、固件下載、設備重啟等過程,完成后在預覽中即可看到當前攝像頭視頻內(nèi)容,將攝像頭對準手機圖片查看預測效果,如下圖所示。

c210dedc-9cc0-11ef-a511-92fbcf53809c.png

原型設計

利用此手機識別模型,設計一個桌面手機監(jiān)控裝置,此裝置在檢測到有人用手機時會點亮led模塊,也可改為蜂鳴器模塊進行報警,這樣就有了一個防沉迷手機檢測裝置。

c22c8466-9cc0-11ef-a511-92fbcf53809c.png

模型推理演示,請看如下視頻

Grove Al視覺模塊 V2套裝介紹

c2454d66-9cc0-11ef-a511-92fbcf53809c.png

Grove Al視覺模塊 V2

c249730a-9cc0-11ef-a511-92fbcf53809c.png

OV5647-62攝像頭

Grove - Vision Al Module V2是一款拇指大小的人工智能視覺模塊, 配備Himax WiseEye2 HX6538處理器Arm Ethos-U55嵌入式神經(jīng)網(wǎng)絡加速單元(NPU), 該處理器采用 ArmCortex-M55雙核架構。

Arm Ethos-U55 嵌入式神經(jīng)網(wǎng)絡處理器(NPU)

嵌入式神經(jīng)網(wǎng)絡處理器(NPU)是一種特別設計用于執(zhí)行神經(jīng)網(wǎng)絡計算的高效率處理器。它主要基于數(shù)據(jù)驅(qū)動并行計算架構,特別擅長處理視頻、圖像等大量的多媒體數(shù)據(jù)。NPU模仿了生物神經(jīng)網(wǎng)絡的架構,與CPU、GPU相比,它能夠通過更少的指令(一條或幾條)完成神經(jīng)元的處理,因此在深度學習的處理效率方面具有明顯優(yōu)勢。

它具有標準的CSI接口, 并與樹莓派相機兼容。它有一個內(nèi)置的數(shù)字麥克風和SD卡插槽。它非常適用于各種嵌入式視覺項目。

有了SenseCraft Al算法平臺, 經(jīng)過訓練的ML模型可以部署到傳感器, 而不需要編碼。它兼容XIAO系列和Arduino生態(tài)系統(tǒng), 是各種物體檢測應用的理想選擇。

主要硬件配置

- 板卡基于WiseEye2 HX6538處理器, 采用雙核ARM Cortex-M55架構

- 配備集成Arm Ethos-U55嵌入式神經(jīng)網(wǎng)絡處理器(NPU), 兼容的樹莓派相機

- 板載PDM麥克風, SD卡插槽, Type-C, Grove接口, 豐富的外設支持樣機開發(fā)

- Seeed Studio XIAO的可擴展性, SenseCraft Al的現(xiàn)成AI模型用于無代碼部署。

- 支持各種有效的模型, 包括MobilenetV1、MobilenetV2、 Eficientnet-Lite、Yolov5和Yolov8.

寫在最后

SenseCraft-AI平臺的模型倉數(shù)量還很少,但是好消息是它支持自定義模型上傳并輸出推理結果,平臺會逐漸增加模型倉的數(shù)量和分享有愛好者設計的模型倉原型,敬請關注!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 手機
    +關注

    關注

    35

    文章

    6926

    瀏覽量

    159176
  • 模型
    +關注

    關注

    1

    文章

    3474

    瀏覽量

    49889

原文標題:模型案例:| 手機識別模型!

文章出處:【微信號:ChaiHuoMakerSpace,微信公眾號:柴火創(chuàng)客空間】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏

    評論

    相關推薦
    熱點推薦

    聯(lián)想moto手機集成DeepSeek-R1大模型

    聯(lián)想moto官方近日正式宣布,其最新款AI手機已成功集成了DeepSeek-R1滿血版大模型。這款大模型擁有高達671B的滿血參數(shù),為用戶帶來了前所未有的智能化體驗。 通過聯(lián)想moto手機
    的頭像 發(fā)表于 02-14 14:36 ?350次閱讀

    【「基于大模型的RAG應用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調(diào)技術解讀

    今天學習<基于大模型的RAG應用開發(fā)與優(yōu)化>這本書。大模型微調(diào)是深度學習領域中的一項關鍵技術,它指的是在已經(jīng)預訓練好的大型深度學習模型基礎上,使用新的、特定任務相關的數(shù)據(jù)
    發(fā)表于 01-14 16:51

    【「大模型啟示錄」閱讀體驗】營銷領域大模型的應用

    今天跟隨「大模型啟示錄」這本書,學習在營銷領域應用大模型。 大模型通過分析大量的消費者數(shù)據(jù),包括購買歷史、瀏覽記錄、社交媒體互動等,能夠識別消費者的偏好和行為模式。這種分析能力有助于企
    發(fā)表于 12-24 12:48

    垃圾短信?手機自動識別垃圾短信邏輯的分析

    作者:京東科技 賈玉龍 1 背景 隨著智能手機的普及和移動互聯(lián)網(wǎng)的發(fā)展,短信作為一種傳統(tǒng)的通訊方式,仍然保持著其獨特的地位。然而,隨著垃圾短信的泛濫,手機自動識別垃圾短信的技術也在不斷進步。對于提供
    的頭像 發(fā)表于 12-16 10:19 ?725次閱讀

    AI模型部署邊緣設備的奇妙之旅:如何實現(xiàn)手寫數(shù)字識別

    1 簡介 近年來,人工智能(AI)技術的突破性進展為嵌入式系統(tǒng)帶來了新的生機。AI技術的融入使得嵌入式系統(tǒng)能夠更加智能地處理復雜任務, 如圖像識別、語音識別、自然語言處理等。這種融合不僅提高了嵌入式
    發(fā)表于 12-06 17:20

    模型案例之奶牛識別模型

    ? 導讀 ? ? 2023年以ChatGPT為代表的大語言模型橫空出世,它的出現(xiàn)標志著自然語言處理領域取得了重大突破。它在文本生成、對話系統(tǒng)和語言理解等方面展現(xiàn)出了強大的能力,為人工智能技術的發(fā)展
    的頭像 發(fā)表于 12-04 14:04 ?624次閱讀
    <b class='flag-5'>模型</b>案例之奶牛<b class='flag-5'>識別</b><b class='flag-5'>模型</b>

    AI大模型在圖像識別中的優(yōu)勢

    AI大模型在圖像識別中展現(xiàn)出了顯著的優(yōu)勢,這些優(yōu)勢主要源于其強大的計算能力、深度學習算法以及大規(guī)模的數(shù)據(jù)處理能力。以下是對AI大模型在圖像識別中優(yōu)勢的介紹: 一、高效性與準確性 處理速
    的頭像 發(fā)表于 10-23 15:01 ?2116次閱讀

    三問AI手機:什么意圖?怎么識別?何種框架?

    意圖識別框架上,正在醞釀一場從“以手機為中心”到“以人為中心”的交互之變
    的頭像 發(fā)表于 08-21 17:45 ?2707次閱讀
    三問AI<b class='flag-5'>手機</b>:什么意圖?怎么<b class='flag-5'>識別</b>?何種框架?

    【《大語言模型應用指南》閱讀體驗】+ 俯瞰全書

    的機會! 本人曾經(jīng)也參與過語音識別產(chǎn)品的開發(fā),包括在線和離線識別,但僅是應用語言模型實現(xiàn)端側(cè)的應用開發(fā),相當于調(diào)用模型的接口函數(shù),實際對模型
    發(fā)表于 07-21 13:35

    手機識別不了GATT_SERVER例程中的屬性怎么辦?

    下載GATT_SERVER代碼,在電腦上用bluetooth le explorer可以正確識別服務和屬性,但在手機上用BLE調(diào)試助手識別的服務和屬性不正確。 修改GATT_SERVER中的藍牙名稱
    發(fā)表于 07-19 08:08

    人臉識別模型訓練流程

    人臉識別模型訓練流程是計算機視覺領域中的一項重要技術。本文將詳細介紹人臉識別模型的訓練流程,包括數(shù)據(jù)準備、模型選擇、
    的頭像 發(fā)表于 07-04 09:19 ?1632次閱讀

    人臉識別模型訓練失敗原因有哪些

    人臉識別模型訓練失敗的原因有很多,以下是一些常見的原因及其解決方案: 數(shù)據(jù)集質(zhì)量問題 數(shù)據(jù)集是訓練人臉識別模型的基礎。如果數(shù)據(jù)集存在質(zhì)量問題,將直接影響
    的頭像 發(fā)表于 07-04 09:17 ?1146次閱讀

    人臉識別模型訓練是什么意思

    人臉識別模型訓練是指通過大量的人臉數(shù)據(jù),使用機器學習或深度學習算法,訓練出一個能夠識別和分類人臉的模型。這個模型可以應用于各種場景,如安防監(jiān)
    的頭像 發(fā)表于 07-04 09:16 ?1121次閱讀

    Transformer模型在語音識別和語音生成中的應用優(yōu)勢

    隨著人工智能技術的飛速發(fā)展,語音識別和語音生成作為人機交互的重要組成部分,正逐漸滲透到我們生活的各個方面。而Transformer模型,自其誕生以來,憑借其獨特的自注意力機制和并行計算能力,在
    的頭像 發(fā)表于 07-03 18:24 ?1879次閱讀

    基于毫米波雷達的手勢識別算法

    不夠,即他們無法識別距離相當大的噪聲運動超過一米的手勢。在本文中,我們利用一種新的數(shù)據(jù)處理方法和定制的人工卷積神經(jīng)網(wǎng)絡(CNN)設計了一個遠程手勢識別模型。首先,我們將手勢分解為多個反射點,并提取它們
    發(fā)表于 06-05 19:09

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品