我國有超1700萬視障人士,如何讓他們更安全、自主地出行?別擔心,智能瞳行來啦!這是一款“自帶外掛”的導航神器,集成了高精度視覺傳感和YOLO算法,實時識別障礙物、行人、交通標志,并通過語音播報精準指路,讓視障朋友走哪都心里有數(shù)。
智能瞳行不僅讓視障人士自由穿梭于大街小巷,還讓他們更好地感受世界的變化和精彩——昆明理工大學津橋?qū)W院:智能瞳行團隊
一、核心功能:
- YOLO識別:像開了透視一樣,精準捕捉周圍環(huán)境信息。
- 語音導航:貼心播報,讓障礙物無所遁形,走路更安心。
- 智能反饋:個性化指引,輕松適應(yīng)各種場景,出行更自信!

二、特色與創(chuàng)新:
2.1.1 技術(shù)優(yōu)勢
a、YOLOv8:YOLOv8 作為最新一代目標檢測算法,在實時性、準確性和模型輕量化方面均表現(xiàn)出色。相比前代模型,YOLOv8 在保持高檢測精度的同時,顯著提升了推理速度,適用于智能瞳行設(shè)備等對實時性要求較高的應(yīng)用場景。此外,其優(yōu)化后的模型結(jié)構(gòu)使其更輕量化,更適合嵌入式設(shè)備和移動端部署。同時,YOLOv8 支持端到端訓練和部署,降低了開發(fā)和應(yīng)用成本,并具備較強的靈活性和可擴展性,可根據(jù)不同應(yīng)用需求進行優(yōu)化。
b、YOLOv8 與其他 YOLO 模型對比:相較于 YOLOv5、YOLOv6 和 YOLOv7,YOLOv8 在相近的參數(shù)量下提供了更高的吞吐量和檢測性能,在目標檢測、實例分割和圖像分類等任務(wù)上均表現(xiàn)更優(yōu)。Ultralytics 在 YOLOv8 的設(shè)計中進一步優(yōu)化了模型結(jié)構(gòu),使其在精度、速度和計算效率之間達到了更優(yōu)的平衡,為智能瞳行設(shè)備提供了更可靠的視覺感知能力。
c、ROS2:ROS2 作為 ROS 的新一代架構(gòu),針對通信機制、同步策略、工具鏈及安全性等方面進行了全面優(yōu)化。相較于 ROS1,ROS2 采用了去中心化的 DDS(Data Distribution Service)通信機制,提高了數(shù)據(jù)傳輸?shù)膶崟r性和可擴展性,能夠更好地適應(yīng)復(fù)雜的機器人系統(tǒng)需求。同時,ROS2 引入了更靈活的節(jié)點管理方式、改進的同步執(zhí)行模型,并支持多種編程語言,提升了開發(fā)效率。此外,ROS2 進一步優(yōu)化了性能,降低了系統(tǒng)延遲,提高了吞吐能力,并增強了安全特性,使其在高可靠性應(yīng)用場景中更加適用。
綜合而言,智能瞳行設(shè)備結(jié)合 YOLOv8 先進的目標檢測能力與 ROS2 高效穩(wěn)定的通信架構(gòu),實現(xiàn)了高精度、低延遲的數(shù)據(jù)處理與環(huán)境感知,為智能化應(yīng)用提供了堅實的技術(shù)基礎(chǔ)。
2.1.2輕量小巧
智能瞳行團隊通過市場調(diào)研,發(fā)現(xiàn)目前市場上有一類科技助盲的機械犬,但是體型較為龐大,外出攜帶極其不方便。
智能瞳行設(shè)備,采用3D打印技術(shù),外殼進行輕量化設(shè)計,整體重量僅為1.7KG,佩戴更為方便,小巧,便于攜帶。

2.2創(chuàng)新點
在YOLOv8原模型上,團隊技術(shù)成員還引入了神經(jīng)網(wǎng)絡(luò)算法- EfficientNetV2,通過引入漸進式學習策略、自適反正則強度調(diào)整,提升YOLOv8的檢測效果。通過引入NA5技術(shù)去搜索MBConv和Fused-MBConv的最佳組合大幅提高了訓練速度,減小模型大小。提高了YOLOv8的檢測效率。
(1)首先是一個 1×1 卷積用于升維,其輸出 channel 是輸入 channel 的 n 倍。
(2)緊接著通過一個 DW 卷積。
(3)然后通過一個 SE 模塊,使用注意力機制調(diào)整特征矩陣。
(4)之后再通過 1×1 卷積進行降維。注意這里只有 BN,沒有 swish 激活函數(shù)(其實就是對應(yīng)線性激活函數(shù))。
(5)最后跟一個dropout層
三、硬件和軟件
3.1硬件介紹
A基于YOLO模型的智能瞳行設(shè)備設(shè)計使用了 地瓜機器人RDK X3機器人開發(fā)者套件(下文統(tǒng)稱RDK X3),搭載了旭日3智能計算芯片,具有5TOPs端側(cè)推理算力,兼容樹莓派4B、CM4接口,方便開發(fā)者快速集成。結(jié)合地瓜機器人的高性能AI工具鏈與機器人開發(fā)平臺,助力智能瞳行設(shè)備快速落地解決方案。
B、M260C環(huán)形六麥語音模塊
M260C 環(huán)形麥克風陣列由 6 個麥克風環(huán)形排列組成,遠場拾音實驗室環(huán)境 下可達 10m,喚醒角度的分辨率為 1°,可進行 360°全方位聲源定位。
智能瞳行設(shè)備采用該語音模塊,實現(xiàn)人機交互,通過特定的語音指令,喚醒語音助手,通過特定語音,操作智能瞳行設(shè)備完成相應(yīng)操作。
C、N10P激光雷達
N10 Plus系列激光雷達采用 TOF(time of flight)方案,能夠?qū)χ車?60°環(huán)境進行二維掃描探測。該系列激光雷達內(nèi)部使用無線供電和光通訊,測量重頻為5.4KHz。采用 TOF(time of flight)測距原理,通過測量調(diào)制激光的發(fā)射、返回時間差來測量物體與傳感器的相對距離。激光發(fā)射器發(fā)出調(diào)制脈沖激光,內(nèi)部定時器開始從t1時刻計算時間,當激光照射到目標物體后,部分能量返回,當雷達接收到返回的激光信號時,在t2時刻停止內(nèi)部定時器計時,光速C,激光雷達到達物體的距離D為:D=C*(t2-t1)/2
經(jīng)過N10 Plus系列激光雷達內(nèi)嵌的信號處理單元的實時解算得到探測物體的距離值,結(jié)合高精度自適應(yīng)角度測量模塊輸出的角度信息,可以得到量程內(nèi)周圍 360°環(huán)境的二維平面信息。
D. Gemini-Datasheet深度相機
智能瞳行設(shè)備采用激光N10P雷達和深度相機,通過激光雷達建立二維障礙物模型,深度相機建立三維空間模型,兩個技術(shù)相結(jié)合,構(gòu)建一個實時的周圍環(huán)境模型。

e. N100N慣導模塊
N100N慣導模塊是具有一個強大的 Sigma-Point 卡爾曼濾波器 (SPKF),以及一套高性能算法,高達 1000Hz 的傳感器采樣頻率和圓錐和劃船運動補償,有較強的抗磁干擾能力。內(nèi)部算法提供高精度的位置,速度和姿態(tài)估計連同在10hz和200hz之間的補償慣性測量,可方便的接入外部視覺、雷達等速度、位置、航向輔助設(shè)備進行組合導航。
智能瞳行運用此慣導模塊,判斷視障人士行走路線以及行走方位是否發(fā)生偏移,以及結(jié)合北斗定位模塊,實現(xiàn)導航。
f. G60 GPS北斗雙定位模塊
G60 模塊是基于 ATGM336H-5N 的高性能 BDS/GNSS 定位導航模塊。模塊支持多種衛(wèi)星導航系統(tǒng),包括中國的北斗二號和北斗三號全部衛(wèi)星,美國的 GPS,俄羅斯的 GLONASS,日本的 QZSS,可以同時接收以上衛(wèi)星導航系統(tǒng)的衛(wèi)星信號,支持 A-GNSS 輔助定位,并且實現(xiàn)聯(lián)合定位、導航與授時,模塊具有高靈敏度、低功耗、低成本等優(yōu)勢,適用于車載導航、手持定位、可穿戴設(shè)備。
智能瞳行設(shè)備應(yīng)用北斗高精度定位,精準定位視障人士的位置,以及對接收到的指令進行定位導航
3.2軟件介紹
基于YOLO模型的智能瞳行設(shè)備設(shè)計一個實時檢測系統(tǒng),YOLO系列作為非常重要且具有影響力的目標檢測算法常常被使用。YOLO v8作為YOLO系列的最新版本,相比過去有了很多明顯的研究進展。YOLO v8在精度方面進行了進一步的提升。它采用了更深、更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),可以更好地捕捉目標的細節(jié)和特征。此外,還引入了一些新的技術(shù)和算法,例如更強大的骨干網(wǎng)絡(luò)和更有效的多尺度特征融合方法,從而進一步提高了目標檢測的精度。YOLO v8不僅在提高精度方面有了很大的進展,還依然保持了YOLO系列一貫的特點,即快速的檢測速度。仍然通過單次前向傳播的方式進行目標檢測,避免了復(fù)雜的區(qū)域生成和候選框篩選過程。YOLO v8相比于過去YOLO系列具有更高的檢測精度、更快的檢測速度、更好的適應(yīng)性和通用性,以及更強大的預(yù)測能力。這些優(yōu)勢和特點使得YOLO v8成為目標檢測領(lǐng)域的一種重要算法,并在各種實際應(yīng)用場景中發(fā)揮著重要作用。同時,使用pycharm為系統(tǒng)提供了軟件支持,同時python3.11和python-opencv的開放碼源和可拓展的特性大大提高了本系統(tǒng)的開發(fā)的可操作性,是該系統(tǒng)的開咋在軟件方面具有可能性。
3.3系統(tǒng)實現(xiàn)原理
a.數(shù)據(jù)采集:通過深度相機的攝像頭實時捕獲前方環(huán)境的視頻流數(shù)據(jù)。
b.圖像預(yù)處理階段:收集到的原始視頻流數(shù)據(jù)經(jīng)過灰度處理、幀讀取等一系列預(yù)處理操作,輸入至YOLO模型。
c.實時目標檢測:YOLO模型基于訓練好的權(quán)重參數(shù),在單個圖像幀中一次性預(yù)測出所有類別的物體邊界框和相應(yīng)的置信度得分。
d.slam建圖與深度相機3D建圖:通過激光雷達與深度相機結(jié)合的視覺模型實時構(gòu)建3D立體圖,完成路徑規(guī)劃和障礙物規(guī)劃避障。
e.目標識別分類:模型輸出的邊界框和置信度得分經(jīng)過后處理步驟,篩選出置信度閾值以上的障礙物、行人、交通標志等目標,并對其進行精確分類。
f.播報信息生成:根據(jù)激光雷達和深度相機計算視障人士和障礙物之間的距離,并生成播報信息。
g.反饋:將識別出的環(huán)境信息轉(zhuǎn)化為易于理解的聲音指令,通過語音播報模塊反饋給視障人士。
h.人機交互:視障人士可以通過語音喚醒智能語音助手,讓其播報周圍有什么,以及導航到想要去的目的地。
i.用戶響應(yīng):用戶根據(jù)接收到的反饋調(diào)整自己的行走路徑或動作,智能瞳行設(shè)備系統(tǒng)根據(jù)用戶行為和環(huán)境變化動態(tài)更新檢測結(jié)果和導航建議。
j.通過連貫的操作流程,基于YOLO模型的設(shè)計能夠?qū)崟r幫助視障人士了解周圍環(huán)境情況,從而實現(xiàn)安全、自主的移動。
第四章 系統(tǒng)實現(xiàn)
4.1 感知層技術(shù)
- M260C環(huán)形六麥語音模塊:六麥克風環(huán)形陣列,10m遠場拾音,360°聲源定位。通過固定波束拾取特定方向的聲音,用于語音交互,轉(zhuǎn)換指令數(shù)據(jù)至控制層。
- N10P激光雷達:基于TOF測距原理,360°環(huán)境掃描,實時輸出障礙物信息至控制層。
- Gemini深度相機:采用3D結(jié)構(gòu)光技術(shù),獲取深度與彩色圖像,結(jié)合YOLOv8模型進行目標識別,并與激光雷達數(shù)據(jù)融合,提供障礙物方位及距離信息。
- N100N慣導模塊:具備高精度慣性測量,結(jié)合北斗定位,判斷行走路徑與方位偏移,輔助導航。
- G60 GPS北斗雙定位模塊:支持多星座聯(lián)合定位,精準獲取用戶位置,實現(xiàn)高精度導航。
4.2 傳輸層技術(shù)
- USB:主數(shù)據(jù)傳輸方式,連接各感知模塊,將語音、雷達、視頻流等數(shù)據(jù)傳輸至控制層。
- TTL:用于激光雷達與語音模塊數(shù)據(jù)傳輸,經(jīng)串口轉(zhuǎn)換為USB信號。
- WiFi:設(shè)備與PC端共享局域網(wǎng),便于遠程調(diào)試。
- 北斗CDMA:實現(xiàn)多用戶在同一頻段通信,獲取位置信息并傳輸至控制層。
- DDS(數(shù)據(jù)分發(fā)服務(wù)):基于ROS2的通信協(xié)議,支持分布式數(shù)據(jù)傳輸,提高數(shù)據(jù)實時性與靈活性。
4.3 控制層技術(shù)
智能瞳行設(shè)備以地瓜機器人RDK X3機器人開發(fā)者套件作為整個系統(tǒng)架構(gòu)的主控制層之一,具有5TOPs端側(cè)推理算力,在此基礎(chǔ)上安裝了Ubuntu20.04系統(tǒng),同時搭配了ROS2-humble版本,感知層負責接受各種來源的數(shù)據(jù)。而傳輸層通過ttl,USB傳輸給控制層,控制層通過內(nèi)置程序、算法,計算出周圍環(huán)境情況,規(guī)劃處一條安全、可靠的路徑,分析出播報內(nèi)容,例如正前方道路平坦,可以直行的播報內(nèi)容,通過傳輸層,傳輸給另一控制層- M260C環(huán)形六麥語音播報模塊播報出相應(yīng)語音指令,指引視障人士安全出行,讓視障人士擁有第六感。
4.4軟件開發(fā)技術(shù)
ROS2-humble版本的應(yīng)用, ROS1的通信機制基于TCPROS實現(xiàn),這意味著所有節(jié)點(即機器人系統(tǒng)中的各個組件)之間的通信都需要經(jīng)過一個中心節(jié)點——Ros Master。一旦Ros Master出現(xiàn)故障,整個系統(tǒng)的通信都會受到影響。相比之下,ROS2的通信機制則采用了更為先進的DDS(Data Distribution Service)技術(shù)。DDS是一種發(fā)布/訂閱模型的消息傳遞中間件,它支持節(jié)點之間的去中心化通信,有效提高了系統(tǒng)的可靠性和穩(wěn)定性。智能瞳行設(shè)備的感知層中語音模塊接收的語音指令,激光雷達距離、角度等數(shù)據(jù)、深度相機視頻流數(shù)據(jù)利用 DDS 發(fā)布對應(yīng)節(jié)點,然后通過程序獲取節(jié)點中的有用數(shù)據(jù),并傳輸給控制層程序處理,確保了數(shù)據(jù)的高效流轉(zhuǎn)和系統(tǒng)的穩(wěn)定運行。
Python 語言語法簡潔,易于學習和理解,適用于快速開發(fā)原型和數(shù)據(jù)處理任務(wù),如圖為處理激光雷達數(shù)據(jù)的部分代碼。
智能瞳行設(shè)備各模塊底層驅(qū)動都由C和C++來完成,如圖為激光雷達底層驅(qū)動部分代碼。
Pycharm 是一款優(yōu)秀的 Python 開發(fā)集成環(huán)境(IDE),提供了代碼編輯、調(diào)試、項目管理等一系列功能,大大提高了開發(fā)效率,智能瞳行設(shè)備程序通過該軟件進行的代碼編寫、調(diào)試。
4.5數(shù)據(jù)挖掘和可視化應(yīng)用
數(shù)據(jù)讀?。?br />1.初始化 DDS 環(huán)境:創(chuàng)建參與者(Participant),建立與 DDS 域的連接。
2.查找主題:使用主題名稱來查找感興趣的數(shù)據(jù)主題。
3.創(chuàng)建訂閱者(Subscriber):用于接收數(shù)據(jù)。
4.創(chuàng)建數(shù)據(jù)讀取器(DataReader):與找到的主題關(guān)聯(lián),準備讀取數(shù)據(jù)。
5.處理接收到的數(shù)據(jù):通過回調(diào)函數(shù)或主動讀取的方式獲取數(shù)據(jù),并進行相應(yīng)的處理。
6.設(shè)備通過接收節(jié)點數(shù)據(jù),通過程序處理,激光雷達為例,如圖,通過訂閱激光雷達腹部的話題lslidar_driver_node,以及其中的節(jié)點/sacn,就能夠讀取其中的數(shù)據(jù),對數(shù)據(jù)進行處理,就能獲取到距離,以及角度信息。
Python中Matplotlib的使用:
通過獲取節(jié)點中的數(shù)據(jù),通過numpy庫對數(shù)據(jù)進行相應(yīng)處理,轉(zhuǎn)換為可視化圖形數(shù)據(jù),通過內(nèi)置函數(shù)進行動畫處理,實現(xiàn)實時的動畫數(shù)據(jù)。
以獲取激光雷達數(shù)據(jù)為例,通過獲取節(jié)點中激光雷達數(shù)據(jù)的處理,將數(shù)據(jù)處理為圖形數(shù)據(jù),實時的顯示在圖形頁面上,方便對數(shù)據(jù)進行處理與判斷。
Rviz2是ROS2中常用的可視化工具,通過訂閱各模塊發(fā)布的節(jié)點數(shù)據(jù)來實現(xiàn)圖形可視化,為開發(fā)者提供了直觀的方式來理解和調(diào)試系統(tǒng)。智能瞳行設(shè)備通過Rviz2 可訂閱這些節(jié)點,將激光雷達數(shù)據(jù)以點云的形式展示,攝像頭數(shù)據(jù)以圖像的形式呈現(xiàn),北斗、GPS數(shù)據(jù)則以地圖上的位置標記顯示。
-
人工智能
+關(guān)注
關(guān)注
1800文章
48132瀏覽量
242407 -
RDK
+關(guān)注
關(guān)注
0文章
17瀏覽量
9099 -
目標檢測
+關(guān)注
關(guān)注
0文章
214瀏覽量
15734
發(fā)布評論請先 登錄
相關(guān)推薦
蘋果利用多種傳感器制作模型可以幫助視障人士
怎樣去設(shè)計基于單片機的紅外超聲波避障導盲儀
如何采用STC89C52單片機實現(xiàn)超聲波紅外避障語音導盲儀設(shè)計
Aira與Lyft合作利用AR眼鏡幫視障人士獲取必要的乘車信息
Specialized 智能眼鏡為視障人士定制
讓AI驅(qū)散視障人士的黑暗
歐姆龍開發(fā)AI導盲機器人 讓視障人士的世界更便捷
如何使用機器視覺實現(xiàn)智能導盲眼鏡的設(shè)計

曠視推出多款A(yù)I為老助殘產(chǎn)品樣本,輔助視障人士閱讀、出行
Facebook通過AI改善視障人士的體驗
基于單片機的紅外超聲波避障導盲儀-GSM短信(畢業(yè)課設(shè)資料)

為視障人士設(shè)計的支持Arduino的PCB設(shè)備

評論