0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Gemini Vision + Raspberry Pi 化身“數(shù)字導(dǎo)盲犬”?

上海晶珩電子科技有限公司 ? 2025-03-25 09:20 ? 次閱讀

本文討論了一位程序員利用樹莓派、攝像頭、Gemini和Python構(gòu)建PeregrineEye設(shè)備,使其成為“數(shù)字導(dǎo)盲犬”為視障者服務(wù)的項(xiàng)目經(jīng)歷,包括項(xiàng)目靈感、功能、構(gòu)建過程、遇到的挑戰(zhàn)及未來計(jì)劃等。關(guān)鍵要點(diǎn)包括:

1.項(xiàng)目靈感:程序員因眼睛疲勞引發(fā)思考,結(jié)合AutoBerry Pi項(xiàng)目,想為視障人士創(chuàng)造了解周圍環(huán)境的設(shè)備。

2.項(xiàng)目功能:能進(jìn)行圖像描述,將圖片和音頻描述保存為MP3;未來將推出交互式指導(dǎo)。

3.項(xiàng)目構(gòu)建:利用Gemini視覺模型分析圖片,Python的Google文本轉(zhuǎn)語(yǔ)音引擎實(shí)現(xiàn)文本轉(zhuǎn)語(yǔ)音,硬件包含樹莓派等部件,以Python集成硬件和庫(kù)。

4.面臨挑戰(zhàn):存在照明敏感度、大模型幻覺、距離和細(xì)節(jié)、多任務(wù)管理等問題。

5.未來計(jì)劃:增加麥克風(fēng)支持,連接API保存相關(guān)數(shù)據(jù),集成RAG模塊增強(qiáng)理解能力。

6.項(xiàng)目潛力:可用于獲取營(yíng)養(yǎng)信息、識(shí)別倉(cāng)庫(kù)標(biāo)簽、跟蹤健康進(jìn)度等。

7.引發(fā)思考:項(xiàng)目引發(fā)對(duì)視覺大模型、TTS領(lǐng)域及接入其他模型的討論,演變?yōu)闄z驗(yàn)AI普惠性的課題 。

導(dǎo)語(yǔ)

當(dāng)Gemini初現(xiàn)鋒芒,全球開發(fā)者都為多模態(tài)AI的"視覺智能"心跳加速——演示視頻里,模型對(duì)漢堡配料如數(shù)家珍,對(duì)化學(xué)方程式信手拈來。但鮮有人追問:當(dāng)炫技的聚光燈熄滅,這些技術(shù)究竟能在真實(shí)世界的暗角點(diǎn)燃怎樣的火種?

一位程序員用樹莓派+攝像頭+Gemini+Python構(gòu)建的PeregrineEye設(shè)備,給出了他的答案:在視力模糊的日子里,讓AI化身"數(shù)字導(dǎo)盲犬",通過實(shí)時(shí)圖像描述與語(yǔ)音反饋,為視障者重構(gòu)空間認(rèn)知。這個(gè)極客版"第三只眼",既驗(yàn)證了多模態(tài)大模型的實(shí)用價(jià)值,也暴露出技術(shù)落地時(shí)的刺骨現(xiàn)實(shí)。下面來看看他的項(xiàng)目經(jīng)歷吧!

靈感

作為一名程序員,我花了無數(shù)的時(shí)間盯著代碼。有一天,眼睛疲勞迫使我只能用模糊的視線面對(duì)世界。這次經(jīng)歷凸顯了視力對(duì)我們?nèi)粘I畹纳钸h(yuǎn)影響。這引發(fā)了一個(gè)問題:當(dāng)我的視力需要休息時(shí),導(dǎo)致這種暫時(shí)退步的技術(shù)——人工智能能否成為一種輔助工具?

由于我一直在從事另一個(gè)名為AutoBerry Pi的項(xiàng)目,我決定在它上面添加一個(gè)攝像頭和一個(gè)音響罩,這樣我就可以與 LLM 和周圍環(huán)境進(jìn)行互動(dòng),創(chuàng)造出一些可以幫助視障人士了解周圍環(huán)境的東西。

值得一提的是,我知道這個(gè)概念已經(jīng)存在了有:一個(gè)非??岬母拍钜曨l,一個(gè)男人使用 ChatGPT幫助導(dǎo)航。


PEREGRINEYE項(xiàng)目并不是想與之競(jìng)爭(zhēng);這個(gè)項(xiàng)目是在該視頻發(fā)布之前構(gòu)思的,純粹是出于我對(duì)在旅途中使用設(shè)備測(cè)試 LLM 的熱愛。

項(xiàng)目預(yù)覽

下面是這款相機(jī)的外形

63ad717a-0917-11f0-9434-92fbcf53809c.png63e0582e-0917-11f0-9434-92fbcf53809c.png

功能

- 圖像描述:在光線充足的任何地方拍攝一張照片,AI相機(jī)會(huì)立即從您的視角描述圖像中的元素,提供豐富的細(xì)節(jié)。它將圖片和音頻描述都保存為 MP3 以供日后參考。

- 即將推出:交互式指導(dǎo)。不久,AI相機(jī) 將更進(jìn)一步。只需告訴它您在拍攝的圖像中尋找什么,它就會(huì)提供音頻說明,幫助您找到物體、繞過障礙物或與周圍環(huán)境互動(dòng)。

它是如何建造的

1、圖像描述引擎

我們利用 Gemini 視覺模型來分析設(shè)備拍攝的圖片并生成詳細(xì)的描述。提示詞對(duì)于塑造輸出的質(zhì)量極為重要。我們目前使用的基本提示為我們提供了中等到良好的結(jié)果:

提示詞:您是一個(gè)數(shù)字助理,需要為盲人提供視覺反饋,幫助他們?cè)谥車h(huán)境中導(dǎo)航。收到圖像后,詳細(xì)描述關(guān)鍵物體和結(jié)構(gòu),包括它們的相對(duì)位置和上下文信息。您的回復(fù)應(yīng)簡(jiǎn)潔、清晰且信息豐富,使用戶能夠有效地定位自己。此外,學(xué)習(xí)并適應(yīng)經(jīng)常訪問的地方,以提供個(gè)性化指導(dǎo)。您的回復(fù)要自然,并專注于提供有價(jià)值的幫助,使您的用戶能夠進(jìn)行日常導(dǎo)航。

代碼現(xiàn)在需要從更新1.5-flash到:

model= genai.GenerativeModel(model_name="gemini-1.5-pro-latest")

盡管 Gemini 視覺模型提供了不錯(cuò)的結(jié)果,但它并不是這類項(xiàng)目的最佳選擇,因?yàn)樗袝r(shí)會(huì)產(chǎn)生不準(zhǔn)確的描述(“幻覺”)。通過更好的參數(shù)化和模型微調(diào),這可能會(huì)得到改善。

2、文本轉(zhuǎn)語(yǔ)音 (TTS)

我們使用 Python 的 Google 文本轉(zhuǎn)語(yǔ)音 (gTTS) 引擎,該引擎可將描述性文本轉(zhuǎn)換為清晰的音頻供用戶使用。gTTS 是一個(gè)易于使用的庫(kù),可讓您創(chuàng)建無限量的語(yǔ)音,使其成為付費(fèi) TTS 服務(wù)的絕佳替代品。使用 gTTS,您可以將任何文本轉(zhuǎn)換為語(yǔ)音,包括較長(zhǎng)的文本。雖然某些基于云的 TTS 服務(wù)可能有使用限制,但gTTS 目前不需要任何付費(fèi) API或額外功能來實(shí)現(xiàn)我們一直使用的目的,允許免費(fèi)和無限地生成語(yǔ)音。

frombutton_libraryimportButtonimportsubprocessimportosfromPILimportImagefromaudio_libraryimportAudioRecorderfromgttsimportgTTSfrompygameimportmixerfromdotenvimportload_dotenvimportglob

3、硬件

系統(tǒng)的核心部件包括:

- Raspberry Pi Zero 2W:系統(tǒng)核心的緊湊且價(jià)格實(shí)惠的微控制器。

644add20-0917-11f0-9434-92fbcf53809c.png

- Adafruit Voice Bonnet:用于高品質(zhì)音頻輸入和輸出,確保用戶和設(shè)備之間的清晰通信

647e1eec-0917-11f0-9434-92fbcf53809c.png

- UPS Lite:提供可靠的電源,確保不間斷運(yùn)行。

64c62250-0917-11f0-9434-92fbcf53809c.png

- Raspberry Pi 攝像頭:捕獲圖像,并通過圖像描述引擎進(jìn)行實(shí)時(shí)分析。

64e4c408-0917-11f0-9434-92fbcf53809c.png

由于樹莓派的配件豐富,要搭建這樣一個(gè)應(yīng)用的原型非常容易。

4、編程

Python 作為主要的編程語(yǔ)言來集成各種硬件組件和庫(kù),確保攝像頭、視覺模型和文本轉(zhuǎn)語(yǔ)音系統(tǒng)之間的順暢交互。

我們遇到的挑戰(zhàn)

1、照明敏感度

- 照明條件差時(shí)的表現(xiàn):正如預(yù)期的那樣,Gemini Vision 的準(zhǔn)確度在照明條件差的情況下會(huì)顯著降低。這會(huì)導(dǎo)致幻覺增多和物體識(shí)別不準(zhǔn)確。

- 照明條件充足的表現(xiàn):模型在光線充足的圖像下表現(xiàn)最佳,表現(xiàn)出更高的精度和更少的幻覺。

更新:更換相機(jī)后,我注意到圖像質(zhì)量有了顯著改善,這大大提高了模型的性能。因此,我建議選擇原裝 Raspberry Pi 相機(jī):Raspberry Pi 相機(jī),它提供了更好的效果。

650dc0f6-0917-11f0-9434-92fbcf53809c.png

2、大模型幻覺

物體幻覺:

- Gemini Vision有時(shí)會(huì)識(shí)別出圖像中實(shí)際上不存在的物體。這通常涉及通常在場(chǎng)景環(huán)境中發(fā)現(xiàn)但在特定圖片中不存在的物體。例如,即使沒有視覺證據(jù),它也可能推斷出架子后面有柜臺(tái)。

- 在一個(gè)例子中,模型錯(cuò)誤地識(shí)別了廣告牌上的墨西哥公眾人物L(fēng)ily Téllez,盡管她沒有出現(xiàn)在圖片中。這表明模型可能傾向于將知名人物與某些地點(diǎn)、背景甚至顏色聯(lián)系起來。我仍然不完全理解它怎么會(huì)錯(cuò)誤地識(shí)別圖片中的 Lily。雖然這張照片與政治有關(guān)(這是準(zhǔn)確的,盡管照片中的人不是政治人物),但唯一明顯的線索似乎是“VOTA”這個(gè)詞,意思是“投票”。

3、距離和細(xì)節(jié)

- 特寫圖像準(zhǔn)確度:Gemini Vision 在分析特寫圖像時(shí)表現(xiàn)出色。細(xì)節(jié)更清晰,幻覺更少,物體識(shí)別更準(zhǔn)確。

- 距離帶來的挑戰(zhàn):相機(jī)與拍攝對(duì)象之間的距離越大,性能就越差。細(xì)節(jié)變得越不清晰,從而導(dǎo)致誤解和幻覺。

4、多任務(wù)管理

- 當(dāng)前面臨的一個(gè)重大挑戰(zhàn)是同時(shí)管理多項(xiàng)服務(wù)。這包括語(yǔ)音生成、AI API 調(diào)用、按鈕和麥克風(fēng)輸入,以及確保 AI 的快速響應(yīng)時(shí)間。

下一步是什么?

1、麥克風(fēng)支持

下一步是使提示動(dòng)態(tài)化,以適應(yīng)用戶與設(shè)備交互的特定需求。通過將麥克風(fēng)集成到音頻引擎蓋中,可以實(shí)現(xiàn)這一點(diǎn),允許根據(jù)用戶輸入實(shí)時(shí)自定義提示。

2、連接 API 以保存圖像、請(qǐng)求和 LLM 輸出

我計(jì)劃創(chuàng)建一個(gè)端點(diǎn)來保存圖像、用戶請(qǐng)求和 LLM 生成的輸出。這將使我能夠建立與設(shè)備交互的全面記錄,并有可能轉(zhuǎn)變?yōu)橛脩粼O(shè)備交互的有用百科全書。

3、RAG 集成(檢索增強(qiáng)生成)

我的目標(biāo)是集成一個(gè)模塊,允許設(shè)備從另一個(gè) API 檢索數(shù)據(jù),通過訪問外部知識(shí)源來增強(qiáng)其理解和與圖像交互的能力。這將有助于提供更多背景信息并提高圖像解釋的準(zhǔn)確性。

結(jié)論

老實(shí)說,在超市里閑逛,指著隨機(jī)的東西,看看 LLM 認(rèn)為它在看什么,這真是太有趣了——有時(shí)它很準(zhǔn)確,有時(shí),嗯,不太準(zhǔn)確!但這都是樂趣的一部分。這個(gè)小裝置有太多的潛力,不僅僅是玩玩而已。想象一下,用它來從食物圖片中獲取營(yíng)養(yǎng)信息,在繁忙的倉(cāng)庫(kù)中識(shí)別標(biāo)簽,甚至跟蹤你的健康和康復(fù)進(jìn)度。這個(gè)東西可以做很多事情,我迫不及待地想看看它下一步會(huì)去哪里!

結(jié)語(yǔ)

如今大模型的都在你追我趕,當(dāng)GPT-4o的實(shí)時(shí)視頻解析刷新認(rèn)知,當(dāng)Llava-1.6在本地端跑出驚艷的視覺推理,這個(gè)開源項(xiàng)目正站在多模態(tài)大模型革命的十字路口。我們亟需一場(chǎng)開發(fā)者間的"技術(shù)眾籌":

您是否部署過更"接地氣"的視覺大模型?哪些開源方案在抗干擾、防幻覺方面表現(xiàn)優(yōu)異?

在TTS領(lǐng)域,ElevenLabs的擬真聲線、Azure Neural的抑揚(yáng)頓挫,或是本地部署的Bark模型,誰(shuí)能賦予設(shè)備更溫暖的"聲音靈魂"?

若將設(shè)備接入SAM圖像分割模型,能否實(shí)現(xiàn)"幫我找到左邊第三個(gè)紅色罐頭"的精準(zhǔn)定位?

這場(chǎng)始于程序員個(gè)人痛點(diǎn)的極客實(shí)驗(yàn),正在演變?yōu)闄z驗(yàn)AI普惠性的社會(huì)課題。歡迎大家在評(píng)論區(qū)參與討論!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Gemini
    +關(guān)注

    關(guān)注

    0

    文章

    59

    瀏覽量

    7729
  • Vision
    +關(guān)注

    關(guān)注

    1

    文章

    201

    瀏覽量

    18455
  • 樹莓派
    +關(guān)注

    關(guān)注

    118

    文章

    1810

    瀏覽量

    106211
  • RaspberryPi
    +關(guān)注

    關(guān)注

    1

    文章

    45

    瀏覽量

    9211
收藏 0人收藏

    評(píng)論

    相關(guān)推薦

    如何使用Raspberry pi和Python來控制Arduino

    如果你同時(shí)擁有Arduino和Raspberry pi板,本文將向您展示如何使用Raspberry pi和Python來控制Arduino。
    的頭像 發(fā)表于 11-08 16:51 ?4626次閱讀
    如何使用<b class='flag-5'>Raspberry</b> <b class='flag-5'>pi</b>和Python來控制Arduino

    Raspberry Pi Pico是什么

    Waveshare給您介紹一款樹莓派家族的新成員,Raspberry Pi Pico 是一款低成本,高性能的微控制器開發(fā)板,具有靈活數(shù)字接口。硬件上,采用Raspberry
    發(fā)表于 07-14 07:02

    使用raspberry pi Pico的原因

    使用raspberry pi Pico的原因在硬件產(chǎn)品(單片機(jī))的開發(fā)中我們往往需要借助一些額外的儀器/設(shè)備進(jìn)行產(chǎn)品的輔助測(cè)試, 假設(shè)我們需要一個(gè)IO+ADC類型輔助設(shè)備, 以往的做法是 原理圖
    發(fā)表于 02-07 09:16

    安裝Raspberry Pi Clock Hat的教程分享

    描述適用于樹莓派的諾基亞 5110 帽子Raspberry Pi Clock Hat是一個(gè)簡(jiǎn)單但非常有用的 Raspberry Pi 帽子。它將允許您在板載諾基亞 5110 LCD上監(jiān)
    發(fā)表于 07-05 06:01

    Getting Started with Raspberry Pi

    這本書叫你如何上手Raspberry Pi
    發(fā)表于 11-03 17:44 ?0次下載

    raspberry_pi各版本差別

    raspberry pi 各版本差別,對(duì)比Raspberry Pi Model B+、Raspberry
    發(fā)表于 01-06 11:12 ?0次下載

    Raspberry_Pi詳解

    Raspberry_Pi詳解
    發(fā)表于 01-31 20:45 ?16次下載

    Instant Raspberry Pi Gaming

    Instant Raspberry Pi Gaming
    發(fā)表于 10-24 09:26 ?6次下載
    Instant <b class='flag-5'>Raspberry</b> <b class='flag-5'>Pi</b> Gaming

    raspberry pi官網(wǎng)

    Raspberry Pi 宣布推出新的鏡像實(shí)用程序 Raspberry Pi Imager,以提供一種更簡(jiǎn)單的方法,將操作系統(tǒng)輕松鏡像到 microSD 上。
    的頭像 發(fā)表于 03-07 10:16 ?6256次閱讀

    Raspberry Pi(樹莓派)操作系統(tǒng)的安裝方法

    Raspberry Pi(樹莓派)需要搭載操作系統(tǒng)才能正常運(yùn)行。官方支持的操作系統(tǒng)是Raspberry Pi OS。Raspberry
    的頭像 發(fā)表于 04-02 15:26 ?3248次閱讀

    適用于Raspberry Pi 4的Raspberry Pi Pico開發(fā)板

    電子發(fā)燒友網(wǎng)站提供《適用于Raspberry Pi 4的Raspberry Pi Pico開發(fā)板.zip》資料免費(fèi)下載
    發(fā)表于 07-22 09:27 ?6次下載
    適用于<b class='flag-5'>Raspberry</b> <b class='flag-5'>Pi</b> 4的<b class='flag-5'>Raspberry</b> <b class='flag-5'>Pi</b> Pico開發(fā)板

    Raspberry Pi Pico是什么?有哪些主要特點(diǎn)

    Raspberry Pi Pico 是一款具有靈活數(shù)字接口的低成本、高性能微控制器板。
    的頭像 發(fā)表于 07-28 11:11 ?7068次閱讀
    <b class='flag-5'>Raspberry</b> <b class='flag-5'>Pi</b> Pico是什么?有哪些主要特點(diǎn)

    Raspberry Pi和Arduino上的手寫數(shù)字識(shí)別

    電子發(fā)燒友網(wǎng)站提供《Raspberry Pi和Arduino上的手寫數(shù)字識(shí)別.zip》資料免費(fèi)下載
    發(fā)表于 10-19 09:23 ?0次下載
    <b class='flag-5'>Raspberry</b> <b class='flag-5'>Pi</b>和Arduino上的手寫<b class='flag-5'>數(shù)字</b>識(shí)別

    Raspberry Pi溫控風(fēng)扇

    電子發(fā)燒友網(wǎng)站提供《Raspberry Pi溫控風(fēng)扇.zip》資料免費(fèi)下載
    發(fā)表于 12-21 14:11 ?0次下載
    <b class='flag-5'>Raspberry</b> <b class='flag-5'>Pi</b>溫控風(fēng)扇

    Raspberry Pi的Teams Presence

    電子發(fā)燒友網(wǎng)站提供《Raspberry Pi的Teams Presence.zip》資料免費(fèi)下載
    發(fā)表于 06-16 15:17 ?0次下載
    <b class='flag-5'>Raspberry</b> <b class='flag-5'>Pi</b>的Teams Presence

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品