“昨晚 OpenAI 正式發(fā)布了 o3 模型,AI 圈一片沸騰。作為電子工程師的我撓了撓頭,好像和我沒(méi)什么直接的關(guān)系倒是 OpenAI 的另一個(gè)小發(fā)布,讓我很感興趣:一個(gè)可以在 Linux 和 ESP32 上使用的 Realtime API SDK。”
對(duì),就是上面這個(gè)項(xiàng)目,剛發(fā)布沒(méi)多久,文檔都幾乎沒(méi)有。感興趣的小伙伴可以自己去看一下: https://github.com/openai/openai-realtime-embedded-sdk 這個(gè) SDK 能干嘛?
這個(gè) SDK 主要是給嵌入式硬件設(shè)計(jì)的,目前只支持樂(lè)鑫的 ESP32s3。以下是經(jīng)過(guò)驗(yàn)證的兩個(gè)開(kāi)發(fā)板:
Freenove ESP32-S3-WROOM
Sonatino - ESP32-S3 Audio Development Board
其它的 ESP32-S3 硬件理論上也能跑,只是沒(méi)有經(jīng)過(guò)驗(yàn)證。 當(dāng)然如果你只想玩一下,也可以不用任何硬件,直接在 Linux 上運(yùn)行。
SDK 基于 OpenAI 最新的 WebRTC,可以提供低延時(shí)的語(yǔ)音對(duì)話(huà)服務(wù)。Altman 在發(fā)布會(huì)上演示的 AI 實(shí)時(shí)語(yǔ)音對(duì)話(huà)、打斷等就是基于 WebRTC。感興趣的小伙伴可以看一下 WebRTC 的介紹:
https://platform.openai.com/docs/guides/realtime-webrtc
配置完成后build一下,然后燒錄到 ESP32S 的固件里即可。接下去就可以直接調(diào)用 API 了。這種方式簡(jiǎn)化了硬件調(diào)用實(shí)時(shí)語(yǔ)音,甚至視覺(jué)識(shí)別的方法,典型的應(yīng)用有:
陪伴類(lèi)的玩具
可穿戴設(shè)備
智能音箱/語(yǔ)音助手
國(guó)內(nèi)有平替嗎?
如果用不了 OpenAI,國(guó)內(nèi)其實(shí)也有類(lèi)似的服務(wù),比如火山引擎的 RTC:
https://www.volcengine.com/product/veRTC
字節(jié)推出的顯眼包2.0用的就是 RTC 服務(wù):
在上周的“2024火山引擎冬季Force原動(dòng)力大會(huì)”上,已經(jīng)有不少硬件廠(chǎng)商展示了基于 RTC 的產(chǎn)品demo。其中有一個(gè)品牌“Haivivi”做了現(xiàn)場(chǎng)演講,分享了他們的理念和創(chuàng)業(yè)經(jīng)歷。雖然只是一個(gè)“可以對(duì)話(huà)”的玩具,卻有別于傳統(tǒng)的智能音箱,得到了很多用戶(hù)的認(rèn)可。我在現(xiàn)場(chǎng)也體驗(yàn)了一下RTC的效果,延時(shí)在2~5秒之間,基本可以滿(mǎn)足實(shí)時(shí)對(duì)話(huà)的要求。
字節(jié)的產(chǎn)品經(jīng)理也提到了嵌入式的 SDK,但沒(méi)有詳細(xì)公布支持的硬件型號(hào),估計(jì)還處于測(cè)試階段。但毫無(wú)疑問(wèn),ESP肯定是合作伙伴之一。
“端插件”是什么?
專(zhuān)題論壇中還提到了“端”插件的概念。簡(jiǎn)單說(shuō)就是把硬件的功能(比如調(diào)節(jié)音量、驅(qū)動(dòng)電機(jī)等)以插件的形式注冊(cè)在大模型的平臺(tái),端側(cè)的硬件只要收集用戶(hù)的輸入,傳輸?shù)酱竽P秃笥赡P瓦M(jìn)行數(shù)據(jù)處理并根據(jù)解析的結(jié)果調(diào)用“端”插件執(zhí)行硬件端的動(dòng)作。
這種范式有可能降低硬件端的成本(因?yàn)槎藗?cè)不再需要算力,只要做輸入、輸出及信息交互),并有可能降低開(kāi)發(fā)的時(shí)間(可以很快添加語(yǔ)音識(shí)別、圖像識(shí)別等功能,因?yàn)椴挥没谟布_(kāi)發(fā),可以直接丟給模型處理)。這里的潛臺(tái)詞是:類(lèi)似語(yǔ)音交互、圖像識(shí)別的任務(wù),大模型一定比本地的硬件做的好。當(dāng)然前提是要能接受數(shù)據(jù)傳輸和處理的延時(shí),另外數(shù)據(jù)安全也是需要考慮的因素之一。
結(jié)束語(yǔ) 人工智能技術(shù)尤其是大模型和AIGC正以前所未有的速度迅猛發(fā)展,它們的影響力已經(jīng)滲透到各個(gè)行業(yè),包括電子硬件領(lǐng)域。作為電子硬件工程師,我們站在技術(shù)革新的前沿,面臨著前所未有的機(jī)遇與挑戰(zhàn)。我們必須深入思考,如何將AIGC等前沿技術(shù)與硬件設(shè)計(jì)相結(jié)合,以實(shí)現(xiàn)創(chuàng)新突破。打造出更智能、更高效、更符合市場(chǎng)需求的產(chǎn)品,從而在激烈的市場(chǎng)競(jìng)爭(zhēng)中占據(jù)有利地位。
注意:如果想第一時(shí)間收到 KiCad 內(nèi)容推送,請(qǐng)點(diǎn)擊下方的名片,按關(guān)注,再設(shè)為星標(biāo)。
常用合集匯總:
和 Dr Peter 一起學(xué) KiCad
KiCad 8 探秘合集
KiCad 使用經(jīng)驗(yàn)分享
KiCad 設(shè)計(jì)項(xiàng)目(Made with KiCad)
常見(jiàn)問(wèn)題與解決方法
KiCad 開(kāi)發(fā)筆記
插件應(yīng)用
發(fā)布記錄
審核編輯 黃宇
-
API
+關(guān)注
關(guān)注
2文章
1500瀏覽量
62011 -
SDK
+關(guān)注
關(guān)注
3文章
1036瀏覽量
45935 -
ESP32
+關(guān)注
關(guān)注
18文章
971瀏覽量
17256 -
OpenAI
+關(guān)注
關(guān)注
9文章
1087瀏覽量
6508
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論