7月12日,國際科技界傳來新動態(tài),谷歌正借助其先進(jìn)的Gemini AI系統(tǒng),深化對旗下機(jī)器人的訓(xùn)練,旨在顯著提升它們的導(dǎo)航能力和任務(wù)執(zhí)行能力。DeepMind機(jī)器人團(tuán)隊(duì)最新發(fā)布的研究論文,詳細(xì)闡述了如何利用Gemini 1.5 Pro的強(qiáng)化長上下文窗口功能,極大地優(yōu)化了用戶通過自然語言指令與RT-2機(jī)器人交互的體驗(yàn)。
這一創(chuàng)新技術(shù)的核心在于,機(jī)器人首先通過拍攝并分析家庭或辦公室等指定區(qū)域的視頻,利用Gemini 1.5 Pro的強(qiáng)大能力來“學(xué)習(xí)”并理解其所在環(huán)境。隨后,機(jī)器人能夠基于這些視覺信息,靈活運(yùn)用語音和/或圖像反饋,執(zhí)行用戶的復(fù)雜指令。例如,當(dāng)用戶詢問“我在哪里可以給手機(jī)充電?”時(shí),機(jī)器人能迅速識別環(huán)境,并引導(dǎo)用戶至最近的電源插座。
據(jù)DeepMind透露,在覆蓋超過9,000平方英尺的測試區(qū)域內(nèi),這些由Gemini驅(qū)動的機(jī)器人成功響應(yīng)并完成了50多項(xiàng)不同用戶指令,成功率高達(dá)90%,展現(xiàn)了極高的準(zhǔn)確性和效率。
更令人振奮的是,初步研究還揭示了Gemini 1.5 Pro賦予機(jī)器人的額外能力——即除了精準(zhǔn)導(dǎo)航外,還能規(guī)劃并執(zhí)行更為復(fù)雜的任務(wù)指令。例如,面對詢問是否有特定飲料的用戶,機(jī)器人能夠自主決定前往冰箱檢查,隨后返回并報(bào)告結(jié)果,這一連串動作展現(xiàn)了其強(qiáng)大的決策與執(zhí)行能力。
盡管在視頻演示中,機(jī)器人對每條指令的迅速確認(rèn)給人留下了深刻印象,但研究報(bào)告也誠實(shí)地指出了背后隱藏的“秘密”——處理這些復(fù)雜指令實(shí)際上需要10至30秒的時(shí)間。這表明,盡管技術(shù)進(jìn)步顯著,但實(shí)現(xiàn)完全無縫的人機(jī)交互仍需時(shí)日。
不過,這一系列的進(jìn)展無疑為我們描繪了一幅未來生活的美好圖景:或許不久的將來,我們就能與這些高度智能化的機(jī)器人共享家園,讓它們幫助我們找到遺失的鑰匙、錢包,甚至是執(zhí)行更多日常生活中的瑣碎任務(wù),極大地提升生活的便捷性與舒適度。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
29709瀏覽量
212710 -
谷歌
+關(guān)注
關(guān)注
27文章
6231瀏覽量
108075 -
AI
+關(guān)注
關(guān)注
88文章
35041瀏覽量
279209
發(fā)布評論請先 登錄
評論