過去幾年間,隨著 AI 的發(fā)展,一個(gè)屬于機(jī)器人的萬億級(jí)賽道正在火熱開啟,無論是 Google 、特斯拉,還是國內(nèi)的達(dá)闥、追覓、以及稚暉君創(chuàng)業(yè)的「智元機(jī)器人(AGIBot)」公司均投身其中。
不過,對(duì)于普通用戶而言,機(jī)器人最為重要的并不是設(shè)計(jì)得多么好看,而是實(shí)用性。在當(dāng)代年輕人的“精致懶”之吃飯要人弄、家務(wù)要人做狀態(tài)下,如果有一款集做飯、收納、保潔等多個(gè)才藝于一身的機(jī)器人,豈不美哉!
近日,斯坦福大學(xué) 3 位研究人員讓許多用戶的美夢(mèng)成真了,其發(fā)布了一款名為Mobile Aloha的 AI 機(jī)器人。一經(jīng)展示之后,這款機(jī)器人便迅速在網(wǎng)絡(luò)上走紅,成為不少人想人手一個(gè)的大熱門產(chǎn)品。
只因?yàn)樗?,不僅可以煎大蝦,親自端上桌:
也能收拾不小心灑出來的水漬:
還能打開柜門,歸納整理:
刷碗:
簡(jiǎn)單來看,Mobile Aloha 是一種用于雙手遙控操作的低成本開源硬件系統(tǒng),解決了訓(xùn)練需要人類操作員仔細(xì)指導(dǎo)的移動(dòng)雙手機(jī)器人的高成本和技術(shù)挑戰(zhàn)。
值得一提的是,Mobile Aloha 能實(shí)現(xiàn)以上操作,并非完全自主,其全身也支持遠(yuǎn)程操作。
得益于生成模型的成功,MobileAloha 可以快速從人類演示中學(xué)習(xí),而且它可以只通過 50 次的演示就能學(xué)會(huì)一件事,合作訓(xùn)練可以提高成功率高達(dá) 90%。
同時(shí),整個(gè)機(jī)器人機(jī)載電源和計(jì)算在內(nèi)的成本為3.2 萬美元,遠(yuǎn)遠(yuǎn)低于市場(chǎng)現(xiàn)有的系統(tǒng)及硬件。更讓人興奮的是,Mobile Aloha 的軟硬件均是開源的,也方便所有的 AI 愛好者、開發(fā)者深入學(xué)習(xí)與共建。
左:用戶通過遙控操作從冰箱中獲取食物;右圖:Mobile ALOHA 可以通過模仿學(xué)習(xí)完成復(fù)雜的長(zhǎng)時(shí)間任務(wù)
硬件代碼:https://github.com/MarkFzp/mobile-aloha
軟件代碼:https://github.com/MarkFzp/act-plus-plus
項(xiàng)目地址:https://mobile-aloha.github.io/
研究 5 年,以低成本打破傳統(tǒng)機(jī)器人系統(tǒng)的局限性
項(xiàng)目的負(fù)責(zé)人之一 Tony Z.Zhao 表示,“這個(gè)我過去 5 年里最努力的項(xiàng)目之一!”
而之所以會(huì)萌生開發(fā)這樣一款會(huì)做飯的 AI 機(jī)器人,是因?yàn)樵撗芯繄F(tuán)隊(duì)發(fā)現(xiàn),大多數(shù)機(jī)器人操縱任務(wù)都側(cè)重于桌面操縱。這包括最近基于 Transformer 和 Diffusion 模型(廣泛應(yīng)用于生成式人工智能的架構(gòu))建立的一系列模型。
然而,日常環(huán)境中的許多任務(wù)都需要全身協(xié)調(diào)的流動(dòng)性和靈巧的操作。譬如,把一個(gè)罐子放進(jìn)廚房的柜子里,那么,機(jī)器人需要首先導(dǎo)航到柜子邊上,這就需要機(jī)器人底座可以移動(dòng);進(jìn)而為了打開櫥柜,機(jī)器人需要后退,同時(shí)牢牢抓住兩個(gè)門把手,激發(fā)全身控制;隨后雙臂需要抓住鍋柄,一起將鍋放入櫥柜,雙手也要協(xié)調(diào)好。
在研究人員來看,過去有兩個(gè)主要因素阻礙了模仿學(xué)習(xí)在雙臂移動(dòng)操作中的廣泛應(yīng)用:
缺乏可訪問的、即插即用的全身遠(yuǎn)程控制硬件。當(dāng)然并不是說市面上沒有這種硬件,而是如果購買現(xiàn)成的機(jī)械手,成本會(huì)很高。像 PR2 和 TIA GO 這樣的機(jī)器人價(jià)格可能超過 20萬美元,這讓很多研究實(shí)驗(yàn)室無法負(fù)擔(dān)。此外,要在這些平臺(tái)上實(shí)現(xiàn)遠(yuǎn)程控制操作,還需要額外的硬件和校準(zhǔn)。
以前的機(jī)器人學(xué)習(xí)工作沒有表現(xiàn)出高性能的雙臂移動(dòng)操作復(fù)雜的任務(wù)。隨著自由度的增加,手臂和基礎(chǔ)動(dòng)作之間的交互可能會(huì)變得復(fù)雜,基礎(chǔ)姿勢(shì)的微小偏差可能會(huì)導(dǎo)致手臂末端執(zhí)行器姿勢(shì)的大幅偏移。
在論文中,研究員表示,“立足于硬件和學(xué)習(xí)的角度,以前的工作還沒有為雙臂移動(dòng)操作提供一個(gè)實(shí)用而有說服力的解決方案?!?/p>
現(xiàn)如今隨著 AI 的發(fā)展,機(jī)器人到底可以不可以做到移動(dòng)并實(shí)現(xiàn)協(xié)調(diào)全身去完成任務(wù)。研究人員研究了將模仿學(xué)習(xí)擴(kuò)展到需要雙臂移動(dòng)機(jī)器人全身控制的任務(wù)可行性。
https://mobile-aloha.github.io/resources/mobile-aloha.pdf
MobileALOHA 的研發(fā)
在硬件維度,研究人員提出了 MobileALOHA,擴(kuò)展了原始ALOHA的功能,這是一種低成本和全身遠(yuǎn)程控制系統(tǒng),用于收集雙臂移動(dòng)操作數(shù)據(jù)。
在硬件設(shè)計(jì)時(shí),研究人員主要從四個(gè)維度切入考慮:
移動(dòng)速度要快:與人類的行走速度相媲美,約為 1.42 米/秒。
穩(wěn)定性:在拿起沉重的家居物品時(shí),如鍋、吸塵器時(shí),它是穩(wěn)定的。
支持全身遠(yuǎn)程控制:所有的自由度可以同時(shí)遠(yuǎn)程操作,包括雙臂和移動(dòng)底座。
不受限制:板載電源和計(jì)算。
要想實(shí)現(xiàn) MobileALOHA 的靈活性,研究員在它的下方安裝了一個(gè)專為倉庫設(shè)計(jì)的輪子底座——Tracer AGV,它可以承載 100kg,移動(dòng)速度高達(dá) 1.6m/s,而成本只有 7000 美元。
為了使 Mobile ALOHA 不受限制,研究人員配備了一個(gè) 1.26 千瓦時(shí)的電池,重量在 14 公斤,這樣還可以壓住機(jī)器人,防止不平衡摔倒。此外,整個(gè)裝置還包括網(wǎng)絡(luò)攝像頭和一個(gè)搭載消費(fèi)級(jí) GPU 的筆記本電腦,成本共計(jì)約為 3.2 萬美元,比現(xiàn)成的雙臂機(jī)器人便宜得多。
研究員在論文中介紹道,Mobile ALOHA 可同時(shí)遙控所有自由度。人類操作員的腰部被用物理的方式拴在系統(tǒng)上,并反向驅(qū)動(dòng)車輪,在工作環(huán)境中駕駛系統(tǒng),同時(shí)用控制器控制機(jī)器人手臂。同時(shí),研究人員記錄基本速度數(shù)據(jù)和手臂操縱數(shù)據(jù),形成一個(gè)全身遠(yuǎn)程控制操作系統(tǒng)。
這樣,機(jī)器人控制系統(tǒng)就能同時(shí)學(xué)習(xí)動(dòng)作和其他控制指令。一旦收集到足夠的信息,模型就能自主地重復(fù)一系列任務(wù)。
在模仿學(xué)習(xí)方面,Mobile ALOHA 利用了 Transformer(大型語言模型中使用的架構(gòu))。最初的 ALOHA 系統(tǒng)使用了一種名為 Action Chunking with Transformers (ACT) 的架構(gòu),它將來自多個(gè)視點(diǎn)和關(guān)節(jié)位置的圖像作為輸入并預(yù)測(cè)一系列動(dòng)作。
MobileALOHA 將運(yùn)動(dòng)信號(hào)添加到輸入向量中,從而擴(kuò)展了該系統(tǒng)。這種方法可以讓 Mobile ALOHA 重復(fù)使用以前的深度模仿學(xué)習(xí)算法,而只需做最小的改動(dòng)。
在論文中,研究人員寫道:“我們觀察到,簡(jiǎn)單地將底座和手臂動(dòng)作連接起來,然后通過直接模仿學(xué)習(xí)進(jìn)行訓(xùn)練,就可以產(chǎn)生出色的表現(xiàn)。具體來說,我們將 ALOHA 的 14-DoF 關(guān)節(jié)位置與移動(dòng)底座的線速度和角速度連接起來,形成 16 維動(dòng)作向量?!?/p>
與此同時(shí),研究人員汲取了近期業(yè)界在預(yù)訓(xùn)練和不同機(jī)器人數(shù)據(jù)集上取得的成功經(jīng)驗(yàn),并利用靜態(tài)雙臂數(shù)據(jù)集的信息,逐步提高模仿學(xué)習(xí)的性能。
在演示中,研究員展示了訓(xùn)練有素的機(jī)器人烹飪?nèi)啦耍?zhí)行了一些精細(xì)的任務(wù),例如打碎雞蛋、切碎大蒜、倒液體、拆開蔬菜包裝以及在煎鍋中翻轉(zhuǎn)雞肉。
此外,Mobile ALOHA 還可以執(zhí)行各種家務(wù)任務(wù),包括給植物澆水、使用真空吸塵器、裝卸洗碗機(jī)、從冰箱中取出飲料、操作洗衣機(jī)。
研究人員表示:“通過協(xié)同訓(xùn)練,我們只需對(duì)每項(xiàng)任務(wù)進(jìn)行 50 次人類演示,就能在這些任務(wù)上取得超過 80% 的成功,與沒有協(xié)同訓(xùn)練相比,平均絕對(duì)提高了 34%?!?/p>
Mobile ALOHA 背后的研究員
Mobile ALOHA 的到來,不僅打破了很多傳統(tǒng)機(jī)器人的局限性,也讓我們看到了這個(gè)年輕人團(tuán)隊(duì)為 AI 帶來的無限潛力。
正如文章伊始所述,Mobile ALOHA出自斯坦福大學(xué) 3 位研究人員之手,也是華人團(tuán)隊(duì)。
Zipeng Fu(項(xiàng)目聯(lián)合負(fù)責(zé)人)
Zipeng Fu,是斯坦福人工智能實(shí)驗(yàn)室計(jì)算機(jī)科學(xué)專業(yè)的博士生,導(dǎo)師是Chelsea Finn。
同時(shí),他還是 GoogleDeepMind 的學(xué)生研究員,與Google Brain Robotics機(jī)器人運(yùn)動(dòng)和安全團(tuán)隊(duì)的技術(shù)主管經(jīng)理Jie Tan一起工作。
此前,ZipengFu在加州大學(xué)洛杉磯分校完成了計(jì)算機(jī)科學(xué)與應(yīng)用數(shù)學(xué)學(xué)士學(xué)位,導(dǎo)師是Song-Chun Zhu,后來在CMU 攻讀機(jī)器學(xué)習(xí)領(lǐng)域的碩士,并在機(jī)器人研究所擔(dān)任學(xué)生研究員,導(dǎo)師是 Deepak Pathak 和 Jitendra Malik。
他的研究興趣在于機(jī)器人學(xué)、機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺的交叉領(lǐng)域。重點(diǎn)關(guān)注機(jī)器人在非結(jié)構(gòu)化開放世界中的強(qiáng)大性能和可部署機(jī)器人系統(tǒng)。
Tony Z. Zhao(項(xiàng)目聯(lián)合負(fù)責(zé)人)
Tony Z. Zhao 是斯坦福大學(xué)計(jì)算機(jī)科學(xué)博士三年級(jí)學(xué)生,導(dǎo)師同是 Chelsea Finn。同時(shí),他也是 Google Deepmind 的兼職學(xué)生研究員。
此前,Tony Z. Zhao 在特斯拉自動(dòng)駕駛汽車公司和 Google X Intrinsic 實(shí)習(xí)。于 2021 年獲得伯克利大學(xué)電子工程科學(xué)學(xué)士學(xué)位,導(dǎo)師是 Sergey Levine和 Dan Klein。
“我想讓機(jī)器人能夠執(zhí)行復(fù)雜的精細(xì)操作任務(wù)。我對(duì)初創(chuàng)企業(yè)和自主機(jī)器人的未來感到興奮”,Tony Z. Zhao 寫道。
Chelsea Finn(顧問)
Chelsea Finn是斯坦福大學(xué)計(jì)算機(jī)科學(xué)與電子工程系助理教授。她的實(shí)驗(yàn)室 IRIS 主攻研究大規(guī)模機(jī)器人交互智能,隸屬于 SAIL 和ML小組。
除了教授職位之外,Chelsea Finn 在 Google 任職,是 Google Brain 團(tuán)隊(duì)的一員。
此前,Chelsea Finn 在加州大學(xué)伯克利分校獲得了計(jì)算機(jī)科學(xué)博士學(xué)位,并在麻省理工學(xué)院獲得了電子工程和計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。
項(xiàng)目負(fù)責(zé)人現(xiàn)身發(fā)布翻車視頻:并未做好接管世界的準(zhǔn)備!
隨著研究人員將這一項(xiàng)目對(duì)外公開,不少網(wǎng)友開始期待:「感覺我以后養(yǎng)老可以靠它了,現(xiàn)在開始攢錢,然后讓機(jī)器人給我打工!」
不過,這樣的幻想還沒有持續(xù)多久,該項(xiàng)目負(fù)責(zé)人之一的 Tony Z.Zhao 緊急在 Twitter 上又發(fā)布一則視頻,為 Mobile ALOHA 潑了一盆冷水。其表示,“機(jī)器人還沒有準(zhǔn)備好接管世界!我剛剛制作了一個(gè)視頻,記錄了在自主模式下犯下的最愚蠢的錯(cuò)誤 Mobile ALOHA。我們還計(jì)劃在休息后組織一些現(xiàn)場(chǎng)演示。敬請(qǐng)關(guān)注!”
在視頻中,Mobile ALOHA 在自主模式下,不僅手抖,將酒杯里的水灑出來了,還讓它自由落體,變成了玻璃渣:
弄翻了鍋,研究員都來不及挽救:
Tony Z.Zhao 對(duì)此說道,「老實(shí)說,這可能是迄今為止我最喜歡的視頻,當(dāng)它在你面前失敗時(shí)就不那么有趣了」。同時(shí),他還向 2015 年 DARPA 機(jī)器人挑戰(zhàn)賽、波士頓機(jī)器人失敗的案例致敬。
其實(shí),Tony Z.Zhao在Mobile ALOHA 爆火一天后選擇公布“幕后花絮”,實(shí)則也是希望更多的人保持理性,減少炒作。在 AI 快速發(fā)展背后,其實(shí)也依然存在很多的不足,我們應(yīng)該正確對(duì)待 AI 的發(fā)展,也要勇于面對(duì)失敗,畢竟失敗是成功非常重要的一個(gè)過程。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28423瀏覽量
207137 -
AI
+關(guān)注
關(guān)注
87文章
30898瀏覽量
269128 -
模型
+關(guān)注
關(guān)注
1文章
3244瀏覽量
48847
原文標(biāo)題:3.2萬美元造成的斯坦福雙臂機(jī)器人爆紅后,項(xiàng)目負(fù)責(zé)人親自發(fā)翻車視頻
文章出處:【微信號(hào):AI科技大本營,微信公眾號(hào):AI科技大本營】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論