蘋果入局人形機(jī)器人,先做感知系統(tǒng)!還一次性用了40個(gè)激光雷達(dá)!
關(guān)于蘋果涉足人形機(jī)器人領(lǐng)域的傳聞早已甚囂塵上。近日,該公司確實(shí)有新動(dòng)作——研發(fā)了一套名為ARMOR的新型以自我為中心的機(jī)器人感知系統(tǒng)。ARMOR系統(tǒng)的創(chuàng)新之處在于采用分布式感知方案。研究團(tuán)隊(duì)在機(jī)器人的手臂和手掌上戰(zhàn)略性地布置了40個(gè)小型ToF激光雷達(dá)傳感器,每邊手臂20個(gè)。這些傳感器體積小巧、成本低廉、功耗低,讓機(jī)器人獲得了類似人類皮膚般的全方位感知能力,最大程度減少了盲區(qū),大大提升了運(yùn)動(dòng)規(guī)劃和避障效果。
軟件方面,蘋果開發(fā)了一個(gè)基于Transformer的AI驅(qū)動(dòng)ARMOR-Policy,能夠從人類動(dòng)作中學(xué)習(xí),幫助機(jī)器人動(dòng)態(tài)規(guī)劃行動(dòng)。
研究結(jié)果令人驚喜。與使用四個(gè)頭戴式及外部安裝的深度攝像頭(外心感知)的傳統(tǒng)法案相比,ARMOR系統(tǒng)使碰撞降低了63.7%,成功率提高了78.7%。與基于采樣的運(yùn)動(dòng)規(guī)劃專家系統(tǒng)cuRobo相比,ARMOR-Policy讓碰撞減少31.6%,成功率提高16.9%,計(jì)算延遲降低26倍,大大提高了機(jī)器人的機(jī)動(dòng)性。
研究團(tuán)隊(duì)還通過在傅利葉GR-1人形機(jī)器人上部署28個(gè)ToF激光雷達(dá),實(shí)現(xiàn)了15Hz的實(shí)時(shí)軌跡規(guī)劃和避障控制,實(shí)際驗(yàn)證了ARMOR系統(tǒng)在真實(shí)環(huán)境中的應(yīng)用可行性。
當(dāng)前,傳統(tǒng)人形機(jī)器人通常依賴頭部或軀干安裝的集中式攝像頭和激光雷達(dá)進(jìn)行環(huán)境感知,這種方式雖然易于集成且能提供較好的視野范圍,但在手臂和手部區(qū)域常常存在嚴(yán)重的遮擋問題。
ARMOR系統(tǒng),提供了一種創(chuàng)新的硬件和軟件整合設(shè)計(jì)。
與集中式RGBD攝像頭一次性捕捉密集幀中的全部細(xì)節(jié)不同,研究團(tuán)隊(duì)選擇了SparkFun VL53L5CX飛行時(shí)間(ToF)激光雷達(dá)作為基礎(chǔ)傳感單元,將稀疏感知分布在多個(gè)傳感器上,形成“以自我為中心的感知”。
該激光雷達(dá)傳感器尺寸僅6.4×3.0×1.5毫米。單個(gè)激光雷達(dá)可以以15Hz的頻率(特定配置下最高30Hz)采集8×8分辨率的深度圖像,對(duì)角視場(chǎng)角63°,探測(cè)范圍4000毫米。
研究團(tuán)隊(duì)在機(jī)器人的每個(gè)手臂上布置了20個(gè)這樣的激光雷達(dá),共計(jì)40個(gè)激光雷達(dá)形成分布式感知網(wǎng)絡(luò)。 每4個(gè)激光雷達(dá)連接到一個(gè)XIAO ESP微控制器,通過I2C總線進(jìn)行數(shù)據(jù)讀取,再通過USB傳輸?shù)綑C(jī)器人的板載計(jì)算機(jī)(Jetson Xavier NX),最后無線傳輸?shù)脚鋫銷VIDIA GeForce RTX 4090 GPU的Linux主機(jī)進(jìn)行處理,確保整個(gè)系統(tǒng)能夠維持15Hz的刷新率。 ARMOR不僅在硬件上實(shí)現(xiàn)了創(chuàng)新,其基于深度學(xué)習(xí)的避障策略同樣亮眼。研究團(tuán)隊(duì)基于Transformer架構(gòu)開發(fā)了ARMOR-Policy,讓機(jī)器人能夠快速高效地規(guī)劃無碰撞軌跡。
該策略的核心是一個(gè)條件生成模型,它可以基于當(dāng)前關(guān)節(jié)狀態(tài)、目標(biāo)位置、ToF激光雷達(dá)觀測(cè)值以及潛變量z來預(yù)測(cè)未來的動(dòng)作序列。網(wǎng)絡(luò)采用了類似ACT(Action Chunking Transformers)的編碼器-解碼器結(jié)構(gòu)。 為了訓(xùn)練智能避障策略,研究團(tuán)隊(duì)使用了AMASS數(shù)據(jù)集中的311922個(gè)人類真實(shí)運(yùn)動(dòng)序列(約86.6小時(shí)),這些數(shù)據(jù)包含了各種相關(guān)的人類姿態(tài),如操作、舞蹈和社交行為等。
研究團(tuán)隊(duì)將這些人類動(dòng)作軌跡重定向到機(jī)器人的關(guān)節(jié)配置上,并在軌跡周圍生成緊湊的障礙物,確保軌跡本身不發(fā)生碰撞。 訓(xùn)練數(shù)據(jù)的生成采用了三種策略:避障運(yùn)動(dòng)、緊急停止和無碰撞運(yùn)動(dòng)。
ARMOR-Policy的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)考慮到了運(yùn)動(dòng)規(guī)劃可能存在多個(gè)有效解的特點(diǎn)。通過引入額外的編碼器層來推斷潛在變量z,使策略能夠通過調(diào)整z生成不同的運(yùn)動(dòng)軌跡候選。 在推理階段,系統(tǒng)會(huì)并行計(jì)算N個(gè)候選軌跡,并通過最小化機(jī)器人與點(diǎn)云之間的距離來選擇最優(yōu)路徑。網(wǎng)絡(luò)輸入包括潛在變量z、當(dāng)前和目標(biāo)關(guān)節(jié)位置(28維向量),以及40個(gè)ToF激光雷達(dá)傳感器的深度圖像數(shù)據(jù)。
深度圖像通過修改后的單通道ResNet18骨干網(wǎng)絡(luò)處理,提取512維特征。整個(gè)網(wǎng)絡(luò)架構(gòu)包含約84M參數(shù)。 實(shí)驗(yàn)驗(yàn)證顯示,ARMOR系統(tǒng)在多個(gè)方面都優(yōu)于現(xiàn)有方案。
據(jù)彭博社爆料,蘋果正在尋找其“下一個(gè)重大項(xiàng)目”,機(jī)器人正是其關(guān)注的領(lǐng)域之一。
研究團(tuán)隊(duì)計(jì)劃在后續(xù)工作中進(jìn)一步拓展ARMOR的應(yīng)用場(chǎng)景。特別是在復(fù)雜的靈巧操作任務(wù)中,分布式的近距離感知有望幫助機(jī)器人實(shí)現(xiàn)更精確的動(dòng)作控制。此外,這種類似人類皮膚的感知方式,也為實(shí)現(xiàn)更自然的人機(jī)交互開辟了新的可能。
ARMOR也為人形機(jī)器人的發(fā)展提供了新的思路。它展示了分布式感知和深度學(xué)習(xí)結(jié)合的潛力,也證明了從人類生物特征中汲取靈感的價(jià)值。通過模仿人類皮膚的分布式感知方式,ARMOR讓機(jī)器人獲得了更全面的環(huán)境感知能力,為實(shí)現(xiàn)更智能靈活的機(jī)器人控制奠定了基礎(chǔ)。
參考來源:https://arxiv.org/pdf/2412.00396v1;https://x.com/Dr_Singularity/status/1873374876867723435;量子位;機(jī)器人大講堂。
來源:激光雷達(dá)老炮兒
-
人機(jī)交互
+關(guān)注
關(guān)注
12文章
1215瀏覽量
55466 -
機(jī)器人
+關(guān)注
關(guān)注
211文章
28618瀏覽量
207923 -
蘋果
+關(guān)注
關(guān)注
61文章
24457瀏覽量
199519 -
激光雷達(dá)
+關(guān)注
關(guān)注
968文章
4020瀏覽量
190221 -
感知系統(tǒng)
+關(guān)注
關(guān)注
1文章
72瀏覽量
15976
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論