0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

科學(xué)家開發(fā)可提高3D感知能力的模型,實(shí)現(xiàn)四足機(jī)器人自由行走

天津機(jī)器人 ? 來源:天津機(jī)器人 ? 2023-09-11 17:11 ? 次閱讀

借助機(jī)器人的本體感覺對(duì)足式運(yùn)動(dòng)進(jìn)行研究已有數(shù)十年。在以往的研究手段中,研究人員往往采用基于模型的方法開發(fā)神經(jīng)網(wǎng)絡(luò)控制器。但是,這類方法無法在那些現(xiàn)實(shí)世界里沒有見過的環(huán)境中得到應(yīng)用。

近年來,為了獲得更好的泛化性和魯棒性,研究者們開始采用無模型強(qiáng)化學(xué)習(xí),在模擬中訓(xùn)練控制器,然后將學(xué)習(xí)到的策略直接轉(zhuǎn)移到真實(shí)的機(jī)器人上。

那么,如何在無需遙控器操控的條件下,讓四足機(jī)器人實(shí)現(xiàn)在復(fù)雜地形上自由流暢地行走呢?

近期,來自美國加州大學(xué)圣地亞哥分校和麻省理工學(xué)院的研究團(tuán)隊(duì),開發(fā)了一個(gè)可以提高機(jī)器人 3D 感知能力的模型,能夠支配四足機(jī)器人在各種困難地形場(chǎng)景下完成自動(dòng)化行走,比如爬樓梯、踩石頭、在樹林中走路等。

視頻所示,該四足機(jī)器人的額頭上裝有前置的深度攝像頭,該攝像頭向下傾斜的角度,可以幫助該機(jī)器人前面的兩足,根據(jù)所看到的前方場(chǎng)景和腳下地形做出正確的行動(dòng)決策。但其后面的兩足必須先記住前面看過的內(nèi)容,才能確保在經(jīng)過時(shí)踩在正確的位置上。

所以,這中間存在一個(gè)重要的問題,即需要一個(gè)短期的 3D 環(huán)境記憶體,能夠使得機(jī)器人的四足都對(duì)三維環(huán)境有良好的感知和模擬。

為此,該團(tuán)隊(duì)構(gòu)建了一種神經(jīng)體積記憶(Neural Volumetric Memory,NVM)架構(gòu),可以先借助自監(jiān)督方法對(duì)視頻幀中的三維特征進(jìn)行學(xué)習(xí),再用幾何變換把這些三維特征投影到同一個(gè)空間下面,最后通過模型將所有的特征信息融合在一起,讓機(jī)器人對(duì)它所處的 3D 環(huán)境建立起短期記憶。

其中,需要說明的是,將上述帶有特征的全部視覺信息綜合在一起,可以幫助四足機(jī)器人記住其看到的內(nèi)容,以及足部之前做過的動(dòng)作,并利用這些記憶指導(dǎo)它下一步行動(dòng)。這也表明,NVM 能為機(jī)器人執(zhí)行決策提供可靠的 3D 結(jié)構(gòu)信息,并為足式機(jī)器人利用視覺進(jìn)行觀察開辟新的可能性。

2023 年 3 月,相關(guān)論文以《用于視覺運(yùn)動(dòng)控制的神經(jīng)體積記憶》(Neural Volumetric Memory for Visual Locomotion Control)為題發(fā)表在CVPR上,并被選為Highlight論文[1]。

d50e95f0-4fec-11ee-a25d-92fbcf53809c.jpg

圖丨相關(guān)論文(來源:arXiv)

據(jù)介紹,該研究始于 2022 年 1 月。在當(dāng)時(shí)的條件下,該團(tuán)隊(duì)先在模擬器環(huán)境下進(jìn)行訓(xùn)練,再轉(zhuǎn)至機(jī)器人上進(jìn)行部署和測(cè)試。NVM 模塊可以令四足機(jī)器人在模擬環(huán)境和真實(shí)世界中穿越復(fù)雜地形,并獲得更好的模擬-真實(shí)泛化結(jié)果。

但是,由于模擬器和機(jī)器人在物理和視覺方面都存在一些差距,因此需要克服許多有難度的工程問題。此外,從模擬器中制定任務(wù),以及做強(qiáng)化學(xué)習(xí)訓(xùn)練所需的代碼,也需要該團(tuán)隊(duì)自行開發(fā)。

d52f9732-4fec-11ee-a25d-92fbcf53809c.jpg

圖丨實(shí)際部署(來源:arXiv)

據(jù)了解,這項(xiàng)成果建立在該團(tuán)隊(duì)之前的一項(xiàng)研究上,此前,該團(tuán)隊(duì)使用強(qiáng)化學(xué)習(xí)和基于 Transformer 的模型,將本體感受和視覺信息相結(jié)合,使得四足機(jī)器人能夠避開障礙物,在不平整的地面上行走和奔跑 [2]。

“我們目前這項(xiàng)研究是在不同幀上抽取三維特征,把它們放到同一個(gè)三維空間下進(jìn)行合并,而之前的那項(xiàng)研究僅僅將不同幀直接合并起來,當(dāng)做一個(gè)視頻放入卷積神經(jīng)網(wǎng)絡(luò)中,沒有做太多三維理解?!闭劶氨卷?xiàng)成果取得的進(jìn)展,王小龍表示,“并且,之前機(jī)器人能完成的任務(wù)比較簡單,不能實(shí)現(xiàn)爬樓梯或踩木樁這種比較困難的任務(wù)?!?/p>

不過,該團(tuán)隊(duì)也表示,他們目前開發(fā)的模型還存在一些局限性。首先,不能引導(dǎo)四足機(jī)器人到達(dá)指定的目的地;其次,完成部署后,機(jī)器人只能簡單地走一條直線,如果看到障礙物,會(huì)通過另一條直線避開;此外,機(jī)器人還不能精確控制其去向。

從應(yīng)用層面上看,相較于安裝輪子才能走路的機(jī)器人,四足機(jī)器人的通用性更強(qiáng)。比如,其可以用于應(yīng)急救援領(lǐng)域,執(zhí)行受困人員搜救、廢墟清理等任務(wù);用于下水管道探測(cè)等。

后續(xù),該團(tuán)隊(duì)不僅計(jì)劃開發(fā)更多用于規(guī)劃機(jī)器人的技術(shù),還打算在四足機(jī)器人上增加機(jī)械臂,來執(zhí)行抓取、開門等任務(wù);同時(shí),他們也想讓機(jī)器人實(shí)現(xiàn)更多創(chuàng)意性的技能,諸如跳躍、踢球等。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    211

    文章

    28582

    瀏覽量

    207818
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3283

    瀏覽量

    49001
  • 3D感知
    +關(guān)注

    關(guān)注

    0

    文章

    20

    瀏覽量

    3740

原文標(biāo)題:科學(xué)家開發(fā)可提高3D感知能力的模型,實(shí)現(xiàn)四足機(jī)器人自由行走

文章出處:【微信號(hào):tjrobot,微信公眾號(hào):天津機(jī)器人】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    深圳人形機(jī)器人行走視頻震驚英偉達(dá)科學(xué)家,下一個(gè)劃時(shí)代產(chǎn)品是AI機(jī)器人

    電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)日前,深圳特區(qū)報(bào)發(fā)布了一則國產(chǎn)人形機(jī)器人行走的視頻,該視頻引起了包括英偉達(dá)高級(jí)AI研究科學(xué)家Jim Fan在內(nèi)的業(yè)內(nèi)人士和網(wǎng)友的廣泛關(guān)注。由于這款機(jī)器人步態(tài)非常接近
    的頭像 發(fā)表于 01-14 00:53 ?1964次閱讀
    深圳人形<b class='flag-5'>機(jī)器人行走</b>視頻震驚英偉達(dá)<b class='flag-5'>科學(xué)家</b>,下一個(gè)劃時(shí)代產(chǎn)品是AI<b class='flag-5'>機(jī)器人</b>?

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人的基礎(chǔ)模塊

    具身智能機(jī)器人的基礎(chǔ)模塊,這個(gè)是本書的第二部分內(nèi)容,主要分為個(gè)部分:機(jī)器人計(jì)算系統(tǒng),自主機(jī)器人感知系統(tǒng),自主
    發(fā)表于 01-04 19:22

    開源項(xiàng)目!能夠精確地行走、跳舞和執(zhí)行復(fù)雜動(dòng)作的機(jī)器人—Tillu

    學(xué)習(xí)者和愛好者的理想伙伴。 創(chuàng)新設(shè)計(jì) Tillu的設(shè)計(jì)靈感來自廣受歡迎的Otto DIY機(jī)器人,其設(shè)計(jì)過程包括在Fusion 360中進(jìn)行CAD建模和精確的3D打印,以實(shí)現(xiàn)從堅(jiān)固的伺服驅(qū)動(dòng)腿部到模塊化
    發(fā)表于 01-02 17:24

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人模型

    引入GPT這樣的大模型后,情況發(fā)生了根本性的變化。只需提供適當(dāng)?shù)奶崾驹~以及封裝好的機(jī)器人函數(shù)庫,大模型便能靈活地生成控制代碼,極大地簡化了開發(fā)過程,并
    發(fā)表于 12-29 23:04

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.初步理解具身智能

    (第3章到第6章)介紹具身智能機(jī)器人的基礎(chǔ)模塊,涵蓋機(jī)器人計(jì)算系統(tǒng)、自主機(jī)器人感知系統(tǒng)、定位系統(tǒng)及規(guī)劃與控制系統(tǒng)的詳細(xì)內(nèi)容。 第
    發(fā)表于 12-28 21:12

    《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

    設(shè)計(jì)專門的編碼器處理視覺、觸覺、位置等不同類型的傳感器數(shù)據(jù),再用cross-attention機(jī)制將它們對(duì)齊到同一語義空間。這種設(shè)計(jì)不僅提高模型感知能力,還增強(qiáng)了推理過程的可解釋性。在實(shí)驗(yàn)中,RT-1
    發(fā)表于 12-24 15:03

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+初品的體驗(yàn)

    動(dòng)態(tài)互動(dòng)的。 該理論強(qiáng)調(diào)智能行為源于智能體的物理存在和行為能力,智能體必須具備感知環(huán)境并在其中執(zhí)行任務(wù)的能力。具身智能的實(shí)現(xiàn)涵蓋了機(jī)器學(xué)習(xí)、
    發(fā)表于 12-20 19:17

    開源項(xiàng)目!OpenCat—— 一個(gè)全能的平價(jià)機(jī)器人

    以額外承載約 1 千克的重量(但行走速度會(huì)變慢)。它面向 STEM教育和創(chuàng)客社區(qū)。價(jià)格將與一些機(jī)器人汽車套件相似。 完整版使用樹莓派來實(shí)現(xiàn)更多人工智能增強(qiáng)的感知功能,并指揮一個(gè)升級(jí)版的
    發(fā)表于 12-16 11:44

    認(rèn)識(shí)機(jī)器人與CW32機(jī)器人控制項(xiàng)目

    認(rèn)識(shí)機(jī)器人與CW32機(jī)器人控制項(xiàng)目 一、認(rèn)識(shí)機(jī)器人 機(jī)器人是一種能夠自動(dòng)執(zhí)行任務(wù)的
    的頭像 發(fā)表于 09-28 15:46 ?269次閱讀

    【CW32開發(fā)】初探機(jī)器人

    本項(xiàng)目使用8自由度舵機(jī)控制的機(jī)器人。主要用于愛好者學(xué)習(xí)參考。實(shí)現(xiàn)基本控制姿態(tài):前進(jìn)、左轉(zhuǎn)、
    的頭像 發(fā)表于 09-25 12:08 ?1731次閱讀
    【CW32<b class='flag-5'>開發(fā)</b>】初探<b class='flag-5'>四</b><b class='flag-5'>足</b><b class='flag-5'>機(jī)器人</b>

    英偉達(dá)預(yù)測(cè)機(jī)器人領(lǐng)域或迎“GPT-3時(shí)刻”

    英偉達(dá),作為全球圖形處理器與人工智能領(lǐng)域的佼佼者,正引領(lǐng)著科技界對(duì)機(jī)器人未來的無限遐想。近日,英偉達(dá)高級(jí)科學(xué)家Jim Fan在科技媒體The Decoder的博文中,以及紅杉資本的采訪中,大膽預(yù)測(cè)
    的頭像 發(fā)表于 09-20 17:05 ?831次閱讀

    Jim Fan展望:機(jī)器人領(lǐng)域即將迎來GPT-3式突破

    英偉達(dá)科學(xué)家9月19日,科技媒體The Decoder發(fā)布了一則引人關(guān)注的報(bào)道,英偉達(dá)高級(jí)科學(xué)家Jim Fan在近期預(yù)測(cè),機(jī)器人技術(shù)將在未來兩到三年內(nèi)迎來類似GPT-3在語言處理領(lǐng)域的
    的頭像 發(fā)表于 09-19 15:13 ?618次閱讀

    Al大模型機(jī)器人

    和迭代來不斷改進(jìn)自身性能。它們可以從用戶交互中學(xué)習(xí)并根據(jù)反饋進(jìn)行調(diào)整,以提高對(duì)話質(zhì)量和準(zhǔn)確性。定制性與整合性: AI大模型機(jī)器人可以根據(jù)特定需求進(jìn)行定制和整合,以滿足不同場(chǎng)景和應(yīng)用的
    發(fā)表于 07-05 08:52

    基于FPGA EtherCAT的六自由機(jī)器人視覺伺服控制設(shè)計(jì)

    和增強(qiáng)系統(tǒng)處理圖像的實(shí)時(shí)性,本文提出了一種伊瑟特的六自由機(jī)器人視覺伺服控制系統(tǒng),將攝像頭集成到基于 Zynq的伊瑟特主站上,提高了視覺伺服的實(shí)時(shí)性.經(jīng)測(cè)試,該平臺(tái)能夠?qū)σ曈X檢測(cè)目標(biāo)的變化做出及時(shí)的反應(yīng)
    發(fā)表于 05-29 16:17

    銀牛微電子3D視覺感知方案賦能小米CyberDog系列仿生機(jī)器人

    2024年3月21日,合肥銀牛微電子宣布小米CyberDog系列仿生機(jī)器人的AI多模態(tài)融合感知決策系統(tǒng)正式采用銀牛的雙目立體視覺產(chǎn)品解決
    的頭像 發(fā)表于 03-21 13:55 ?859次閱讀