0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

世界模型在實(shí)體機(jī)器人上能發(fā)揮多大的作用?

新機(jī)器視覺(jué) ? 來(lái)源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-07-01 10:48 ? 次閱讀

世界模型在實(shí)體機(jī)器人上能發(fā)揮多大的作用?

教機(jī)器人解決現(xiàn)實(shí)世界中的復(fù)雜任務(wù),一直是機(jī)器人研究的基礎(chǔ)問(wèn)題。深度強(qiáng)化學(xué)習(xí)提供了一種流行的機(jī)器人學(xué)習(xí)方法,讓機(jī)器人能夠通過(guò)反復(fù)試驗(yàn)改善其行為。然而,當(dāng)前的算法需要與環(huán)境進(jìn)行過(guò)多的交互才能學(xué)習(xí)成功,這使得它們不適用于某些現(xiàn)實(shí)世界的任務(wù)。 為現(xiàn)實(shí)世界學(xué)習(xí)準(zhǔn)確的世界模型是一個(gè)巨大的開(kāi)放性挑戰(zhàn)。在最近的一項(xiàng)研究中,UC 伯克利的研究者利用 Dreamer 世界模型的最新進(jìn)展,在最直接和最基本的問(wèn)題設(shè)置中訓(xùn)練了各種機(jī)器人:無(wú)需模擬器或示范學(xué)習(xí),就能實(shí)現(xiàn)現(xiàn)實(shí)世界中的在線(xiàn)強(qiáng)化學(xué)習(xí)。

a9d87b74-f879-11ec-ba43-dac502259ad0.png

論文鏈接:https://arxiv.org/pdf/2206.14176.pdf Dreamer 世界模型是谷歌、多倫多大學(xué)等機(jī)構(gòu)在 2021 年提出的一種。如下圖 2 所示,Dreamer 從過(guò)去經(jīng)驗(yàn)的回放緩存中學(xué)習(xí)世界模型,從世界模型的潛在空間中想象的 rollout 中學(xué)習(xí)行為,并不斷與環(huán)境交互以探索和改進(jìn)其行為。研究者的目標(biāo)是在現(xiàn)實(shí)世界中推動(dòng)機(jī)器人學(xué)習(xí)的極限,并提供一個(gè)強(qiáng)大的平臺(tái)來(lái)支持未來(lái)的工作。

a9f09240-f879-11ec-ba43-dac502259ad0.png

總體來(lái)說(shuō),這項(xiàng)研究的貢獻(xiàn)在于: 1、Dreamer on Robots。研究者將 Dreamer 應(yīng)用于 4 個(gè)機(jī)器人,無(wú)需引入新算法直接在現(xiàn)實(shí)世界中展示了成功的學(xué)習(xí)成果。這些任務(wù)涵蓋了一系列挑戰(zhàn),包括不同的行動(dòng)空間、感官模式和獎(jiǎng)勵(lì)結(jié)構(gòu)。

a9ff6b08-f879-11ec-ba43-dac502259ad0.gif

2、1 小時(shí)內(nèi)學(xué)會(huì)步行。研究者在現(xiàn)實(shí)世界中從零開(kāi)始教四足機(jī)器人翻身、站起來(lái)并在 1 小時(shí)內(nèi)學(xué)會(huì)步行。

aa7a2906-f879-11ec-ba43-dac502259ad0.gif

此外,他們發(fā)現(xiàn)機(jī)器人會(huì)在 10 分鐘內(nèi)能學(xué)會(huì)承受推力或快速翻身并重新站起來(lái)。

aa9063c4-f879-11ec-ba43-dac502259ad0.gif

3、視覺(jué)拾取和放置。研究者訓(xùn)練機(jī)械臂從稀疏獎(jiǎng)勵(lì)中學(xué)會(huì)拾取和放置對(duì)象,這需要從像素定位對(duì)象并將圖像與本體感受輸入融合。此處學(xué)習(xí)到的行為優(yōu)于無(wú)模型智能體,并接近人類(lèi)表現(xiàn)。

ab569580-f879-11ec-ba43-dac502259ad0.gif

abc96b78-f879-11ec-ba43-dac502259ad0.gif

4、開(kāi)源。研究者公開(kāi)發(fā)布了所有實(shí)驗(yàn)的軟件基礎(chǔ)架構(gòu),它支持不同的動(dòng)作空間和感官模式,為未來(lái)研究現(xiàn)實(shí)世界中機(jī)器人學(xué)習(xí)的世界模型提供了一個(gè)靈活的平臺(tái)。 方法 該研究利用 Dreamer 算法(Hafner et al., 2019; 2020)在物理機(jī)器人上進(jìn)行在線(xiàn)學(xué)習(xí)(online learning),無(wú)需模擬器,總體架構(gòu)如上圖 2 所示。Dreamer 從過(guò)去經(jīng)驗(yàn)的回放緩沖區(qū)中學(xué)習(xí)世界模型,使用參與者 - 評(píng)價(jià)者算法從學(xué)習(xí)模型預(yù)測(cè)的軌跡中學(xué)習(xí)行為,并將其行為部署在環(huán)境中來(lái)不斷提升回放緩沖區(qū)。 該研究將學(xué)習(xí)更新與數(shù)據(jù)收集解耦,以滿(mǎn)足延遲要求并實(shí)現(xiàn)快速訓(xùn)練而無(wú)需等待環(huán)境變化。在該研究的實(shí)現(xiàn)中,一個(gè)學(xué)習(xí)線(xiàn)程持續(xù)訓(xùn)練世界模型和參與者 - 評(píng)價(jià)者行為,同時(shí)一個(gè)參與者線(xiàn)程并行計(jì)算環(huán)境交互動(dòng)作。 世界模型是一個(gè)學(xué)習(xí)預(yù)測(cè)環(huán)境動(dòng)態(tài)的深度神經(jīng)網(wǎng)絡(luò),如下圖 3(a)所示。

abef699a-f879-11ec-ba43-dac502259ad0.png

世界模型可以被認(rèn)為是機(jī)器人自主學(xué)習(xí)環(huán)境的快速模擬器,在探索現(xiàn)實(shí)世界時(shí)不斷改進(jìn)其模型。世界模型基于循環(huán)狀態(tài)空間模型 (RSSM; Hafner et al., 2018),它由四個(gè)組件組成:

ac0362f6-f879-11ec-ba43-dac502259ad0.png

世界模型表征了與任務(wù)無(wú)關(guān)的動(dòng)態(tài)知識(shí),而參與者 - 評(píng)價(jià)者算法負(fù)責(zé)學(xué)習(xí)特定于當(dāng)前任務(wù)的行為。如上圖 3(b) 所示。該研究從在世界模型的潛在空間中預(yù)測(cè)的 rollout 中學(xué)習(xí)行為,而無(wú)需解碼觀(guān)察結(jié)果。這可以在單個(gè) GPU 上以 16K 的批大小進(jìn)行大規(guī)模并行行為學(xué)習(xí),類(lèi)似于專(zhuān)門(mén)的現(xiàn)代模擬器 (Makoviychuk et al., 2021)。參與者 - 評(píng)價(jià)者算法由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成:

ac16d4d0-f879-11ec-ba43-dac502259ad0.png

參與者網(wǎng)絡(luò)的作用是為每個(gè)潛在模型狀態(tài) s_t 學(xué)習(xí)成功動(dòng)作的分布,以最大化未來(lái)預(yù)測(cè)任務(wù)獎(jiǎng)勵(lì)(reward)的總和。評(píng)價(jià)者網(wǎng)絡(luò)通過(guò)時(shí)間差異學(xué)習(xí)來(lái)學(xué)習(xí)預(yù)測(cè)未來(lái)任務(wù)獎(jiǎng)勵(lì)的總和(Sutton 和 Barto,2018 ),這允許算法學(xué)習(xí)長(zhǎng)期策略。 與 Hafner et al. (2020) 相比,Dreamer 方法沒(méi)有訓(xùn)練頻率超參數(shù),因?yàn)閷W(xué)習(xí)器優(yōu)化神經(jīng)網(wǎng)絡(luò)與數(shù)據(jù)收集并行進(jìn)行,沒(méi)有速率限制。 實(shí)驗(yàn) 研究者在 4 個(gè)機(jī)器人上評(píng)估了 Dreamer,為每個(gè)機(jī)器人分配了不同的任務(wù),并將其性能與算法和人類(lèi)基線(xiàn)進(jìn)行比較,目的是評(píng)估近期學(xué)習(xí)世界模型的成功是否能夠直接在現(xiàn)實(shí)世界中實(shí)現(xiàn)樣本高效的機(jī)器人學(xué)習(xí)。 這些實(shí)驗(yàn)代表了常見(jiàn)的機(jī)器人任務(wù),例如運(yùn)動(dòng)、操縱和導(dǎo)航,帶來(lái)了各種各樣的挑戰(zhàn),包括連續(xù)和離散的動(dòng)作、密集和稀疏的獎(jiǎng)勵(lì)、本體感受和圖像觀(guān)察,以及傳感器融合。 A1 機(jī)器狗四足步行 如圖 4 所示,經(jīng)過(guò)一小時(shí)的訓(xùn)練,Dreamer 學(xué)會(huì)了不斷地讓機(jī)器人從其背部翻過(guò)來(lái)、站起來(lái),然后向前走。在訓(xùn)練的前 5 分鐘,機(jī)器人設(shè)法從背部翻滾過(guò)來(lái)并用腳著地。20 分鐘后,它學(xué)會(huì)了如何站起來(lái)。大約 1 小時(shí)后,機(jī)器人學(xué)會(huì)了一種叉式步態(tài),以所需的速度向前行走。

ac232ed8-f879-11ec-ba43-dac502259ad0.png

在成功完成這項(xiàng)任務(wù)后,研究者用一根棍子反復(fù)敲打機(jī)器人的四足來(lái)測(cè)試算法的魯棒性,如圖 8 所示。在額外在線(xiàn)學(xué)習(xí)的 10 分鐘內(nèi),機(jī)器人會(huì)適應(yīng)并承受推力或快速翻身站穩(wěn)。相比之下,SAC 也很快學(xué)會(huì)了翻身,但由于數(shù)據(jù)預(yù)算(data budget)太小,無(wú)法站立或行走。

ac3942ae-f879-11ec-ba43-dac502259ad0.png

UR5 多物體視覺(jué)拾取和放置 拾取和放置任務(wù)在倉(cāng)庫(kù)和物流環(huán)境中很常見(jiàn),需要機(jī)械臂將物品從一個(gè)箱子運(yùn)輸?shù)搅硪粋€(gè)箱子。圖 5 展示了成功拾取和放置的循環(huán)。由于獎(jiǎng)勵(lì)稀疏、需要從像素推斷對(duì)象位置以及多個(gè)移動(dòng)對(duì)象的挑戰(zhàn)性動(dòng)態(tài),該任務(wù)具有一定挑戰(zhàn)性。

ac4b85fe-f879-11ec-ba43-dac502259ad0.png

XArm 視覺(jué)拾取和放置 上面提到的 UR5 機(jī)器人是高性能工業(yè)機(jī)器人,但 XArm 是一種可訪(fǎng)問(wèn)的低成本 7 DOF 操作,此處任務(wù)類(lèi)似,需要定位和抓取一個(gè)柔軟的物體,將其從一個(gè)容器移到另一個(gè)容器并返回,如圖 6 所示。

ac68eefa-f879-11ec-ba43-dac502259ad0.png

Sphero 導(dǎo)航 此外,研究者還在視覺(jué)導(dǎo)航任務(wù)上評(píng)估了 Dreamer,該任務(wù)需要將輪式機(jī)器人操縱到固定目標(biāo)位置,僅給定 RGB 圖像作為輸入。這里使用了 Sphero Ollie 機(jī)器人,一個(gè)帶有兩個(gè)可控電機(jī)的圓柱形機(jī)器人,研究者通過(guò) 2 Hz 的連續(xù)扭矩命令對(duì)其進(jìn)行控制。鑒于機(jī)器人是對(duì)稱(chēng)的,并且機(jī)器人只能獲得圖像觀(guān)察,它必須從觀(guān)察歷史中推斷出航向。

ac81211e-f879-11ec-ba43-dac502259ad0.png

2 小時(shí)內(nèi),Dreamer 學(xué)會(huì)了快速且始終如一地導(dǎo)航到目標(biāo),并保持在目標(biāo)附近。如圖 7 所示,Dreamer 與目標(biāo)的平均距離為 0.15(以區(qū)域大小為單位測(cè)量并跨時(shí)間步求平均值)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    211

    文章

    28557

    瀏覽量

    207695
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4624

    瀏覽量

    93110

原文標(biāo)題:1小時(shí)學(xué)會(huì)走路,10分鐘學(xué)會(huì)翻身,世界模型讓機(jī)器人迅速掌握多項(xiàng)技能

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人的基礎(chǔ)模塊

    具身智能機(jī)器人的基礎(chǔ)模塊,這個(gè)是本書(shū)的第二部分內(nèi)容,主要分為四個(gè)部分:機(jī)器人計(jì)算系統(tǒng),自主機(jī)器人的感知系統(tǒng),自主機(jī)器人的定位系統(tǒng),自主機(jī)器人
    發(fā)表于 01-04 19:22

    《具身智能機(jī)器人系統(tǒng)》第10-13章閱讀心得之具身智能機(jī)器人計(jì)算挑戰(zhàn)

    閱讀《具身智能機(jī)器人系統(tǒng)》第10-13章,我對(duì)具身智能機(jī)器人的工程實(shí)踐有了全新認(rèn)識(shí)。第10章從實(shí)時(shí)性角度剖析了機(jī)器人計(jì)算加速問(wèn)題。機(jī)器人定位中的SLAM算法需要處理兩個(gè)計(jì)算密集型任務(wù):
    發(fā)表于 01-04 01:15

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人模型

    近年來(lái),人工智能領(lǐng)域的大模型技術(shù)多個(gè)方向上取得了突破性的進(jìn)展,特別是機(jī)器人控制領(lǐng)域展現(xiàn)出了巨大的潛力。“具身智能
    發(fā)表于 12-29 23:04

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.初步理解具身智能

    工智能 認(rèn)知發(fā)展機(jī)器人學(xué) 進(jìn)化機(jī)器人學(xué) 物理體現(xiàn)與互動(dòng) 五、具身智能的現(xiàn)代技術(shù)方向 另外,隨著GPT等大語(yǔ)言模型的發(fā)展,這些技術(shù)也具身智能機(jī)
    發(fā)表于 12-28 21:12

    《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

    研讀《具身智能機(jī)器人系統(tǒng)》第7-9章,我被書(shū)中對(duì)大模型機(jī)器人技術(shù)融合的深入分析所吸引。第7章詳細(xì)闡述了ChatGPT for Robotics的核心技術(shù)創(chuàng)新:它摒棄了傳統(tǒng)的分層控制架構(gòu),創(chuàng)造性地
    發(fā)表于 12-24 15:03

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+數(shù)據(jù)具身人工智能中的價(jià)值

    嵌入式人工智能(EAI)將人工智能集成到機(jī)器人等物理實(shí)體中,使它們能夠感知、學(xué)習(xí)環(huán)境并與之動(dòng)態(tài)交互。這種能力使此類(lèi)機(jī)器人能夠人類(lèi)社會(huì)中有效地提供商品及服務(wù)。 數(shù)據(jù)是一種貨幣化工具 數(shù)
    發(fā)表于 12-24 00:33

    《具身智能機(jī)器人系統(tǒng)》第1-6章閱讀心得之具身智能機(jī)器人系統(tǒng)背景知識(shí)與基礎(chǔ)模塊

    將大模型的\"大腦\"裝入物理實(shí)體的\"身軀\",讓AI真正走進(jìn)現(xiàn)實(shí)世界。這種革新不僅體現(xiàn)在稚暉君開(kāi)源的人形機(jī)器人方案,更在“AI教母”李飛飛的VoxPoser
    發(fā)表于 12-19 22:26

    復(fù)合機(jī)器人正逐漸倉(cāng)儲(chǔ)物流領(lǐng)域發(fā)揮重要作用

    隨著智能倉(cāng)儲(chǔ)物流技術(shù)的快速發(fā)展,復(fù)合機(jī)器人作為一種先進(jìn)的自動(dòng)化設(shè)備,正逐漸倉(cāng)儲(chǔ)物流領(lǐng)域發(fā)揮重要作用。以下是一個(gè)復(fù)合機(jī)器人在智能倉(cāng)儲(chǔ)物流的應(yīng)
    的頭像 發(fā)表于 12-16 16:56 ?128次閱讀
    復(fù)合<b class='flag-5'>機(jī)器人</b>正逐漸<b class='flag-5'>在</b>倉(cāng)儲(chǔ)物流領(lǐng)域<b class='flag-5'>發(fā)揮</b>重要<b class='flag-5'>作用</b>

    FOC電機(jī)機(jī)器人技術(shù)中的作用

    隨著工業(yè)自動(dòng)化和智能制造的快速發(fā)展,機(jī)器人技術(shù)已成為現(xiàn)代工業(yè)的重要組成部分。電機(jī)作為機(jī)器人的動(dòng)力源,其性能直接影響到機(jī)器人的工作效率和穩(wěn)定性。FOC電機(jī)以其高效、精確和靈活的特點(diǎn),
    的頭像 發(fā)表于 11-21 15:20 ?398次閱讀

    解鎖機(jī)器人視覺(jué)與人工智能的潛力,從“盲人機(jī)器”改造成有視覺(jué)能力的機(jī)器人

    正如人類(lèi)依賴(lài)眼睛和大腦來(lái)解讀世界,機(jī)器人也需要自己的視覺(jué)系統(tǒng)來(lái)有效運(yùn)作。沒(méi)有視覺(jué),機(jī)器人就如同蒙上雙眼的人類(lèi),僅能執(zhí)行預(yù)編程的命令,容易碰撞障礙物,并犯下代價(jià)高昂的錯(cuò)誤。這正是機(jī)器人
    的頭像 發(fā)表于 10-12 09:56 ?436次閱讀
    解鎖<b class='flag-5'>機(jī)器人</b>視覺(jué)與人工智能的潛力,從“盲人<b class='flag-5'>機(jī)器</b>”改造成有視覺(jué)能力的<b class='flag-5'>機(jī)器人</b>(<b class='flag-5'>上</b>)

    構(gòu)建語(yǔ)音控制機(jī)器人 - 線(xiàn)性模型機(jī)器學(xué)習(xí)

    2024-07-31 |Annabel Ng 該項(xiàng)目的[一篇博客文章]中,我介紹了運(yùn)行機(jī)器人電機(jī)、處理音頻信號(hào)和調(diào)節(jié)電壓所需的電路的基礎(chǔ)知識(shí)。然而,機(jī)器人還沒(méi)有完全完成!盡管
    的頭像 發(fā)表于 10-02 16:31 ?238次閱讀
    構(gòu)建語(yǔ)音控制<b class='flag-5'>機(jī)器人</b> - 線(xiàn)性<b class='flag-5'>模型</b>和<b class='flag-5'>機(jī)器</b>學(xué)習(xí)

    在生產(chǎn)制造業(yè)中,碼垛機(jī)器人發(fā)揮的重要作用

    ?在生產(chǎn)制造業(yè)中,碼垛機(jī)器人發(fā)揮著至關(guān)重要的作用,主要體現(xiàn)在以下幾個(gè)方面: ?一、題高生產(chǎn)效率 ?碼垛機(jī)器人能夠以很高的速度和精度進(jìn)行碼垛作業(yè),遠(yuǎn)遠(yuǎn)超過(guò)人工碼垛的效率。它可以持續(xù)不間斷
    的頭像 發(fā)表于 09-02 15:51 ?195次閱讀

    Al大模型機(jī)器人

    金航標(biāo)kinghelm薩科微slkor總經(jīng)理宋仕強(qiáng)介紹說(shuō),薩科微Al大模型機(jī)器人有哪些的優(yōu)勢(shì)?薩科微AI大模型機(jī)器人由清華大學(xué)畢業(yè)的天才少年N博士和王博士團(tuán)隊(duì)開(kāi)發(fā),與同行相比具有許多優(yōu)
    發(fā)表于 07-05 08:52

    編碼器機(jī)器人系統(tǒng)中的應(yīng)用

    隨著科技的飛速發(fā)展,機(jī)器人技術(shù)已廣泛應(yīng)用于工業(yè)、醫(yī)療、服務(wù)等多個(gè)領(lǐng)域。機(jī)器人系統(tǒng)中,編碼器作為核心的位置和速度檢測(cè)裝置,發(fā)揮著至關(guān)重要的作用
    的頭像 發(fā)表于 06-13 14:51 ?906次閱讀

    基礎(chǔ)模型能為機(jī)器人帶來(lái)怎樣的可能性?

    機(jī)器人是一種擁有無(wú)盡可能性的技術(shù),尤其是當(dāng)搭配了智能技術(shù)時(shí)。近段時(shí)間創(chuàng)造了許多變革性應(yīng)用的大模型有望成為機(jī)器人的智慧大腦,幫助機(jī)器人感知和理解這個(gè)
    發(fā)表于 01-26 14:47 ?241次閱讀
    基礎(chǔ)<b class='flag-5'>模型</b>能為<b class='flag-5'>機(jī)器人</b>帶來(lái)怎樣的可能性?