近日,瑞士 ANYbotics 公司打造的 ANYmal 機(jī)器人登上了新一期的《Science Robotics》封面,這款機(jī)器人的控制器可以使其穿越各種復(fù)雜的環(huán)境,包括溪流、草地、雪地、碎石坡等,而且不靠攝像頭、激光雷達(dá)等常見設(shè)備——平衡系統(tǒng)不需要任何外界信息的輸入,控制模型也不包含人類輸入的規(guī)則。
腿式運(yùn)動(dòng)擴(kuò)展了機(jī)器人的應(yīng)用范圍,但在地球上一些最具挑戰(zhàn)性的環(huán)境中,大部分腿式機(jī)器人依然無能為力。
多年來,瑞士 ANYbotics 公司的團(tuán)隊(duì)一直在試圖解決這個(gè)問題,他們的最新研究成果——《Learning quadrupedal locomotion over challenging terrain》登上了新一期《Science Robotics》的封面。
在這篇論文中,他們提出了一種穩(wěn)健的控制器,可以部署到 ANYbotics 旗下多種機(jī)器人中。有了新型控制器的加持,這些機(jī)器人可以輕松翻越溪流、草地、雪地、碎石坡等富有挑戰(zhàn)的場(chǎng)景。
我們可以看到,這些機(jī)器人可以輕松走過小溪:
行走在林間,即使是草木叢生的不平坦地面:
在下坡的雪地上行走:
從有水流過的臺(tái)階爬下去:
在這樣復(fù)雜的環(huán)境中行走,對(duì)于人或動(dòng)物來說有時(shí)也會(huì)顯得磕磕絆絆,要打造能如履平地的機(jī)器人,難度自不必說了。
「?jìng)鹘y(tǒng)的」控制方法已經(jīng)不夠用了
在不平坦的地形上,常規(guī)腿式運(yùn)動(dòng)方法方法使得控制架構(gòu)越來越復(fù)雜。許多情況都要依賴復(fù)雜的狀態(tài)機(jī)來協(xié)調(diào)運(yùn)動(dòng)原語和反射控制器的執(zhí)行。為了觸發(fā)狀態(tài)之間的轉(zhuǎn)換或反射的執(zhí)行,許多系統(tǒng)都明確地預(yù)估狀態(tài),例如地面接觸和滑行移動(dòng)。這種預(yù)估通常是基于經(jīng)驗(yàn)設(shè)置的,并且在存在諸如泥土、雪地或植被等未建模因素的情況下可能會(huì)變得不穩(wěn)定。還有一些在腳部使用接觸式傳感器的系統(tǒng),在野外條件下也會(huì)變得不可靠。
總體而言,隨著考慮更多場(chǎng)景,用于在崎嶇等特殊地形上進(jìn)行腿式運(yùn)動(dòng)的常規(guī)系統(tǒng)的復(fù)雜性不斷升級(jí)。在開發(fā)和維護(hù)方面變得非常困難,并且也容易出現(xiàn)控制器設(shè)計(jì)無法實(shí)現(xiàn)的情況(角落情況)。
近來無模型強(qiáng)化學(xué)習(xí)(RL)已經(jīng)成為腿式機(jī)器人運(yùn)動(dòng)控制器開發(fā)中的一種替代方法。強(qiáng)化學(xué)習(xí)方向的觀點(diǎn)是調(diào)整控制器以優(yōu)化給定的獎(jiǎng)勵(lì)函數(shù)。優(yōu)化是通過執(zhí)行控制器本身獲取的數(shù)據(jù)來執(zhí)行的,這會(huì)隨著經(jīng)驗(yàn)的增加而改進(jìn)。強(qiáng)化學(xué)習(xí)已經(jīng)用于簡(jiǎn)化運(yùn)動(dòng)控制器的設(shè)計(jì),自動(dòng)化設(shè)計(jì)過程的各個(gè)部分以及學(xué)習(xí)之前的方法無法設(shè)計(jì)的行為。
但是,將強(qiáng)化學(xué)習(xí)用于腿式運(yùn)動(dòng)在很大程度上僅限于實(shí)驗(yàn)中的環(huán)境和條件。此前的研究實(shí)現(xiàn)了運(yùn)動(dòng)和恢復(fù)行為的端到端學(xué)習(xí),但僅限于在實(shí)驗(yàn)室的平坦地面上進(jìn)行。其他研究也開發(fā)了用于腿式運(yùn)動(dòng)的強(qiáng)化學(xué)習(xí)技術(shù),但同樣是在實(shí)驗(yàn)的環(huán)境中,主要集中在平坦或帶有中等紋理的表面上。
ANYbotics 的研究者提出了一種穩(wěn)健的控制器,用于在充滿挑戰(zhàn)的地形上進(jìn)行盲四足運(yùn)動(dòng)。該控制器僅使用聯(lián)合編碼器和慣性測(cè)量單元的本體感受(proprioceptive)度量,這是腿式機(jī)器人上最耐用最可靠的傳感器??刂破鞯牟僮魅缦聢D所示。
該控制器被用于 ANYmal 四足機(jī)器人的兩代版本中。四足機(jī)器人在泥土、沙子、瓦礫、茂密的植被、雪地、水中和其他越野地形中安全地小跑。
研究人員介紹說,這個(gè)控制器由一種神經(jīng)網(wǎng)絡(luò)策略驅(qū)動(dòng),在模擬環(huán)境中進(jìn)行訓(xùn)練。雖然沒有任何現(xiàn)實(shí)世界的數(shù)據(jù)和精確的地形模型,該控制器仍然能克服野外的各種不規(guī)則地形。研究人員還強(qiáng)調(diào)說,「我們的系統(tǒng)可以穿越視頻所示的所有地形,而且一次都沒有摔倒?!?/p>
此外,這項(xiàng)研究中提到的方法并沒有用到攝像頭、激光雷達(dá)或接觸式傳感器信息,只依賴本體感受傳感器信號(hào)(proprioceptive sensor signal)來提高控制策略在不同地形中的適應(yīng)性和穩(wěn)健性。
先模擬,再實(shí)戰(zhàn)
相比之下,對(duì)于有足機(jī)器人,我們對(duì)于波士頓動(dòng)力旗下的產(chǎn)品更加了解一些,不過來自蘇黎世理工的 ANYmal 其實(shí)一樣能力強(qiáng)大?;趯W(xué)習(xí)的運(yùn)動(dòng)控制器使四足 ANYmal 機(jī)器人能夠穿越充滿挑戰(zhàn)的自然環(huán)境。
與此前的一些無模型強(qiáng)化學(xué)習(xí)腿式運(yùn)動(dòng)方法一樣,研究人員先在模擬環(huán)境中訓(xùn)練了控制器,隨后將訓(xùn)練結(jié)果遷移到現(xiàn)實(shí)世界中。通常,首先需要在虛擬環(huán)境中對(duì)物理?xiàng)l件進(jìn)行建模,進(jìn)而參數(shù)隨機(jī)化。
蘇黎世理工的研究人員發(fā)現(xiàn),這種方法對(duì)于更加崎嶇的地形效果不佳,因此研究人員引入了一些其他方法。首先在模型上,新方法沒有使用在機(jī)器人當(dāng)前狀態(tài)的快照上運(yùn)行的多層感知器(MLP),而是使用了序列模型,特別是感受狀態(tài)的時(shí)間卷積網(wǎng)絡(luò)(TCN)。新方法沒有使用顯式的接觸和滑動(dòng)預(yù)估模塊,相反的 TCN 會(huì)根據(jù)需求從本體感受歷史中隱式地推理出接觸和滑動(dòng)事件。
實(shí)現(xiàn)優(yōu)化結(jié)果的第二個(gè)關(guān)鍵在于特權(quán)學(xué)習(xí)(privileged learning),研究人員發(fā)現(xiàn)直接通過強(qiáng)化學(xué)習(xí)訓(xùn)練出的越野運(yùn)動(dòng)策略并不成功:控制信號(hào)稀疏,并且所輸出的網(wǎng)絡(luò)無法在合理的時(shí)間內(nèi)學(xué)習(xí)出正確的運(yùn)動(dòng)。新的模型在訓(xùn)練中分為兩個(gè)階段,首先訓(xùn)練教師策略,該策略可訪問特權(quán)信息——真實(shí)情況(ground-truth)及機(jī)器人接觸的情況,隨后教師指導(dǎo)純本體感受的學(xué)生控制器學(xué)習(xí),后者僅使用機(jī)器人本身可用的傳感器信息。
這種特權(quán)學(xué)習(xí)會(huì)在模擬環(huán)境中啟用,但最終學(xué)習(xí)到的策略可以在模擬環(huán)境,以及真實(shí)的物理環(huán)境中部署。
第三個(gè)概念對(duì)于實(shí)現(xiàn)其魯棒性很重要。該教程根據(jù)控制器在訓(xùn)練過程不同階段的表現(xiàn),對(duì)不同地形進(jìn)行自適應(yīng)。本質(zhì)上,控制器會(huì)經(jīng)歷各種合成地形的考驗(yàn),同時(shí)變得更具魯棒性。研究者評(píng)估了參數(shù)化地形的可通行性,并使用了粒子濾波來維持中等難度地形參數(shù)的分布,以適應(yīng)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)。訓(xùn)練環(huán)境的挑戰(zhàn)性逐漸增加,促使了這種敏捷性與彈性兼具的全方位控制器的誕生。
借助腿式運(yùn)動(dòng)控制器,機(jī)器人可以穿越一些現(xiàn)有方法無法到達(dá)的復(fù)雜地形。該控制器擁有在零樣本環(huán)境中的泛化能力,即使遇見訓(xùn)練過程中未見過的條件,仍然具備魯棒性。
研究者在模擬訓(xùn)練中只使用了剛性地貌和一組由程序生成的地形剖面,比如山丘和臺(tái)階。然而,當(dāng)控制器被部署在四足機(jī)器人上時(shí),它能夠成功應(yīng)對(duì)可變化地形(比如泥土、苔蘚、雪地)、動(dòng)態(tài)立足點(diǎn)(比如在雜亂室內(nèi)環(huán)境踩到滾動(dòng)板、田野中的碎片)和地面障礙物(厚植被、碎石、涌出的水)。
從研究結(jié)果來看,不需要進(jìn)行艱苦的建模過程,以及危險(xiǎn)且高成本的實(shí)地測(cè)試,物理世界的極度復(fù)雜性也可以被克服。這一方法或許會(huì)引領(lǐng)未來腿式機(jī)器人的發(fā)展。
更適合復(fù)雜環(huán)境,更適用于真實(shí)世界
在四足機(jī)器人領(lǐng)域里,名頭更響的波士頓動(dòng)力 Spot 已在今年開賣了,目前全球已賣出約 300 臺(tái),不過人們?cè)谑褂?Spot 的時(shí)候會(huì)遭遇一些「翻車」情況。
對(duì)于面向工業(yè)場(chǎng)景的用戶來說,穩(wěn)定性至關(guān)重要,在這方面不知 ANYmal 的機(jī)器人是否更加強(qiáng)大。在今年 6 月,這家公司的機(jī)器人也已向用戶交付了自家的四足機(jī)器人 Anymal C。
ANYmal 機(jī)器人由 ANYbotics 公司打造。ANYbotics 成立于 2016 年,是瑞士蘇黎世聯(lián)邦理工學(xué)院的衍生公司,致力于開發(fā)工業(yè)應(yīng)用的移動(dòng)機(jī)器人技術(shù)。該公司表示,其自動(dòng)腿式機(jī)器人的設(shè)計(jì)目的是解決客戶在具有挑戰(zhàn)性的環(huán)境中遇到的問題。該公司已經(jīng)在多個(gè)應(yīng)用中進(jìn)行過 ANYmal 機(jī)器人的成功測(cè)試,如在北海上進(jìn)行的首例離岸機(jī)器人測(cè)試。
ANYbotics 的團(tuán)隊(duì)表示,他們從事腿式機(jī)器人的研究已經(jīng)超過 10 年,如今又根據(jù)工業(yè)需求重新對(duì) ANYmal 機(jī)器人進(jìn)行了設(shè)計(jì)。他們的研究核心是設(shè)計(jì)出強(qiáng)大的扭矩可控制動(dòng)器,使得機(jī)器人能夠爬上陡峭的樓梯,可靠地承受各種環(huán)境變化帶來的壓力。
在過去的十年中,ANYmal 系列機(jī)器人也經(jīng)歷了一系列的更新?lián)Q代和技術(shù)革新,從最初的 ANYmal Alph 到 ANYmal Beth、ANYmal B 再到如今的 ANYmal C。經(jīng)過數(shù)次迭代,ANYmal 變得越發(fā)強(qiáng)大。
論文鏈接:https://robotics.sciencemag.org/content/5/47/eabc5986
文章轉(zhuǎn)自“機(jī)器之心”
責(zé)任編輯:PSY
原文標(biāo)題:不用攝像頭和激光雷達(dá),四足機(jī)器人「憑感覺」越野
文章出處:【微信公眾號(hào):中科院長春光機(jī)所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
控制器
+關(guān)注
關(guān)注
112文章
16444瀏覽量
179204 -
機(jī)器人
+關(guān)注
關(guān)注
211文章
28632瀏覽量
208175 -
瑞士
+關(guān)注
關(guān)注
0文章
14瀏覽量
10777 -
四足機(jī)器人
+關(guān)注
關(guān)注
1文章
92瀏覽量
15248
原文標(biāo)題:不用攝像頭和激光雷達(dá),四足機(jī)器人「憑感覺」越野
文章出處:【微信號(hào):cas-ciomp,微信公眾號(hào):中科院長春光機(jī)所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論