來源:佛山智能裝備技術(shù)研究院
近日,佛山智能裝備技術(shù)研究院(簡(jiǎn)稱“佛山智能裝備院”)與佛山華數(shù)機(jī)器人有限公司(簡(jiǎn)稱“華數(shù)機(jī)器人”)在具身智能工業(yè)機(jī)器人領(lǐng)域的研究成果“Advancing general robotic manipulation with Multimodal Foundation Models: an embodied Al paradigm”刊登在中科院一區(qū)TOP級(jí)SCI期刊SCIENCE CHINA Technological Sciences。該研究成果由佛山智能裝備院關(guān)鍵技術(shù)實(shí)驗(yàn)室創(chuàng)新團(tuán)隊(duì)牽頭,實(shí)驗(yàn)室主任黃石峰博士為第一完成人,中國(guó)工程院外籍院士張建偉教授為通訊作者,北京大學(xué)前沿計(jì)算研究中心、銀河通用機(jī)器人有限公司創(chuàng)始人兼CTO王鶴教授,華數(shù)機(jī)器人楊海濱總經(jīng)理,佛山智能裝備院周星常務(wù)副院長(zhǎng),德國(guó)漢堡大學(xué)陳文凱博士后研究員為共同完成人。
智能工業(yè)機(jī)器人勢(shì)在必行
當(dāng)前的機(jī)器人技術(shù)能否全面勝任人類生產(chǎn)生活中的所有勞動(dòng)呢?實(shí)際上,機(jī)器人的應(yīng)用仍然受到限制,尤其是在日常場(chǎng)景中常見的開放、非結(jié)構(gòu)化環(huán)境中,比如服務(wù)、醫(yī)療、農(nóng)業(yè)、建筑以及眾多其他領(lǐng)域,如圖2 所示。從通用機(jī)器人操作的角度來看,挑戰(zhàn)源于以下方面:
操作門檻高:需要人類操作員掌握專門的機(jī)器人編程語(yǔ)言,并深入理解手頭的任務(wù)。這些任務(wù)需要被分解為機(jī)器人能夠執(zhí)行的一系列連續(xù)動(dòng)作,即動(dòng)作層面的機(jī)器人程序開發(fā)。這種方式導(dǎo)致了高昂的勞動(dòng)力成本,尤其是在諸如船舶制造這類多品種、小批量的應(yīng)用場(chǎng)景中。
自主任務(wù)執(zhí)行能力有限:機(jī)器人缺乏面向高層級(jí)抽象任務(wù)的自主動(dòng)作生成能力(自主決策、自主規(guī)劃、自主執(zhí)行能力弱)。這一限制使得傳統(tǒng)機(jī)器人不適合部署在那些需要與人類進(jìn)行復(fù)雜交互和無縫協(xié)作的開放、非結(jié)構(gòu)化環(huán)境中。
操作技能欠佳:機(jī)器人在許多任務(wù)上表現(xiàn)不佳,尤其是那些需要靈巧操作技能的任務(wù)。例如,在鞋廠中,仍然需要工人手動(dòng)穿鞋帶。一方面,機(jī)器人在獲取特定操作所需的專業(yè)且復(fù)雜的技能方面面臨重大挑戰(zhàn)。另一方面,它們執(zhí)行這些技能時(shí)往往較為僵硬且效率低下,缺乏人類操作時(shí)的流暢性。
圖2 機(jī)器人低滲透率的應(yīng)用場(chǎng)景:(a) 造船業(yè);(b) 家庭服務(wù);(c) 服裝廠的疊衣應(yīng)用;(d) 鞋廠的穿鞋帶應(yīng)用;(e) 建筑工地;(f) 新能源汽車電池的極耳組裝
具身智能與生成式人工智能
近年來,具身智能(指擁有物理實(shí)體的人工智能系統(tǒng))的興起,似乎為通用機(jī)器人操作技術(shù)的發(fā)展提供了一條充滿希望的路徑。在這種背景下,機(jī)器人仿佛擁有了一顆智能的“大腦”,展現(xiàn)出了適應(yīng)多樣環(huán)境的潛力以及執(zhí)行各類任務(wù)的靈活性。這些特質(zhì)對(duì)于通用機(jī)器人操作而言至關(guān)重要。然而,早期將人工智能與機(jī)器人技術(shù)相結(jié)合的嘗試并未實(shí)現(xiàn)如此高水平的智能。一個(gè)有趣的現(xiàn)象是:具身智能的出現(xiàn),幾乎與生成式人工智能的重大突破同步發(fā)生,其中的典型代表就是2022年末發(fā)布的ChatGPT,它是大語(yǔ)言模型(LLMs)發(fā)展歷程中的一項(xiàng)里程碑式成果。這些創(chuàng)新的交匯引發(fā)了一些發(fā)人深省的思考:
為什么大語(yǔ)言模型能夠推動(dòng)具身智能的發(fā)展?
僅憑大“語(yǔ)言”模型,是否足以實(shí)現(xiàn)我們所期望的通用機(jī)器人操作愿景?
因此,這促使我們深入思考具身智能的本質(zhì),并評(píng)估在通用機(jī)器人操作方面大語(yǔ)言模型的能力和局限性。我們對(duì)上述問題的看法如下。
大語(yǔ)言模型(LLMs)基于在大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,通過無監(jiān)督學(xué)習(xí)的方式在語(yǔ)言建模中預(yù)測(cè)下一個(gè)詞元,它們?cè)谏舷挛睦斫庖约巴ㄟ^思維鏈提示進(jìn)行連續(xù)對(duì)話方面表現(xiàn)了出色的能力。此外,借助由縮放定律(scaling laws)所支撐的超大型模型,大語(yǔ)言模型在常識(shí)知識(shí)和推理方面展現(xiàn)出了卓越的性能。傳統(tǒng)意義的工業(yè)機(jī)器人在人們心目中的主流形象更像是單純的“自動(dòng)化設(shè)備”,而非“智能體”。幾十年來,機(jī)器人一直受困于缺乏一個(gè)類似智能大腦的系統(tǒng)。近期的研究進(jìn)展表明,大語(yǔ)言模型可以為機(jī)器人配備一個(gè)類似大腦的系統(tǒng)。大語(yǔ)言模型促進(jìn)了操作員與機(jī)器人之間的自然語(yǔ)言交互,使機(jī)器人能夠有效地理解人類意圖并做出決策。因此,大語(yǔ)言模型有潛力克服“操作門檻高”這一瓶頸,并緩解在開放、非結(jié)構(gòu)化環(huán)境中“自主任務(wù)執(zhí)行能力有限”所帶來的挑戰(zhàn)。
然而,具身智能的內(nèi)涵強(qiáng)調(diào)的是智能源于智能體的實(shí)體(物理身體)與其現(xiàn)實(shí)世界環(huán)境之間的動(dòng)態(tài)交互,并且在其整個(gè)生命周期中持續(xù)學(xué)習(xí)與發(fā)展。因此,具身智能與傳統(tǒng)人工智能(即離身智能)的根本區(qū)別在于具身智能中存在物理實(shí)體。機(jī)器人操作是具身智能的一個(gè)基礎(chǔ)研究課題,它超越了基于語(yǔ)言的反饋模式,涵蓋了機(jī)器人本體感受、觸覺感知、力/扭矩反饋、視覺等多個(gè)方面。這些豐富的感知模式對(duì)于識(shí)別物體的可供性以及智能的形成至關(guān)重要。例如,當(dāng)我們抓取一個(gè)物體時(shí),我們會(huì)利用觸覺反饋來評(píng)估物體的質(zhì)地和重量,而視覺輸入則有助于確定物體的形狀和方位。這些綜合的感知模式使我們能夠了解如何操作該物體。顯然,僅靠大語(yǔ)言模型(僅基于語(yǔ)言)無法滿足具身智能的要求,因?yàn)樗鼈內(nèi)狈C(jī)器人操作所需的面向動(dòng)作的能力。因此,我們需要更強(qiáng)大的基礎(chǔ)模型,這些模型能夠整合機(jī)器人所感知到的各種模態(tài)信息,比如視覺語(yǔ)言模型(VLMs)和視覺語(yǔ)言動(dòng)作模型(VLAs),它們統(tǒng)稱為多模態(tài)基礎(chǔ)模型(MFMs)。
圖3 典型的端到端架構(gòu)
智能工業(yè)機(jī)器人的體系架構(gòu)
在具身智能范式下,多模態(tài)基礎(chǔ)模型(MFMs)能夠推動(dòng)通用機(jī)器人操作技術(shù)的發(fā)展。如今,適用于具身智能的技術(shù)框架仍然是一個(gè)開放話題,大致可分為兩類:1)端到端(E2E)架構(gòu)和2)模塊化(或分層式)架構(gòu)。下面,我們將對(duì)這兩類架構(gòu)分別進(jìn)行討論。
端到端架構(gòu)直接將原始傳感器數(shù)據(jù)映射為動(dòng)作,無需中間的手工設(shè)計(jì)模塊,如圖3所示。這種方法避免了模塊間信息傳輸過程中的失真,減少了累積誤差和延遲,并實(shí)現(xiàn)了更無縫的集成。此外,端到端流程能夠更有效地捕捉人類技能,因?yàn)槌橄蟮膭?dòng)作往往難以用分析方法精確建模。特斯拉的完全自動(dòng)駕駛第12版(FSD V12)就是端到端實(shí)現(xiàn)的一個(gè)突出例子。
盡管端到端架構(gòu)具有很大的潛力,但其局限性也不容忽視。一個(gè)完全的端到端架構(gòu)就像一個(gè)黑箱模型,缺乏可解釋性和安全保障。其性能在很大程度上依賴于訓(xùn)練階段大規(guī)模高質(zhì)量數(shù)據(jù)集的可用性,并且要實(shí)現(xiàn)高泛化能力需要大規(guī)模的神經(jīng)網(wǎng)絡(luò)架構(gòu)。這種對(duì)大量數(shù)據(jù)和復(fù)雜模型的依賴,會(huì)在數(shù)據(jù)標(biāo)注成本、計(jì)算資源以及過擬合風(fēng)險(xiǎn)等方面帶來重大挑戰(zhàn)。此外,由于缺乏可解釋性,很難驗(yàn)證模型的決策,這對(duì)安全關(guān)鍵型應(yīng)用是不利的。為了緩解這些問題,需要進(jìn)行廣泛的驗(yàn)證和測(cè)試,并且可以采用增強(qiáng)模型可解釋性的技術(shù),以便更好地理解決策過程??偟膩碚f,我們認(rèn)為端到端架構(gòu)可以作為一個(gè)長(zhǎng)期的發(fā)展目標(biāo)。
圖4模塊化框架:“小腦 - 大腦” 耦合、復(fù)雜任務(wù)拆解、元技能組合、融合建模學(xué)習(xí)
對(duì)于大多數(shù)機(jī)器人制造商而言,一種更具可部署性且更具成本效益的解決方案是采用模塊化架構(gòu)。在這種架構(gòu)中,諸如感知、規(guī)劃和控制等模塊是獨(dú)立設(shè)計(jì)的。我們提出了一種模塊化架構(gòu)解決方案,其特點(diǎn)是“大腦-小腦” 耦合、復(fù)雜任務(wù)拆解、元技能組合、融合模型學(xué)習(xí),如圖4所示。多模態(tài)基礎(chǔ)模型(MFMs)的功能類似于大腦,支持多模態(tài)感知、推理和決策,同時(shí)也滿足自然的人機(jī)交互(nHRI)要求。在這種情況下,人類用戶可以通過各種形式傳達(dá)任務(wù),包括語(yǔ)音、文本和圖像,并且機(jī)器人能夠理解所接收信息背后的潛在意圖。此外,多模態(tài)基礎(chǔ)模型以自上而下的方式(任務(wù)規(guī)劃)將任務(wù),尤其是復(fù)雜且長(zhǎng)程任務(wù),拆解為更簡(jiǎn)單的子任務(wù)。然后,每個(gè)子任務(wù)都可以映射為多種技能的組合。當(dāng)前層面的技能顆粒度仍然相對(duì)較粗,可以進(jìn)一步拆解為元技能。在機(jī)器人領(lǐng)域,對(duì)于元技能(primitive skills)的嚴(yán)格定義尚未標(biāo)準(zhǔn)化。我們將元技能視為構(gòu)成更復(fù)雜技能的動(dòng)作單元。元技能的關(guān)鍵特征如下:
原子性:元技能是基本動(dòng)作,是構(gòu)建復(fù)雜技能的基礎(chǔ)。這些動(dòng)作通常簡(jiǎn)單直接,例如移動(dòng)、扭轉(zhuǎn)、抓取、放置、按壓等。
可復(fù)用性:由于其原子性,元技能可以在各種任務(wù)中重復(fù)使用和組合。例如,抓取技能不僅可以應(yīng)用于拾取物體,還可以用于操作工具。
可組合性:通過組合不同的元技能,可以創(chuàng)建更復(fù)雜的技能和任務(wù)序列。例如,將抓取、移動(dòng)和放置技能相結(jié)合,就可以實(shí)現(xiàn)搬運(yùn)和重新放置物體的能力。
對(duì)于元技能的描述可以表述為:[動(dòng)作] + [工具] + [被操作物體] + [目標(biāo)位置] + [條件]。需要注意的是,即使是相同的動(dòng)作,當(dāng)它與不同的工具、物體或其他組成部分相結(jié)合時(shí),仍然被視為相同的元技能。
現(xiàn)實(shí)生活中的任務(wù)幾乎是無窮無盡的,并且常常需要掌握一些意想不到的技能,同時(shí)環(huán)境也會(huì)隨著時(shí)間而變化。因此,對(duì)于元技能的策略學(xué)習(xí),比如利用強(qiáng)化學(xué)習(xí)(RL)或模仿學(xué)習(xí)(IL)來掌握這些技能,應(yīng)該設(shè)計(jì)成一種持續(xù)學(xué)習(xí)的范式,以避免對(duì)先前學(xué)到的技能產(chǎn)生災(zāi)難性遺忘。我們建議使用輕量級(jí)模型進(jìn)行策略學(xué)習(xí),以便于訓(xùn)練并確保能夠?qū)崟r(shí)響應(yīng)。此外,所提出的策略學(xué)習(xí)架構(gòu)(即“小腦”部分)是融合建模方式。基于機(jī)理的方法可以作為數(shù)據(jù)驅(qū)動(dòng)策略學(xué)習(xí)的輔助組成部分。例如,在以插入操作為元技能的精密裝配任務(wù)中,將接觸力/扭矩轉(zhuǎn)化為機(jī)器人關(guān)節(jié)動(dòng)作的策略模型可以分解為兩個(gè)部分:1)從末端執(zhí)行器感知的六維力/扭矩向量到工具的六維位姿調(diào)整的映射,利用數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)策略來封裝人類的專業(yè)知識(shí);2)從工具的末端執(zhí)行器位姿到機(jī)器人關(guān)節(jié)構(gòu)型的映射,這可以利用基于機(jī)器人原理的解析逆運(yùn)動(dòng)學(xué)方法有效地計(jì)算。此外,一些涉及幾何元素的元技能,如直線運(yùn)動(dòng)、圓周運(yùn)動(dòng)或擺線運(yùn)動(dòng),可以直接使用解析方法來構(gòu)建。這些都是傳統(tǒng)機(jī)器人很容易掌握的經(jīng)典技能,但當(dāng)通過數(shù)據(jù)驅(qū)動(dòng)的方法學(xué)習(xí)時(shí),往往會(huì)得到不盡如人意的結(jié)果(例如,精度低)。這種融合建模架構(gòu)降低了策略學(xué)習(xí)的復(fù)雜性,同時(shí)提供了更好的物理可解釋性。
所提出的模塊化架構(gòu)強(qiáng)調(diào)了復(fù)雜任務(wù)的拆解以及元技能的組合,同時(shí)還探討了生成式人工智能如何與機(jī)器人的經(jīng)典控制系統(tǒng)相集成。事實(shí)上,任務(wù)拆解和元技能組合背后的原理是受到人類認(rèn)知的啟發(fā)。當(dāng)面對(duì)一項(xiàng)長(zhǎng)期任務(wù)時(shí),人類會(huì)自然而然地將其拆解為較小的子任務(wù)。人類智慧的一個(gè)關(guān)鍵方面在于能夠從一個(gè)示例推廣到另一個(gè)示例,這使我們能夠在各種不同的情境中靈活運(yùn)用所學(xué)知識(shí)。例如,掌握了“插入”這樣的元技能后,我們就能執(zhí)行一系列廣泛的相關(guān)任務(wù),比如插入三腳電源插頭、USB接口,或者將機(jī)械軸裝配到孔中,而無需針對(duì)每個(gè)單獨(dú)的任務(wù)重新學(xué)習(xí)基本技能。這種卓越的泛化能力源于對(duì)這些操作所需的底層元技能的深入掌握。
具身智能在通用機(jī)器人操作領(lǐng)域的重點(diǎn)發(fā)展方向
最后,為了推動(dòng)具身智能在通用機(jī)器人操作領(lǐng)域的發(fā)展,應(yīng)著重關(guān)注以下幾個(gè)方面:1)開發(fā)高性能的人工智能芯片以及面向具身智能的網(wǎng)絡(luò)體系架構(gòu),以便在終端平臺(tái)上部署大型模型并實(shí)現(xiàn)實(shí)時(shí)計(jì)算。2)探索多具身智能的認(rèn)知演化與協(xié)作,構(gòu)建安全、具有因果關(guān)系且值得信賴的世界模型。3)實(shí)現(xiàn)基于詞元化的多模態(tài)集成優(yōu)化,開發(fā)用于透明決策的可解釋人工智能理論,并致力于減少多模態(tài)基礎(chǔ)模型產(chǎn)生幻覺的情況。4)利用真實(shí)世界的數(shù)據(jù)和合成數(shù)據(jù),為各個(gè)領(lǐng)域創(chuàng)建高質(zhì)量的數(shù)據(jù)集。5)構(gòu)建具有可擴(kuò)展功能和長(zhǎng)期記憶的特定領(lǐng)域模型,以支持垂直應(yīng)用。6)通過零樣本模擬到真實(shí)的遷移,提高學(xué)習(xí)復(fù)雜技能的效率,并應(yīng)對(duì)在現(xiàn)實(shí)世界環(huán)境中實(shí)現(xiàn)終身技能發(fā)展所面臨的挑戰(zhàn)。
-
工業(yè)機(jī)器人
+關(guān)注
關(guān)注
91文章
3450瀏覽量
93928 -
華數(shù)機(jī)器人
+關(guān)注
關(guān)注
0文章
40瀏覽量
1072 -
具身智能
+關(guān)注
關(guān)注
0文章
132瀏覽量
432
原文標(biāo)題:佛山智能裝備院在《中國(guó)科學(xué)》發(fā)表關(guān)于智能工業(yè)機(jī)器人底座技術(shù)的最新研究成果
文章出處:【微信號(hào):HSR華數(shù)機(jī)器人,微信公眾號(hào):HSR華數(shù)機(jī)器人】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
解碼“什么是具身智能工業(yè)機(jī)器人”

成都華微與具身科技深化人工智能和機(jī)器人領(lǐng)域合作
華數(shù)機(jī)器人亮相2025具身智能機(jī)器人科技產(chǎn)業(yè)金融大會(huì)
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人的基礎(chǔ)模塊
《具身智能機(jī)器人系統(tǒng)》第10-13章閱讀心得之具身智能機(jī)器人計(jì)算挑戰(zhàn)
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+兩本互為支持的書
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.初步理解具身智能
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.全書概覽與第一章學(xué)習(xí)
《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+初品的體驗(yàn)
《具身智能機(jī)器人系統(tǒng)》第1-6章閱讀心得之具身智能機(jī)器人系統(tǒng)背景知識(shí)與基礎(chǔ)模塊
名單公布!【書籍評(píng)測(cè)活動(dòng)NO.51】具身智能機(jī)器人系統(tǒng) | 了解AI的下一個(gè)浪潮!
國(guó)內(nèi)首個(gè)具身智能工業(yè)機(jī)器人領(lǐng)域報(bào)告重磅開啟!

評(píng)論