人形機器人突進與阻力的較量

“人形機器人”，如今在外界眼中，簡直是“冬天里的一把火”。暴雪加寒潮，是這幾天的天氣特色，而人形機器人概念股，卻火熱得很。

寒潮天氣來臨前，人形機器人的專屬新政出爐了。11月2日，工信部印發(fā)了《人形機器人創(chuàng)新發(fā)展指導(dǎo)意見》（下稱“意見”）。

意見描繪出人形機器人的可期前景，甚至給出了確切的時間表。意見提出，到2025年，人形機器人創(chuàng)新體系初步建立，并實現(xiàn)批量生產(chǎn)；到2027年，綜合實力達到世界先進水平。

人形機器人的賽道，如今熱鬧喧囂了很多。但在外界眼中，那群長期探索中的知名從業(yè)者們，他們浸淫多年的感知和邏輯，卻依然影影綽綽，猶如迷霧一般。

源于此，筆者將兩個多月前的世界機器人大會期間，智創(chuàng)未來人形機器人技術(shù)與產(chǎn)業(yè)發(fā)展論壇上，專家、學(xué)者以及企業(yè)家等的演講以及對話等內(nèi)容進行編輯，梳理出賽道內(nèi)權(quán)威人士的所做所思所想，以供參考。

未來最大變量？

黃曉慶締造達闥科技已有8年之久，他有一個深切感知——“機器人為什么必須是人形”，是機器人行業(yè)一直爭論的問題。

黃曉慶是達闥科技創(chuàng)始人兼CEO、中國云計算專委會副主任。他喜歡從過往找答案。

一百多年前，福特夢想造一輛“不用馬的馬車”，從model A一直制造到model T，世界汽車工業(yè)革命也由此開始。

人形機器人誕生至今，也已走過上百年的漫長歲月。演變期間，有潮漲潮落，但從未止息。

黃曉慶看到，日本自1973年造出第一臺人形機器人后，研究從未中斷，即使在“福島事件”后進入低潮期，也并未停止；另一個“工業(yè)強國”德國，也同樣對人形機器人的研究孜孜以求。

“人形機器人，將是未來人機共存的第一選擇?！秉S曉慶判斷。他認為，機器人的發(fā)展演進，與AI發(fā)展從專用小模型到通用大模型的轉(zhuǎn)變類似，路徑是從專用機器人到通用機器人。這一前提下，人形機器人同時具備：自動適應(yīng)人類環(huán)境、使用人類工具、進行自然語言交互三個特點。

姚期智是2000年圖靈獎獲得者、中國科學(xué)院院士、清華大學(xué)交叉信息研究院院長。他最近在思考：人工智能的下一步是什么？

“未來的AGI（通用人工智能），需要有具身的實體?！币ζ谥撬伎歼^后得出結(jié)論。

姚期智說，人類本身，是世界上相當(dāng)理想的一個具身智能體，其基本具備三個成分，即身體、小腦和大腦。其中身體的部分，應(yīng)該就是人形機器人。

丹尼斯·洪（Dennis Hong）是美國加州大學(xué)洛杉磯分校教授、RoMeLa實驗室創(chuàng)始人，他從小就癡迷機器人，長大后延續(xù)了小時候的夢想。

丹尼斯·洪還是小孩時，就夢想和機器人一起生活。他發(fā)現(xiàn)，家庭環(huán)境是為人設(shè)計的，比如樓梯、門把手等都是由人來使用，因此他認為，機器人最好是人形的。“過去二十年當(dāng)中，我們都專注于人形機器人的研究?！钡つ崴埂ず檎f。

馬克·雷伯特（Marc Raibert）是美國波士頓動力公司創(chuàng)始人兼首席執(zhí)行官，他是有名的長期主義者。他認為，機器人人工智能，由運動智能和認知智能兩部分組成。認知智能是人類頭腦思考中的意象。運動智能涉及如何使用自己的身體。

馬克·雷伯特發(fā)現(xiàn)，人類擁有非常高超的運動智能，哪怕僅僅幾歲的孩童，也具備這一智能。于是，他試圖賦予機器人運動智能。

宇樹科技創(chuàng)始人兼首席執(zhí)行官王興興坦言，“前幾年，我個人有點悲觀，我甚至覺得世界科技已經(jīng)停滯，紅利殆盡”，然而從去年底開始，他重新燃起了斗志。

這源自于通用性AI進展，遠超他個人預(yù)期，他感受到，目前通用人形機器人需要的AI，已經(jīng)慢慢趨于成熟。去年底，他們立項做通用人形機器人。

“未來五到十年間，新工業(yè)革命、新經(jīng)濟增長，都會誕生，”王興興說。

王興興認為，人形機器人與通用AI結(jié)合，是未來整個人類科技和經(jīng)濟增長最大的變量。

堅守者的野望

周劍稱，很多年前他就提及，人類需要人形機器人來賦能生活。

周劍是優(yōu)必選科技創(chuàng)始人、董事長兼首席執(zhí)行官，優(yōu)必選則是他締造的一家人形機器人公司，在該領(lǐng)域沉浸已有11個年頭。

在周劍看來，人形機器人并不缺應(yīng)用場景。

在工業(yè)場景當(dāng)中，他看到，如今幾乎所有的汽車生產(chǎn)線，ABB、庫卡用工業(yè)機械手臂到最后汽車組裝線，集體上陣的情況下，現(xiàn)場依然有大量工人。很多頭部企業(yè)擁有幾十萬規(guī)模的生產(chǎn)線工人。這個未來可以由人形機器人去替代。

“人形機器人和傳統(tǒng)智能化的設(shè)備去協(xié)作作業(yè)，用來解決復(fù)雜場景的柔性無人化的工廠，這才是未來機器人或者汽車智慧的超級無人工廠?！敝軇φf。

未來市場空間到底有多大？周劍預(yù)估稱，目前一個擁有50萬工人的汽車工廠，如果能節(jié)省10%的工人數(shù)量，就是5萬人，按每人節(jié)省6、7萬美金來算，這意味著，一個To B的工廠可能有幾十億美金的市場。

在生活場景當(dāng)中，這里到處都要符合人體工程學(xué)，人形機器人尤其適合，在這一環(huán)境里陪伴人類，一起工作、學(xué)習(xí)、生活。

尤其是AI大模型的不斷發(fā)展之下，不同的大學(xué)、科研機構(gòu)、公司，都用AI大模型，讓夢想不斷照進現(xiàn)實。

王興興認為，去年開始，人形機器人越來越火熱，這與馬斯克的身體力行脫不開關(guān)系，國內(nèi)資本層面也與國外進行了對標(biāo)。過去該領(lǐng)域高潮與低谷，已循環(huán)了很多個周期?！昂茈y想象，十年前，AI是個冷門行業(yè)，如果不是去年生成式AI出現(xiàn)爆發(fā)性增長，可能AI又進入一個新低谷時期，但是，現(xiàn)在整個AI迭代速度已越來越快?！?/p>

馬克·雷伯特和其團隊的研究，可以追溯到15年前，他們開發(fā)了各種各樣的機器人，比如大狗機器人、野貓機器人、spot機器人、物流機器人stretch、人形機器人Atlas等等。

馬克·雷伯特將三個機器人，代表了波士頓動力公司的今天、明天和未來。其中正在開發(fā)的人形機器人Atlas代表未來。spot機器人和物流機器人stretch則分別代表今天、明天。

“人形機器人Atlas，我們管它叫未來機器人，因為目前它還算不上真正意義的機器人，”馬克·雷伯特說。

Atlas機器人有一個機載的計算機，還附有電池，四肢上大概有28個不同的傳感器或者一個視覺系統(tǒng)，可以幫助它看到前方的地形。馬克·雷伯特透露，最近他們正在研究Atlas的移動操控能力。

馬克·雷伯特認為，硬件工程，對于未來的機器人技術(shù)非常重要，它和軟件同等重要?！坝腥苏J為，軟件可以克服硬件上的所有問題和限制，但我個人并不贊同。我認為，只有最好的硬件設(shè)計師和軟件設(shè)計師傾力合作，才能夠設(shè)計出世界上最好的機器人。”

除了運動智能，認知智能也同等重要。馬克·雷伯特表示，他們創(chuàng)立了一個新的機構(gòu)叫人工智能研究院，在現(xiàn)代集團的支持下，該院致力于具有運動智能和認知智能的智慧機器人。

丹尼斯·洪則講述了“ARTEMIS”人形機器人研發(fā)過程的波折。它花了團隊6年時間研發(fā)出來。2018年，它僅僅是停留在紙面上的一個簡單草圖。2019年，眾籌到12萬美金開始啟動。2020年疫情來襲，項目剛起步，實驗室卻被迫關(guān)閉。“但是我們沒有就此止步，在家里繼續(xù)研究，在寢室、臥室里，開著線上會議……”丹尼斯·洪回憶稱。

丹尼斯·洪進一步回憶說，“2021年1月，動態(tài)評估期；2月，第一次讓它站起來，好像不太成功；3月，第一次開始讓它做平衡工作，做推、拉，讓它地面開始震顫，進行站穩(wěn)、平衡等各種實驗……2022年10月，它第一次穩(wěn)定地走路，這是一個非常重大的成功；12月，第一次出現(xiàn)嚴重的故障，這對于通過力控制的機器人，如果有問題就會失去平衡，幾乎是自我摧毀，當(dāng)時給我們很大的打擊，后續(xù)給樣機修理，花了很長時間?！?/p>

今年3月，“ARTEMIS”人形機器人正式發(fā)布，其特點就是，在極度的踢打測試中仍能保持平穩(wěn)，奔跑速度達到2.1米/秒。它可以踢足球，還參加了2023年機器人世界杯足球賽。丹尼斯·洪說，比賽結(jié)束后，他發(fā)現(xiàn)比爾·蓋茨關(guān)注了他。

突進與阻力的較量

近年來，出現(xiàn)眾多知名廠商被迫放棄，或暫停多年研發(fā)成果的現(xiàn)象。比如，去年3月，本田Asimo正式宣布退役，其經(jīng)歷14年的技術(shù)攻關(guān)后才誕生，之后的命運卻是，誕生12年、經(jīng)歷七次迭代，最終結(jié)束生命周期。那之前，軟銀Pepper機器人于2021年已經(jīng)停產(chǎn)，只存活了6年。

究其原因，“先烈們”折在了兩點上，一個是功能未達客戶可以買單的要求，二則是成本過高。

早年間，最基本的一體化關(guān)節(jié)，都要成立專門的公司，但近年來，智能制造以及工業(yè)機器人的長足發(fā)展，使得上下游產(chǎn)業(yè)鏈極大拉通，用產(chǎn)量來降低成本，正在照進現(xiàn)實。

除此之外，ChatGPT引發(fā)的生成式AI熱潮，也為其打開了一扇新大門。

王興興是新進者，他看到，現(xiàn)有大模型技術(shù)可以直接拿來用，或移植，或裁剪，對于人形機器人來說，只要一個小模型或中等模型，就足夠了。

日本大阪大學(xué)教授Hiroshi Ishiguro，對未來的一個暢想是，人類會使用各種不同的機器人以及替身，幫助展開各種活動。這意味著，人類想要發(fā)展人類與機器人共生的社會，而不是發(fā)展僅僅由機器人支持的社會。

啟動交互式機器人項目20多年來，Hiroshi Ishiguro制造了許多的機器人、類人機器人、替身以及計算機圖形替身。

Hiroshi Ishiguro的感受是，得益于大語言模型的問世，他們可以重點研究機器人更高層次的語言認知的功能。

他進一步稱，通過融合大型語言模型與面部表情、手勢等機器人的技術(shù)，他們可以研究許多模態(tài)的集成和多模態(tài)的表達，然后可以將意圖或者欲望，賦予機器人或類人機器人。

“我認為，意識是未來10年當(dāng)中，最重要的問題之一，”Hiroshi Ishiguro說。

黃曉慶認為，機器人是人類的第三臺計算機，未來機器人的編程和安卓手機、windows PC的編程沒有本質(zhì)區(qū)別。“ChatGPT的出現(xiàn)、5G的發(fā)展，開啟了一個用人工智能和云端機器人技術(shù)，來解放生產(chǎn)力的時代，這是一次非常重要的工業(yè)革命?！?/p>

突進之下，阻力也顯而易見。

黃曉慶看到，目前大模型缺乏機器人數(shù)據(jù)，沒有足夠多的行為數(shù)據(jù)，就沒辦法支持機器人的控制。需要把更多行為數(shù)據(jù)融進去，進行二次訓(xùn)練，等機器人有了行為能力、空間能力，就可以進一步加快多模態(tài)大模型，可以叫它robot GPT。

“robot GPT是機器人的大腦?！秉S曉慶說。

英國曼徹斯特大學(xué)終身教授、吉林大學(xué)唐敖慶講席教授任雷，二十多年來，他同時在做兩件事，一是仿生機器人，二是人體科學(xué)。

任雷的深切感受是，目前仿人機器人跟人類相比，在運動性上相差太遠，包括它的運動經(jīng)濟性、運動機敏性、運動多樣性、環(huán)境適應(yīng)性和運動的可塑性等等。

“現(xiàn)在我們把目光又轉(zhuǎn)向到了人體，人體是怎么設(shè)計的，能帶來哪些啟示，能不能有一條新的仿生的技術(shù)，帶來新型的仿人機器人，這是我們團隊目前在探索的?！比卫渍f。

德國慕尼黑工業(yè)大學(xué)教授Alois C. Knoll認為，人形機器人目前主要的障礙，在形態(tài)上。現(xiàn)在做一個數(shù)據(jù)中心的計算機比較容易，但做一個機械臂，讓其能完全模仿人的手臂，就比較困難，所以讓機器人像人一樣行走，也比較困難。

另外，Alois C. Knoll說，能源供應(yīng)等問題，也需要新技術(shù)突破。還有一個較為遙遠的難題，即如何讓系統(tǒng)開發(fā)出一個自己的智慧，比如有自己的感知或靈魂，這涉及倫理問題。

王興興說，通用大模型本身，不是給通用機器人用的，其目前已把文本或文字邏輯處理好了，但它是靜態(tài)的，它對環(huán)境認知和感知基本是零。沒辦法認知物理環(huán)境，就沒法抓取，做一些操作。

王興興看到，谷歌對此事非常用心。十年來一直在做機器人AI相關(guān)的事情?！按蠹椰F(xiàn)在非常希望，給人形機器人或通用機器人，做一個專用的大模型出來?！?/p>

清華大學(xué)交叉信息研究院助理教授、星動紀元創(chuàng)始人陳建宇認為，當(dāng)前機器人技術(shù)在硬件和軟件等方面都取得了長足的發(fā)展，但是仍然存在許多技術(shù)瓶頸。比如在硬件方面，機器人需要兼顧力量、速度、精度和成本等因素，但目前沒有一種技術(shù)能夠同時滿足這些要求。例如，液壓技術(shù)力量和速度強，但成本高，而高減速比諧波電機技術(shù)雖然精度高但靈活性有限。因此，目前的解決方案是平衡各種技術(shù)，根據(jù)不同的應(yīng)用場景選擇不同的技術(shù)路線。未來，人們希望出現(xiàn)一種新技術(shù)，能夠像人一樣兼顧所有因素。

陳建宇發(fā)現(xiàn)，軟件也存在很大問題，目前還無法很好兼顧其泛化性和控制的任務(wù)操作的精巧性，比如谷歌Robotic Transformer系列，可以做到很泛化，但是控制的精度比較低，控制頻率就很低，做任務(wù)基本在操作控制層面，做相對簡單一些的任務(wù)。

陳建宇還看到，安全性的問題。實驗過程中出現(xiàn)的各種問題，具備一定的可解釋性，但如果用大模型、神經(jīng)網(wǎng)絡(luò)，很難解釋它會不會出現(xiàn)一個非常危險的動作?！坝肅hatGPT對話時，它說錯一些字詞，關(guān)系不大。但是作為一個機器人，進入我們生活中時，這個就至關(guān)重要，這些都亟待新技術(shù)去改進?！?/p>

Alois C. Knoll也“潑出一瓢冷水”稱，人形機器人演變至今，已有百年之久，期間進展非常緩慢，如今不能把標(biāo)準(zhǔn)設(shè)得太高，或把市場胃口吊得太高，創(chuàng)造出一個類似于投機的氛圍來，甚至變成一個泡沫。“這是一個難而又難的高端頂級研究，或許比通用性AI要慢，可能不會快速見到巨變。”

“人形機器人，還有許多山峰需要翻越，”Alois C. Knoll強調(diào)。

編輯：黃飛

閱讀全文