時(shí)間回溯到2023年ITF世界大會(huì),NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛在演講中表示:“下一波人工智能浪潮將是一種被稱為具身AI的新型人工智能,即能夠理解、推理并與物理世界互動(dòng)的智能系統(tǒng)?!币粫r(shí)間,具身智能作為行業(yè)熱詞不脛而走,實(shí)際上NVIDIA等公司早就在這一領(lǐng)域開始了布局。
具身智能指機(jī)器人或智能系統(tǒng)能夠通過感知器和執(zhí)行器與其所處的環(huán)境進(jìn)行實(shí)時(shí)互動(dòng)。從概念上說,具身智能的實(shí)例范圍很廣,包括機(jī)器人技術(shù)、自動(dòng)駕駛汽車和聊天機(jī)器人等。本文我們主要聚焦于人形機(jī)器人的發(fā)展上。
根據(jù)市場(chǎng)調(diào)研機(jī)構(gòu)Markets and Markets的數(shù)據(jù),預(yù)計(jì)全球人形機(jī)器人市場(chǎng)規(guī)模將從2023年的18億美元增長(zhǎng)到2028年的138億美元,其間復(fù)合年增長(zhǎng)率可達(dá)50.2%。國(guó)際投資銀行高盛在長(zhǎng)期預(yù)測(cè)中稱,全球人形機(jī)器人市場(chǎng)將會(huì)在2035年達(dá)到1540億美元。巨大的市場(chǎng)潛力讓科技公司對(duì)人形機(jī)器人發(fā)展極為重視,并持續(xù)迭代自己的軟硬件方案,NVIDIA也不例外。
就像黃仁勛在NVIDIA GTC 2024上提到的,開發(fā)通用人形機(jī)器人基礎(chǔ)模型是當(dāng)今人工智能領(lǐng)域中最令人興奮的課題之一。世界各地的機(jī)器人技術(shù)領(lǐng)導(dǎo)者正在匯集各種賦能技術(shù),致力于在人工通用機(jī)器人領(lǐng)域?qū)崿F(xiàn)突破。
會(huì)上,NVIDIA發(fā)布了Project GR00T人形機(jī)器人基礎(chǔ)模型,并在Isaac機(jī)器人平臺(tái)上實(shí)現(xiàn)重大更新。這些新方案體現(xiàn)了NVIDIA對(duì)人形機(jī)器人所需軟硬件的思考,且能夠看出一些未來人形機(jī)器人發(fā)展的具體方向。
人形機(jī)器人技術(shù)路線及NVIDIA的思考
相較于傳統(tǒng)機(jī)器人,人形機(jī)器人對(duì)環(huán)境的感知和響應(yīng)能力更出色。主要原因在于,人形機(jī)器人具備感知、認(rèn)知、決策和行動(dòng)的能力,能夠根據(jù)環(huán)境的變化做出相應(yīng)的調(diào)整,而傳統(tǒng)機(jī)器人基本只能依賴設(shè)定好的程序指令。
要將如此多的能力裝入到機(jī)器人系統(tǒng)中,模型的重要性不言而喻,這也決定了人形機(jī)器人具體走怎樣的技術(shù)路線??v覽當(dāng)前整個(gè)人形機(jī)器人產(chǎn)業(yè),其所涉及的模型大概分為四種:LLM(大語言模型)、VNM(視覺導(dǎo)航模型)、VLM(視覺-語言模型)和VLA(圖像 -語言-動(dòng)作多模態(tài)模型)。
在LLM技術(shù)路徑上,主要的實(shí)現(xiàn)方式是人形機(jī)器人+LLMs。當(dāng)前,LLM是處于科技前沿的AI大模型,展現(xiàn)出非常強(qiáng)勁的智能化實(shí)力。不過,LLM和人形機(jī)器人在部署方式上有巨大的差異,前者依靠規(guī)模龐大的算力集群,后者則屬于單體智能,依賴本體算力。因而,人形機(jī)器人+LLMs路線需要將LLM進(jìn)行量化,然后通過量化后的模型將外部信息,比如人的指令,轉(zhuǎn)化為機(jī)器人的高層控制代碼。
人形機(jī)器人+LLMs的好處在于LLM本身在很多實(shí)例方面已經(jīng)具備很強(qiáng)的能力,部署之后只需要做快速推理就可以。不過,通過當(dāng)前搭載LLM的人形機(jī)器人也能夠看出其不足,那就是量化范圍內(nèi)的能力會(huì)非常出色,范圍之外的交互則會(huì)出現(xiàn)明顯的卡頓,甚至是不理解指令,并且這些機(jī)器人運(yùn)動(dòng)能力有限。
VNM正如其中文釋義一樣,人形機(jī)器人+VNMs可以理解為視覺自動(dòng)駕駛系統(tǒng)從車端向人形機(jī)器人端的轉(zhuǎn)移,也有人將其稱為“車人同源”。由于VNM在車端主要負(fù)責(zé)在各種交通環(huán)境下進(jìn)行感知、決策和控制,其核心神經(jīng)網(wǎng)絡(luò)的信息輸入來自相機(jī)、激光雷達(dá)等實(shí)時(shí)傳感器,因而人形機(jī)器人+VNMs天生就具備比較強(qiáng)的運(yùn)動(dòng)能力。尤其是由BEV、Transfomer、自動(dòng)標(biāo)注等技術(shù)融合而成的VNM,這方面的能力是非常強(qiáng)勁的,具備了自身的“上帝視角”。
人形機(jī)器人+VNMs的難點(diǎn)在于如何在運(yùn)動(dòng)能力之外增強(qiáng)交互能力,這需要在VNM主體下融入更多的新模型,新模型的訓(xùn)練和融入速度決定了人形機(jī)器人+VNMs的效果。
人形機(jī)器人+VLMs路線中的VLM從互聯(lián)網(wǎng)數(shù)據(jù)和機(jī)器人數(shù)據(jù)中學(xué)習(xí),并將這些知識(shí)轉(zhuǎn)化為機(jī)器人控制的通用指令。VLM首先從預(yù)測(cè)語言和預(yù)測(cè)動(dòng)作中進(jìn)行學(xué)習(xí),以此為基礎(chǔ),然后結(jié)合視覺系統(tǒng)的上下文結(jié)合能力來做最終決策。VLM在任務(wù)正確性方面有很大的優(yōu)勢(shì),不過基礎(chǔ)模型能力,如語言和動(dòng)作并不如LLM和VNM。
那么,NVIDIA的技術(shù)路線是什么呢?2023年ITF世界大會(huì)上,NVIDIA發(fā)布了基于VIMA大模型的機(jī)械臂,支持文本、視覺、語音等多模態(tài)作為機(jī)器人的任務(wù)輸入,通過包含仿真基準(zhǔn)測(cè)試、60多萬個(gè)專家軌跡、多種級(jí)別評(píng)估協(xié)議等系統(tǒng)化的泛化測(cè)試作為目標(biāo)輸出集合。此時(shí),NVIDIA初步展示了自己在機(jī)器人領(lǐng)域的多模態(tài)能力。
在NVIDIA GTC 2024上,該公司發(fā)布了Project GR00T人形機(jī)器人基礎(chǔ)模型。據(jù)介紹,Project GR00T是一個(gè)用于人形機(jī)器人的通用基礎(chǔ)模型,由其驅(qū)動(dòng)的機(jī)器人(代表通用機(jī)器人00技術(shù))將能夠理解自然語言,并通過觀察人類行為來模仿動(dòng)作——快速學(xué)習(xí)協(xié)調(diào)、靈活性和其他技能,以便導(dǎo)航、適應(yīng)現(xiàn)實(shí)世界并與之互動(dòng)。下圖是Project GR00T的技術(shù)框圖,粗看比較像VLM的技術(shù)路徑,實(shí)際上是進(jìn)一步的VLA。
Project GR00T的技術(shù)框圖
框圖表達(dá)的可能并不直觀,我們?cè)倏碢roject GR00T的訓(xùn)練機(jī)制,能夠發(fā)現(xiàn)其確實(shí)是融合了LLM、VNM和VLM的能力,將語音、動(dòng)作和機(jī)器人數(shù)據(jù)全部作為基礎(chǔ)模態(tài)融入大模型中,得到高度泛化能力和思維鏈能力。
Project GR00T的訓(xùn)練機(jī)制
長(zhǎng)江證券研究所此前在研報(bào)中指出,在人形機(jī)器人發(fā)展初期階段,LLM可以賦能人形機(jī)器人,大幅提升機(jī)器人的智能交互能力;在1-3年的中期階段,VLM模型將能夠顯著提升機(jī)器人的環(huán)境交互和決策能力;從長(zhǎng)遠(yuǎn)來看,具備語言、動(dòng)作和專業(yè)機(jī)器人知識(shí)模態(tài)的VLA將成為最終部署方案,成熟的VLA模型可以實(shí)現(xiàn)人形機(jī)器人的具身智能。實(shí)際上,這也是符合具身智能技術(shù)形態(tài)的,具身智能是機(jī)器人學(xué)、深度學(xué)習(xí)、機(jī)器視覺、強(qiáng)化學(xué)習(xí)、自然語言、計(jì)算機(jī)圖形化和認(rèn)知科學(xué)等多學(xué)科交叉互助的產(chǎn)物。
從這個(gè)結(jié)論來看,NVIDIA Project GR00T的戰(zhàn)略目光是非常長(zhǎng)遠(yuǎn)的。
人形機(jī)器人部署方式及NVIDIA的應(yīng)對(duì)
以人形機(jī)器人為主導(dǎo)的具身智能將會(huì)給人工智能技術(shù)發(fā)展帶來重大轉(zhuǎn)變,也是通用人工智能落地的必由之路。也有很多業(yè)者認(rèn)為,人形機(jī)器人商業(yè)化落地的進(jìn)度是衡量通用人工智能成熟度的重要指標(biāo)。
談到人形機(jī)器人的落地,就需要將上述這些模型部署到人形機(jī)器人殼體中。近兩年,人形機(jī)器人在關(guān)鍵技術(shù)方面取得了非常大的突破,尤其是模型方面,可以說是日新月異。不過,平安證券在研報(bào)中指出,人形機(jī)器人要落地,零部件先行。
其中,人形機(jī)器人所用到的很多零部件都傳承自傳統(tǒng)機(jī)器人,比如旋轉(zhuǎn)執(zhí)行器、直線執(zhí)行器、手部執(zhí)行器、電池包、視覺傳感器等。然而,由于人形機(jī)器人形態(tài)和理念的變化,傳統(tǒng)工業(yè)機(jī)器人零部件供應(yīng)商并不能占據(jù)核心供應(yīng)商的位置,這個(gè)位置屬于高性能計(jì)算芯片供應(yīng)商,前者提供的零部件處于“機(jī)構(gòu)層”,后者提供的零部件處于“決策層”。如下圖所示,芯片是人形機(jī)器人“大腦”的承載體。
圖源:覓途咨詢
從概念來說,智能汽車和人形機(jī)器人都屬于具身智能的實(shí)例,兩者的硬件系統(tǒng)也較為類似,也有企業(yè)選擇將自動(dòng)駕駛的軟件算法和智駕芯片移植到人形機(jī)器人上,然后在人形機(jī)器人上融入其他模態(tài)。這種方法有利有弊,上面已經(jīng)提到了,我們不過多贅述。同時(shí),在系統(tǒng)打造時(shí),人形機(jī)器人相較于智駕系統(tǒng)在微觀層面要求會(huì)更多。
就以事物識(shí)別這一能力來說,智駕主要是識(shí)別人、車、道路標(biāo)識(shí)等駕駛中的常見物,人形機(jī)器人需要識(shí)別的事物明顯更多,且更加細(xì)節(jié),比如為了讓人形機(jī)器人能夠拿起一個(gè)物體且不損壞物體,物體的重量、體積、質(zhì)感和抓取方式等都需要識(shí)別。就以NVIDIA GTC 2024上的場(chǎng)景舉例來說,黃仁勛在介紹視頻播放完成之后,他和由NVIDIA芯片和服務(wù)驅(qū)動(dòng)的人形機(jī)器人一起向觀眾致意,這種模態(tài)是智駕不需要的,便不具備。
因而,應(yīng)用于人形機(jī)器人的大模型會(huì)具有更多的模態(tài),一方面需要更好地做模型量化,另一方面也需要計(jì)算芯片提供更高的AI能力,這是人形機(jī)器人在部署層面遇到的主要挑戰(zhàn)之一。那么,NVIDIA是如何幫助人形機(jī)器人方案商應(yīng)對(duì)這些挑戰(zhàn)的呢?我們從Jetson Thor 計(jì)算平臺(tái)上找找答案。
Jetson Thor是NVIDIA專門為人形機(jī)器人打造的全新的計(jì)算平臺(tái),能夠執(zhí)行復(fù)雜的任務(wù)并安全、自然地與人和機(jī)器交互,具有針對(duì)性能、功耗和尺寸優(yōu)化的模塊化架構(gòu)。這款SoC帶有transformer engine的下一代GPU,可由其處理多個(gè)傳感器數(shù)據(jù),對(duì)于廣泛部署傳感器的人形機(jī)器人來說,這一點(diǎn)至關(guān)重要。
更重要的是,Jetson Thor帶來了能夠驅(qū)動(dòng)人形機(jī)器人的AI能力,可提供每秒800萬億次8位浮點(diǎn)運(yùn)算AI性能,以運(yùn)行GR00T等多模態(tài)生成式AI模型。背后的功臣是NVIDIA Blackwell架構(gòu)。Blackwell架構(gòu)在性能、能耗、安全、規(guī)模和模塊化等方面帶來全面的提升,這些提升可以更好地賦能人形機(jī)器人發(fā)展。
Blackwell架構(gòu)
首先看性能和能耗,上面提到了Jetson Thor的芯片性能,不過沒有競(jìng)品可能大家的感受并不直觀。如果我們將Blackwell架構(gòu)和NVIDIA上一代Hopper架構(gòu)進(jìn)行對(duì)比,通過下圖不難看出,Blackwell架構(gòu)在各個(gè)關(guān)鍵性能方面都帶來了數(shù)倍的提升。并且,Blackwell Tensor核心增加了新的精度,基于該架構(gòu)打造的第二代 Transformer 引擎支持4位浮點(diǎn)數(shù)AI推理,計(jì)算能力和模型規(guī)模提高一倍。簡(jiǎn)單粗暴地對(duì)比一下,Blackwell GPU的訓(xùn)練性能是上一代Hopper GPU的4倍,推理性能是Hopper GPU的30倍,能源效率是Hopper GPU的25倍。
Blackwell GPU性能優(yōu)勢(shì)
對(duì)于人形機(jī)器人應(yīng)用來說,由于推理能力和能效更強(qiáng),Blackwell架構(gòu)讓單體機(jī)器人能夠承載的模型規(guī)模大幅提升,能夠容納更多的模態(tài),且機(jī)器人續(xù)航更有保障。
然后看一下規(guī)模和模塊化能力。Blackwell架構(gòu)讓NVIDIA MCM-GPU付諸現(xiàn)實(shí),其中MCM為Multi-Chip-Module,屬于NVIDIA自己的Chiplet技術(shù)。因此,Blackwell架構(gòu)能夠?qū)VIDIA多代技術(shù)融合在一起,也能夠靈活地調(diào)整單顆SoC的性能。再深層考慮,Blackwell架構(gòu)帶來了更大SoC規(guī)模和模塊化能力,這使得基于Blackwell架構(gòu)的芯片能夠滿足不同層級(jí)的人形機(jī)器人應(yīng)用需求。這也是為什么1X Technologies、Agility Robotics、Apptronik、波士頓動(dòng)力公司、Figure AI、傅利葉智能、Sanctuary AI、宇樹科技和小鵬鵬行等人形機(jī)器人公司都能夠受益于NVIDIA開發(fā)的人形機(jī)器人計(jì)算平臺(tái)。
最后要談到Blackwell架構(gòu)的安全性。據(jù)介紹,Blackwell架構(gòu)內(nèi)置NVIDIA機(jī)密計(jì)算技術(shù),可通過基于硬件的強(qiáng)大安全性保護(hù)敏感數(shù)據(jù)和AI模型,使其免遭未經(jīng)授權(quán)的訪問。Blackwell是業(yè)內(nèi)首款具備可信執(zhí)行環(huán)境 (TEE) I/O功能的GPU,它不僅能夠與具備 TEE-I/O功能的主機(jī)一同提供性能卓越的機(jī)密計(jì)算解決方案,還能通過NVLink技術(shù)提供實(shí)時(shí)保護(hù)。這對(duì)發(fā)展人形機(jī)器人非常關(guān)鍵,也屬于行業(yè)剛需。為什么這樣說呢?我們從政策端看,在中國(guó)《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見》中著重提到,提升人形機(jī)器人功能安全性能,確保相關(guān)技術(shù)產(chǎn)品對(duì)人和環(huán)境友好,強(qiáng)化網(wǎng)絡(luò)安全防護(hù),提高信息獲取、數(shù)據(jù)交互、數(shù)據(jù)安全等技術(shù)保障能力。
人形機(jī)器人未來發(fā)展及NVIDIA的優(yōu)勢(shì)
從產(chǎn)業(yè)動(dòng)態(tài)來看,當(dāng)前我們正處于人形機(jī)器人產(chǎn)業(yè)發(fā)展的第一階段:在人形的殼體下,讓機(jī)器人具有特定的智能化功能,主要面向制造業(yè)“簡(jiǎn)單且重復(fù)”的勞動(dòng)替代,算是人形機(jī)器人從“0”到“1”的導(dǎo)入期。
在產(chǎn)業(yè)發(fā)展初期,專屬人形機(jī)器人的大模型以及算力芯片是兩大核心環(huán)節(jié)。在模型層面,LLM、VNM和VLM都將逐步找到自己擅長(zhǎng)的領(lǐng)域,比如LLM更適合陪伴型機(jī)器人,VNM更有利于部署到倉儲(chǔ)物流領(lǐng)域等。當(dāng)然,從長(zhǎng)遠(yuǎn)角度來說,VLA模型的空間更大,NVIDIA Project GR00T等項(xiàng)目有望打造真正通用的具身智能體。
從Blackwell架構(gòu)和Jetson Thor計(jì)算平臺(tái)的特性來看,產(chǎn)業(yè)發(fā)展第一階段,提升計(jì)算性能當(dāng)然很重要,但并非唯一目標(biāo),需要考慮能效、模塊化和安全性等問題。
對(duì)于人形機(jī)器人來說,后續(xù)發(fā)展主要有四大趨勢(shì):
·深化跨學(xué)科研究:人形機(jī)器人是多學(xué)科交叉而成的產(chǎn)物,未來這種融合會(huì)愈發(fā)深入;
·自主性和協(xié)作性增強(qiáng):隨著更多的模態(tài)融入應(yīng)用于人形機(jī)器人的大模型中,人形機(jī)器人將逐步在復(fù)雜環(huán)境中實(shí)現(xiàn)自主決策,提升人機(jī)協(xié)作的效率;
·持續(xù)提升經(jīng)濟(jì)特性:人形機(jī)器人在持續(xù)優(yōu)化軟件和硬件的同時(shí),需要逐漸深入場(chǎng)景,做到模型精準(zhǔn)量化以及算力精細(xì)化應(yīng)用;
·完善倫理和法規(guī):隨著人形機(jī)器人的廣泛應(yīng)用,倫理和法規(guī)問題將變得更加重要,數(shù)據(jù)安全防護(hù)是重要一環(huán),此外也需要配套政策和法規(guī)。
無論是大模型的探索,還是Blackwell架構(gòu)和Jetson Thor計(jì)算平臺(tái)設(shè)計(jì),NVIDIA在人形機(jī)器人領(lǐng)域的創(chuàng)新都極具前瞻性,幫助人形機(jī)器人產(chǎn)業(yè)更好地完成設(shè)計(jì)和部署,并對(duì)機(jī)器人數(shù)據(jù)進(jìn)行全方位的保護(hù)。
不過,面向人形機(jī)器人的未來創(chuàng)新,NVIDIA的賦能價(jià)值遠(yuǎn)不止于此,更大的潛能來自NVIDIA逐漸成熟的人形機(jī)器人生態(tài)布局。NVIDIA在機(jī)器人領(lǐng)域提供主控芯片、開發(fā)平臺(tái)和工具,助力開發(fā)人員打造、部署和管理機(jī)器人。
在NVIDIA GTC 2024上,該公司著重介紹了Isaac工具,包括用于強(qiáng)化學(xué)習(xí)的Isaac Lab和用于計(jì)算編排服務(wù)的OSMO。其中,Isaac Lab基于Isaac Sim而構(gòu)建,能夠運(yùn)行數(shù)千個(gè)用于機(jī)器人學(xué)習(xí)的并行仿真。作為底層技術(shù),開發(fā)人員也可以通過Isaac Sim仿真攝像頭、激光雷達(dá)、超聲波、測(cè)距傳感器等各種機(jī)器人用到的傳感器,還可以生成用于訓(xùn)練感知模型的合成數(shù)據(jù),這種逼真、物理屬性準(zhǔn)確的虛擬環(huán)境,可以大幅提升機(jī)器人的開發(fā)效率。
NVIDIA OSMO能夠在分布式環(huán)境中協(xié)調(diào)數(shù)據(jù)生成、模型訓(xùn)練和軟硬件在環(huán)工作流,如下圖所示,這個(gè)云原生工作流程編排平臺(tái)可用于合成數(shù)據(jù)生成 (SDG),DNN訓(xùn)練和驗(yàn)證,強(qiáng)化學(xué)習(xí),SIL或HIL 中的機(jī)器人 (重新) 仿真,以及基于SIM或真實(shí)數(shù)據(jù)的感知評(píng)估。
NVIDIA OSMO系統(tǒng)框圖
另外,NVIDIA Isaac平臺(tái)還包括新發(fā)布了Isaac Manipulator 和 Isaac Perceptor等一系列機(jī)器人預(yù)訓(xùn)練模型、庫和參考硬件。有了這些工具,無論是面向傳統(tǒng)機(jī)器人開發(fā),還是面向人形機(jī)器人開發(fā),都更加得心應(yīng)手,這種完善成熟的生態(tài)也能夠打破困擾人形機(jī)器人行業(yè)發(fā)展的“孤島效應(yīng)”。
最后,我們?cè)谏鷳B(tài)中還是要重提NVIDIA在人形機(jī)器人計(jì)算平臺(tái)布局的前瞻性,Blackwell架構(gòu)在推理性能和能效方面數(shù)十倍的增長(zhǎng),證明NVIDIA深知人形機(jī)器人等單體智能設(shè)備需要什么,對(duì)人形機(jī)器人計(jì)算平臺(tái)的發(fā)展有很好的借鑒和引領(lǐng)作用。
GTC 2024過后,NVIDIA在人形機(jī)器人領(lǐng)域的護(hù)城河更寬、更深了。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4986瀏覽量
103046 -
黃仁勛
+關(guān)注
關(guān)注
9文章
91瀏覽量
56477 -
人形機(jī)器人
+關(guān)注
關(guān)注
2文章
451瀏覽量
16574
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論