MIT計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)和多倫多大學(xué)的研究人員開發(fā)一個(gè)虛擬家園“VirtualHome”,不僅讓虛擬機(jī)器人成功做家務(wù),還創(chuàng)建了一個(gè)用自然語言描述的家庭任務(wù)數(shù)據(jù)庫,將來可能有助于亞馬遜的Alexa等系統(tǒng)執(zhí)行更復(fù)雜的任務(wù)。
“機(jī)器人,給我來一瓶82年的農(nóng)夫山泉?!?/p>
收到這個(gè)指令,機(jī)器人肯定一臉懵逼。
先不說82年的農(nóng)夫山泉肯定找不到,更現(xiàn)實(shí)的問題是,即便是有一瓶現(xiàn)成的農(nóng)夫山泉,機(jī)器人也需要人類更明確、程序化的指令才能完成這個(gè)任務(wù),他們不能輕易推斷和推理。
MIT計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)和多倫多大學(xué)的研究人員受《模擬人生》(The Sims)啟發(fā),開發(fā)一個(gè)虛擬家園“VirtualHome”,不僅讓虛擬機(jī)器人成功地制作了咖啡、打開烤面包機(jī)、在沙發(fā)上休息,研究人員還創(chuàng)建了一個(gè)用自然語言描述的家庭任務(wù)數(shù)據(jù)庫,將來可能有助于亞馬遜的Alexa等系統(tǒng)執(zhí)行更復(fù)雜的任務(wù)。
VirtualHome:模擬家庭八個(gè)場景中的1000個(gè)交互
VirtualHome是一個(gè)3D環(huán)境,它允許模擬和生成活動(dòng)的視頻,并將它們作為動(dòng)作和交互的序列。
VirtualHome基于三個(gè)主要模塊:
家庭任務(wù)的知識(shí)庫,包含如何執(zhí)行某些公共任務(wù)的指令;VirtualHome環(huán)境,一個(gè)模擬和生成這些任務(wù)的視頻的3D模擬器,以及允許從描述或視頻演示生成程序的腳本生成模型。
團(tuán)隊(duì)使用了近3000個(gè)不同活動(dòng)的程序來訓(xùn)練這個(gè)系統(tǒng),這些活動(dòng)被進(jìn)一步細(xì)分為計(jì)算機(jī)的子任務(wù)來理解。這是因?yàn)闄C(jī)器人與人類不同,它們需要更明確的指令來完成簡單的任務(wù),不能輕易地推斷和推理。
例如,一個(gè)人可能會(huì)告訴另外一個(gè)人:“打開電視,在沙發(fā)上看吧?!痹谶@句話中,像諸如“拿遙控器”和“坐/躺在沙發(fā)上”這樣的動(dòng)作被省略了,因?yàn)樗鼈兪侨祟惓WR(shí)的一部分。
為了更好地向機(jī)器人演示這類任務(wù),需要更詳細(xì)地描述操作。
僅看電視這個(gè)任務(wù),就分了多個(gè)步驟
為此,研究團(tuán)隊(duì)首先收集了家庭活動(dòng)的口頭描述,然后將它們翻譯成簡單的代碼。像“打開電視,在沙發(fā)上看吧”這樣的指令可能包括以下步驟:
走到電視前,打開電視,走到沙發(fā)前,坐在沙發(fā)上,看電視。
一旦這些程序被創(chuàng)建,這個(gè)團(tuán)隊(duì)將它們輸入到VirtualHome 3-D模擬器,然后將它們轉(zhuǎn)換成視頻,虛擬代理將執(zhí)行程序定義的任務(wù),無論這些任務(wù)是看電視、將鍋放在爐子上,還是打開和關(guān)閉烤面包機(jī)。
該團(tuán)隊(duì)的虛擬機(jī)器人可以在VirtualHome的世界中執(zhí)行1000個(gè)這樣的交互,其中有八個(gè)不同的場景,包括客廳、廚房、餐廳、臥室和家庭辦公室。
程序的獨(dú)特之處:包含了執(zhí)行活動(dòng)所需的所有步驟
來看一看是具體怎么操作的。
團(tuán)隊(duì)收集了一個(gè)專門針對(duì)機(jī)器人的家庭活動(dòng)的大型知識(shí)庫,數(shù)據(jù)集包含活動(dòng)以及程序的自然語言描述,以一系列步驟的形式表示活動(dòng)的正式符號(hào)。這些程序的獨(dú)特之處在于它們包含了執(zhí)行活動(dòng)所需的所有步驟。
每個(gè)任務(wù)都有一個(gè)高級(jí)名稱和一個(gè)自然語言指令,然后團(tuán)隊(duì)為這些任務(wù)收集“程序”(下圖左中),標(biāo)注者(annotators)將指令“翻譯”為簡單的代碼。
接著,團(tuán)隊(duì)在VirtualHome-3D模擬器中執(zhí)行最頻繁的(內(nèi)部)操作,能夠驅(qū)動(dòng)代理執(zhí)行由程序定義的任務(wù)。團(tuán)隊(duì)提出了從文本(上圖頂部)和視頻(上圖底部)自動(dòng)生成程序的方法,從而通過語言和視頻演示驅(qū)動(dòng)代理。
上圖描述在VirtualHome中,代理根據(jù)描述執(zhí)行生成的程序。注意,最上面的代理使用他的左手打開冰箱和抓取一個(gè)物品,因?yàn)樗沂忠呀?jīng)拿了一個(gè)物體。另外,代理還有一些限制,例如,在第三排,代理穿著衣服坐在馬桶上。此外,有時(shí)攜帶的物品會(huì)由于對(duì)撞機(jī)的不精確而輕微地穿透代理的身體。
未來:機(jī)器人可能擺脫制造商編寫的任務(wù),從YouTube上也能學(xué)習(xí)
該項(xiàng)目由CSAIL和多倫多大學(xué)等高校的研究人員共同開發(fā),將在本月在鹽湖城舉行的CVPR會(huì)議上present。
亞利桑那州立大學(xué)藝術(shù)媒體和工程系的研究助理Qiao Wang說:“這一工作將有助于未來真正的機(jī)器人個(gè)人助理,機(jī)器人都可以通過聆聽或觀察身邊的特定人員來學(xué)習(xí)任務(wù),而不是制造商編寫的每項(xiàng)任務(wù)。這使得機(jī)器人可以以個(gè)性化的方式完成任務(wù),甚至有一天可以通過這種個(gè)性化的學(xué)習(xí)過程調(diào)用情感聯(lián)系?!?/p>
此外,研究的結(jié)果不僅僅是完成一個(gè)訓(xùn)練機(jī)器人做家務(wù)的系統(tǒng),它還是一個(gè)使用自然語言描述的家庭任務(wù)的大型數(shù)據(jù)庫。像亞馬遜這樣的公司正在努力在家里開發(fā)類似Alexa的機(jī)器人系統(tǒng),最終可以使用這些數(shù)據(jù)來訓(xùn)練他們的模型來完成更復(fù)雜的任務(wù)。
未來,該團(tuán)隊(duì)希望使用實(shí)際視頻來訓(xùn)練機(jī)器人,而不是《模擬人生》這樣風(fēng)格的模擬視頻,這將使機(jī)器人通過觀看YouTube視頻來學(xué)習(xí)。該團(tuán)隊(duì)還致力于實(shí)施獎(jiǎng)勵(lì)學(xué)習(xí)系統(tǒng),讓代理在正確執(zhí)行任務(wù)時(shí)得到積極的反饋。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28510瀏覽量
207493 -
人工智能
+關(guān)注
關(guān)注
1792文章
47422瀏覽量
238946 -
模擬器
+關(guān)注
關(guān)注
2文章
878瀏覽量
43270
原文標(biāo)題:機(jī)器人,給我來一瓶82年的農(nóng)夫山泉
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論