近日,兩個(gè)由 OpenAI 的研究人員開發(fā)的一模一樣的機(jī)械臂愛(ài)麗絲和鮑勃,可以在模擬情景中通過(guò)對(duì)弈互相學(xué)習(xí),而不需要人為輸入文本。
其中一個(gè)虛擬機(jī)械臂已經(jīng)學(xué)會(huì)解決各種不同的難題堆積木、擺放桌子、排列國(guó)際象棋棋子,并且每項(xiàng)任務(wù)不需要進(jìn)行再訓(xùn)練。這一切通過(guò)與另一個(gè)機(jī)械臂對(duì)弈得以實(shí)現(xiàn)。據(jù)了解,另一個(gè)機(jī)械臂經(jīng)過(guò)訓(xùn)練后,會(huì)給原本的機(jī)械臂臂帶來(lái)越來(lái)越難的挑戰(zhàn)。
這些機(jī)器人采用的是強(qiáng)化學(xué)習(xí)算法,即在不同情況下,通過(guò)試錯(cuò)來(lái)訓(xùn)練人工智能,并采取不同行動(dòng)來(lái)實(shí)現(xiàn)目標(biāo)。游戲包括在虛擬桌面上移動(dòng)物體。例如,通過(guò)以特定的方式排列物體,愛(ài)麗絲試圖設(shè)置對(duì)鮑勃來(lái)說(shuō)很難解決的謎題,而鮑勃會(huì)試圖解決愛(ài)麗絲的謎題。隨著它們的學(xué)習(xí),愛(ài)麗絲會(huì)設(shè)置更復(fù)雜的謎題,而鮑勃也會(huì)越來(lái)越會(huì)解謎。
經(jīng)過(guò)愛(ài)麗絲設(shè)置的積木謎題的訓(xùn)練后,鮑勃便可以通用于一系列任務(wù),包括擺放桌子和排列象棋棋子。
通常在多重任務(wù)處理中,深度學(xué)習(xí)模型必須在任務(wù)間進(jìn)行再訓(xùn)練。例如,AlphaZero (一款棋類 AI,可以通過(guò)自我博弈來(lái)學(xué)習(xí))會(huì)使用單一算法教自己下國(guó)際象棋、將棋和圍棋但每次只能下一盤棋。例如,下國(guó)際象棋的時(shí) AlphaZero 不能下圍棋,下圍棋時(shí)的 AlphaZero 不能下將棋。因此,造出真正能同時(shí)處理多任務(wù)的機(jī)器,是走向更通用的人工智能道路上的一大未解難題。
訓(xùn)練 AI 同時(shí)執(zhí)行多重任務(wù)時(shí)會(huì)遇到一個(gè)問(wèn)題,即需要大量的例子。OpenAI 則通過(guò)訓(xùn)練愛(ài)麗絲為鮑勃生成例子,用一個(gè) AI 訓(xùn)練另一個(gè) AI 來(lái)避免這個(gè)問(wèn)題。經(jīng)過(guò)訓(xùn)練,愛(ài)麗絲學(xué)會(huì)了設(shè)定目標(biāo),比如建造一座積木塔,然后把它撿起來(lái)并加以平衡。鮑勃學(xué)會(huì)了利用虛擬環(huán)境的屬性,如通過(guò)摩擦力來(lái)抓取和旋轉(zhuǎn)物體。
截至目前,虛擬現(xiàn)實(shí)的訓(xùn)練只在虛擬環(huán)境中進(jìn)行,但 OpenAI 和其他機(jī)構(gòu)的研究人員正在將虛擬環(huán)境中訓(xùn)練的模型轉(zhuǎn)移到物理環(huán)境中,且越來(lái)越有起色。據(jù)悉,模擬環(huán)境可以讓 AI 在短時(shí)間內(nèi)處理大型數(shù)據(jù)集,然后研究人員會(huì)根據(jù)現(xiàn)實(shí)世界的環(huán)境再對(duì)其進(jìn)行微調(diào)。
該團(tuán)隊(duì)的研究人員表示,他們的最終目標(biāo)是訓(xùn)練這些機(jī)械臂去解決人類可能要求它做的任何任務(wù)。與 GPT-3 一樣(GPT-3 是一個(gè)能以各種不同方式使用語(yǔ)言的語(yǔ)言模型),這些機(jī)器人手臂是 OpenAI 打造多任務(wù)人工智能整體目標(biāo)的一部分,而使用一個(gè) AI 來(lái)訓(xùn)練另一個(gè) AI 也許是其中的關(guān)鍵所在。
責(zé)任編輯:YYX
-
AI
+關(guān)注
關(guān)注
87文章
30898瀏覽量
269130 -
機(jī)械臂
+關(guān)注
關(guān)注
12文章
515瀏覽量
24590 -
OpenAI
+關(guān)注
關(guān)注
9文章
1089瀏覽量
6527
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論