編者按:數(shù)據(jù)科學(xué)家Shayaan Jagtap以馬里奧和精靈寶可夢(mèng)為例,解釋了當(dāng)前的AI還不擅長(zhǎng)處理哪些種類的問(wèn)題。
你大概早就聽(tīng)說(shuō)機(jī)器能以超人的水平玩游戲。這些機(jī)器可能經(jīng)過(guò)明確編程,對(duì)設(shè)定的輸入作出反應(yīng),給出設(shè)定的輸出,也可能自行學(xué)習(xí)演化,以不同的方式對(duì)相同的輸入作出反應(yīng),希望找到最優(yōu)的反應(yīng)。
一些著名的例子:
AlphaZero,24小時(shí)訓(xùn)練之后,成為地球上最強(qiáng)大的國(guó)際象棋選手。
AlphaGo,著名的圍棋機(jī)器人,擊敗了世界級(jí)棋手李世乭和柯潔。
MarI/O,可自行學(xué)習(xí)以任意等級(jí)進(jìn)行游戲的超級(jí)馬里奧機(jī)器人。
這些游戲很復(fù)雜,訓(xùn)練上面的機(jī)器需要精心組合復(fù)雜的算法,反復(fù)模擬,大量時(shí)間。本文將重點(diǎn)討論MarI/O,以及為何我們無(wú)法使用相似的方法通關(guān)精靈寶可夢(mèng)游戲。
在這方面,馬里奧和精靈寶可夢(mèng)有三個(gè)關(guān)鍵不同:
目標(biāo)數(shù)量
分支因子
全局優(yōu)化與局部?jī)?yōu)化
目標(biāo)數(shù)量
機(jī)器學(xué)習(xí)的方式是優(yōu)化某種目標(biāo)函數(shù)。不管它是最大化獎(jiǎng)勵(lì)函數(shù)(強(qiáng)化學(xué)習(xí))、適應(yīng)度函數(shù)(遺傳算法),還是最小化代價(jià)函數(shù)(監(jiān)督學(xué)習(xí)),目標(biāo)都是類似的:取得盡可能好的分?jǐn)?shù)。
馬里奧只有一個(gè)目標(biāo):到達(dá)本級(jí)別的終點(diǎn)。簡(jiǎn)單來(lái)說(shuō),在死亡之前,到達(dá)的地方越靠右,表現(xiàn)就越好。這是一個(gè)單一的目標(biāo)函數(shù),模型的能力可以由這一個(gè)數(shù)字直接衡量。
精靈寶可夢(mèng)的目標(biāo)……有很多。擊敗精英4級(jí)?捕獲所有寶可夢(mèng)?訓(xùn)練最強(qiáng)團(tuán)隊(duì)?上面所有這些?還是其他完全不同的目標(biāo)?
我們不僅需要定義什么是最終目標(biāo),還要定義進(jìn)展看起來(lái)是什么樣的?這樣,任意時(shí)刻,大量可能選擇之中的每種行動(dòng)才能和獎(jiǎng)勵(lì)或損失對(duì)應(yīng)起來(lái)。
這引出了下一項(xiàng)主題。
分支因子
簡(jiǎn)單說(shuō),分支因子是任意一步可以做出的可能選擇數(shù)量。國(guó)際象棋的分支因子平均是35,圍棋是250. 額外考慮的未來(lái)每一步,都有(分支因子)步數(shù)項(xiàng)選擇需要評(píng)估。
馬里奧中,要么向左,要么向右,要么起跳,要么什么也不做。機(jī)器需要評(píng)估的選擇數(shù)很小。同時(shí),從算力上說(shuō),分支因子越小,機(jī)器人可以預(yù)計(jì)的步數(shù)就越多。
精靈寶可夢(mèng)則是一個(gè)開(kāi)放世界游戲,這意味著,任意給定時(shí)刻都有大量選擇。簡(jiǎn)單的向上、向下、向左、向右無(wú)法有效計(jì)算分支因子數(shù)量。相反,我們需要查看下一個(gè)有意義的行動(dòng)。下一個(gè)行動(dòng)是進(jìn)入戰(zhàn)斗,和NPC交談,還是進(jìn)入左/右/上/下方的小地圖?隨著游戲的進(jìn)行,可能的選擇范圍越來(lái)越大。
創(chuàng)建一個(gè)可以找到最佳選擇組合的機(jī)器,需要考慮短期和長(zhǎng)期目標(biāo),這引出了最后一項(xiàng)主題。
全局優(yōu)化與局部?jī)?yōu)化
局部?jī)?yōu)化與全局優(yōu)化既包括空間層面,也包括時(shí)間層面。短期目標(biāo)和周圍地理區(qū)域?qū)儆诰植?,長(zhǎng)期目標(biāo)和城市、全地圖這樣較大的區(qū)域?qū)儆谌帧?/p>
拆分每一步可以是一種分解精靈寶可夢(mèng)問(wèn)題的方式。如何從A點(diǎn)到B點(diǎn)的局部?jī)?yōu)化是容易的,但決定哪個(gè)目的地是最優(yōu)的B點(diǎn)則是一個(gè)困難得多的問(wèn)題。貪心算法在這里無(wú)法奏效,因?yàn)榫植孔顑?yōu)的決策不一定導(dǎo)向全局最優(yōu)。
馬里奧地圖很小,而且是線性的。而精靈寶可夢(mèng)卻有著錯(cuò)綜復(fù)雜的非線性大地圖。為了達(dá)到高階目標(biāo),當(dāng)前優(yōu)先級(jí)會(huì)隨著時(shí)間而改變,將全局目標(biāo)轉(zhuǎn)換為優(yōu)先局部?jī)?yōu)化問(wèn)題不是一項(xiàng)容易的任務(wù)。這不是我們當(dāng)前的模型具有足夠能力可以處理的事情。
最后一點(diǎn)
從機(jī)器人的角度來(lái)說(shuō),精靈寶可夢(mèng)不是一個(gè)游戲。機(jī)器人都是專門(mén)的,當(dāng)你遭遇要戰(zhàn)斗的NPC時(shí),幫助你在地圖上移動(dòng)的機(jī)器人對(duì)此束手無(wú)策——這是兩個(gè)完全不同的任務(wù)。
在戰(zhàn)斗階段,每個(gè)回合有許多選項(xiàng)。選擇如何移動(dòng),切換到哪個(gè)寶可夢(mèng),何時(shí)使用不同的物品,本身就是一個(gè)復(fù)雜的優(yōu)化問(wèn)題。我看到過(guò)一篇介紹如何創(chuàng)建戰(zhàn)斗模擬器的文章,考慮得很周到,在沒(méi)有考慮物品使用這一決定戰(zhàn)斗結(jié)果的關(guān)鍵因素的前提下,復(fù)雜度已經(jīng)高得驚人了。
目前,我們能夠創(chuàng)造出能夠在我們自己的游戲中戰(zhàn)勝我們的機(jī)器人,我們?cè)摓榇烁械礁吲d。這些游戲在數(shù)學(xué)上很復(fù)雜,但在目標(biāo)上很簡(jiǎn)單。隨著AI技術(shù)的進(jìn)展,我們將創(chuàng)造能夠解決有越來(lái)越大影響力的真實(shí)世界問(wèn)題的機(jī)器人,這些機(jī)器人將通過(guò)自行學(xué)習(xí)復(fù)雜優(yōu)化問(wèn)題來(lái)解決真實(shí)世界問(wèn)題??梢苑判牡氖?,還是有很多事情我們要比機(jī)器更擅長(zhǎng),其中包括我們童年時(shí)玩的游戲——至少到目前為止是這樣。感謝閱讀!
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28580瀏覽量
207806 -
AI
+關(guān)注
關(guān)注
87文章
31336瀏覽量
269733 -
函數(shù)
+關(guān)注
關(guān)注
3文章
4344瀏覽量
62835
原文標(biāo)題:為什么AI可以通關(guān)馬里奧,卻玩不好精靈寶可夢(mèng)?
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論