人工智能快速發(fā)展,在許多領(lǐng)域取得重大影響,使得不少人擔(dān)心可能會(huì)出現(xiàn)超級(jí)智能。DeepMind的聯(lián)合創(chuàng)始人Demis Hassabis和加拿大多倫多大學(xué)教授Geoffrey Hinton兩位國(guó)際泰斗在談到強(qiáng)人工智能(AGI)時(shí)表示,強(qiáng)人工智能還有很長(zhǎng)的路要走,目前談之為時(shí)尚早。
預(yù)測(cè)音樂(lè)品味、檢測(cè)轉(zhuǎn)移性腫瘤、生成腦癌的合成掃描、根據(jù)真實(shí)世界的視頻創(chuàng)建虛擬環(huán)境、識(shí)別被販賣(mài)的受害者、擊敗國(guó)際象棋大師和專家級(jí)的Dota 2電子競(jìng)技隊(duì)、取代司機(jī)成為出租車(chē)駕駛員,以上這些只是2018年人工智能(AI)系統(tǒng)取得的一些成功案例,也是該領(lǐng)域迅速發(fā)展的證據(jù)。據(jù)麥肯錫全球研究院的分析師預(yù)測(cè):按照目前的發(fā)展速度,僅在美國(guó),人工智能將在未來(lái)12年內(nèi)幫助增加20%到25%的凈經(jīng)濟(jì)效益(放在全球范圍內(nèi),相當(dāng)于13萬(wàn)億美元)。
最令人印象深刻的一部分工作來(lái)自于對(duì)深度神經(jīng)網(wǎng)絡(luò)(DNN)的研究,這是一種基于數(shù)據(jù)表示的機(jī)器學(xué)習(xí)架構(gòu)。它們是對(duì)大腦的松散建模:DNN包含一些由突觸連接到一起的人工神經(jīng)元(即數(shù)學(xué)函數(shù)),其中突觸負(fù)責(zé)神經(jīng)元之間的信號(hào)傳輸。這些神經(jīng)元以層的形式排列,信號(hào)(饋送到DNN中的數(shù)據(jù)或輸入)在層與層之間傳輸,可以通過(guò)調(diào)整每個(gè)神經(jīng)連接的突觸強(qiáng)度(權(quán)重)來(lái)緩慢地“調(diào)整”DNN。隨著時(shí)間的推移,經(jīng)過(guò)數(shù)百次甚至數(shù)百萬(wàn)次循環(huán)后,神經(jīng)網(wǎng)絡(luò)可以從數(shù)據(jù)集中提取出特征并找到樣本的變化趨勢(shì),最終學(xué)會(huì)做出新的預(yù)測(cè)。
僅僅在三十年前,David Rumelhart、Geoffrey Hinton和Ronald Williams在一篇經(jīng)典論文(“反向傳播錯(cuò)誤的學(xué)習(xí)表征”:Learning Representations by Back-propagatingErrors)中詳細(xì)介紹了一種基本的權(quán)重計(jì)算技術(shù)——反向傳播。在越來(lái)越便宜,越來(lái)越強(qiáng)大的計(jì)算機(jī)硬件的幫助下,反向傳播已經(jīng)在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、機(jī)器翻譯、藥物設(shè)計(jì)和材料檢查等方面取得了巨大飛躍,其中一些DNN給出的結(jié)果優(yōu)于人類(lèi)專家。
那么DNN會(huì)導(dǎo)致超級(jí)智能機(jī)器人的出現(xiàn)嗎?DeepMind的聯(lián)合創(chuàng)始人Demis Hassabis不相信——如果答案是肯定的,他會(huì)知道的。DeepMind是一家總部位于倫敦的機(jī)器學(xué)習(xí)創(chuàng)業(yè)公司,其使命是將神經(jīng)科學(xué)和計(jì)算機(jī)科學(xué)的知識(shí)應(yīng)用于創(chuàng)建強(qiáng)人工智能——換句話說(shuō),就是使機(jī)器系統(tǒng)可以成功執(zhí)行人類(lèi)能夠勝任的任何智能任務(wù)。
在2018年12月初于蒙特利爾舉行的NeurIPS 2018年會(huì)議上,Demis Hassabis表示:“還有很長(zhǎng)的路要走。從某些角度來(lái)講,游戲或棋盤(pán)游戲是非常簡(jiǎn)單的,因?yàn)椴煌瑺顟B(tài)之間的過(guò)渡模式非常明確且易于學(xué)習(xí)。要弄清楚現(xiàn)實(shí)世界的3D環(huán)境和現(xiàn)實(shí)世界本身則要復(fù)雜得多,但如果你要制定某項(xiàng)計(jì)劃,這是很重要的?!?/p>
Hassabis是國(guó)際象棋神童和劍橋大學(xué)畢業(yè)生,在其職業(yè)生涯早期擔(dān)任了電子游戲《主題公園》和《黑與白》的首席程序員——在倫敦大學(xué)學(xué)院、麻省理工學(xué)院和哈佛大學(xué)學(xué)習(xí)過(guò)神經(jīng)科學(xué),并對(duì)自傳記憶和情景記憶系統(tǒng)進(jìn)行了協(xié)作研究。他在2010年與人聯(lián)合創(chuàng)立了DeepMind,僅僅三年后就推出了一個(gè)開(kāi)創(chuàng)性的人工智能系統(tǒng)。該系統(tǒng)僅使用原始像素作為輸入,能夠快速通關(guān)Atari游戲。
自從谷歌以4億英鎊收購(gòu)DeepMind以來(lái),該機(jī)構(gòu)和其醫(yī)學(xué)研究部門(mén)DeepMind Health已經(jīng)因?yàn)锳lphaGo和與倫敦大學(xué)學(xué)院醫(yī)院的合作而長(zhǎng)期占據(jù)新聞?lì)^條。AlphaGo是一個(gè)人工智能系統(tǒng),曾在中國(guó)圍棋游戲中擊敗世界冠軍Lee Sedol,而倫敦大學(xué)學(xué)院醫(yī)院制作的模型在CT掃描分割上表現(xiàn)出“接近人的表現(xiàn)”。最近,DeepMind的研究人員推出了蛋白質(zhì)折疊算法——AlphaFold。由于成功地從43種蛋白質(zhì)中找到了其中25種蛋白質(zhì)的最準(zhǔn)確結(jié)構(gòu),該算法在第13次蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)技術(shù)評(píng)估(CASP)中獲得一等獎(jiǎng)。2018年12月,DeepMind在《科學(xué)》雜志上發(fā)表了一篇論文,介紹了作為AlphaGo精神延續(xù)的AlphaZero系統(tǒng)。它可以玩三種不同的游戲——國(guó)際象棋、一種被稱為shogi的日本象棋,以及圍棋—其表現(xiàn)好到足以擊敗著名的人類(lèi)玩家。
盡管DeepMind取得了令人矚目的成就,但Hassabis警告說(shuō),他們并不認(rèn)為強(qiáng)人工智能即將來(lái)臨——遠(yuǎn)非如此。他說(shuō),人們是利用內(nèi)在認(rèn)識(shí)來(lái)對(duì)世界進(jìn)行預(yù)測(cè)和規(guī)劃的,這種方式與今天的人工智能系統(tǒng)不同。與圍棋、國(guó)際象棋和shogi棋的新手相比,AlphaGo和AlphaZero在信息方面處于劣勢(shì)。Hassabis說(shuō):“這些AI系統(tǒng)首先要學(xué)習(xí)觀察,然后才能學(xué)會(huì)玩游戲。與算法相比,人類(lèi)玩家可以更快地學(xué)習(xí),可以快速地將根據(jù)像素得出主題,以確定是他們需要逃離目標(biāo)還是靠近它。”
為了讓AlphaZero這樣的模型打敗人類(lèi),需要對(duì)它進(jìn)行70萬(wàn)個(gè)步驟的訓(xùn)練—每個(gè)步驟代表4096個(gè)棋盤(pán)位置—所使用的系統(tǒng)配備了數(shù)千個(gè)由谷歌設(shè)計(jì)的應(yīng)用程序?qū)S?a target="_blank">芯片,這些芯片針對(duì)機(jī)器學(xué)習(xí)進(jìn)行了優(yōu)化。這大約相當(dāng)于針對(duì)國(guó)際象棋進(jìn)行9小時(shí)的訓(xùn)練,針對(duì)shogi棋進(jìn)行12小時(shí)的訓(xùn)練,針對(duì)圍棋進(jìn)行13天的訓(xùn)練。
DeepMind并不是唯一一個(gè)致力于解決當(dāng)前人工智能設(shè)計(jì)局限性的公司。在今年早些時(shí)候的一篇博文中,一個(gè)總部位于舊金山的非盈利性人工智能研究公司OpenAI宣布他們已經(jīng)開(kāi)發(fā)出了OpenAI 5。在今年夏天的一次Dota 2游戲中,該軟件成功擊敗了一個(gè)包含四名專業(yè)游戲玩家的五人游戲小組。OpenAI得到了Elon Musk、Reid Hoffman和Peter Thiel及其他一些科技界杰出人士的支持。該組織表示,借助運(yùn)行于谷歌云平臺(tái)的256個(gè)Nvidia Tesla P100顯卡和12.8萬(wàn)個(gè)處理器核心,該系統(tǒng)每天可以玩相當(dāng)于180年的游戲(80%的游戲與自己對(duì)抗,20%對(duì)抗舊算法)。但即使在完成所有訓(xùn)練之后,它仍然難以將獲得的技能應(yīng)用于特定游戲之外的任務(wù)。
Hassabis說(shuō):“我們沒(méi)有能夠?qū)⒅R(shí)從一個(gè)領(lǐng)域轉(zhuǎn)移到下一個(gè)領(lǐng)域的有效系統(tǒng)。我認(rèn)為我們需要一些新的概念或提取方法來(lái)做到這一點(diǎn)。針對(duì)游戲建立模型相對(duì)容易,因?yàn)閺囊粋€(gè)步驟到另一個(gè)步驟很容易,但我們希望創(chuàng)造具有模型生成功能的系統(tǒng),這將使得在這些環(huán)境中做規(guī)劃變得更容易?!?/p>
當(dāng)前的大多數(shù)人工智能系統(tǒng)也沒(méi)有很好的擴(kuò)展性。Alphazero、Alphago和OpenAI 5利用了一種被稱為強(qiáng)化學(xué)習(xí)的編程方式。在這種方式中,由人工智能控制的軟件代理能夠?qū)W會(huì)在某個(gè)環(huán)境中采取行動(dòng),例如棋盤(pán)游戲或多人在線對(duì)戰(zhàn)游戲(MOBA),以獲得最大獎(jiǎng)勵(lì)。
Hinton在接受采訪時(shí)說(shuō):“想象一個(gè)Skinner盒子系統(tǒng)是很有幫助的。”Skinner盒子的名字來(lái)源于哈佛大學(xué)的先驅(qū)心理學(xué)家B.F. Skinner。他利用操作性條件作用來(lái)訓(xùn)練受試動(dòng)物,使其執(zhí)行某種動(dòng)作,如按下杠桿,以響應(yīng)光或聲音等刺激。如果受試者正確完成任務(wù),它們會(huì)得到某種形式的獎(jiǎng)勵(lì),通常是以食物或水的形式。
在人工智能的研究中,強(qiáng)化學(xué)習(xí)方法的問(wèn)題在于獎(jiǎng)勵(lì)信號(hào)往往是“懦弱的”,Hinton說(shuō)。在某些環(huán)境中,在從隨機(jī)數(shù)據(jù)中尋找模式時(shí),代理可能會(huì)卡住——即出現(xiàn)所謂的“電視噪音問(wèn)題”。
Hinton表示:“每隔一段時(shí)間你就會(huì)得到一個(gè)標(biāo)量信號(hào),告訴你你做得很好。但信號(hào)的頻率不高,信息量也不大,而你需要做的是在這個(gè)非常懦弱的信號(hào)的基礎(chǔ)上,用數(shù)百萬(wàn)個(gè)參數(shù)或數(shù)萬(wàn)億個(gè)參數(shù)訓(xùn)練系統(tǒng)。你能做的是使用大量的計(jì)算——許多令人印象深刻的演示都依賴于大量的計(jì)算。這是一個(gè)方向,但它并不真正吸引我。我認(rèn)為研究人員需要的是更好的見(jiàn)解?!?/p>
與Hassabis一樣,Hinton在過(guò)去30年里一直在應(yīng)對(duì)人工智能的一些最大挑戰(zhàn),現(xiàn)在他正在與谷歌的谷歌大腦深度學(xué)習(xí)研究團(tuán)隊(duì)和多倫多大學(xué)進(jìn)行合作,而他很清楚自己工作的意義—有人把他稱為“深度學(xué)習(xí)之父”。除了DNN中的開(kāi)創(chuàng)性工作之外,Hinton還在機(jī)器學(xué)習(xí)、感知、記憶和符號(hào)處理等方面撰寫(xiě)或合作撰寫(xiě)了200多篇同行評(píng)審的文章。最近他正在將注意力轉(zhuǎn)向膠囊神經(jīng)學(xué)(capsule neural networks)。這是一種機(jī)器學(xué)習(xí)系統(tǒng),其結(jié)構(gòu)能夠幫助構(gòu)建更穩(wěn)定的表示方式。他說(shuō),數(shù)十年來(lái)的集體研究讓他相信,解決強(qiáng)化學(xué)習(xí)的可伸縮性問(wèn)題的方法是利用層次結(jié)構(gòu)加強(qiáng)信號(hào)。
“假設(shè)你有一個(gè)很大的組織,強(qiáng)化信號(hào)最先到達(dá),而首席執(zhí)行官被告知公司今年獲得了大量利潤(rùn)——這就是對(duì)他的強(qiáng)化信號(hào),”Hinton解釋道:“我們假設(shè)它每隔15分鐘出現(xiàn)一次。沒(méi)有太多的信號(hào)來(lái)培養(yǎng)一大堆人來(lái)完成幾項(xiàng)任務(wù),但如果首席執(zhí)行官手下有一些副總裁,并給每位副總裁制定了一個(gè)目標(biāo),以獲得最大獎(jiǎng)勵(lì),這會(huì)帶來(lái)更多的利潤(rùn),而他將得到回報(bào)?!?/p>
在這種安排中,即使獎(jiǎng)勵(lì)沒(méi)有兌現(xiàn)——也許是因?yàn)?a href="http://www.wenjunhu.com/analog/" target="_blank">模擬的首席執(zhí)行官給副總裁制定了一個(gè)錯(cuò)誤的目標(biāo)——這個(gè)周期也會(huì)繼續(xù),Hinton表示。副總裁總是能夠?qū)W到一些東西,這些東西最終可能在未來(lái)變得有用?!巴ㄟ^(guò)制造子目標(biāo),并分派人來(lái)實(shí)現(xiàn)這些子目標(biāo),你就可以通過(guò)創(chuàng)造更的多懦弱信號(hào)來(lái)放大這些懦弱信號(hào),”他補(bǔ)充說(shuō)。
這是一個(gè)復(fù)雜的思維實(shí)驗(yàn)。這些副總裁需要一個(gè)溝通目標(biāo)、子目標(biāo)和相關(guān)獎(jiǎng)勵(lì)條件的渠道,即中低層經(jīng)理。系統(tǒng)中的每個(gè)“員工”都需要能夠決定他們是否做了正確的事情,這樣他們就會(huì)知道為什么要獎(jiǎng)勵(lì)他們。所以他們需要一個(gè)語(yǔ)言系統(tǒng)。
“問(wèn)題在于創(chuàng)造一個(gè)系統(tǒng),允許某些模塊為其他模塊創(chuàng)建子目標(biāo),”Hinton說(shuō):“你可以想象一個(gè)擁有一只有牧羊犬的牧羊人。他們需要?jiǎng)?chuàng)造一種不依賴于英語(yǔ)的語(yǔ)言,使得訓(xùn)練有素的牧羊犬和牧羊人可以很好地交流。但想象一下,如果牧羊犬有自己的隨從犬會(huì)出現(xiàn)什么情況。它必須從這些手勢(shì)和其他信息中獲取來(lái)自牧羊人的命令,并需要?jiǎng)?chuàng)造與其他牧羊犬交談的方式。”
幸運(yùn)的是,最近一個(gè)名為“變形金剛”的AI可能朝著正確的方向邁出了一步。谷歌的研究人員推出了一種新型的神經(jīng)結(jié)(即上述的變形金剛),能夠在語(yǔ)言翻譯任務(wù)中超越最先進(jìn)的模型,同時(shí)只需要較少的計(jì)算來(lái)完成訓(xùn)練?!?/p>
基于其在變形金剛中的工作,谷歌于2018年11月開(kāi)源了基于變形金剛的雙向編碼器表示(Bidirectional Encoder Representations fromTransformers),即BERT。通過(guò)預(yù)先訓(xùn)練,BERT可以根據(jù)任意語(yǔ)料庫(kù)生成的任務(wù)來(lái)學(xué)習(xí)構(gòu)建句子之間的關(guān)系,并使開(kāi)發(fā)人員能夠基于一個(gè)云TPU(張量處理單元,谷歌的云托管加速器硬件)在30分鐘內(nèi)訓(xùn)練出一個(gè)最先進(jìn)的NLP模型,或使用單個(gè)圖形處理單元耗費(fèi)幾個(gè)小時(shí)來(lái)完成。
“變形金剛是擁有路由功能的神經(jīng)網(wǎng)絡(luò),”Hinton解釋道:“目前在神經(jīng)網(wǎng)絡(luò)中,活動(dòng)變化很快,但權(quán)重變化緩慢,這就是現(xiàn)狀。生物學(xué)告訴你,你想要做的是擁有快速變化的活動(dòng),然后你想在許多不同的時(shí)間尺度上修改突觸,這樣你就可以記住最近發(fā)生的事情,而且很容易回憶。使用變形金剛,一群神經(jīng)元會(huì)創(chuàng)造出一些信息,而且它不僅僅將這些信息發(fā)送給它所連接的每個(gè)神經(jīng)元——它會(huì)試圖把它們發(fā)送給那些知道如何處理的神經(jīng)元,而不會(huì)發(fā)送給那些不知道如何處理的神經(jīng)元?!?/p>
這不是個(gè)新的主意。Hinton指出,在20世紀(jì)70年代,神經(jīng)網(wǎng)絡(luò)的大部分工作都聚焦于記憶,其目標(biāo)是通過(guò)修改權(quán)重來(lái)存儲(chǔ)信息,以便重新創(chuàng)建信息,而不是簡(jiǎn)單地從某種形式的存儲(chǔ)中提取信息。他說(shuō):“實(shí)際上,你不會(huì)像在文件柜里保存文件那樣把這些信息存儲(chǔ)起來(lái)——你會(huì)修改參數(shù),導(dǎo)致如果我給你一點(diǎn)東西,你就可以把其余的內(nèi)容填充起來(lái),就像利用一些碎片制作恐龍一樣。我要說(shuō)的是,我們應(yīng)該把這個(gè)想法用于短期記憶,而不僅僅是長(zhǎng)期記憶,它將解決各種各樣的問(wèn)題?!?/p>
-
人工智能
+關(guān)注
關(guān)注
1793文章
47535瀏覽量
239331 -
dnn
+關(guān)注
關(guān)注
0文章
60瀏覽量
9068
原文標(biāo)題:國(guó)際泰斗:現(xiàn)在談強(qiáng)人工智能為時(shí)尚早
文章出處:【微信號(hào):AI_News,微信公眾號(hào):人工智能快報(bào)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論