編者按:雖然神經(jīng)網(wǎng)絡(luò)模型近年來(lái)在機(jī)器學(xué)習(xí)問題上取得了令人印象深刻的成果,但無(wú)數(shù)實(shí)踐也證實(shí),這類模型很難進(jìn)行抽象概念推理。即便是聲稱擁有良好“泛化”能力的模型,究其本質(zhì),也只能解決某幾類問題。今天,DeepMind發(fā)布了一項(xiàng)新成果,用人類智商測(cè)試題檢驗(yàn)神經(jīng)網(wǎng)絡(luò)的抽象推理能力,雖然這些模型的準(zhǔn)確率都挺高,但它們卻也顯示了“泛化”這個(gè)詞的虛假性。
抽象推理——在介紹方法前,我們首先要理解這個(gè)概念,它可以參照古希臘學(xué)者阿基米德的著名事跡:Eureka。
一次,國(guó)王請(qǐng)阿基米德在不破壞王冠的前提下測(cè)量它是否摻假,這使他頭疼不已。洗澡時(shí),他發(fā)現(xiàn)當(dāng)自己坐進(jìn)浴盆里后,水會(huì)溢出來(lái),這使他想到:溢出來(lái)的水的體積正好應(yīng)該等于他身體的體積,這意味著,不規(guī)則物體的體積可以精確的被計(jì)算。如果工匠往王冠里摻了假,這個(gè)王冠的體積就和原材料的體積不一樣。想到這里,阿基米德快樂地裸奔進(jìn)了城里,并邊跑邊喊叫著“Eureka!尤里卡!”!
通過意識(shí)到溢出的水等于物體體積,阿基米德在概念層面理解了體積,并解決了不規(guī)則形狀物體的體積計(jì)算問題。這就是我們要探討的抽象推理。
我們希望人工智能也能有類似的能力,雖然目前一些系統(tǒng)已經(jīng)可以在復(fù)雜戰(zhàn)略游戲中擊敗世界冠軍,但它們?cè)谄渌此坪?jiǎn)單的問題上卻宛如“智障”,特別是需要在新環(huán)境中重新應(yīng)用抽象概念時(shí)。舉個(gè)例子,如果之前我們是用三角形訓(xùn)練AI系統(tǒng)的 ,那么即便訓(xùn)練到最佳狀態(tài),如果我們把三角形換成正方形、圓形,這個(gè)AI就什么都不會(huì)了。
因此,為了構(gòu)建更好、更智能的系統(tǒng),了解神經(jīng)網(wǎng)絡(luò)處理抽象概念的方式和弱點(diǎn)非常重要。我們從人類智商測(cè)試中汲取靈感,發(fā)現(xiàn)了一種量化抽象推理的方法。
創(chuàng)建抽象推理數(shù)據(jù)集
在介紹數(shù)據(jù)集前,讀者不妨先來(lái)測(cè)測(cè)自己的智商:
01
已知九宮格中的最后一幅圖缺失,請(qǐng)從下列8個(gè)選項(xiàng)中選出最合適的一個(gè),使之呈現(xiàn)一定的規(guī)律性。
點(diǎn)擊空白處查看答案
答:計(jì)數(shù)圓點(diǎn)數(shù)量:第一行2,3,4,第二行3,4,5,第三行2,3,?。由此規(guī)律可得,最后一幅圖應(yīng)該有4個(gè)圓點(diǎn),選擇A。
02
已知九宮格中的最后一幅圖缺失,請(qǐng)從下列8個(gè)選項(xiàng)中選出最合適的一個(gè),使之呈現(xiàn)一定的規(guī)律性。
點(diǎn)擊空白處查看答案
答:首先,縱向來(lái)看,每一列都包含1個(gè)三角形、5個(gè)三角形、7個(gè)三角形三種圖案,所以最后一幅圖應(yīng)該只有1個(gè)三角形,答案可能是A、C、D、E、H。其次,橫向來(lái)看,第一行三幅圖都有一條橫線、一條左上-右下的斜線,第二行都有一個(gè)正方形,以及一條右上-左下的斜線,而第三行兩幅圖的相同點(diǎn)是都有一條右上-左下的斜線。綜上,選擇A。
03
已知九宮格中的最后一幅圖缺失,請(qǐng)從下列8個(gè)選項(xiàng)中選出最合適的一個(gè),使之呈現(xiàn)一定的規(guī)律性。
點(diǎn)擊空白處查看答案
答:首先,和上一題的推理方法類似,縱向來(lái)看三列都是等差數(shù)列,最后一幅圖應(yīng)該包含5個(gè)圖形;橫向來(lái)看,最后一行都有一條左上-右下的斜線,答案可能是A、E、H。其次,我們看顏色,圖中有白、灰、黑三種填色,每列都包含這三種,所以最后一幅圖的圖形應(yīng)該是黑色的。綜上,選擇A。
如上所示,我們?cè)谶M(jìn)行標(biāo)準(zhǔn)智商測(cè)試時(shí),即便只是看幾個(gè)簡(jiǎn)單圖形回答問題,我們也要結(jié)合日常學(xué)習(xí)到的經(jīng)驗(yàn)。比方說,看著不斷長(zhǎng)高的樹木或是拔地而起的高樓,我們可以理解什么是“演變”(progressions);通過不斷積累數(shù)學(xué)知識(shí),我們可以理解什么是“演變”;通過查看自己銀行賬戶上的定期利息,我們也能感受到“演變”(表示屬性增加的概念)。有了這個(gè)基礎(chǔ),我們就能在解答上述問題時(shí)應(yīng)用這一概念,推斷圖形數(shù)量、大小、顏色的順序性演變。
但我們的機(jī)器學(xué)習(xí)系統(tǒng)還沒有類似的“日常體驗(yàn)”,這也意味著我們沒法輕易衡量它是怎么把現(xiàn)實(shí)世界知識(shí)用于解決抽象問題的。盡管如此,有了這些智商測(cè)試題,我們也能創(chuàng)建一個(gè)實(shí)驗(yàn)設(shè)置,來(lái)測(cè)一測(cè)現(xiàn)有模型的“智商”。需要注意的是,由于日常生活太復(fù)雜,這里我們用的是圖形推理問題,考驗(yàn)的是模型如何用抽象推理把這題的解題思路推廣到下一題。
既然目的是讓AI做題,我們先得有題?。‘?dāng)然了,手動(dòng)搜集整理是不可能的,為了創(chuàng)建題庫(kù),首先我們構(gòu)建了一個(gè)可以自動(dòng)生成推理題的生成器,它包含一組抽象元素,包括它們的顏色、大小等屬性的“演變”。雖然元素不多,但它們足以生成大量互不相同的問題。
接著,我們對(duì)生成器可用的元素和組合進(jìn)行了約束,得到了包含不同問題的訓(xùn)練集和測(cè)試集,換言之,就像練習(xí)冊(cè)和考卷,即便我們刷遍了練習(xí)冊(cè)上的題,但老師在考卷上出的題總是新的。舉個(gè)例子,在訓(xùn)練集中,有一種演變關(guān)系只會(huì)在線上出現(xiàn),但在測(cè)試集上,這種演變卻也出現(xiàn)在圖形上,如果模型真的掌握了這種規(guī)律,無(wú)論是線條還是圖形還是其他沒見過的東西,它應(yīng)該都能活學(xué)活用。
AI能進(jìn)行抽象推理的證據(jù)
在實(shí)驗(yàn)中,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)是從同一基礎(chǔ)分布中采樣的,即“考試”時(shí)都是常規(guī)題,難度沒有提高,也沒有特別的“加分題”。我們測(cè)試的神經(jīng)網(wǎng)絡(luò)都表現(xiàn)出了很好的泛化誤差,一些模型的準(zhǔn)確率甚至超過75%,令人驚訝。如下圖所示,我們構(gòu)建了一個(gè)可以明確計(jì)算不同圖像元素間的關(guān)系,并在這基礎(chǔ)上評(píng)估答案的模型WReN(Wild Relation Network),它的性能是最好的。
Val為訓(xùn)練集,Test為測(cè)試集,β非零時(shí)表示使用了meta-target訓(xùn)練,即針對(duì)各元素進(jìn)行過訓(xùn)練,這時(shí)模型不僅可以回答答案“是什么”,還能回答“為什么”
但這個(gè)實(shí)驗(yàn)也體現(xiàn)了幾個(gè)問題。對(duì)于訓(xùn)練集和測(cè)試集中都包含的相同的幾何演變,比如線條上的邏輯演變,神經(jīng)網(wǎng)絡(luò)學(xué)得很好,無(wú)論線條怎么變,只要還是線條,它都能學(xué)以致用。但是如果涉及把線條的規(guī)律推廣到其他圖形上,神經(jīng)網(wǎng)絡(luò)就表現(xiàn)得很差了,這也是測(cè)試集得分比較低的主因。尤其是當(dāng)模型在訓(xùn)練集中學(xué)到的是深色圖形演變,而我們?cè)跍y(cè)試集上把深色改成了淺色,它們的性能會(huì)更差。
最后,當(dāng)我們的模型不僅能預(yù)測(cè)正確答案,還能預(yù)測(cè)答案的“推理過程”時(shí),我們發(fā)現(xiàn)它在訓(xùn)練集、測(cè)試集上的得分更接近了,也就是泛化性能更好了。更有趣的是,我們發(fā)現(xiàn),如果模型能理解圖中各元素背后的正確關(guān)系,那它預(yù)測(cè)的準(zhǔn)確率就高,反之,準(zhǔn)確率就低,里面存在一個(gè)正相關(guān)。這表明,當(dāng)模型能正確推斷出任務(wù)背后的抽象概念時(shí),它們可以獲得更好的性能。
注:為防止讀者誤解,這里的“預(yù)測(cè)推理過程”“了解背后元素關(guān)系”只是口語(yǔ)性表述,AI并不能像我們一樣一步步推理,它的“理解”也不等同于人類的理解,它只是知道,這些元素和答案有關(guān)聯(lián)。
上:有些問題只包含單獨(dú)元素,但有些問題包含多種元素關(guān)系;下:WReN模型答案預(yù)測(cè)準(zhǔn)確率和抽象概念預(yù)測(cè)準(zhǔn)確率的關(guān)系
關(guān)于“泛化”的新認(rèn)知
最近許多論文在集中探討神經(jīng)網(wǎng)絡(luò)對(duì)于解決機(jī)器學(xué)習(xí)問題的優(yōu)缺點(diǎn),而大家爭(zhēng)論的矛頭通常是網(wǎng)絡(luò)的泛化能力。根據(jù)我們的研究結(jié)果,現(xiàn)階段關(guān)于泛化能力的討論似乎都是無(wú)益的:經(jīng)測(cè)試,這些神經(jīng)網(wǎng)絡(luò)在一些地方展現(xiàn)出了很好的泛化性,但在另一些地方卻表現(xiàn)很差。這種泛化性取決于一系列因素:
模型的架構(gòu);
模型有沒有經(jīng)過針對(duì)性訓(xùn)練;
模型能否為其“答案”提供可解釋的“理由”;
起碼到目前為止,只要神經(jīng)網(wǎng)絡(luò)模型遇到的是完全不熟悉的輸入,或是完全不熟悉的元素,它的表現(xiàn)都難以令人滿意。這一點(diǎn)是非常關(guān)鍵、非常重要的,AI的抽象推理能力還有待提高,這也是未來(lái)工作中必須重視一個(gè)明確焦點(diǎn)。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4798瀏覽量
102486 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8482瀏覽量
133929 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1222瀏覽量
25232
原文標(biāo)題:DeepMind新成果:讓AI做人類智商測(cè)試題,抽象推理能力堪憂!
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
高速PCB設(shè)計(jì)的綜合測(cè)試題
應(yīng)用人工神經(jīng)網(wǎng)絡(luò)模擬污水生物處理
華為3Com認(rèn)證網(wǎng)絡(luò)工程師(HCNE)測(cè)試題
AI知識(shí)科普 | 從無(wú)人相信到萬(wàn)人追捧的神經(jīng)網(wǎng)絡(luò)
針對(duì)Arm嵌入式設(shè)備優(yōu)化的神經(jīng)網(wǎng)絡(luò)推理引擎
如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?
基于BP神經(jīng)網(wǎng)絡(luò)的PID控制
卷積神經(jīng)網(wǎng)絡(luò)一維卷積的處理過程
圖像預(yù)處理和改進(jìn)神經(jīng)網(wǎng)絡(luò)推理的簡(jiǎn)要介紹
ARM Cortex-M系列芯片神經(jīng)網(wǎng)絡(luò)推理庫(kù)CMSIS-NN詳解
揭秘人工智能神經(jīng)網(wǎng)絡(luò)為何無(wú)法實(shí)現(xiàn)人類的推理或產(chǎn)生意識(shí)
測(cè)量神經(jīng)網(wǎng)絡(luò)的抽象推理能力

DeepMind提出了一種讓神經(jīng)網(wǎng)絡(luò)進(jìn)行抽象推理的新方法

評(píng)論