0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用人類智商測(cè)試題檢驗(yàn)神經(jīng)網(wǎng)絡(luò)的抽象推理能力

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-07-14 08:52 ? 次閱讀

編者按:雖然神經(jīng)網(wǎng)絡(luò)模型近年來(lái)在機(jī)器學(xué)習(xí)問題上取得了令人印象深刻的成果,但無(wú)數(shù)實(shí)踐也證實(shí),這類模型很難進(jìn)行抽象概念推理。即便是聲稱擁有良好“泛化”能力的模型,究其本質(zhì),也只能解決某幾類問題。今天,DeepMind發(fā)布了一項(xiàng)新成果,用人類智商測(cè)試題檢驗(yàn)神經(jīng)網(wǎng)絡(luò)的抽象推理能力,雖然這些模型的準(zhǔn)確率都挺高,但它們卻也顯示了“泛化”這個(gè)詞的虛假性。

抽象推理——在介紹方法前,我們首先要理解這個(gè)概念,它可以參照古希臘學(xué)者阿基米德的著名事跡:Eureka。

一次,國(guó)王請(qǐng)阿基米德在不破壞王冠的前提下測(cè)量它是否摻假,這使他頭疼不已。洗澡時(shí),他發(fā)現(xiàn)當(dāng)自己坐進(jìn)浴盆里后,水會(huì)溢出來(lái),這使他想到:溢出來(lái)的水的體積正好應(yīng)該等于他身體的體積,這意味著,不規(guī)則物體的體積可以精確的被計(jì)算。如果工匠往王冠里摻了假,這個(gè)王冠的體積就和原材料的體積不一樣。想到這里,阿基米德快樂地裸奔進(jìn)了城里,并邊跑邊喊叫著“Eureka!尤里卡!”!

通過意識(shí)到溢出的水等于物體體積,阿基米德在概念層面理解了體積,并解決了不規(guī)則形狀物體的體積計(jì)算問題。這就是我們要探討的抽象推理。

我們希望人工智能也能有類似的能力,雖然目前一些系統(tǒng)已經(jīng)可以在復(fù)雜戰(zhàn)略游戲中擊敗世界冠軍,但它們?cè)谄渌此坪?jiǎn)單的問題上卻宛如“智障”,特別是需要在新環(huán)境中重新應(yīng)用抽象概念時(shí)。舉個(gè)例子,如果之前我們是用三角形訓(xùn)練AI系統(tǒng)的 ,那么即便訓(xùn)練到最佳狀態(tài),如果我們把三角形換成正方形、圓形,這個(gè)AI就什么都不會(huì)了。

因此,為了構(gòu)建更好、更智能的系統(tǒng),了解神經(jīng)網(wǎng)絡(luò)處理抽象概念的方式和弱點(diǎn)非常重要。我們從人類智商測(cè)試中汲取靈感,發(fā)現(xiàn)了一種量化抽象推理的方法。

創(chuàng)建抽象推理數(shù)據(jù)集

在介紹數(shù)據(jù)集前,讀者不妨先來(lái)測(cè)測(cè)自己的智商:

01

已知九宮格中的最后一幅圖缺失,請(qǐng)從下列8個(gè)選項(xiàng)中選出最合適的一個(gè),使之呈現(xiàn)一定的規(guī)律性。

點(diǎn)擊空白處查看答案

答:計(jì)數(shù)圓點(diǎn)數(shù)量:第一行2,3,4,第二行3,4,5,第三行2,3,?。由此規(guī)律可得,最后一幅圖應(yīng)該有4個(gè)圓點(diǎn),選擇A。

02

已知九宮格中的最后一幅圖缺失,請(qǐng)從下列8個(gè)選項(xiàng)中選出最合適的一個(gè),使之呈現(xiàn)一定的規(guī)律性。

點(diǎn)擊空白處查看答案

答:首先,縱向來(lái)看,每一列都包含1個(gè)三角形、5個(gè)三角形、7個(gè)三角形三種圖案,所以最后一幅圖應(yīng)該只有1個(gè)三角形,答案可能是A、C、D、E、H。其次,橫向來(lái)看,第一行三幅圖都有一條橫線、一條左上-右下的斜線,第二行都有一個(gè)正方形,以及一條右上-左下的斜線,而第三行兩幅圖的相同點(diǎn)是都有一條右上-左下的斜線。綜上,選擇A。

03

已知九宮格中的最后一幅圖缺失,請(qǐng)從下列8個(gè)選項(xiàng)中選出最合適的一個(gè),使之呈現(xiàn)一定的規(guī)律性。

點(diǎn)擊空白處查看答案

答:首先,和上一題的推理方法類似,縱向來(lái)看三列都是等差數(shù)列,最后一幅圖應(yīng)該包含5個(gè)圖形;橫向來(lái)看,最后一行都有一條左上-右下的斜線,答案可能是A、E、H。其次,我們看顏色,圖中有白、灰、黑三種填色,每列都包含這三種,所以最后一幅圖的圖形應(yīng)該是黑色的。綜上,選擇A。

如上所示,我們?cè)谶M(jìn)行標(biāo)準(zhǔn)智商測(cè)試時(shí),即便只是看幾個(gè)簡(jiǎn)單圖形回答問題,我們也要結(jié)合日常學(xué)習(xí)到的經(jīng)驗(yàn)。比方說,看著不斷長(zhǎng)高的樹木或是拔地而起的高樓,我們可以理解什么是“演變”(progressions);通過不斷積累數(shù)學(xué)知識(shí),我們可以理解什么是“演變”;通過查看自己銀行賬戶上的定期利息,我們也能感受到“演變”(表示屬性增加的概念)。有了這個(gè)基礎(chǔ),我們就能在解答上述問題時(shí)應(yīng)用這一概念,推斷圖形數(shù)量、大小、顏色的順序性演變。

但我們的機(jī)器學(xué)習(xí)系統(tǒng)還沒有類似的“日常體驗(yàn)”,這也意味著我們沒法輕易衡量它是怎么把現(xiàn)實(shí)世界知識(shí)用于解決抽象問題的。盡管如此,有了這些智商測(cè)試題,我們也能創(chuàng)建一個(gè)實(shí)驗(yàn)設(shè)置,來(lái)測(cè)一測(cè)現(xiàn)有模型的“智商”。需要注意的是,由于日常生活太復(fù)雜,這里我們用的是圖形推理問題,考驗(yàn)的是模型如何用抽象推理把這題的解題思路推廣到下一題。

既然目的是讓AI做題,我們先得有題?。‘?dāng)然了,手動(dòng)搜集整理是不可能的,為了創(chuàng)建題庫(kù),首先我們構(gòu)建了一個(gè)可以自動(dòng)生成推理題的生成器,它包含一組抽象元素,包括它們的顏色、大小等屬性的“演變”。雖然元素不多,但它們足以生成大量互不相同的問題。

接著,我們對(duì)生成器可用的元素和組合進(jìn)行了約束,得到了包含不同問題的訓(xùn)練集和測(cè)試集,換言之,就像練習(xí)冊(cè)和考卷,即便我們刷遍了練習(xí)冊(cè)上的題,但老師在考卷上出的題總是新的。舉個(gè)例子,在訓(xùn)練集中,有一種演變關(guān)系只會(huì)在線上出現(xiàn),但在測(cè)試集上,這種演變卻也出現(xiàn)在圖形上,如果模型真的掌握了這種規(guī)律,無(wú)論是線條還是圖形還是其他沒見過的東西,它應(yīng)該都能活學(xué)活用。

AI能進(jìn)行抽象推理的證據(jù)

在實(shí)驗(yàn)中,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)是從同一基礎(chǔ)分布中采樣的,即“考試”時(shí)都是常規(guī)題,難度沒有提高,也沒有特別的“加分題”。我們測(cè)試的神經(jīng)網(wǎng)絡(luò)都表現(xiàn)出了很好的泛化誤差,一些模型的準(zhǔn)確率甚至超過75%,令人驚訝。如下圖所示,我們構(gòu)建了一個(gè)可以明確計(jì)算不同圖像元素間的關(guān)系,并在這基礎(chǔ)上評(píng)估答案的模型WReN(Wild Relation Network),它的性能是最好的。

Val為訓(xùn)練集,Test為測(cè)試集,β非零時(shí)表示使用了meta-target訓(xùn)練,即針對(duì)各元素進(jìn)行過訓(xùn)練,這時(shí)模型不僅可以回答答案“是什么”,還能回答“為什么”

但這個(gè)實(shí)驗(yàn)也體現(xiàn)了幾個(gè)問題。對(duì)于訓(xùn)練集和測(cè)試集中都包含的相同的幾何演變,比如線條上的邏輯演變,神經(jīng)網(wǎng)絡(luò)學(xué)得很好,無(wú)論線條怎么變,只要還是線條,它都能學(xué)以致用。但是如果涉及把線條的規(guī)律推廣到其他圖形上,神經(jīng)網(wǎng)絡(luò)就表現(xiàn)得很差了,這也是測(cè)試集得分比較低的主因。尤其是當(dāng)模型在訓(xùn)練集中學(xué)到的是深色圖形演變,而我們?cè)跍y(cè)試集上把深色改成了淺色,它們的性能會(huì)更差。

最后,當(dāng)我們的模型不僅能預(yù)測(cè)正確答案,還能預(yù)測(cè)答案的“推理過程”時(shí),我們發(fā)現(xiàn)它在訓(xùn)練集、測(cè)試集上的得分更接近了,也就是泛化性能更好了。更有趣的是,我們發(fā)現(xiàn),如果模型能理解圖中各元素背后的正確關(guān)系,那它預(yù)測(cè)的準(zhǔn)確率就高,反之,準(zhǔn)確率就低,里面存在一個(gè)正相關(guān)。這表明,當(dāng)模型能正確推斷出任務(wù)背后的抽象概念時(shí),它們可以獲得更好的性能。

注:為防止讀者誤解,這里的“預(yù)測(cè)推理過程”“了解背后元素關(guān)系”只是口語(yǔ)性表述,AI并不能像我們一樣一步步推理,它的“理解”也不等同于人類的理解,它只是知道,這些元素和答案有關(guān)聯(lián)。

上:有些問題只包含單獨(dú)元素,但有些問題包含多種元素關(guān)系;下:WReN模型答案預(yù)測(cè)準(zhǔn)確率和抽象概念預(yù)測(cè)準(zhǔn)確率的關(guān)系

關(guān)于“泛化”的新認(rèn)知

最近許多論文在集中探討神經(jīng)網(wǎng)絡(luò)對(duì)于解決機(jī)器學(xué)習(xí)問題的優(yōu)缺點(diǎn),而大家爭(zhēng)論的矛頭通常是網(wǎng)絡(luò)的泛化能力。根據(jù)我們的研究結(jié)果,現(xiàn)階段關(guān)于泛化能力的討論似乎都是無(wú)益的:經(jīng)測(cè)試,這些神經(jīng)網(wǎng)絡(luò)在一些地方展現(xiàn)出了很好的泛化性,但在另一些地方卻表現(xiàn)很差。這種泛化性取決于一系列因素:

模型的架構(gòu);

模型有沒有經(jīng)過針對(duì)性訓(xùn)練;

模型能否為其“答案”提供可解釋的“理由”;

起碼到目前為止,只要神經(jīng)網(wǎng)絡(luò)模型遇到的是完全不熟悉的輸入,或是完全不熟悉的元素,它的表現(xiàn)都難以令人滿意。這一點(diǎn)是非常關(guān)鍵、非常重要的,AI的抽象推理能力還有待提高,這也是未來(lái)工作中必須重視一個(gè)明確焦點(diǎn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:DeepMind新成果:讓AI做人類智商測(cè)試題,抽象推理能力堪憂!

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    高速PCB設(shè)計(jì)的綜合測(cè)試題

    高速PCB設(shè)計(jì)的綜合測(cè)試題 綜合測(cè)試題 答卷人:              得分:  
    發(fā)表于 04-15 00:22 ?1686次閱讀
    高速PCB設(shè)計(jì)的綜合<b class='flag-5'>測(cè)試題</b>

    應(yīng)用人神經(jīng)網(wǎng)絡(luò)模擬污水生物處理

    應(yīng)用人神經(jīng)網(wǎng)絡(luò)模擬污水生物處理(1.浙江工業(yè)大學(xué)建筑工程學(xué)院, 杭州 310014; 2.鎮(zhèn)江水工業(yè)公司排水管理處,鎮(zhèn)江 212003)摘要:針對(duì)復(fù)雜的非線性污水生物處理過程,開發(fā)了徑向基函數(shù)的人
    發(fā)表于 08-08 09:56

    PCB工程師測(cè)試題

    PCB工程師測(cè)試題
    發(fā)表于 11-28 22:22

    華為3Com認(rèn)證網(wǎng)絡(luò)工程師(HCNE)測(cè)試題

    華為3Com認(rèn)證網(wǎng)絡(luò)工程師(HCNE)測(cè)試題
    發(fā)表于 10-09 08:52

    AI知識(shí)科普 | 從無(wú)人相信到萬(wàn)人追捧的神經(jīng)網(wǎng)絡(luò)

    神經(jīng)網(wǎng)絡(luò)的發(fā)展可以追溯到二戰(zhàn)時(shí)期,那時(shí)候先輩們正想著如何用人類的方式去存儲(chǔ)和處理信息,于是他們開始構(gòu)建計(jì)算系統(tǒng)。由于當(dāng)時(shí)計(jì)算機(jī)機(jī)器和技術(shù)的發(fā)展限制,這一技術(shù)并沒有得到廣泛的關(guān)注和應(yīng)用。幾十年來(lái)
    發(fā)表于 06-05 10:11

    針對(duì)Arm嵌入式設(shè)備優(yōu)化的神經(jīng)網(wǎng)絡(luò)推理引擎

    專門針對(duì)Arm嵌入式設(shè)備優(yōu)化的神經(jīng)網(wǎng)絡(luò)推理引擎Tengine + HCL,不同人群的量身定制
    發(fā)表于 01-15 08:00

    如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?

    原文鏈接:http://tecdat.cn/?p=5725 神經(jīng)網(wǎng)絡(luò)是一種基于現(xiàn)有數(shù)據(jù)創(chuàng)建預(yù)測(cè)的計(jì)算系統(tǒng)。如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)包括:輸入層:根據(jù)現(xiàn)有數(shù)據(jù)獲取輸入的層隱藏層:使用反向傳播優(yōu)化輸入變量權(quán)重的層,以提高模型的預(yù)測(cè)
    發(fā)表于 07-12 08:02

    基于BP神經(jīng)網(wǎng)絡(luò)的PID控制

    最近在學(xué)習(xí)電機(jī)的智能控制,上周學(xué)習(xí)了基于單神經(jīng)元的PID控制,這周研究基于BP神經(jīng)網(wǎng)絡(luò)的PID控制。神經(jīng)網(wǎng)絡(luò)具有任意非線性表達(dá)能力,可以通過對(duì)系統(tǒng)性能的學(xué)習(xí)來(lái)實(shí)現(xiàn)具有最佳組合的PID控
    發(fā)表于 09-07 07:43

    卷積神經(jīng)網(wǎng)絡(luò)一維卷積的處理過程

    以前的神經(jīng)網(wǎng)絡(luò)幾乎都是部署在云端(服務(wù)器上),設(shè)備端采集到數(shù)據(jù)通過網(wǎng)絡(luò)發(fā)送給服務(wù)器做inference(推理),結(jié)果再通過網(wǎng)絡(luò)返回給設(shè)備端。如今越來(lái)越多的
    發(fā)表于 12-23 06:16

    圖像預(yù)處理和改進(jìn)神經(jīng)網(wǎng)絡(luò)推理的簡(jiǎn)要介紹

    為提升識(shí)別準(zhǔn)確率,采用改進(jìn)神經(jīng)網(wǎng)絡(luò),通過Mnist數(shù)據(jù)集進(jìn)行訓(xùn)練。整體處理過程分為兩步:圖像預(yù)處理和改進(jìn)神經(jīng)網(wǎng)絡(luò)推理。圖像預(yù)處理主要根據(jù)圖像的特征,將數(shù)據(jù)處理成規(guī)范的格式,而改進(jìn)神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 12-23 08:07

    ARM Cortex-M系列芯片神經(jīng)網(wǎng)絡(luò)推理庫(kù)CMSIS-NN詳解

    1、ARM Cortex-M系列芯片神經(jīng)網(wǎng)絡(luò)推理庫(kù)CMSIS-NN詳解CMSIS-NN是用于ARM Cortex-M系列的芯片的神經(jīng)網(wǎng)絡(luò)推理庫(kù),用于低性能芯片/架構(gòu)的
    發(fā)表于 08-19 16:06

    揭秘人工智能神經(jīng)網(wǎng)絡(luò)為何無(wú)法實(shí)現(xiàn)人類推理或產(chǎn)生意識(shí)

    盡管神經(jīng)網(wǎng)絡(luò)還無(wú)法實(shí)現(xiàn)基本的人類推理和理解力,但它們將是建構(gòu)人工智能漫漫長(zhǎng)路上所用到的重要工具之一。
    的頭像 發(fā)表于 05-14 15:17 ?7302次閱讀

    測(cè)量神經(jīng)網(wǎng)絡(luò)抽象推理能力

    神經(jīng)網(wǎng)絡(luò)是否可以學(xué)習(xí)抽象推理,還是僅僅淺顯地學(xué)習(xí)統(tǒng)計(jì)數(shù)據(jù)學(xué)習(xí),是最近學(xué)術(shù)界辯論的主題。
    的頭像 發(fā)表于 07-13 09:37 ?5361次閱讀
    測(cè)量<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的<b class='flag-5'>抽象</b><b class='flag-5'>推理</b><b class='flag-5'>能力</b>

    DeepMind提出了一種讓神經(jīng)網(wǎng)絡(luò)進(jìn)行抽象推理的新方法

    我們還沒有辦法讓機(jī)器學(xué)習(xí)智能體接觸到類似的“日常體驗(yàn)”,這意味著我們無(wú)法輕易地衡量它們將知識(shí)從現(xiàn)實(shí)世界遷移到視覺推理測(cè)試能力。盡管如此,我們?nèi)匀豢梢詣?chuàng)建一個(gè)實(shí)驗(yàn)設(shè)置,充分利用人類視覺
    的頭像 發(fā)表于 07-13 10:03 ?3943次閱讀
    DeepMind提出了一種讓<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>進(jìn)行<b class='flag-5'>抽象</b><b class='flag-5'>推理</b>的新方法

    IQ測(cè)試是否能測(cè)量AI的推理能力?

    基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)模型取得了驚人的成績(jī),但是測(cè)量其推理抽象概念的能力卻是非常困難的。
    的頭像 發(fā)表于 07-17 14:33 ?3390次閱讀

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品