0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI做數(shù)學的能力不及高中生水平?

jmiy_worldofai ? 來源:lp ? 2019-04-09 11:22 ? 次閱讀

被數(shù)學題難倒的AI。

做數(shù)學題一直令多數(shù)人頭疼不已的事情。近期,DeepMind團隊最新研究了利用AI來解數(shù)學題,但結果令人大跌眼鏡——水平不及高中生。

數(shù)學也難倒了AI。

數(shù)學可能是大多數(shù)人在求學過程中最頭疼的一門科目。近日,DeepMind團隊便對“AI做數(shù)學題”進行了研究,結果大跌眼鏡:“萬能的AI”在面對數(shù)學問題也是不知所措!

人類解題能力超群的關鍵在于,人類并非主要通過經驗和證據,而是通過推斷、學習,以及利用定理、公理和符號操縱規(guī)則。

DeepMind團隊便對神經架構和類似系統(tǒng)的評估(以及最終的設計)提出了新的挑戰(zhàn),開發(fā)了一個數(shù)學問題的任務處理套件,涉及以自由形式文本輸入/輸出格式的系列問題和答案。

不過,在研究過程中,DeepMind發(fā)現(xiàn),AI非常擅長做的數(shù)學題都是比較偏簡單的,例如:查找數(shù)字中的位值、四舍五入小數(shù)/整數(shù)等。但是在諸如素數(shù)檢測、因式分解以及多項式操作等方面,性能結果存在顯著的差異。

AI做數(shù)學的能力不及高中生水平?

AI挑戰(zhàn)人類最難學科

深層模型遠未達到人類所表現(xiàn)出的穩(wěn)健性和靈活性,由于自身能力的限制,深度學習無法超越所經歷的環(huán)境去生成新的東西,并且面對存在對抗性構建的輸入時極其脆弱。

與神經模型相比,人類智能擅長的一個領域是關于物體和實體的離散組合推理,即“代數(shù)泛化”,這個領域也體現(xiàn)了神經模型和人類智之間的差異。

人類在這個領域內的概括能力是復雜的、多方面的。先來看這個數(shù)學題:

當:f(x)= 2x + 3,g(x)= 7x-4,h(x)= -5x-8時

求:g(h(f(x)))

人類解決這道數(shù)學題時候,用到的各種認知技能有:

將字符解析為數(shù)字,算術運算符,變量(一起形成函數(shù))和單詞(確定問題)等實體

計劃(例如,以正確的順序識別功能以進行撰寫)

使用子算法進行函數(shù)合成(加法,乘法)

利用工作記憶來存儲中間值(例如合成h(f(x)))

通常應用已獲得的規(guī)則,轉換,過程和公理知識

DeepMind在這篇論文中引入了一個由許多不同類型的數(shù)學問題組成的數(shù)據集,對于模型來說,優(yōu)于缺乏上述人類能力,在處理跨系列的問題類型(包括我們在下面詳述的泛化)的時候難度更大,更難獲得良好的表現(xiàn)。

該領域對于一般的神經結構的分析是重要的。除了提供廣泛的問題外,還有其他幾個優(yōu)點:

數(shù)學提供了一個自洽的宇宙(self-consistent universe);

符號在不同的問題類型中是相同的,是的數(shù)據集更容易得到擴展的;

在一種問題類型上學習的規(guī)則和方法通常適用于其他地方。例如數(shù)字的加法在任何地方都遵循相同的規(guī)則,并且在其他問題中作為“子程序”出現(xiàn),具體體現(xiàn)在乘法中,以及具體且更抽閑的體現(xiàn)在多項式中;

具有轉移知識能力的模型將在數(shù)據集上獲得更好的表現(xiàn)(知識遷移可能是解決更難問題的必要條件)。

數(shù)學本身也是一個有趣的領域,雖然解決該數(shù)據集中大多數(shù)中學數(shù)學問題的模型本身不具備應用程序,但它們可能會導致更強大的模型,這些模型可以解決有趣且實質性的新數(shù)學問題。

或者更一般地說,尋求驗證以捕獲算法/系統(tǒng)推理為目標的新架構的實驗經常從這個領域中得出,這并非巧合。因此,在為這些模型提供大規(guī)模的訓練和評估框架時,希望為繼續(xù)研究超越數(shù)學的機器推理提供堅實的基礎。

請看以下數(shù)學問題集示例:

問題:對于r,求解-42*r+27*c=-1167和130*r+4*c=372。

答案:4

問題:計算-841880142.544+411127。

答案:-841469015.544

問題:Letx(g)=9*g+1。Letq(C)=2*C+1。Letf(i)=3*i-39.設w(j)=q(x(j))。計算f(w(a))。

答案:54*a-30

問題:設e(l)=l-6.2是e(9)和2的因子嗎?

答案:錯

問題:設u(n)=-n**3-n**2。設e(c)=-2*c**3+c。令l(j)=-118*e(j)+54*u(j)。l(a)的衍生物是什么?

答案:546*a**2-108*a-118

問題:從qqqkkklkqkkk中選擇了三個字母而沒有替換。給出序列qql的概率

答案:1/110

研究中的主要貢獻

數(shù)據集和泛化測試

研究人員發(fā)布1個序列到序列的數(shù)據集,包括許多不同類型的數(shù)學問題(見圖1),用于測量數(shù)學推理,同時提供生成代碼和預生成的問題。

數(shù)據集附帶兩組測試:插值測試,一個針對訓練集中出現(xiàn)的每種類型的問題;外推測試,測量沿著各種難度軸的概括超出訓練期間的概括。將外推測試作為模型是否采用允許它們進行代數(shù)泛化的能力的額外度量。

實驗和模型分析

本文利用一個實驗評估來研究最先進的神經架構的代數(shù)能力,實驗表明它們在某些類型的問題上表現(xiàn)良好,但肯定不是全部,而且只有適度的數(shù)量一般化。我們對他們如何學習回答數(shù)學問題及其失敗模式提供了一些見解。

由于該數(shù)據集背后的構建過程,有大量現(xiàn)有模型可以進行調整、專門構建或定制,以解決提出的問題,特別是在符號求解器或計算機代數(shù)系統(tǒng)的幫助下。

模型檢驗

隨著問題和答案的復雜性或語言多樣性的增長,撇開傳統(tǒng)符號方法可能的脆弱性或可擴展性的限制,我們對評估通用模型更感興趣,而非已經內置數(shù)學知識的模型。

使這些模型(總是神經架構)從翻譯到通過圖像字幕解析無處不在的原因,是這些函數(shù)逼近器缺乏偏差,因為它們的設計中編碼的域特定知識相對較少(或沒有)。

雖然有一些神經網絡驅動的方法可以直接訪問數(shù)學運算(例如加法或乘法,或更復雜的數(shù)學模板,這無疑是我們在本文中提出的任務中具有競爭力,我們將局限于一般的序列處理架構,這些架構用于其他非數(shù)學任務,以便為將來的比較提供最一般的基準。

論文研究了兩種(廣泛的)模型,這些模型已經證明了它們在序列到序列問題上的最新技術:循環(huán)神經架構,以及最近引入的Attention/Transfomer結構。 我們還嘗試使用可微分神經計算機,這是一種具有“外部存儲器”的復現(xiàn)模型(其大小與網絡中的參數(shù)數(shù)量無關)。

理論上,這可能非常適合解決數(shù)學問題,因為它可以存儲中間值以供以后使用。然而,卻無法從中獲得不錯的表現(xiàn),即使對于內存插槽的數(shù)量和大小的超參數(shù)掃描等,在訓練一天后才能達到10%的驗證性能,而大多數(shù)模型在不到一個小時內就能獲得這一點。

圖2:注意力LSTM和Transformer體系結構都包含一個解析問題的編碼器和一個解碼器,它將正確的答案右移1個映射到每個位置的答案中的下一個字符(因此允許自回歸預測):

(a)注意LSTM將問題編碼為一系列(關鍵,值)位置,然后由解碼器進行處理

(b)變壓器有幾個階段的自我注意和輸入注意

循環(huán)結構

LSTM 是一個強大的序列到序列模型構建模塊,它在許多領域都達到了最先進的結果,盡管它很簡單,但仍然是循環(huán)神經網絡的一個核心構建模塊。本文測試了兩個標準的循環(huán)結構。

第一個(也是最簡單)模型,稱作“Simple LSTM”是直接將問題提交到LSTM,一次輸入一個字符(采用1-hot編碼);

第二個模型稱作“Attentionnal LSTM”,是引入具有注意力結構的編碼器/解碼器。

在這兩種體系結構中,還使用了一個簡單的更改來提高性能。所描述的模型必須在解析問題之后直接輸出答案。

近期,一種稱為關系遞歸神經網絡或關系內存核(relational memory core,RMC)的遞歸體系結構被開發(fā)出來作為LSTM的替代品。這個重復單元有多個記憶槽,它們通過注意力相互作用。

TRANSFORMER

Transformer模型是一個實現(xiàn)機器翻譯的最先進結果的序列到序列模型。圖2b對其做了簡要的描述。該模型由編碼器和解碼器組成,前者將問題(表示為向量序列)轉換為另一個相同長度的序列,后者將編碼的問題和答案轉換為答案預測。

性能分析

訓練和評估方法

與序列到序列模型中常見的方法一樣,這些模型使用貪婪解碼器(每一步輸出多數(shù)類)自回歸地預測答案。通過Adam優(yōu)化器最小化正確字符的對數(shù)概率之和,學習率為6×10-4,β1= 0.9,β2= 0.995,ε= 10-9。 使用批量大小為1024的8個NVIDIA P100 GPU進行500k批次分割,絕對梯度值限幅為0.1。

實驗結果

圖3顯示了不同結構的平均插值和外推(extrapolation)性能。

圖3模型精度(正確答案的概率)在各個模塊之間取平均值。RMC是關系遞歸神經網絡模型。

LSTMs vs RMCs

使用具有多個內存插槽的RMC不會提高性能;也許RMC很難學會使用插槽來操縱數(shù)學實體。對于給定數(shù)量的隱含單元,RMC的數(shù)據效率更高,但訓練速度更慢(因為它們有更多的參數(shù)),LSTMs具有更好的漸近性能。

Simple vs Attentional LSTM

Attentional LSTM和Simple LSTM具有相似的性能。有人可能會懷疑Attentional LSTM什么也不做,但事實并非如此,因為與解析LSTM大小相同的Simple LSTM模型獲得的性能要差得多。我們推測,注意力模型并沒有學習算法解析問題,因此每一步改變注意力焦點的能力并不重要。

“思考”步驟數(shù)

對于Attentional LSTM模型,可以觀察到,將“思考”步驟的數(shù)量從0增加到16,可以提高性能。

Transformer vs 最好的非transformer模型

Transformer在幾乎所有模塊上的性能與遞歸模型相同,或者明顯優(yōu)于遞歸模型。這兩種體系結構具有相當數(shù)量的參數(shù)。人們可能會預先期望LSTM執(zhí)行得更好,因為它的順序體系結構可能更類似于人類執(zhí)行的順序推理步驟。然而,實驗表明,這兩種網絡都沒有做太多的“算法推理”,并且Transformer相對于LSTM架構具有各種優(yōu)勢,例如:

使用相同數(shù)量的參數(shù)進行更多計算;

具有更好的梯度傳播;

有一個內部連續(xù)的“記憶”。

對神經網絡來說最簡單的數(shù)學問題

最簡單的問題類型是查找數(shù)字中的位值,以及四舍五入小數(shù)和整數(shù),所有模型在這些方面都獲得了近乎完美的分數(shù)。涉及比較的問題也往往相當容易,因為這類任務是相當感性的(例如比較長度或單個數(shù)字)。

對神經網絡來說最困難的數(shù)學問題

也許并不奇怪,一些最難的模塊包含了更多的數(shù)字理論問題,這些問題對人類來說也很難,比如檢測素數(shù)和因式分解。

Transformer模型在“加或減幾個數(shù)字”模塊和“乘數(shù)或除數(shù)”模塊的性能為90%或更高。然而,在混合算術模塊上,性能下降到大約50%。我們推測這些模塊之間的區(qū)別在于前者可以在相對線性/淺/平行的方式(因此解決方法通過梯度下降相對容易發(fā)現(xiàn)),而沒有用括號評估混合算術表達式的快捷方式,其中需要計算中間值。

這證明模型沒有學習任何代數(shù)/算法操作值,而是學習相對簡單的技巧來獲得許多模塊的良好答案。對于其他需要中間值計算的模塊,如多項式求值和一般組合,也是如此。

多項式操縱性能

Transformer和遞歸模型之間的一個顯著差異是多項式操作。Transformer在多項式展開、收集項、加法、組合、微分和提取命名系數(shù)方面做得明顯更好。從理論上說,Transformer的并行順序特性更擅長于處理多項式,其中幾個系數(shù)必須同時保存在內存中,以便相互作用。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31022

    瀏覽量

    269360
  • 數(shù)據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24727
  • 深度學習
    +關注

    關注

    73

    文章

    5505

    瀏覽量

    121252

原文標題:戰(zhàn)勝柯潔戰(zhàn)勝不了高中生?DeepMind挑戰(zhàn)高中數(shù)學題,完敗

文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    2014年托??荚嚸媾R著怎么樣的巨大變革?

    越來越側重于提高學生能力,而非考試題型與技巧講解。普通高中生的英語水平需要在半年至一年內提升到托??荚嚨?b class='flag-5'>水平上才達到美國大學錄取的托福分數(shù)線,這并非是一件容易的事情。而對于這一類人群的
    發(fā)表于 02-20 03:24

    本人高中生一枚,喜愛電子技術。

    新人報道。本人高中生一枚,喜愛電子技術。來此學校與交流。請多關照。
    發(fā)表于 01-08 09:47

    【曬出你的第83行代碼】躊躇滿志的三位高中生,以敬畏之心踏上了代碼征程

    摘要: 在五四青年節(jié)之際,社區(qū)發(fā)起了來曬曬屬于你的“第83行”的活動,活動中邀請業(yè)界的大牛、大神們來曬代碼或者Review代碼!本輪我們曬一曬那些高中生的第83行代碼。最近社區(qū)有個很火的《向代碼致敬
    發(fā)表于 05-09 17:28

    高中生牛人:制作全硬件純正弦逆變器

    本內容是以為高中生純手工打造的全硬件純正弦逆變器,令人驚嘆
    發(fā)表于 06-12 11:25 ?2.1w次閱讀
    <b class='flag-5'>高中生</b>牛人:制作全硬件純正弦逆變器

    17歲高中生在OpenAI發(fā)論文研究AI關鍵問題

    。Schulman在信任地區(qū)政策優(yōu)化問題上一直停滯不前,但是在看過Frans的博客之后,得到了一個驚喜。他說:“我沒有料到能會收到一個高中生的這些郵件?!盕rans后來在OpenAI公司面試時遇到
    發(fā)表于 03-19 05:02 ?833次閱讀

    AI普及從娃娃抓起商湯為中國人工智能基礎教育搶了先手

    國內中等教育體系首次引入AI教材,意味著人工智能教育在中國正式邁入基礎教育階段。由此人工智能這一當今最前沿的高新技術將走出“象牙塔”,成為每一個在校高中生都可以掌握的基本技能。按圖索驥,讓高中生率先學上人工智能,應該就是秋季入學
    的頭像 發(fā)表于 05-25 17:00 ?4728次閱讀

    我國出版了第一本人工智能教材,AI高中學起

    計算機要從娃娃抓起,AI可以從高中學起。近日我國為高中生出版了第一本人工智能(AI)教材——《人工智能基礎(高中版)》,寄希望于年輕的一代來
    的頭像 發(fā)表于 07-18 18:47 ?4174次閱讀

    美國高中生兩年時間搭建自動駕駛汽車

    這個美國高中生用兩年時間復現(xiàn)出英偉達端到端無人駕駛的論文,并在此基礎上進一步改進,得到了Nvidia的offer,卻執(zhí)意進入大學學習。
    的頭像 發(fā)表于 01-05 09:02 ?3179次閱讀

    AI很聰明?有時候計算加法的水平還不如高中生

    AI很聰明?有時計算加法的水平還不如高中生對這個系統(tǒng)來說,最難的問題是“數(shù)字理論問題”,比如因式分解,把數(shù)字或其他數(shù)學對象分解成組成部分,以及判斷一個數(shù)字是否是質數(shù)。但他們指出,人類在
    發(fā)表于 07-05 16:58 ?837次閱讀

    谷歌人工智能DeepMind,參加高中數(shù)學考試不及

    谷歌人工智能DeepMind,高中數(shù)學考了個不及格,研究人員使用數(shù)學問題給DeepMind測試了兩個LSTM(長短期記憶)模型。據報道,這些題目基于英國國立學校數(shù)學課程(面向16歲及以
    發(fā)表于 07-05 11:56 ?494次閱讀

    專為高中生打造的人工智能教材今年出版

    為推動完善人工智能教育體系,清華大學交叉信息研究院在圖靈獎得主、院長姚期智院士的帶領下,在計算機科學實驗班(姚班)多年來人才培養(yǎng)與教育教學的基礎上,編寫面向高中生的《人工智能(高中版)》教材,并將由清華大學出版社于2020年9月正式出版發(fā)行。
    的頭像 發(fā)表于 01-08 14:45 ?2461次閱讀

    16歲高中生為一臺無法正常使用的iPhone 7成功移植了Ubuntu 20.04

    為 Daniel Rodriguez,是一名在校高中生。據 Daniel 介紹,他使用的 iPhone7 來自他的外婆,這臺手機的屏幕、電源等硬件設備基本上保存完好,但由于 NVMe NAND 已經完全無法訪問,這
    的頭像 發(fā)表于 02-02 14:35 ?1653次閱讀

    詞典筆高中生可以用嗎?訊飛掃描詞典筆能滿足全學齡段的查詞需求

    對于很多高中生來說,英語一直是他們學習路上一道難關。高中英語涉及詞匯范圍廣,有3500多個,學生們經常是舊的還沒有背會,新的就已經來了。長此以往,他們在做題的時候難免會感到乏力。為了解決這個
    發(fā)表于 07-06 14:39 ?1706次閱讀

    記筆記!如何學單片機技術

    C語言知識并不難,沒有任何編程基礎的人都可以學,在我看來,初中生高中生、中專生、大學生都能學會。當然,數(shù)學基礎好、邏輯思維好的人學起來相對輕松一些。
    發(fā)表于 12-08 10:24 ?562次閱讀

    創(chuàng)新力量,改變世界!億圖腦圖助力高中生閃耀世界機器人大賽

    MindMaster并從中受益的中國高中生機器人團隊,他們是億圖腦圖的忠實用戶,也是勇敢追夢者。 在世界機器人科技挑戰(zhàn)賽(FIRST?Tech?Challenge)這個世界舞臺上,他們歷經波折、一路過關斬將,最終獲得了全球總決賽亞軍的好成績,為國爭光! 在這
    的頭像 發(fā)表于 06-26 16:30 ?532次閱讀
    創(chuàng)新力量,改變世界!億圖腦圖助力<b class='flag-5'>高中生</b>閃耀世界機器人大賽