0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Jürgen Schmidhuber:無監(jiān)督神經(jīng)網(wǎng)絡(luò)在極大極小上的博弈

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-11-24 09:27 ? 次閱讀

編者按:如果說GAN的發(fā)展史上有什么戲劇性事件,那“LSTM之父”Jürgen Schmidhuber(發(fā)音:You_again Shmidhoobuh)和“GAN之父”Ian Goodfellow之間的恩怨絕對是其中最精彩的一幕。在2016的NIPS大會上,Schmidhuber和Goodfellow就GAN是否借鑒了前者在九十年代發(fā)表的一篇論文展開了激烈爭論,引得滿座震驚。雖然事后學(xué)界認(rèn)可了GAN的原創(chuàng)性,但Schmidhuber似乎對此仍然耿耿于懷。近日,他發(fā)表了一篇小短文,文章的主角還是幾十年前的那個模型——PM。

1990s,無監(jiān)督神經(jīng)網(wǎng)絡(luò)在最小值上的博弈 每個網(wǎng)絡(luò)最小化由另一個網(wǎng)絡(luò)最大化的值函數(shù) 或生成實驗,產(chǎn)生對好奇心的內(nèi)在獎勵

在對人工神經(jīng)網(wǎng)絡(luò)(NN)的研究中,研究人員最重要的目標(biāo)之一是創(chuàng)建能從給定數(shù)據(jù)中學(xué)習(xí)統(tǒng)計數(shù)據(jù)的算法。為了實現(xiàn)這一目標(biāo),我在20世紀(jì)90年代曾引入一種新型無監(jiān)督學(xué)習(xí)機(jī)制,它基于極大極小博弈中的梯度下降/上升原理,其中一個NN負(fù)責(zé)最小化由另一個NN最大化的目標(biāo)函數(shù)。我把發(fā)生在這兩個無監(jiān)督神經(jīng)網(wǎng)絡(luò)之間的對抗稱為“可預(yù)測性最小化”(Predictability Minimization)。

首先,PM需要一個自帶初始隨機(jī)權(quán)重的編碼器網(wǎng)絡(luò),它通過其輸入節(jié)點(下圖中的白色圓圈)接收數(shù)據(jù)樣本(例如圖像),并在其輸出節(jié)點(下圖中的灰色圓圈,也稱編碼節(jié)點)生成對應(yīng)編碼。每個編碼節(jié)點都可以在區(qū)間[0,1]內(nèi)被激活。

圖中的黑色圓圈表示一個獨立的預(yù)測網(wǎng)絡(luò),經(jīng)過訓(xùn)練后,給定一部分編碼節(jié)點,它能學(xué)習(xí)每個編碼節(jié)點的條件期望,從而預(yù)測所有未提供的編碼節(jié)點。雖然圖中沒有標(biāo)出,編碼網(wǎng)絡(luò)和預(yù)測網(wǎng)絡(luò)都有隱藏節(jié)點。

但是,每個編碼節(jié)點都希望自己能變得更不可預(yù)測。因此它需要經(jīng)過訓(xùn)練,最大限度地提高由預(yù)測網(wǎng)絡(luò)最小化的目標(biāo)函數(shù)(如均方誤差)。預(yù)測器和編碼器相互對抗,以激勵編碼器實現(xiàn)無監(jiān)督學(xué)習(xí)的“圣杯”——關(guān)于輸入數(shù)據(jù)的理想的、展開的、二元的階乘編碼,其中每個編碼節(jié)點在統(tǒng)計上彼此互相獨立。

理想情況下,NN在經(jīng)過學(xué)習(xí)后,給定數(shù)據(jù)模式的概率就應(yīng)該等于其編碼節(jié)點概率的乘積,這個概率也是預(yù)測網(wǎng)絡(luò)的輸出。

無獨有偶,生成對抗網(wǎng)絡(luò)(GAN)也使用無監(jiān)督的極小極大原理來模擬給定數(shù)據(jù)的統(tǒng)計數(shù)據(jù)。相信讀者都熟悉NIPS 2014的那篇GAN論文,雖然那位作者聲稱PM并不是基于值函數(shù)的極大極小博弈,不是一個網(wǎng)絡(luò)尋求最大化而另一個尋求最小化,相比GAN那種“網(wǎng)絡(luò)之間的對抗是唯一訓(xùn)練標(biāo)準(zhǔn),并且足以完成訓(xùn)練”的方法,PM只能算“一個正則,鼓勵神經(jīng)網(wǎng)絡(luò)的隱藏節(jié)點在完成其他任務(wù)時在統(tǒng)計上獨立,其對抗性不是主要的訓(xùn)練方法”。

但是,我覺得PM確實也是個純粹的極大極小博弈,尤其是它也對抗訓(xùn)練,“網(wǎng)絡(luò)之間的對抗是唯一訓(xùn)練標(biāo)準(zhǔn),并且足以完成訓(xùn)練”。

將無監(jiān)督極大極小博弈用于強(qiáng)化學(xué)習(xí)好奇心

還是20世紀(jì)90年代,PM論文發(fā)表后,我曾嘗試過把這個想法擴(kuò)展到強(qiáng)化學(xué)習(xí)領(lǐng)域,構(gòu)建具有人工好奇心的智能體。

我構(gòu)建了一個目標(biāo)是在環(huán)境中生成動作序列的神經(jīng)網(wǎng)絡(luò)C,它的動作生成的由一個追求回報最大化的節(jié)點控制。作為參考,我設(shè)計了一個名叫世界模型M的獨立神經(jīng)網(wǎng)絡(luò),它能根據(jù)給定的以往輸入和動作預(yù)測未來輸入。動作選擇越合理,網(wǎng)絡(luò)得到的回報就越高,因此C所獲得的內(nèi)在回報和M的預(yù)測誤差成正比。同時,因為C試圖最大化的正是M試圖最小化的值函數(shù),這意味著C會盡力探索M無法準(zhǔn)確預(yù)測的新動作。

最近關(guān)于好奇心的強(qiáng)化學(xué)習(xí)論文有很多,我覺得它們都是基于這個簡單的90年代的原理。尤其是在97年的那篇論文中[UARL3-5],我讓兩個對抗的、追求回報最大化的模塊(左腦和右腦)共同設(shè)計一個實驗:一個能定義如何在環(huán)境中執(zhí)行動作序列、如何通過實現(xiàn)由實驗觸發(fā)的觀察序列的可計算函數(shù)(如二元分類)的指令序列來計算最終實驗結(jié)果的(概率)程序。

兩個模塊都能提前預(yù)測實驗結(jié)果,如果它們的預(yù)測或假設(shè)不同,那么在動作生成和執(zhí)行完畢后,失敗一方會向這個零和博弈的優(yōu)勝一方提供內(nèi)在回報。這種設(shè)計促使無監(jiān)督的兩個模塊專注于“有趣”的事情,也就是不可預(yù)測的空間。同樣的,在沒有外部回報的情況下,每個無監(jiān)督模塊都在試圖最大化由另一個最小化的值函數(shù)。

當(dāng)時我在論文中提出,如果想把這種方法用于現(xiàn)實世界的某些問題,我們還需要科學(xué)家和藝術(shù)家的人為介入,設(shè)置合理的外部回報。而時至今日,很多人也確實正在用它處理數(shù)據(jù)分布建模和人工好奇心等任務(wù)。

小結(jié)

看到這里,相信大家都看出來了,Jürgen Schmidhuber還是放不下對GAN的糾結(jié),或者說,是對“對抗”這種方法的執(zhí)念。雖然GAN的原創(chuàng)性已無爭議,但比起抬高/貶低Schmidhuber的為人,我們都不能否認(rèn)他對深度學(xué)習(xí)作出的杰出貢獻(xiàn)。2年前,他也正是以一種幾乎“鬧劇”的方式警告所有人,在過去幾十年的研究中,可能存放著許多不為人知的珍寶,它們不是不夠優(yōu)秀,而只是輸給了時代。

正如網(wǎng)友評價的:

作為機(jī)器學(xué)習(xí)的英雄,我們追隨他;作為超越時代的罪人,我們圍攻他。但他都可以接受,因為他不是英雄。他只是一個沉默的守護(hù)者,一個警惕的保護(hù)者,一個Schmidhuber。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3643

    瀏覽量

    134524
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4771

    瀏覽量

    100772
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    1935

    瀏覽量

    73445

原文標(biāo)題:Jürgen Schmidhuber:無監(jiān)督神經(jīng)網(wǎng)絡(luò)在極大極小上的博弈

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    脈沖耦合神經(jīng)網(wǎng)絡(luò)FPGA的實現(xiàn)誰會?

    脈沖耦合神經(jīng)網(wǎng)絡(luò)(PCNN)FPGA的實現(xiàn),實現(xiàn)數(shù)據(jù)分類功能,有報酬。QQ470345140.
    發(fā)表于 08-25 09:57

    基于賽靈思FPGA的卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)設(shè)計

    FPGA 實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò) (CNN)。CNN 是一類深度神經(jīng)網(wǎng)絡(luò),處理大規(guī)模圖像識別任務(wù)以及與機(jī)器學(xué)習(xí)類似的其他問題方面已大獲成功。在當(dāng)前案例中,針對
    發(fā)表于 06-19 07:24

    卷積神經(jīng)網(wǎng)絡(luò)如何使用

    卷積神經(jīng)網(wǎng)絡(luò)(CNN)究竟是什么,鑒于神經(jīng)網(wǎng)絡(luò)工程經(jīng)歷了曲折的歷史,您為什么還會在意它呢? 對于這些非常中肯的問題,我們似乎可以給出相對簡明的答案。
    發(fā)表于 07-17 07:21

    【案例分享】基于BP算法的前饋神經(jīng)網(wǎng)絡(luò)

    期望的輸出。BP神經(jīng)網(wǎng)絡(luò)算法推導(dǎo)(更新權(quán)重和偏倚):從上面推導(dǎo)可以發(fā)現(xiàn):對于任意從神經(jīng)元i(輸出神經(jīng)元/隱層神經(jīng)元)至 神經(jīng)
    發(fā)表于 07-21 04:00

    【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

    是一種常用的監(jiān)督學(xué)習(xí)策略,使用改策略時,網(wǎng)絡(luò)的輸出神經(jīng)元相互競爭,每一時刻只有一個競爭獲勝的神經(jīng)
    發(fā)表于 07-21 04:30

    如何設(shè)計BP神經(jīng)網(wǎng)絡(luò)圖像壓縮算法?

    (Digital Signal Processor)相比,現(xiàn)場可編程門陣列(Field Programma-ble Gate Array,F(xiàn)PGA)神經(jīng)網(wǎng)絡(luò)的實現(xiàn)更具優(yōu)勢。DSP處理器
    發(fā)表于 08-08 06:11

    如何用卷積神經(jīng)網(wǎng)絡(luò)方法去解決機(jī)器監(jiān)督學(xué)習(xí)下面的分類問題?

    人工智能下面有哪些機(jī)器學(xué)習(xí)分支?如何用卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法去解決機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí)下面的分類問題?
    發(fā)表于 06-16 08:09

    如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?

    原文鏈接:http://tecdat.cn/?p=5725 神經(jīng)網(wǎng)絡(luò)是一種基于現(xiàn)有數(shù)據(jù)創(chuàng)建預(yù)測的計算系統(tǒng)。如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)包括:輸入層:根據(jù)現(xiàn)有數(shù)據(jù)獲取輸入的層隱藏層:使用反向傳播優(yōu)化輸入變量權(quán)重的層,以提高模型的預(yù)測
    發(fā)表于 07-12 08:02

    STM32驗證神經(jīng)網(wǎng)絡(luò)模型

    STM32CubeMx.AI的使用歡迎使用Markdown編輯器STM32論壇中看到這樣一個視頻:視頻中,STM32驗證神經(jīng)網(wǎng)絡(luò)模型
    發(fā)表于 08-03 06:59

    卷積神經(jīng)網(wǎng)絡(luò)一維卷積的處理過程

    以前的神經(jīng)網(wǎng)絡(luò)幾乎都是部署云端(服務(wù)器),設(shè)備端采集到數(shù)據(jù)通過網(wǎng)絡(luò)發(fā)送給服務(wù)器做inference(推理),結(jié)果再通過網(wǎng)絡(luò)返回給設(shè)備端。
    發(fā)表于 12-23 06:16

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    舉足輕重的地位。由于卷積 神經(jīng)網(wǎng)絡(luò)的模型十分豐富,有些模型的結(jié)構(gòu)或用途 比較特殊,本文中統(tǒng)稱為特殊模型,包括具有簡單的結(jié)構(gòu)和很少參數(shù)量的擠壓網(wǎng)絡(luò)模型 SqueezeNet,采 用
    發(fā)表于 08-02 10:39

    神經(jīng)網(wǎng)絡(luò)原理下載-免費

    神經(jīng)網(wǎng)絡(luò)是計算智能和機(jī)器學(xué)習(xí)研究的最活躍的分支之一。本書全面系統(tǒng)地介紹神經(jīng)網(wǎng)絡(luò)的基本概念,系統(tǒng)理論和實際應(yīng)用。本書包含四個組成部分:導(dǎo)論,監(jiān)督學(xué)習(xí),
    發(fā)表于 06-19 14:39 ?190次下載

    圖靈獎為什么沒頒給LSTM之父Jürgen Schmidhuber

    因為他堅持認(rèn)為現(xiàn)在大火的GAN就是PM的變種,兩者的區(qū)別就在于方向是反的,為此,Jürgen Schmidhuber還和GAN的提出者Ian Goodfellow有過線上線下激烈的交鋒,業(yè)界至今記憶猶新。
    的頭像 發(fā)表于 04-08 11:54 ?9235次閱讀

    基于監(jiān)督淺層神經(jīng)網(wǎng)絡(luò)聯(lián)合學(xué)習(xí)的表示方法

    學(xué)習(xí)模型主要基于節(jié)點結(jié)構(gòu)相似和節(jié)點內(nèi)容相似,不能同時有效捕獲節(jié)點結(jié)構(gòu)和內(nèi)容的相似信息,因此結(jié)構(gòu)和內(nèi)容等價混合的網(wǎng)絡(luò)數(shù)據(jù)上表現(xiàn)較差。為此,探索了節(jié)點結(jié)構(gòu)相似和節(jié)點內(nèi)容相似的融合特征,提岀了一種基于
    發(fā)表于 04-23 11:22 ?11次下載
    基于<b class='flag-5'>無</b><b class='flag-5'>監(jiān)督</b>淺層<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>聯(lián)合學(xué)習(xí)的表示方法

    神經(jīng)網(wǎng)絡(luò)如何用監(jiān)督算法訓(xùn)練

    神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的重要組成部分,其訓(xùn)練方式多樣,其中監(jiān)督學(xué)習(xí)是一種重要的訓(xùn)練策略。監(jiān)督學(xué)習(xí)旨在從未標(biāo)記的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的結(jié)構(gòu)、模
    的頭像 發(fā)表于 07-09 18:06 ?801次閱讀