0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

5行代碼打造無限寬神經(jīng)網(wǎng)絡(luò)模型

倩倩 ? 來源:量子位 ? 2020-03-27 15:47 ? 次閱讀

只要網(wǎng)絡(luò)足夠?qū)挘?a href="http://www.wenjunhu.com/v/tag/448/" target="_blank">深度學(xué)習(xí)動態(tài)就能大大簡化,并且更易于理解。

最近的許多研究結(jié)果表明,無限寬度的DNN會收斂成一類更為簡單的模型,稱為高斯過程(Gaussian processes)。

于是,復(fù)雜的現(xiàn)象可以被歸結(jié)為簡單的線性代數(shù)方程,以了解AI到底是怎樣工作的。

所謂的無限寬度(infinite width),指的是完全連接層中的隱藏單元數(shù),或卷積層中的通道數(shù)量有無窮多。

但是,問題來了:推導(dǎo)有限網(wǎng)絡(luò)的無限寬度限制需要大量的數(shù)學(xué)知識,并且必須針對不同研究的體系結(jié)構(gòu)分別進(jìn)行計算。對工程技術(shù)水平的要求也很高。

谷歌最新開源的Neural Tangents,旨在解決這個問題,讓研究人員能夠輕松建立、訓(xùn)練無限寬神經(jīng)網(wǎng)絡(luò)。

甚至只需要5行代碼,就能夠打造一個無限寬神經(jīng)網(wǎng)絡(luò)模型。

這一研究成果已經(jīng)中了ICLR 2020。戳進(jìn)文末Colab鏈接,即可在線試玩。

開箱即用,5行代碼打造無限寬神經(jīng)網(wǎng)絡(luò)模型

Neural Tangents 是一個高級神經(jīng)網(wǎng)絡(luò) API,可用于指定復(fù)雜、分層的神經(jīng)網(wǎng)絡(luò),在 CPU/GPU/TPU 上開箱即用。

該庫用 JAX編寫,既可以構(gòu)建有限寬度神經(jīng)網(wǎng)絡(luò),亦可輕松創(chuàng)建和訓(xùn)練無限寬度神經(jīng)網(wǎng)絡(luò)。

有什么用呢?舉個例子,你需要訓(xùn)練一個完全連接神經(jīng)網(wǎng)絡(luò)。通常,神經(jīng)網(wǎng)絡(luò)是隨機(jī)初始化的,然后采用梯度下降進(jìn)行訓(xùn)練。

研究人員通過對一組神經(jīng)網(wǎng)絡(luò)中不同成員的預(yù)測取均值,來提升模型的性能。另外,每個成員預(yù)測中的方差可以用來估計不確定性。

如此一來,就需要大量的計算預(yù)算。

但當(dāng)神經(jīng)網(wǎng)絡(luò)變得無限寬時,網(wǎng)絡(luò)集合就可以用高斯過程來描述,其均值和方差可以在整個訓(xùn)練過程中進(jìn)行計算。

而使用 Neural Tangents ,僅需5行代碼,就能完成對無限寬網(wǎng)絡(luò)集合的構(gòu)造和訓(xùn)練。

from neural_tangents import predict, staxinit_fn, apply_fn, kernel_fn = stax.serial( stax.Dense(2048, W_std=1.5, b_std=0.05), stax.Erf(), stax.Dense(2048, W_std=1.5, b_std=0.05), stax.Erf(), stax.Dense(1, W_std=1.5, b_std=0.05))y_mean, y_var = predict.gp_inference(kernel_fn, x_train, y_train, x_test, ‘ntk’, diag_reg=1e-4, compute_cov=True)

上圖中,左圖為訓(xùn)練過程中輸出(f)隨輸入數(shù)據(jù)(x)的變化;右圖為訓(xùn)練過程中的不確定性訓(xùn)練、測試損失。

將有限神經(jīng)網(wǎng)絡(luò)的集合訓(xùn)練和相同體系結(jié)構(gòu)的無限寬度神經(jīng)網(wǎng)絡(luò)集合進(jìn)行比較,研究人員發(fā)現(xiàn),使用無限寬模型的精確推理,與使用梯度下降訓(xùn)練整體模型的結(jié)果之間,具有良好的一致性。

這說明了無限寬神經(jīng)網(wǎng)絡(luò)捕捉訓(xùn)練動態(tài)的能力。

不僅如此,常規(guī)神經(jīng)網(wǎng)絡(luò)可以解決的問題,Neural Tangents 構(gòu)建的網(wǎng)絡(luò)亦不在話下。

研究人員在 CIFAR-10 數(shù)據(jù)集的圖像識別任務(wù)上比較了 3 種不同架構(gòu)的無限寬神經(jīng)網(wǎng)絡(luò)。

可以看到,無限寬網(wǎng)絡(luò)模擬有限神經(jīng)網(wǎng)絡(luò),遵循相似的性能層次結(jié)構(gòu),其全連接網(wǎng)絡(luò)的性能比卷積網(wǎng)絡(luò)差,而卷積網(wǎng)絡(luò)的性能又比寬殘余網(wǎng)絡(luò)差。

但是,與常規(guī)訓(xùn)練不同,這些模型的學(xué)習(xí)動力在封閉形式下是易于控制的,也就是說,可以用前所未有的視角去觀察其行為。

對于深入理解機(jī)器學(xué)習(xí)機(jī)制來說,該研究也提供了一種新思路。谷歌表示,這將有助于“打開機(jī)器學(xué)習(xí)的黑匣子”。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4777

    瀏覽量

    100984
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4813

    瀏覽量

    68847
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5511

    瀏覽量

    121362
收藏 人收藏

    評論

    相關(guān)推薦

    神經(jīng)網(wǎng)絡(luò)教程(李亞非)

    源程序  4.3 旅行商問題(TSP)的HNN求解  Hopfield模型求解TSP源程序  第5章 隨機(jī)型神經(jīng)網(wǎng)絡(luò)  5.1 模擬退火算法  5.2 Boltzmann機(jī)  Boltzmann機(jī)
    發(fā)表于 03-20 11:32

    非局部神經(jīng)網(wǎng)絡(luò),打造未來神經(jīng)網(wǎng)絡(luò)基本組件

    最高的精度。由此表明非局部模塊可以作為一種比較通用的基本組件,在設(shè)計深度神經(jīng)網(wǎng)絡(luò)時使用。實(shí)驗(yàn)及結(jié)果在這一節(jié)我們簡單介紹論文中描述的實(shí)驗(yàn)及結(jié)果。 視頻的基線模型是 ResNet-50 C2D。三維輸出映射
    發(fā)表于 11-12 14:52

    如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?

    原文鏈接:http://tecdat.cn/?p=5725 神經(jīng)網(wǎng)絡(luò)是一種基于現(xiàn)有數(shù)據(jù)創(chuàng)建預(yù)測的計算系統(tǒng)。如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)包括:輸入層:根據(jù)現(xiàn)有數(shù)據(jù)獲取輸入的層隱藏層:使用反向傳播優(yōu)化輸入變量權(quán)重的層,以提高
    發(fā)表于 07-12 08:02

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    的概率。Top-5 識別率指的是 CNN 模型預(yù)測出最大概率的前 5 個分 類里有正確類別的概率。2012 年,由 Alex Krizhevshy 提出的 AlexNet給卷 積神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 08-02 10:39

    神經(jīng)網(wǎng)絡(luò)模型原理

    神經(jīng)網(wǎng)絡(luò)模型原理介紹說明。
    發(fā)表于 04-21 09:40 ?7次下載

    卷積神經(jīng)網(wǎng)絡(luò)模型有哪些?卷積神經(jīng)網(wǎng)絡(luò)包括哪幾層內(nèi)容?

    卷積神經(jīng)網(wǎng)絡(luò)模型有哪些?卷積神經(jīng)網(wǎng)絡(luò)包括哪幾層內(nèi)容? 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是深度學(xué)習(xí)領(lǐng)域中最廣泛應(yīng)用的
    的頭像 發(fā)表于 08-21 16:41 ?1959次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)模型原理 卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)

    卷積神經(jīng)網(wǎng)絡(luò)模型原理 卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)? 卷積神經(jīng)網(wǎng)絡(luò)是一種深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),是在圖像、語音
    的頭像 發(fā)表于 08-21 16:41 ?1054次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)算法代碼matlab

    卷積神經(jīng)網(wǎng)絡(luò)算法代碼matlab 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種深度學(xué)習(xí)網(wǎng)絡(luò)模型,其
    的頭像 發(fā)表于 08-21 16:50 ?1233次閱讀

    常見的卷積神經(jīng)網(wǎng)絡(luò)模型 典型的卷積神經(jīng)網(wǎng)絡(luò)模型

    常見的卷積神經(jīng)網(wǎng)絡(luò)模型 典型的卷積神經(jīng)網(wǎng)絡(luò)模型 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是深度學(xué)習(xí)
    的頭像 發(fā)表于 08-21 17:11 ?2930次閱讀

    cnn卷積神經(jīng)網(wǎng)絡(luò)模型 卷積神經(jīng)網(wǎng)絡(luò)預(yù)測模型 生成卷積神經(jīng)網(wǎng)絡(luò)模型

    cnn卷積神經(jīng)網(wǎng)絡(luò)模型 卷積神經(jīng)網(wǎng)絡(luò)預(yù)測模型 生成卷積神經(jīng)網(wǎng)絡(luò)模型? 卷積
    的頭像 發(fā)表于 08-21 17:11 ?1272次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)模型搭建

    卷積神經(jīng)網(wǎng)絡(luò)模型搭建 卷積神經(jīng)網(wǎng)絡(luò)模型是一種深度學(xué)習(xí)算法。它已經(jīng)成為了計算機(jī)視覺和自然語言處理等各種領(lǐng)域的主流算法,具有很大的應(yīng)用前景。本篇文章將詳細(xì)介紹卷積
    的頭像 發(fā)表于 08-21 17:11 ?990次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)模型的優(yōu)缺點(diǎn)

    卷積神經(jīng)網(wǎng)絡(luò)模型的優(yōu)缺點(diǎn)? 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種從圖像、視頻、聲音和一系列多維信號中進(jìn)行學(xué)習(xí)的深度學(xué)習(xí)模型。它在計算機(jī)
    的頭像 發(fā)表于 08-21 17:15 ?4665次閱讀

    構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的常用方法 神經(jīng)網(wǎng)絡(luò)模型的常用算法介紹

    神經(jīng)網(wǎng)絡(luò)模型是一種通過模擬生物神經(jīng)元間相互作用的方式實(shí)現(xiàn)信息處理和學(xué)習(xí)的計算機(jī)模型。它能夠?qū)斎霐?shù)據(jù)進(jìn)行分類、回歸、預(yù)測和聚類等任務(wù),已經(jīng)廣泛應(yīng)用于計算機(jī)視覺、自然語言處理、語音處理等
    發(fā)表于 08-28 18:25 ?1051次閱讀

    rnn是什么神經(jīng)網(wǎng)絡(luò)模型

    RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))是一種具有循環(huán)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,它能夠處理序列數(shù)據(jù),并對序列中的元素進(jìn)行建模。RNN在自然語言處理、語音識別、時間序列預(yù)測等
    的頭像 發(fā)表于 07-05 09:50 ?673次閱讀

    神經(jīng)網(wǎng)絡(luò)預(yù)測模型的構(gòu)建方法

    神經(jīng)網(wǎng)絡(luò)模型作為一種強(qiáng)大的預(yù)測工具,廣泛應(yīng)用于各種領(lǐng)域,如金融、醫(yī)療、交通等。本文將詳細(xì)介紹神經(jīng)網(wǎng)絡(luò)預(yù)測模型的構(gòu)建方法,包括模型設(shè)計、數(shù)據(jù)集
    的頭像 發(fā)表于 07-05 17:41 ?748次閱讀