ICLR 2019今天在官網(wǎng)公布了最佳論文獎(jiǎng)!兩篇最佳論文分別來自Mila/加拿大蒙特利爾大學(xué)、微軟蒙特利爾研究院和MIT CSAIL,主題分別集中在NLP深度學(xué)習(xí)模型和神經(jīng)網(wǎng)絡(luò)壓縮。
今天,ICLR 2019在官網(wǎng)公布了最佳論文獎(jiǎng)!
兩篇最佳論文分別來自Mila/加拿大蒙特利爾大學(xué)、微軟蒙特利爾研究院和MITCSAIL,主題分別集中在NLP深度學(xué)習(xí)模型和神經(jīng)網(wǎng)絡(luò)壓縮。
ICLR 是深度學(xué)習(xí)領(lǐng)域的頂級(jí)會(huì)議,素有深度學(xué)習(xí)頂會(huì) “無冕之王” 之稱。今年的 ICLR 大會(huì)從5月6日到5月9日在美國(guó)新奧爾良市舉行。
今年 ICLR 共接收 1578 篇投稿,相較去年 981 篇有了很大的增加,錄用結(jié)果如下:1.5% 錄用為 oral 論文(24 篇)、30.2% 錄用為 poster 論文(476 篇),58% 論文被拒(918 篇)、610% 撤回(160 篇)。
與往年一樣,ICLR 2019采用公開評(píng)審制度,所有論文會(huì)匿名公開在 open review 網(wǎng)站上,接受同行們的匿名評(píng)分和提問。
今年論文平均打分是 5.15
關(guān)鍵詞排序前 50
接下來,新智元帶來兩篇最佳論文的解讀:
最佳論文1:有序神經(jīng)元:將樹結(jié)構(gòu)集成到循環(huán)神經(jīng)網(wǎng)絡(luò)
標(biāo)題:Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks
《有序神經(jīng)元:將樹結(jié)構(gòu)集成到循環(huán)神經(jīng)網(wǎng)絡(luò)》
作者:Yikang Shen,Shawn Tan,Alessandro Sordoni,Aaron Courville
作者機(jī)構(gòu):Mila/加拿大蒙特利爾大學(xué)、微軟蒙特利爾研究院
論文地址:https://openreview.net/forum?id=B1l6qiR5F7
摘要:
自然語言是一種分層結(jié)構(gòu):較小的單元(例如短語)嵌套在較大的單元(例如子句)中。當(dāng)較大的成分結(jié)束時(shí),嵌套在其中的所有較小單元也必須結(jié)束。雖然標(biāo)準(zhǔn)的LSTM架構(gòu)允許不同的神經(jīng)元在不同的時(shí)間尺度上跟蹤信息,但它并沒有明確地偏向于對(duì)成分層次結(jié)構(gòu)建模。
本文提出通過對(duì)神經(jīng)元進(jìn)行排序來增加這種歸納偏差;一個(gè)主輸入和遺忘門的向量確保當(dāng)一個(gè)給定的神經(jīng)元被更新時(shí),按照順序跟隨它的所有神經(jīng)元也被更新。所提出的新循環(huán)結(jié)構(gòu)稱為有序神經(jīng)元LSTM (ordered neurons LSTM, ON-LSTM),在語言建模、無監(jiān)督句法分析、目標(biāo)語法評(píng)估和邏輯推理四個(gè)不同的任務(wù)上都取得了良好的性能。
關(guān)鍵詞:深度學(xué)習(xí),自然語言處理,遞歸神經(jīng)網(wǎng)絡(luò),語言建模
一句話概括:本文提出一種新的歸納偏置,將樹結(jié)構(gòu)集成到循環(huán)神經(jīng)網(wǎng)絡(luò)中。
從實(shí)用的角度看,將樹結(jié)構(gòu)集成到神經(jīng)網(wǎng)絡(luò)語言模型中有以下幾個(gè)重要原因:
深度神經(jīng)網(wǎng)絡(luò)的一個(gè)關(guān)鍵特征是獲得抽象層次不斷增加的分層表示;
建模語言的組成效應(yīng),并為梯度反向傳播提供快捷方式,以幫助解決長(zhǎng)期依賴問題;
通過更好的歸納偏置改進(jìn)泛化,同時(shí)能夠減少對(duì)大量訓(xùn)練數(shù)據(jù)的需求。
圖1:由模型推斷的二進(jìn)制解析樹(左)及其對(duì)應(yīng)的round-truth(右)。
問題是:具有對(duì)學(xué)習(xí)這種潛在樹結(jié)構(gòu)的歸納偏置的架構(gòu)能否獲得更好的語言模型?
在這篇論文中,我們提出有序神經(jīng)元(ordered neurons),這是一種面向循環(huán)神經(jīng)網(wǎng)絡(luò)的新型歸納偏置。這種歸納偏置增強(qiáng)了存儲(chǔ)在每個(gè)神經(jīng)元中的信息的生命周期的分化:高級(jí)神經(jīng)元存儲(chǔ)長(zhǎng)期信息,這些信息通過大量步驟保存,而低級(jí)神經(jīng)元存儲(chǔ)短期信息,這些信息可以很快被遺忘。
為了避免高級(jí)和低級(jí)神經(jīng)元之間的固定劃分,我們提出一種新的激活函數(shù)——cumulative softmax,或稱為cumax(),用于主動(dòng)分配神經(jīng)元來存儲(chǔ)長(zhǎng)/短期信息。
基于cumax()和LSTM架構(gòu),我們?cè)O(shè)計(jì)了一個(gè)新的模型ON-LSTM,該模型偏向于執(zhí)行類似樹的組合操作。
ON-LSTM模型在語言建模、無監(jiān)督成分句法分析、目標(biāo)句法評(píng)估和邏輯推理四項(xiàng)任務(wù)上都取得了良好的性能。對(duì)無監(jiān)督成分句法分析的結(jié)果表明,所提出的歸納偏置比以前模型更符合人類專家提出的語法原則。實(shí)驗(yàn)還表明,在需要捕獲長(zhǎng)期依賴關(guān)系的任務(wù)中,ON-LSTM模型的性能優(yōu)于標(biāo)準(zhǔn)LSTM模型。
有序神經(jīng)元
圖2:一個(gè)成分解析樹和ON-LSTM的隱藏狀態(tài)之間的對(duì)應(yīng)關(guān)系
ON-LSTM
ON-LSTM模型與標(biāo)準(zhǔn)LSTM的架構(gòu)類似:
與LSTM的不同之處在于,這里用了一個(gè)新函數(shù)替換cell state的?update?函數(shù)。
實(shí)驗(yàn)
語言建模
表1:Penn Treebank語言建模任務(wù)驗(yàn)證集和測(cè)試集上的單模型困惑度。
如表1所示,ON-LSTM模型在共享相同的層數(shù)、嵌入維數(shù)和隱藏狀態(tài)單元的情況下,比標(biāo)準(zhǔn)的LSTM性能更好。值得注意的是,我們可以在不添加skip connection或顯著增加參數(shù)數(shù)量的情況下提高LSTM模型的性能。
無監(jiān)督成分句法分析(ConstituencyParsing)
表2:在full WSJ10和WSJ test兩個(gè)數(shù)據(jù)集上評(píng)估的成分句法分析結(jié)果
目標(biāo)句法評(píng)估
表3:ON-LSTM和LSTM在每個(gè)測(cè)試用例中的總體精度
表3顯示,ON-LSTM在長(zhǎng)期依賴情況下表現(xiàn)更好,而基線LSTM在短期依賴情況下表現(xiàn)更好。不過,ON-LSTM在驗(yàn)證集上實(shí)現(xiàn)了更好的困惑度。
邏輯推理
圖3:模型的測(cè)試準(zhǔn)確性,在邏輯數(shù)據(jù)的短序列(≤6)上訓(xùn)練。
圖3顯示了ON-LSTM和標(biāo)準(zhǔn)LSTM在邏輯推理任務(wù)上的性能。
最佳論文2:彩票假設(shè)
標(biāo)題:The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks
《彩票假設(shè):尋找稀疏的、可訓(xùn)練的神經(jīng)網(wǎng)絡(luò)》
作者:Jonathan Frankle,Michael Carbin
作者機(jī)構(gòu):MIT CSAIL
論文地址:https://openreview.net/forum?id=rJl-b3RcF7
摘要:
神經(jīng)網(wǎng)絡(luò)剪枝技術(shù)可以在不影響精度的前提下,將訓(xùn)練網(wǎng)絡(luò)的參數(shù)數(shù)量減少90%以上,降低存儲(chǔ)需求并提高推理的計(jì)算性能。然而,當(dāng)前的經(jīng)驗(yàn)是,剪枝產(chǎn)生的稀疏架構(gòu)從一開始就很難訓(xùn)練,這同樣可以提高訓(xùn)練性能。
我們發(fā)現(xiàn),一種標(biāo)準(zhǔn)的剪枝技術(shù)可以自然地揭示子網(wǎng)絡(luò),這些子網(wǎng)絡(luò)的初始化使它們能夠有效地進(jìn)行訓(xùn)練。基于這些結(jié)果,我們提出了“彩票假設(shè)”(lottery ticket hypothesis):包含子網(wǎng)絡(luò)(“中獎(jiǎng)彩票”,winning tickets)的密集、隨機(jī)初始化的前饋網(wǎng)絡(luò),這些子網(wǎng)絡(luò)在單獨(dú)訓(xùn)練時(shí),經(jīng)過類似次數(shù)的迭代達(dá)到與原始網(wǎng)絡(luò)相當(dāng)?shù)臏y(cè)試精度。我們找到的“中獎(jiǎng)彩票”中了初始化彩票:它們的連接具有初始權(quán)重,這使得訓(xùn)練特別有效。
我們提出一個(gè)算法來確定中獎(jiǎng)彩票,并激進(jìn)型了一系列實(shí)驗(yàn)來支持彩票假說以及這些偶然初始化的重要性。我們發(fā)現(xiàn),MNIST和CIFAR10的中獎(jiǎng)彩票的規(guī)模始終比幾個(gè)全連接架構(gòu)和卷積前饋架構(gòu)小10-20%。超過這個(gè)規(guī)模的話,我們發(fā)現(xiàn)中獎(jiǎng)彩票比原來的網(wǎng)絡(luò)學(xué)習(xí)速度更快,達(dá)到了更高的測(cè)試精度。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò),稀疏性,剪枝,壓縮,性能,架構(gòu)搜索
一句話概括:可以在訓(xùn)練后剪枝權(quán)重的前饋神經(jīng)網(wǎng)絡(luò),也可以在訓(xùn)練前剪枝相同的權(quán)重。
本文證明了,始終存在較小的子網(wǎng)絡(luò),它們從一開始就進(jìn)行訓(xùn)練,學(xué)習(xí)速度至少與較大的子網(wǎng)絡(luò)一樣快,同時(shí)能達(dá)到類似的測(cè)試精度。
圖1:早期停止發(fā)生的迭代(左邊)和用于MNIST的Lenet架構(gòu)以及用于CIFAR10的conv2、conv4和conv6架構(gòu)的迭代(右邊)的測(cè)試精度。虛線是隨機(jī)抽樣的稀疏網(wǎng)絡(luò)。實(shí)線是中獎(jiǎng)彩票。
圖1中的實(shí)線顯示了我們找到的網(wǎng)絡(luò),即winning tickets。
論文提出了幾個(gè)新概念,首先是“彩票假設(shè)”(The Lottery Ticket Hypothesis)。
彩票假設(shè):將一個(gè)復(fù)雜網(wǎng)絡(luò)的所有參數(shù)當(dāng)作一個(gè)獎(jiǎng)池,獎(jiǎng)池中存在一組子參數(shù)所對(duì)應(yīng)的子網(wǎng)絡(luò)(代表中獎(jiǎng)號(hào)碼,文中的wining ticket),單獨(dú)訓(xùn)練該子網(wǎng)絡(luò),可以達(dá)到原始網(wǎng)絡(luò)的測(cè)試精度。
那么怎樣找到中獎(jiǎng)彩票呢?
確定中獎(jiǎng)彩票:通過訓(xùn)練一個(gè)網(wǎng)絡(luò)并修剪它的最小量級(jí)權(quán)重來確定中獎(jiǎng)彩票。其余未修剪的連接構(gòu)成了中獎(jiǎng)彩票的架構(gòu)。
具體來說,有以下4步:
隨機(jī)初始化一個(gè)復(fù)雜神經(jīng)網(wǎng)絡(luò)
訓(xùn)練復(fù)雜網(wǎng)絡(luò)j次,得到網(wǎng)絡(luò)參數(shù)
對(duì)模型按p%進(jìn)行修剪,得到一個(gè)mask m;將
對(duì)留下來的模型,重新用
圖2:本文測(cè)試的架構(gòu)
本文的貢獻(xiàn)
我們證明剪枝可以揭示可訓(xùn)練的子網(wǎng)絡(luò),這些子網(wǎng)絡(luò)達(dá)到了與原始網(wǎng)絡(luò)相當(dāng)?shù)臏y(cè)試精度;
我們證明剪枝發(fā)現(xiàn)的中獎(jiǎng)彩票比原始網(wǎng)絡(luò)學(xué)習(xí)更快,同時(shí)具有更高的測(cè)試精度和更好的泛化能力。
我們提出“彩票假設(shè)”,作為神經(jīng)網(wǎng)絡(luò)組成的新視角,可以解釋這些發(fā)現(xiàn)。
應(yīng)用
本文對(duì)彩票假設(shè)進(jìn)行了實(shí)證研究。既然我們已經(jīng)證明了中獎(jiǎng)彩票的存在,我們希望利用這一知識(shí):
提高訓(xùn)練性能。由于中獎(jiǎng)彩票可以從一開始就單獨(dú)進(jìn)行訓(xùn)練,我們希望能夠設(shè)計(jì)出能夠搜索中獎(jiǎng)彩票并盡早進(jìn)行修剪的訓(xùn)練方案。
設(shè)計(jì)更好的網(wǎng)絡(luò)。中獎(jiǎng)彩票揭示了稀疏架構(gòu)和特別擅長(zhǎng)學(xué)習(xí)的初始化的組合。我們可以從中獲得靈感,設(shè)計(jì)有助于學(xué)習(xí)的新架構(gòu)和初始化方案。我們甚至可以把為一項(xiàng)任務(wù)發(fā)現(xiàn)的中獎(jiǎng)彩票遷移到更多其他任務(wù)。
提高對(duì)神經(jīng)網(wǎng)絡(luò)的理論理解。我們可以研究為什么隨機(jī)初始化的前饋網(wǎng)絡(luò)似乎包含中獎(jiǎng)彩票,以及增加對(duì)優(yōu)化和泛化的理論理解。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4799瀏覽量
102497 -
論文
+關(guān)注
關(guān)注
1文章
103瀏覽量
15106 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5550瀏覽量
122378
原文標(biāo)題:ICLR 2019最佳論文揭曉!NLP深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)壓縮成焦點(diǎn)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
華為榮獲最佳核心網(wǎng)產(chǎn)品解決方案獎(jiǎng)
南芯科技再獲vivo 2024“優(yōu)秀質(zhì)量獎(jiǎng)”與“最佳交付獎(jiǎng)”雙殊榮

天馬榮獲vivo 2024年度“優(yōu)秀質(zhì)量獎(jiǎng)”和“最佳交付獎(jiǎng)”
Bourns榮獲2024亞洲金選獎(jiǎng)最佳分立器件獎(jiǎng)
摩爾斯微電子榮獲2024年WBA行業(yè)大獎(jiǎng)最佳Wi-Fi創(chuàng)新獎(jiǎng)等多項(xiàng)殊榮
華銳捷榮獲第六屆金輯獎(jiǎng)“最佳技術(shù)實(shí)踐應(yīng)用獎(jiǎng)”
安富利榮獲第六屆金輯獎(jiǎng)“最佳技術(shù)實(shí)踐應(yīng)用獎(jiǎng)”
類比半導(dǎo)體榮獲第六屆金輯獎(jiǎng)“最佳技術(shù)實(shí)踐應(yīng)用獎(jiǎng)”
賽卓電子榮獲2024金輯獎(jiǎng)——最佳技術(shù)實(shí)踐應(yīng)用獎(jiǎng)

愛芯元速榮膺最佳技術(shù)實(shí)踐應(yīng)用獎(jiǎng)
安波福蘇州榮獲“2024大蘇州最佳雇主”及“2024最佳HR團(tuán)隊(duì)獎(jiǎng)”
2024年上海海思MCU開發(fā)者體驗(yàn)官招募,手機(jī)/MatePad大獎(jiǎng)等你拿!
中科馭數(shù)聯(lián)合處理器芯片全國(guó)重點(diǎn)實(shí)驗(yàn)室獲得“CCF芯片大會(huì)最佳論文獎(jiǎng)”
南芯科技榮獲OPPO 2024 年度“最佳交付獎(jiǎng)”和“優(yōu)秀質(zhì)量獎(jiǎng)”
第七屆“紅光獎(jiǎng)”揭曉|度亙核芯榮獲“最佳成長(zhǎng)性企業(yè)獎(jiǎng)”!

評(píng)論