最近神經(jīng)網(wǎng)絡(luò)的成功不斷擴展著模型的架構(gòu),并促成了架構(gòu)搜索的出現(xiàn),即神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)架構(gòu)。架構(gòu)搜索的傳統(tǒng)方法是神經(jīng)演化,如今,硬件的發(fā)展能實現(xiàn)大規(guī)模的演變,生成可以與手工設(shè)計相媲美的圖像分類模型。但是,新的技術(shù)雖然可行,卻無法讓開發(fā)者決定在具體的環(huán)境下(即搜索空間和數(shù)據(jù)集)使用哪種方法。
在本篇論文中,研究人員使用流行的異步進(jìn)化算法(asynchronous evolutionary algorithm)的正則化版本,并將其與非正則化的形式以及強化學(xué)習(xí)方法進(jìn)行比較。硬件條件、計算能力和神經(jīng)網(wǎng)絡(luò)訓(xùn)練代碼都相同,在這之中研究人員探索在不同的數(shù)據(jù)集、搜索空間和規(guī)模下模型的表現(xiàn)情況。以下是論智對論文的編譯總結(jié)。
實驗方法
我們使用不同的算法搜索神經(jīng)網(wǎng)絡(luò)分類器的空間,進(jìn)行基線研究后,所得到的最好的模型將被擴大尺寸,以生產(chǎn)更高質(zhì)量的圖像分類器。我們在不同的計算規(guī)模上執(zhí)行搜索過程。另外,我們還研究了非神經(jīng)網(wǎng)絡(luò)模擬中的進(jìn)化算法。
1.搜索空間
所有神經(jīng)進(jìn)化和強化學(xué)習(xí)實驗都使用基線研究的搜索空間設(shè)計,它需要尋找兩個類似于Inception的模塊體系結(jié)構(gòu),這兩個結(jié)構(gòu)在前饋模式中堆疊以形成圖像分類器。
2.架構(gòu)搜索算法
對于進(jìn)化算法,我們使用聯(lián)賽選擇算法(tournament selection)或正則化的變體。標(biāo)準(zhǔn)的聯(lián)賽選擇算法是對訓(xùn)練模型P的數(shù)量進(jìn)行周期化的改進(jìn)。在每個循環(huán)中,隨機選擇一個S模型的樣本。樣本的最佳模型將生成具有變化架構(gòu)的另一模型,它將被訓(xùn)練然后添加到模型樣本中。最差的模型將被刪除。我們將這種方法稱為非正則進(jìn)化(NRE)。它的變體,正則化進(jìn)化(RE)則是一種自然的修正:無需刪除樣本中最差的模型,而是刪除樣本中最老的模型(即第一個被訓(xùn)練的模型)。在NRE和RE中,樣本初始化的架構(gòu)都是隨機的。
3.實驗設(shè)置
為了對比進(jìn)化算法和強化學(xué)習(xí)算法,我們將在不同的計算規(guī)模上進(jìn)行實驗。
小規(guī)模試驗
首先進(jìn)行的實驗可以在CPU上進(jìn)行,我們部署了SP-I、SP-II和SP-III三種搜索空間,利用G-CIFAR、MNIST或者G-ImageNet數(shù)據(jù)集進(jìn)行實驗。
大規(guī)模實驗
然后再部署基線研究的設(shè)置。這里僅用SP-I搜索空間和CIFAR-10數(shù)據(jù)集,兩種模型各在450個GPU上訓(xùn)練將近7天。
4.模型擴展
我們要將進(jìn)化算法或強化學(xué)習(xí)發(fā)現(xiàn)的架構(gòu)轉(zhuǎn)化為全尺寸、精確的模型。擴展后的模型將在CIFAR-10或ImageNet上進(jìn)行訓(xùn)練,程序與基線研究的相同。
實驗結(jié)果
正則化與非正則化進(jìn)化的對比。(a)表示在G-CIFAR數(shù)據(jù)集上非正則化進(jìn)化和正則化進(jìn)化用不同的元參數(shù)進(jìn)行的小規(guī)模實驗結(jié)果對比。P代表樣本數(shù)量,S代表樣本大小。(b)表示NRE和RE在五種不同情況下的表現(xiàn),從左至右分別為:G-CIFAR/SP-I、G-CIFAR/SP-II、G-CIFAR/SP-III、MNIST/SP-I和G-ImageNet/SP-I。(c)表示模擬結(jié)果,豎軸表示模擬的精確度,橫軸表示問題的維度。(d)表示在CIFAR-10上進(jìn)行的三次大規(guī)模試驗。
接著,我們在不同的情況下對強化學(xué)習(xí)和進(jìn)化算法進(jìn)行了小規(guī)模實驗,結(jié)果如下:
(a)顯示了在G-CIFAR上對超參數(shù)進(jìn)行優(yōu)化的實驗總結(jié),豎軸表示實驗中前100名的模型的平均有效精度。結(jié)果表明所所有方法都不夠敏感。(b)同樣是在模型五種不同情況下的表現(xiàn):G-CIFAR/SP-I、G-CIFAR/SP-II、G-CIFAR/SP-III、MNIST/SP-I和G-ImageNet/SP-I。(c)和(d)表示模型分別在G-CIFAR/SP-II和G-CIFAR/SP-III上的表現(xiàn)細(xì)節(jié),橫軸表示模型的數(shù)量。(e)表示在資源有限的情況下,可能需要盡早停止實驗。說明了在初始狀態(tài)下,進(jìn)化算法的精確度比強化學(xué)習(xí)增長得快得多。(f)和(g)分別是SP-I和SP-III最頂尖的架構(gòu)。
比較完小規(guī)模實驗,接著進(jìn)行的是大規(guī)模實驗。結(jié)果如下圖所示,黃色代表進(jìn)化算法,藍(lán)色代表強化學(xué)習(xí):
除了(d)圖,所有橫軸均表示模型的數(shù)量(m)。(a)、(b)、(c)三圖分別展示了三種算法在五次相同實驗的情況,進(jìn)化算法和強化學(xué)習(xí)實驗使用了最佳元參數(shù)。
經(jīng)過進(jìn)化實驗,我們確定了最佳模型并將其命名為AmoebaNet-A。通過調(diào)整N和F,我們可以降低測試錯誤率,如表1所示:
表1
在相同的實驗條件下,基線研究得到了NASNet-A。表2顯示,在CIFAR-10數(shù)據(jù)集中,AmoebaNet-A在匹配參數(shù)時錯誤率較低,在匹配錯誤時,參數(shù)較少。同時在ImageNet上的表現(xiàn)也是目前最好的。
表2
最后我們對比了手動設(shè)計、其他架構(gòu)以及我們模型的性能對比,準(zhǔn)確率均高于其他兩種。
表3
結(jié)語
大規(guī)模的實驗過程圖表明,強化學(xué)習(xí)和進(jìn)化算法都接近一般精度漸近線,所以我們需要關(guān)注的是哪個算法更快到達(dá)。圖中顯示強化學(xué)習(xí)要用兩倍的時間到達(dá)最高精度的一半,換句話說,進(jìn)化算法的速度大約比強化學(xué)習(xí)快一倍。但是我們忽略了進(jìn)一步量化這一效果。另外,搜索空間的大小還需進(jìn)一步評估。大空間所需專業(yè)資源較少,而小空間能更快更好地獲得結(jié)果。因此,在較小空間中很難區(qū)分哪種搜索算法更好。
不過,這一研究僅僅是在特定環(huán)境下分析進(jìn)化算法和強化學(xué)習(xí)之間關(guān)系的第一個實證研究,我們希望今后的工作能進(jìn)一步總結(jié)二者,闡釋兩種方法的優(yōu)點。
-
進(jìn)化算法
+關(guān)注
關(guān)注
0文章
10瀏覽量
7408 -
強化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
266瀏覽量
11256
原文標(biāo)題:圖像分類器結(jié)構(gòu)搜索的正則化異步進(jìn)化方法
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論