自動(dòng)駕駛車輛采用神經(jīng)網(wǎng)絡(luò)來(lái)執(zhí)行許多駕駛?cè)蝿?wù),從檢測(cè)物體和預(yù)測(cè)其他人的行為方式,到規(guī)劃汽車的下一步動(dòng)作。一般情況下,訓(xùn)練單獨(dú)的神經(jīng)網(wǎng)絡(luò)需要數(shù)周的微調(diào)和實(shí)驗(yàn),以及大量的算力。現(xiàn)在,Waymo與DeepMind的研究合作,從達(dá)爾文對(duì)進(jìn)化論中汲取靈感,使這項(xiàng)訓(xùn)練更加有效和高效。
神經(jīng)網(wǎng)絡(luò)的性能受訓(xùn)練方案的影響非常大,主要思路就是找到最優(yōu)學(xué)習(xí)率、讓神經(jīng)網(wǎng)絡(luò)在每次迭代后變得更好,但性能波動(dòng)不需要太大。
尋找最佳訓(xùn)練方案(或“超參數(shù)方案”)通常是通過(guò)工程師的經(jīng)驗(yàn)和直覺(jué),或通過(guò)廣泛的搜索來(lái)實(shí)現(xiàn)的。在隨機(jī)搜索中,研究人員在多種類型的超參數(shù)上應(yīng)用了許多隨機(jī)超參數(shù)調(diào)度,以便獨(dú)立地并行地訓(xùn)練不同的網(wǎng)絡(luò) ,然后可以選擇性能最佳的模型。
因?yàn)椴⑿杏?xùn)練大量模型在計(jì)算上是昂貴的,所以研究人員通常通過(guò)在訓(xùn)練期間監(jiān)視網(wǎng)絡(luò),手動(dòng)調(diào)整隨機(jī)搜索,定期剔除最弱表現(xiàn)的運(yùn)算并釋放資源,以從頭開始用新的隨機(jī)超參數(shù)訓(xùn)練新網(wǎng)絡(luò)。這種類型的手動(dòng)調(diào)整可以更快地產(chǎn)生更好的結(jié)果,但這是非常耗費(fèi)人力的。
為了提高這一過(guò)程的效率,DeepMind 的研究人員設(shè)計(jì)了一種基于進(jìn)化競(jìng)爭(zhēng)(PBT)自動(dòng)確定良好超參數(shù)調(diào)度的方法,該方案結(jié)合了手動(dòng)調(diào)整和隨機(jī)搜索的優(yōu)點(diǎn)。
基于PBT模型如何運(yùn)作:
PBT的工作原理是同時(shí)啟動(dòng)許多超參數(shù)搜索,并定期進(jìn)行“競(jìng)爭(zhēng)”以比較模型的性能。從訓(xùn)練池中刪除失敗的模型,并且僅使用獲勝模型繼續(xù)訓(xùn)練,使用稍微突變的超參數(shù)更新。
PBT比研究人員采用的傳統(tǒng)方法更有效,例如隨機(jī)搜索,因?yàn)槊總€(gè)新的神經(jīng)網(wǎng)絡(luò)都繼承了其父網(wǎng)絡(luò)的完整狀態(tài),并且不需要從一開始就重新開始訓(xùn)練。此外,超參數(shù)不是靜態(tài)的,而是在整個(gè)培訓(xùn)過(guò)程中積極更新。與隨機(jī)搜索相比,PBT將更多的資源培訓(xùn)用于成功的超參數(shù)值。
實(shí)驗(yàn)取得了不錯(cuò)的進(jìn)展,PBT算法不僅實(shí)現(xiàn)了更高的精度,并且減少24%的誤報(bào)、保持了較高的召回率。
同時(shí),PBT還節(jié)省了時(shí)間和資源。通過(guò)PBT訓(xùn)練的網(wǎng)絡(luò),時(shí)間和資源只有原來(lái)的一半。24%的誤報(bào),同時(shí)也能保持較高的召回率。此外,PBT所需的訓(xùn)練時(shí)間和計(jì)算資源僅為原來(lái)的一半。
現(xiàn)在,Waymo 已將 PBT 納入了技術(shù)基礎(chǔ)設(shè)施中,研究人員點(diǎn)點(diǎn)按鈕就能應(yīng)用該算法,DeepMind 每隔 15 分鐘就會(huì)對(duì)模型進(jìn)行一次評(píng)估,以讓測(cè)試結(jié)果更準(zhǔn)確。
這是Waymo第一次曝光的與DeepMind在網(wǎng)絡(luò)上的合作,然而這種異步優(yōu)化的PBT方法其實(shí)早就出現(xiàn)了。
它在Multi-Agent或者并行訓(xùn)練中被提到過(guò),甚至在DeepMind 星際爭(zhēng)霸II里的AlphaStar中都使用了該方法。主要用來(lái)自適應(yīng)調(diào)節(jié)超參數(shù)。打破了通常的深度學(xué)習(xí),超參數(shù)都是憑經(jīng)驗(yàn)預(yù)先設(shè)計(jì)好的,會(huì)花費(fèi)大量精力且不一定有好的效果,特別是在深度強(qiáng)化學(xué)習(xí)這種非靜態(tài)(non-stationary)的環(huán)境中,要想得到SOTA效果,超參數(shù)還應(yīng)隨著環(huán)境變化而自適應(yīng)調(diào)整,比如探索率等等。這種基于種群(population)的進(jìn)化方式,淘汰差的模型,利用(exploit)好的模型并添加隨機(jī)擾動(dòng)(explore)進(jìn)一步優(yōu)化,最終得到最優(yōu)的模型。
有學(xué)者曾分別從強(qiáng)化學(xué)習(xí),監(jiān)督學(xué)習(xí),GAN三個(gè)方面做實(shí)驗(yàn),論證了這個(gè)簡(jiǎn)單但有效的算法。
與其他領(lǐng)域不同的是,自動(dòng)駕駛會(huì)涉及人身安全,所以應(yīng)用起來(lái)不像博弈游戲一樣隨便,通過(guò)競(jìng)爭(zhēng)篩選模型是一個(gè)優(yōu)勢(shì),但同樣也可能是個(gè)劣勢(shì),需要提供足夠的種群才能讓篩選出的網(wǎng)絡(luò)結(jié)構(gòu)變得意義。
-
傳感器
+關(guān)注
關(guān)注
2552文章
51228瀏覽量
754676 -
DeepMind
+關(guān)注
關(guān)注
0文章
130瀏覽量
10882 -
waymo
+關(guān)注
關(guān)注
2文章
312瀏覽量
24691
原文標(biāo)題:Waymo無(wú)人車啟用 DeepMind 異步優(yōu)化方法,提高傳感器識(shí)別效率
文章出處:【微信號(hào):IV_Technology,微信公眾號(hào):智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論