在谷歌最新的論文中,研究人員提出了“非政策強(qiáng)化學(xué)習(xí)”算法OPC,它是強(qiáng)化學(xué)習(xí)的一種變體,它能夠評估哪種機(jī)器學(xué)習(xí)模型將產(chǎn)生最好的結(jié)果。數(shù)據(jù)顯示,OPC比基線機(jī)器學(xué)習(xí)算法有著顯著的提高,更加穩(wěn)健可靠。
在谷歌AI研究團(tuán)隊(duì)一篇新發(fā)表的論文《通過非政策分類進(jìn)行非政策評估》(Off-PolicyEvaluation via Off-Policy Classification)和博客文章中,他們提出了所稱的“非政策分類”,即OPC(off-policy classification)。它能夠評估AI的表現(xiàn),通過將評估視為一個分類問題來驅(qū)動代理性能。
研究人員認(rèn)為他們的方法是強(qiáng)化學(xué)習(xí)的一種變體,它利用獎勵來推動軟件政策實(shí)現(xiàn)與圖像輸入?yún)f(xié)同工作這個目標(biāo),并擴(kuò)展到包括基于視覺的機(jī)器人抓取在內(nèi)的任務(wù)。
“完全脫離政策強(qiáng)化學(xué)習(xí)是一種變體。代理完全從舊數(shù)據(jù)中學(xué)習(xí),對于工程師來說這是很有吸引力的,因?yàn)樗梢栽诓恍枰锢頇C(jī)器人的情況下進(jìn)行模型迭代。”
Robotics at Google(專注機(jī)器學(xué)的的谷歌新團(tuán)隊(duì))的軟件工程師Alexa Irpan寫道,“完全脫離政策的RL,可以在先前代理收集的同一固定數(shù)據(jù)集上訓(xùn)練多個模型,然后選擇出最佳的那個模型?!?/p>
但是OPC并不像聽起來那么容易,正如Irpan在論文中所描述的,非政策性強(qiáng)化學(xué)習(xí)可以通過機(jī)器人進(jìn)行人工智能模型培訓(xùn),但不能進(jìn)行評估。并且在需要評估大量模型的方法中,地面實(shí)況評估通常效率太低。
OPC在假設(shè)任務(wù)狀態(tài)變化方面幾乎沒有隨機(jī)性,同時假設(shè)代理在實(shí)驗(yàn)結(jié)束時用“成功或失敗”來解決這個問題。兩個假設(shè)中第二個假設(shè)的二元性質(zhì),允許為每個操作分配兩個分類標(biāo)簽(“有效”表示成功或“災(zāi)難性”表示失?。?/p>
另外,OPC還依賴Q函數(shù)(通過Q學(xué)習(xí)算法學(xué)習(xí))來估計(jì)行為的未來總回報(bào)。代理商選擇具有最大預(yù)期回報(bào)的行動,其績效通過所選行動的有效頻率來衡量(這取決于Q函數(shù)如何正確地將行動分類為有效與災(zāi)難性),并以分類準(zhǔn)確性作為非政策評估分?jǐn)?shù)。
(左圖為基線,右圖為建議的方法之一,SoftOpC)
谷歌AI團(tuán)隊(duì)使用完全非策略強(qiáng)化學(xué)習(xí)對機(jī)器學(xué)習(xí)策略進(jìn)行了模擬培訓(xùn),然后使用從以前的實(shí)際數(shù)據(jù)中列出的非策略分?jǐn)?shù)對其進(jìn)行評估。
在機(jī)器人抓取任務(wù)時,他們報(bào)告OPC的一種變體SoftOPC在預(yù)測最終成功率方面表現(xiàn)最佳。假設(shè)有15種模型(其中7種純粹在模擬中訓(xùn)練)具有不同的穩(wěn)健性,SoftOPC產(chǎn)生的分?jǐn)?shù)與與真正的抓取成功密切相關(guān),并且相比于基線方法更加穩(wěn)定可靠。
在未來的研究中,研究人員打算用“噪聲”(noisier)和非二進(jìn)制動力學(xué)來探索機(jī)器學(xué)習(xí)任務(wù)?!拔覀冋J(rèn)為這個結(jié)果有希望應(yīng)用于許多現(xiàn)實(shí)世界的RL問題,”Irpan在論文結(jié)尾寫道。
-
谷歌
+關(guān)注
關(guān)注
27文章
6171瀏覽量
105504 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8423瀏覽量
132744
發(fā)布評論請先 登錄
相關(guān)推薦
評論