傳統(tǒng)機器學習正在凸顯它的不足。為了解決此問題,伯克利大學人工智能實驗室教授繼2017年提出元學習后,又提出在線元學習。不僅可以解決傳統(tǒng)學習的不足,同時也彌補了元學習缺乏持續(xù)學習的缺陷。
傳統(tǒng)的機器學習研究模式需要獲取特定任務的大型數(shù)據集,然后利用這個數(shù)據集從頭開始訓練模型。面對數(shù)據量不足的新任務時,這種方式顯然無法勝任。
如何使神經網絡不僅能夠從一個學習任務,概括到另一個學習任務?而且隨著時間的推移,不斷提高通用新任務的概括能力?
解決上述問題的新理論:在線元學習
最近,伯克利大學人工智能實驗室,Sergey Levine教授和同事切爾西·芬恩博士、領先的機器學習理論專家Sham Kakade及其學生、華盛頓大學的Aravind Rajeswaran,進行了一些非常有趣的工作。
Levine教授多年來一直致力于將機器人技術,更多地轉向一種綜合“學習”方法:即讓機器人或智能體,學會“學習”(Learning to learn),即“元學習”。
元學習中,神經網絡在某種意義上是對某些任務進行預先訓練的,然后允許它實現(xiàn)一種技能轉移,使用新的、不同于訓練好的數(shù)據進行測試。此舉的目標,是訓練計算機能夠處理前所未有的新任務。
要完成我們開頭描述的新挑戰(zhàn),需要將所需的數(shù)據量盡可能的減少,以應對神經網絡面臨的一些新任務,例如可能沒有大量可用的訓練數(shù)據,或者沒有大量已標記的訓練數(shù)據。
在arXiv的一篇“在線元學習”論文中,作者描述了實現(xiàn)的可能性。(鏈接地址在文末)。與在線元學習并行的是,計算機正在學習如何及時擴展其對實例的理解,從某種意義上提高其理解能力。
此項研究已經與Levine的其他工作相呼應,例如哪些更接近機器人技術本身的成果。
了解在線元學習
在線元學習的誕生之前,Levine和他的團隊在2017年開發(fā)了一個廣泛的系統(tǒng),稱為“模型無關的元學習(MAML)”。
這種方法可以匹配任何使用梯度下降算法訓練的模型,并能應用于各種不同的學習問題,如分類、回歸和強化學習等。
但MAML有一個弱點:它的概括能力在初始預訓練后基本停止,隨著時間的推移,失去了適應能力。
為了解決這個問題,作者借鑒了另一條長長的研究線索:在線學習。
在線學習中,神經網絡通過比較每個新任務的參數(shù)中,不同的可能設置之間的差別,來進行不斷優(yōu)化。
該神經網絡尋求以這種方式找到其參數(shù)的解決方案,將任務的實際性能與最佳性能之間的差異,即最小化“regret”。
作者提出了“follow the meta-leader”算法,這是一個將“元學習”這個術語與最成功的“在線學習”算法相結合的詞匯。
值得一提的是,“follow the leader”的,最早是在20世紀50年代,Jim Hannan為博弈論領域。
智能體被賦予一系列任務,這些任務在一輪又一輪不斷的進行。例如經典MNIST數(shù)據集中的數(shù)字圖像,或者對場景中的對象執(zhí)行“姿勢預測”,或對物體進行分類。
每輪結束之后,智能體試圖通過fine-tune,使得其隨時間發(fā)展的權重或參數(shù),達成regret最小化的目的。
而所有這一切都通過經典的神經網絡優(yōu)化方法,隨機梯度下降來實現(xiàn)。作者將這些任務與先前的方法相比后,展示了了一些令人印象深刻的基準測試結果。
在線元學習的缺陷
論文最后得出的觀點是:這種方法在某種意義上說,是站在一種更偏自然過程的角度,來實現(xiàn)理想的現(xiàn)實世界學習過程,因為它包含“與不斷變化的環(huán)境相互作用的智能體”。
正如作者提到,這個事實“應該利用流算法的經驗來掌握手頭的任務,并且在未來學習新任務時變得更加熟練?!?/p>
但是,萬事都不是完美的。在線元學習也有一些弱項,算力就是一個非常典型的例子。
將來需要進行一些改進以維護過去任務的數(shù)據,從而得出一些使用“更便宜算力”的算法。
可擴展性也是一個非常大的問題。作者說雖然這種方法可以有效地按順序,學習近100項任務而不會對計算或內存造成重大負擔,但可擴展性仍然是一個問題。
-
神經網絡
+關注
關注
42文章
4771瀏覽量
100778 -
機器學習
+關注
關注
66文章
8418瀏覽量
132655
原文標題:在線元學習:通過持續(xù)元學習解決傳統(tǒng)機器學習方式的致命不足
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論