進(jìn)入到2021年,AI領(lǐng)域的你最應(yīng)該學(xué)的是什么?我覺得是強(qiáng)化學(xué)習(xí)。
為什么這么說?首先要知道什么是強(qiáng)化學(xué)習(xí)。 強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種,是一種行為學(xué)習(xí)模型。由算法提供數(shù)據(jù)分析反饋,引導(dǎo)用戶逐步獲取最佳結(jié)果。主要解決在 Markov Decision Process(MDP) 中優(yōu)化長(zhǎng)期reward的期望的問題。 強(qiáng)化學(xué)習(xí)也是現(xiàn)在非常熱門的方向,在近幾年的所有頂級(jí)計(jì)算機(jī)會(huì)議中,強(qiáng)化學(xué)習(xí)都有明顯的增長(zhǎng)趨勢(shì)。 比如在ICML 2020 熱門話題引用量最高的論文就是強(qiáng)化學(xué)習(xí)!
同時(shí)在12月30剛結(jié)束的首屆谷歌足球Kaggle競(jìng)賽中,使用了深度強(qiáng)化學(xué)習(xí)的騰訊AI足球隊(duì)—絕悟(WeKick),也以顯著優(yōu)勢(shì)奪得冠軍!
不僅如此,工業(yè)界中,已經(jīng)有很多將強(qiáng)化學(xué)習(xí)應(yīng)用于推薦系統(tǒng)的研究,也有一些自動(dòng)駕駛公司在嘗試使用強(qiáng)化學(xué)習(xí)的技術(shù)。 在學(xué)術(shù)界中,除了強(qiáng)化學(xué)習(xí)本身關(guān)注的問題以外,也有一些NLP的問題可以利用強(qiáng)化學(xué)習(xí)來解決。 學(xué)習(xí)強(qiáng)化學(xué)習(xí),想要發(fā)表論文和落地應(yīng)用,就一定要理解并掌強(qiáng)化學(xué)習(xí)領(lǐng)域的經(jīng)典Paper,才能梳理出主要的知識(shí)框架。
責(zé)任編輯:xj
原文標(biāo)題:10 篇論文攻克深度強(qiáng)化學(xué)習(xí)底層原理,推薦一個(gè)論文復(fù)現(xiàn)的好方向!
文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
AI
+關(guān)注
關(guān)注
87文章
31054瀏覽量
269406 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5506瀏覽量
121265 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
267瀏覽量
11266
原文標(biāo)題:10 篇論文攻克深度強(qiáng)化學(xué)習(xí)底層原理,推薦一個(gè)論文復(fù)現(xiàn)的好方向!
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論