0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI核心領(lǐng)域——強(qiáng)化學(xué)習(xí)的缺陷

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:胡薇 ? 2018-07-13 08:56 ? 次閱讀

前段時(shí)間,OpenAI的游戲機(jī)器人在Dota2的比賽中贏了人類的5人小組,取得了團(tuán)隊(duì)勝利,是強(qiáng)化學(xué)習(xí)攻克的又一游戲里程碑。但是本文作者Andrey Kurenkov卻表示,強(qiáng)化學(xué)習(xí)解決的任務(wù)也許沒(méi)有看起來(lái)那么復(fù)雜,深究起來(lái)是有缺陷的。以下是論智帶來(lái)的編譯。

在這篇文章中,我們來(lái)討論討論AI核心領(lǐng)域——強(qiáng)化學(xué)習(xí)的缺陷。我們先從一個(gè)有趣的比喻開(kāi)始,之后會(huì)關(guān)注一個(gè)重要因素——先驗(yàn)知識(shí),接著我們會(huì)對(duì)深度學(xué)習(xí)進(jìn)行介紹,最后進(jìn)行總結(jié)。

首先我們將對(duì)強(qiáng)化學(xué)習(xí)是什么進(jìn)行介紹,以及它為什么有基礎(chǔ)性缺陷(或者至少某個(gè)版本,我們稱為“純粹的強(qiáng)化學(xué)習(xí)”)。如果你是AI專業(yè)人才,可以跳過(guò)這部分簡(jiǎn)介。

棋盤(pán)游戲

假設(shè)你的一位朋友給你介紹了一款你從未聽(tīng)說(shuō)過(guò)的游戲,并且你之前從來(lái)沒(méi)玩過(guò)任何游戲。你朋友告訴你怎樣算有效的移動(dòng),但是卻不告訴你這樣做的意義是什么,也不告訴你游戲怎么計(jì)分。在這種情況下你開(kāi)始參與游戲,沒(méi)有任何問(wèn)題,也不會(huì)有任何解釋。結(jié)果就是不斷地輸……慢慢地你發(fā)現(xiàn)了輸局的某些規(guī)律,雖然之后還是會(huì)輸,但起碼能堅(jiān)持玩一段時(shí)間了。經(jīng)過(guò)幾周后,甚至幾千盤(pán)對(duì)抗后,你甚至能贏下一局。

聽(tīng)起來(lái)很傻,為什么不在一開(kāi)始就問(wèn)游戲的目標(biāo)以及應(yīng)該怎樣獲勝呢?總之,上面的場(chǎng)景是當(dāng)下大多數(shù)強(qiáng)化學(xué)習(xí)方法的做法。

強(qiáng)化學(xué)習(xí)(RL)是AI的一個(gè)基礎(chǔ)子領(lǐng)域,在強(qiáng)化學(xué)習(xí)的框架中,智能體(agent)在與環(huán)境的交互中學(xué)習(xí)應(yīng)該在特定狀態(tài)下做出哪些動(dòng)作從而使長(zhǎng)期獎(jiǎng)勵(lì)最大化。這也就是說(shuō)在上述棋盤(pán)游戲中,玩家在棋盤(pán)中學(xué)習(xí)怎么走能讓最后的分?jǐn)?shù)最高。

在強(qiáng)化學(xué)習(xí)的典型模型中,智能體最初只知道它可以做哪些動(dòng)作,除此之外對(duì)環(huán)境一無(wú)所知,人們希望它能在與環(huán)境的交互中,以及在收到獎(jiǎng)勵(lì)后學(xué)會(huì)該做什么動(dòng)作。缺少先驗(yàn)知識(shí)的意思是,智能體從零開(kāi)始學(xué)習(xí),我們將這種從零開(kāi)始的方法稱為“純粹的強(qiáng)化學(xué)習(xí)”。純強(qiáng)化學(xué)習(xí)可以用到西洋棋或者圍棋中,也可以應(yīng)用到機(jī)器人等其他領(lǐng)域。

最近很多強(qiáng)化學(xué)習(xí)受到了深度學(xué)習(xí)的啟發(fā),但基礎(chǔ)模型沒(méi)怎么改變。畢竟這種從零開(kāi)始學(xué)習(xí)的方法是強(qiáng)化學(xué)習(xí)的開(kāi)端,并且在大多數(shù)基礎(chǔ)等式中都有表現(xiàn)。

所以這里有個(gè)基本問(wèn)題:如果純強(qiáng)化學(xué)習(xí)的過(guò)程特別不合常理,那么在此基礎(chǔ)上設(shè)計(jì)的AI模型能有多可靠?如果我們認(rèn)為讓人類通過(guò)純強(qiáng)化學(xué)習(xí)全新的棋盤(pán)游戲很荒唐,那么這個(gè)框架對(duì)智能體來(lái)說(shuō)也是有缺陷的呢??jī)H僅通過(guò)獎(jiǎng)勵(lì)信號(hào)而不借助先驗(yàn)知識(shí)和高水平指導(dǎo),就開(kāi)始學(xué)習(xí)一項(xiàng)新技能真的有意義嗎?

先驗(yàn)知識(shí)和高水平指導(dǎo)在經(jīng)典強(qiáng)化學(xué)習(xí)中是不存在的,隱式或顯式地改變這些方法可能對(duì)所有用于訓(xùn)練強(qiáng)化學(xué)習(xí)的算法有很大影響,所以這是個(gè)非常大的問(wèn)題,要回答它需要兩部分:

第一部分即本文,我們將從展示純強(qiáng)化學(xué)習(xí)的主要成果開(kāi)始,這些成果可能不會(huì)像你想象得那樣重要。接著,我們會(huì)展示一些更復(fù)雜的成果,它們?cè)诩儚?qiáng)化學(xué)習(xí)下可能無(wú)法完成,因?yàn)橹悄荏w會(huì)受到多種限制。

在第二部分中,我們將瀏覽各種能解決上述限制的方法(主要是元學(xué)習(xí)和zero-shot學(xué)習(xí))。最后,我們會(huì)總結(jié)基于這種方法的令人激動(dòng)的成果并進(jìn)行總結(jié)。

純強(qiáng)化學(xué)習(xí)真的有道理嗎?

看到這個(gè)問(wèn)題,大多數(shù)人可能會(huì)說(shuō)

當(dāng)然了,AI智能體不是人類,不會(huì)像我們一樣學(xué)習(xí),純強(qiáng)化學(xué)習(xí)已經(jīng)能解決很多復(fù)雜任務(wù)了。

但是我不同意。根據(jù)定義,AI研究指的是讓機(jī)器做只有動(dòng)物和人類目前能做的事,因此,將機(jī)器和人類智慧相比是不恰當(dāng)?shù)?。至于純?qiáng)化學(xué)習(xí)已經(jīng)解決的問(wèn)題,人們常常忽視了重要的一點(diǎn):這些問(wèn)題通??雌饋?lái)并不那么復(fù)雜。

這聽(tīng)起來(lái)可能很驚訝,因?yàn)楹芏啻笮脱芯繖C(jī)構(gòu)都努力地用強(qiáng)化學(xué)習(xí)做出各種成果。這些成果確實(shí)很棒,但是我仍然認(rèn)為這些任務(wù)并不像他們看起來(lái)那么復(fù)雜。在深入解釋之前,我列舉了一些成就,并且指出它們?yōu)槭裁粗档萌藗冄芯浚?/p>

DQN:這項(xiàng)由DeepMind推出的項(xiàng)目在五年前引起了人們對(duì)強(qiáng)化學(xué)習(xí)極大的興趣,該項(xiàng)目展示了將深度學(xué)習(xí)和純強(qiáng)化學(xué)習(xí)結(jié)合后,可以解決比此前更復(fù)雜的問(wèn)題。雖然DQN只包含少量的創(chuàng)新,但對(duì)于讓深度強(qiáng)化學(xué)習(xí)變得更實(shí)用是很重要的。

AlphaGo Zero和AlphaZero:這種純強(qiáng)化學(xué)習(xí)模型已經(jīng)超越了人類最佳水平。最初的AlphaGo是監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合的產(chǎn)物,而AlphaGo Zero是完全通過(guò)強(qiáng)化學(xué)習(xí)和自我對(duì)抗實(shí)現(xiàn)的。因此,它是最接近純強(qiáng)化學(xué)習(xí)方法的產(chǎn)物,雖然它仍然有提供游戲規(guī)則的模型。

在與人類對(duì)戰(zhàn)獲勝后,AlphaGo Zero被很多人看作是一種游戲顛覆者。接著一種更通用的版本——AlphaZero出現(xiàn)了,它不僅能玩圍棋,還能下國(guó)際象棋和日本將棋,這是第一次有一種算法可以完成兩種棋類比賽。所以AlphaGo Zero和AlphaZero是非常了不起的成就。

OpenAI可以打Dota的機(jī)器人:深度強(qiáng)化學(xué)習(xí)能夠在Dota2中多人模式中擊敗人類了。去年,OpenAI的機(jī)器人在1v1對(duì)抗中擊敗了人類就已經(jīng)令人印象深刻了,這次是更加困難的5v5。它同樣不需要先驗(yàn)知識(shí),并且也是通過(guò)自我對(duì)抗訓(xùn)練的。

這種在復(fù)雜游戲中的團(tuán)隊(duì)模式中獲勝的成績(jī)比此前的雅達(dá)利游戲和圍棋對(duì)抗更驚艷。另外,這一模型還沒(méi)有進(jìn)行主要的算法更新,完全依靠大量計(jì)算和已有的純強(qiáng)化學(xué)習(xí)算法和深度學(xué)習(xí)進(jìn)行的。

所以,純強(qiáng)化學(xué)習(xí)已經(jīng)做出了很多成績(jī)。但是就像我之前說(shuō)的,他們有些地方可能被高估了。

首先從DQN開(kāi)始。

它可以超越人類水平玩很多雅達(dá)利游戲,但也并不是全部。一般來(lái)說(shuō),它適合玩靈活度較高的、不需要推理和記憶的游戲。即使五年之后,也不會(huì)有純強(qiáng)化學(xué)習(xí)攻下推理和記憶游戲。相反,能完成這些游戲的都經(jīng)過(guò)了指導(dǎo)和示范。

即使在DQN表現(xiàn)良好的游戲中,它也需要非常大量的時(shí)間和經(jīng)驗(yàn)去學(xué)習(xí)。

同樣的限制在AlphaGo Zero和AlphaZero上都有體現(xiàn)。圍棋的很多性質(zhì)都能讓學(xué)習(xí)任務(wù)變得簡(jiǎn)單,例如它是必然的、完全可觀測(cè)的、單一智能體等等。但唯獨(dú)一件事讓圍棋變得麻煩:它的分支因數(shù)太多了。

所以,圍棋可能是變數(shù)最多的簡(jiǎn)易游戲。有人說(shuō)強(qiáng)人工智能(AGI)因?yàn)锳lphaGo的成功即將到來(lái),這種說(shuō)法不攻自破。多數(shù)研究者認(rèn)為,真實(shí)的世界比一個(gè)簡(jiǎn)單游戲復(fù)雜得多,盡管AlphaGo的成功令人贊賞,但是它和它所有的變體從根本上和“深藍(lán)”是相似的:它只是一套昂貴的系統(tǒng)罷了。

說(shuō)到Dota,它的確比圍棋更復(fù)雜,并且是非靜止的、多人的游戲。但是它仍然是可以用靈活的API操控的游戲,并且成本巨大。

所以,盡管這些成就很偉大,我們?nèi)孕枰獙?duì)它們的本質(zhì)進(jìn)行了解,同時(shí)要思考,純強(qiáng)化學(xué)習(xí)難道不能成為獲取這些成就的最佳方法嗎?

純強(qiáng)化學(xué)習(xí)的基礎(chǔ)缺陷——從零開(kāi)始

有沒(méi)有更好的方法讓智能體下圍棋、玩dota呢?AlphaGo Zero的名字來(lái)源正是暗示它是從零開(kāi)始學(xué)習(xí)的模型,但是讓我們回到文章開(kāi)頭說(shuō)的那個(gè)小故事,如果讓你從零開(kāi)始學(xué)習(xí)下圍棋,不給任何解釋,聽(tīng)起來(lái)很荒謬對(duì)嗎?所以為什么要把這定為AI的目標(biāo)呢?

事實(shí)上,如果你正在學(xué)的那個(gè)棋盤(pán)游戲是圍棋,你會(huì)怎么開(kāi)始?可能你會(huì)先讀一遍規(guī)則,學(xué)一些高級(jí)策略,回憶一下之前的對(duì)戰(zhàn),總結(jié)經(jīng)驗(yàn)……確實(shí),讓AlphaGo Zero和Dota機(jī)器人從零開(kāi)始學(xué)習(xí)是有點(diǎn)不公平的,它們只依靠更多數(shù)量的游戲經(jīng)驗(yàn)和運(yùn)用比人類大得多的計(jì)算力。

AlphaGo Zero技能增長(zhǎng)曲線,注意,它花了一整天的時(shí)間和好幾千局游戲才達(dá)到人類最低水平

實(shí)際上,純強(qiáng)化學(xué)習(xí)技術(shù)可以在更“窄”的任務(wù)中應(yīng)用,例如連續(xù)控制或是像dota和星際爭(zhēng)霸這樣的復(fù)雜游戲。然而隨著深度學(xué)習(xí)的成功,AI研究者正嘗試解決更復(fù)雜的問(wèn)題例如汽車(chē)駕駛和對(duì)話。

所以,純強(qiáng)化學(xué)習(xí),或者從零開(kāi)始的學(xué)習(xí)方法,是解決復(fù)雜任務(wù)的正確方法嗎?

是否應(yīng)該堅(jiān)持純強(qiáng)化學(xué)習(xí)?

答案可能如下:

當(dāng)然,純強(qiáng)化學(xué)習(xí)是除了圍棋和dota之外的其他問(wèn)題的正確解決方法。雖然在棋盤(pán)類游戲中有點(diǎn)講不通,但是在通用事物的學(xué)習(xí)上還是可以說(shuō)得通的。另外,就算不受人類的啟發(fā),智能體在沒(méi)有先驗(yàn)知識(shí)的條件下也能表現(xiàn)得更好。

讓我們先說(shuō)最后一點(diǎn),不考慮人類的啟發(fā),從零開(kāi)始的典型做法就是另一種方法會(huì)限制模型的精確度,將人類的想法編碼到模型上是很困難的,甚至?xí)档托阅?。這種觀點(diǎn)在深度學(xué)習(xí)的成功之后成為了主流,即用百萬(wàn)級(jí)參數(shù)學(xué)習(xí)端到端模型,并在大量數(shù)據(jù)上訓(xùn)練,同時(shí)有一些內(nèi)在先驗(yàn)知識(shí)。

但問(wèn)題時(shí),加入先驗(yàn)知識(shí)和知道并不會(huì)將人類知覺(jué)中含有的有限結(jié)構(gòu)加入到智能體上。換句話說(shuō),我們可以教會(huì)智能體或模型關(guān)于怎樣執(zhí)行任務(wù),而不會(huì)添加對(duì)其能力有限制的因素。

對(duì)大多數(shù)AI問(wèn)題來(lái)說(shuō),不從零開(kāi)始就不會(huì)限制智能體學(xué)習(xí)的方式。目前還沒(méi)有確切的原因解釋,為什么AlphaGo Zero如此執(zhí)著于“從零開(kāi)始”,事實(shí)上它可以借助人類知識(shí)表現(xiàn)得更好。

那么純強(qiáng)化學(xué)習(xí)是最佳解決辦法嗎?這個(gè)答案曾經(jīng)很簡(jiǎn)單,在無(wú)梯度優(yōu)化領(lǐng)域,純強(qiáng)化學(xué)習(xí)是你可以選擇的最可靠的方法。但是最近的一些論文質(zhì)疑了這一說(shuō)法,并認(rèn)為更簡(jiǎn)單的基于演化策略的方法能達(dá)到相似效果。具體論文:

Simple random search provides a competitive approach to reinforcement learning

Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning

Evolution Strategies as a Scalable Alternative to Reinforcement Learning

Towards Generalization and Simplicity in Continuous Control

Ben Recht,是理論和實(shí)際優(yōu)化算法的頂尖研究者,也是Simple random search provides a competitive approach to reinforcement learning一文的作者之一,他準(zhǔn)確地總結(jié)了以上觀點(diǎn):

我們看到,隨機(jī)搜索在簡(jiǎn)單線性問(wèn)題上表現(xiàn)良好,并且比一些強(qiáng)化方法,例如策略梯度表現(xiàn)得更好。但是當(dāng)我們提出更難的問(wèn)題時(shí),隨機(jī)搜索崩潰了嗎?不好意思,沒(méi)有。

所以,將純強(qiáng)化學(xué)習(xí)用來(lái)從零開(kāi)始學(xué)習(xí)不一定是正確的方法。但是回到人類從零開(kāi)始學(xué)習(xí)的問(wèn)題,人們會(huì)在具備一些技巧,卻沒(méi)有指示信息的情況下開(kāi)始學(xué)習(xí)嗎?不會(huì)的。

也許在一些通用基礎(chǔ)問(wèn)題上,純強(qiáng)化學(xué)習(xí)可能有用,因?yàn)檫@些問(wèn)題很廣泛。但是在AI中,很大部分的問(wèn)題是否適合強(qiáng)化學(xué)習(xí)還并不清楚。事實(shí)上,之所以選擇從零開(kāi)始,是因?yàn)槟壳暗腁I和強(qiáng)化學(xué)習(xí)都有著很多缺陷:

目前的AI非常需要數(shù)據(jù)。很多項(xiàng)目都需要大量的數(shù)據(jù)進(jìn)行計(jì)算,而從零學(xué)習(xí)只需要高效的采樣方法即可。

目前的AI是不透明的。也就是“黑箱”問(wèn)題,很多時(shí)候我們只能從較高層次了解AI算法的學(xué)習(xí)和工作流程。

目前的AI應(yīng)用范圍有限。很多模型一次只能執(zhí)行一種任務(wù),而且很容易崩潰。

現(xiàn)有AI很脆弱。只有在大量數(shù)據(jù)訓(xùn)練的基礎(chǔ)上,模型才可能對(duì)從未見(jiàn)過(guò)的輸入生成較好結(jié)果。即使如此也經(jīng)常崩潰。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30898

    瀏覽量

    269130
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    266

    瀏覽量

    11256

原文標(biāo)題:斯坦福學(xué)者冷思考:強(qiáng)化學(xué)習(xí)存在基礎(chǔ)性缺陷

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    什么是深度強(qiáng)化學(xué)習(xí)?深度強(qiáng)化學(xué)習(xí)算法應(yīng)用分析

    什么是深度強(qiáng)化學(xué)習(xí)? 眾所周知,人類擅長(zhǎng)解決各種挑戰(zhàn)性的問(wèn)題,從低級(jí)的運(yùn)動(dòng)控制(如:步行、跑步、打網(wǎng)球)到高級(jí)的認(rèn)知任務(wù)。
    發(fā)表于 07-01 10:29 ?1465次閱讀
    什么是深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法應(yīng)用分析

    反向強(qiáng)化學(xué)習(xí)的思路

    強(qiáng)化學(xué)習(xí)的另一種策略(二)
    發(fā)表于 04-03 12:10

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    一:深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)時(shí)間地點(diǎn):1 月 15日— 1 月18 日二:深度強(qiáng)化學(xué)習(xí)核心技術(shù)實(shí)戰(zhàn)時(shí)間地點(diǎn): 1 月 27 日— 1 月30 日(第一天報(bào)到 授課三天;提前環(huán)境部署 電腦
    發(fā)表于 01-10 13:42

    將深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

    深度強(qiáng)化學(xué)習(xí)DRL自提出以來(lái), 已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo,將深度強(qiáng)化學(xué)習(xí)DRL成推上新的熱點(diǎn)和高度,成為人工智能歷史上一個(gè)新的里程碑。因此,深
    發(fā)表于 06-29 18:36 ?2.8w次閱讀

    如何深度強(qiáng)化學(xué)習(xí) 人工智能和深度學(xué)習(xí)的進(jìn)階

    傳統(tǒng)上,強(qiáng)化學(xué)習(xí)在人工智能領(lǐng)域占據(jù)著一個(gè)合適的地位。但強(qiáng)化學(xué)習(xí)在過(guò)去幾年已開(kāi)始在很多人工智能計(jì)劃中發(fā)揮更大的作用。
    的頭像 發(fā)表于 03-03 14:16 ?4217次閱讀

    人工智能機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎(jiǎng)勵(lì)信號(hào)(強(qiáng)化信號(hào))函數(shù)值最大,強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督
    發(fā)表于 05-30 06:53 ?1415次閱讀

    什么是強(qiáng)化學(xué)習(xí)?純強(qiáng)化學(xué)習(xí)有意義嗎?強(qiáng)化學(xué)習(xí)有什么的致命缺陷

    強(qiáng)化學(xué)習(xí)是人工智能基本的子領(lǐng)域之一,在強(qiáng)化學(xué)習(xí)的框架中,智能體通過(guò)與環(huán)境互動(dòng),來(lái)學(xué)習(xí)采取何種動(dòng)作能使其在給定環(huán)境中的長(zhǎng)期獎(jiǎng)勵(lì)最大化,就像在上述的棋盤(pán)游戲寓言中,你通過(guò)與棋盤(pán)的互動(dòng)來(lái)
    的頭像 發(fā)表于 07-15 10:56 ?1.8w次閱讀
    什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?純<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有意義嗎?<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有什么的致命<b class='flag-5'>缺陷</b>?

    谷歌推出新的基于Tensorflow的強(qiáng)化學(xué)習(xí)框架,稱為Dopamine

    強(qiáng)化學(xué)習(xí)(RL)研究在過(guò)去幾年取得了許多重大進(jìn)展。強(qiáng)化學(xué)習(xí)的進(jìn)步使得 AI 智能體能夠在一些游戲上超過(guò)人類,值得關(guān)注的例子包括 DeepMind 攻破 Atari 游戲的 DQN,在圍棋中獲得矚目的 AlphaGo 和 Alph
    的頭像 發(fā)表于 08-31 09:20 ?3697次閱讀

    Google強(qiáng)化學(xué)習(xí)框架,要滿足哪三大特性

    強(qiáng)化學(xué)習(xí)是一種非常重要 AI 技術(shù),它能使用獎(jiǎng)勵(lì)(或懲罰)來(lái)驅(qū)動(dòng)智能體(agents)朝著特定目標(biāo)前進(jìn),比如它訓(xùn)練的 AI 系統(tǒng) AlphaGo 擊敗了頂尖圍棋選手,它也是 DeepMind 的深度
    的頭像 發(fā)表于 09-03 14:06 ?2853次閱讀

    基于PPO強(qiáng)化學(xué)習(xí)算法的AI應(yīng)用案例

    Viet Nguyen就是其中一個(gè)。這位來(lái)自德國(guó)的程序員表示自己只玩到了第9個(gè)關(guān)卡。因此,他決定利用強(qiáng)化學(xué)習(xí)AI算法來(lái)幫他完成未通關(guān)的遺憾。
    發(fā)表于 07-29 09:30 ?2802次閱讀

    DeepMind發(fā)布強(qiáng)化學(xué)習(xí)庫(kù)RLax

    RLax(發(fā)音為“ relax”)是建立在JAX之上的庫(kù),它公開(kāi)了用于實(shí)施強(qiáng)化學(xué)習(xí)智能體的有用構(gòu)建塊。。報(bào)道:深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室作者:DeepRL ...
    的頭像 發(fā)表于 12-10 18:43 ?739次閱讀

    機(jī)器學(xué)習(xí)中的無(wú)模型強(qiáng)化學(xué)習(xí)算法及研究綜述

    強(qiáng)化學(xué)習(xí)( Reinforcement learning,RL)作為機(jī)器學(xué)習(xí)領(lǐng)域中與監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)并列的第三種
    發(fā)表于 04-08 11:41 ?11次下載
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>中的無(wú)模型<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法及研究綜述

    模型化深度強(qiáng)化學(xué)習(xí)應(yīng)用研究綜述

    強(qiáng)化學(xué)習(xí)。無(wú)模型強(qiáng)仳學(xué)習(xí)方法的訓(xùn)練過(guò)程需要大量樣本,當(dāng)采樣預(yù)算不足,無(wú)法收集大量樣本時(shí),很難達(dá)到預(yù)期效果。然而,模型化強(qiáng)化學(xué)習(xí)可以充分利用環(huán)境模型,降低真實(shí)樣本需求量,在一定程度上提高樣本效率。將以模型化
    發(fā)表于 04-12 11:01 ?9次下載
    模型化深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>應(yīng)用研究綜述

    徹底改變算法交易:強(qiáng)化學(xué)習(xí)的力量

    強(qiáng)化學(xué)習(xí)(RL)是人工智能的一個(gè)子領(lǐng)域,專注于決策過(guò)程。與其他形式的機(jī)器學(xué)習(xí)相比,強(qiáng)化學(xué)習(xí)模型通過(guò)與環(huán)境交互并以獎(jiǎng)勵(lì)或懲罰的形式接收反饋來(lái)學(xué)習(xí)
    發(fā)表于 06-09 09:23 ?534次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí)如何做出決策,以最大化累積獎(jiǎng)勵(lì)。PyTorch 是一個(gè)流行的開(kāi)源機(jī)器學(xué)習(xí)庫(kù),
    的頭像 發(fā)表于 11-05 17:34 ?298次閱讀