0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于TensorFlow的開(kāi)源強(qiáng)化學(xué)習(xí)框架 Dopamine

電子工程師 ? 來(lái)源:未知 ? 作者:李倩 ? 2018-08-31 10:55 ? 次閱讀

強(qiáng)化學(xué)習(xí)是一種非常重要 AI 技術(shù),它能使用獎(jiǎng)勵(lì)(或懲罰)來(lái)驅(qū)動(dòng)智能體(agents)朝著特定目標(biāo)前進(jìn),比如它訓(xùn)練的 AI 系統(tǒng) AlphaGo 擊敗了頂尖圍棋選手,它也是 DeepMind 的深度 Q 網(wǎng)絡(luò)(DQN)的核心部分,它可以在多個(gè) workers 之間分步學(xué)習(xí),例如,在 Atari 2600 游戲中實(shí)現(xiàn)“超人”性能。

麻煩的是,強(qiáng)化學(xué)習(xí)框架需要花費(fèi)大量時(shí)間來(lái)掌握一個(gè)目標(biāo),而且框架往往是不靈活和不總是穩(wěn)定的。

但不用擔(dān)心,Google 近日發(fā)布了一個(gè)替代方案:基于 TensorFlow 的開(kāi)源強(qiáng)化學(xué)習(xí)框架 Dopamine(多巴胺)。

Google 的博文中提到,這個(gè)基于 Tensorflow 的強(qiáng)化學(xué)習(xí)框架,旨在為 RL 的研究人員提供靈活性,穩(wěn)定性和可重復(fù)性的研究。受到大腦中獎(jiǎng)勵(lì)動(dòng)機(jī)行為的主要成分的啟發(fā),以及反映神經(jīng)科學(xué)與強(qiáng)化學(xué)習(xí)研究之間強(qiáng)烈的歷史聯(lián)系,該平臺(tái)旨在實(shí)現(xiàn)可推動(dòng)激進(jìn)發(fā)現(xiàn)的思辨研究(speculative research)。此版本還包括一組闡明如何使用整個(gè)框架的 colabs。

除了強(qiáng)化學(xué)習(xí)框架的發(fā)布,谷歌還推出了一個(gè)網(wǎng)站(https://google.github.io/dopamine/baselines/plots.html),允許開(kāi)發(fā)人員快速可視化多個(gè)智能體的訓(xùn)練運(yùn)行情況。他們希望,這一框架的靈活性和易用性將使研究人員能積極嘗試新的想法,不管是漸進(jìn)式還是激進(jìn)式的想法。

以下為 Google 博客詳細(xì)內(nèi)容,AI科技大本營(yíng)編譯:

▌引入靈活和可重復(fù)的強(qiáng)化學(xué)習(xí)研究的新框架

強(qiáng)化學(xué)習(xí)(RL)研究在過(guò)去幾年中取得了許多重大進(jìn)展。這些進(jìn)步使得智能體可以以超人類(lèi)級(jí)別的能力玩游戲。比如 Atari 游戲中 DeepMind 的 DQN ,AlphaGo ,AlphaGo Zero 以及 Open AI Five。

具體而言,在 DQN 中引入 replay memories 可以利用以前的智能體經(jīng)驗(yàn),大規(guī)模的分布式訓(xùn)練可以在多個(gè) workers 之間分配學(xué)習(xí)過(guò)程,分布式方法允許智能體模擬完整的分布過(guò)程,而不僅僅是模擬它們期望值,以學(xué)習(xí)更完整的圖景。這種類(lèi)型的進(jìn)展很重要,因?yàn)槌霈F(xiàn)這些進(jìn)步的算法還適用于其他領(lǐng)域,例如機(jī)器人技術(shù)。

通常,這種進(jìn)步都來(lái)自于快速迭代設(shè)計(jì)(通常沒(méi)有明確的方向),以及顛覆既定方法的結(jié)構(gòu)。然而,大多數(shù)現(xiàn)有的 RL 框架并沒(méi)有結(jié)合靈活性和穩(wěn)定性以及使研究人員能夠有效地迭代 RL 方法,并因此探索可能沒(méi)有直接明顯益處的新研究方向。此外,從現(xiàn)有框架再現(xiàn)結(jié)果通常太耗時(shí),這可能導(dǎo)致科學(xué)的再現(xiàn)性問(wèn)題。

今天,我們推出了一個(gè)新的基于 Tensorflow 的框架,旨在為 RL 的研究人員提供靈活性、穩(wěn)定性和可重復(fù)性。受到大腦中獎(jiǎng)勵(lì)動(dòng)機(jī)行為的主要成分的啟發(fā),以及反映神經(jīng)科學(xué)與強(qiáng)化學(xué)習(xí)研究之間強(qiáng)烈的歷史聯(lián)系,該平臺(tái)旨在實(shí)現(xiàn)可推動(dòng)激進(jìn)發(fā)現(xiàn)的思辨研究(speculative research)。此版本還包括一組闡明如何使用整個(gè)框架的 colabs。

▌易用性

清晰和簡(jiǎn)潔是該框架設(shè)計(jì)中要考慮的兩個(gè)關(guān)鍵因素。我們提供更精簡(jiǎn)的代碼(大約 15 個(gè)Python 文件),并且有詳細(xì)記錄。這是通過(guò)專(zhuān)注于 Arcade 學(xué)習(xí)環(huán)境(一個(gè)成熟的,易于理解的基準(zhǔn))和四個(gè)基于 value 的智能體來(lái)實(shí)現(xiàn)的:DQN,C51,一個(gè)精心策劃的 Rainbow 智能體的簡(jiǎn)化版本,以及隱式分位數(shù)網(wǎng)絡(luò)(Implicit Quantile Network)智能體,這已在上個(gè)月的 ICML 大會(huì)上已經(jīng)發(fā)表。我們希望這種簡(jiǎn)潔性使研究人員能夠輕松了解智能體內(nèi)部的運(yùn)作狀況,并積極嘗試新的想法。

▌可重復(fù)性

我們對(duì)重復(fù)性在強(qiáng)化學(xué)習(xí)研究中的重要性特別敏感。為此,我們?yōu)榇a提供完整的測(cè)試覆蓋率,這些測(cè)試也可作為其他文檔形式。此外,我們的實(shí)驗(yàn)框架遵循 Machado 等人給出的關(guān)于使用 Arcade 學(xué)習(xí)環(huán)境標(biāo)準(zhǔn)化經(jīng)驗(yàn)評(píng)估的建議。

▌基準(zhǔn)測(cè)試

對(duì)于新的研究人員來(lái)說(shuō),能夠根據(jù)既定方法快速對(duì)其想法進(jìn)行基準(zhǔn)測(cè)試非常重要。因此,我們?yōu)?Arcade 學(xué)習(xí)環(huán)境支持的 60 個(gè)游戲提供四個(gè)智能體的完整培訓(xùn)數(shù)據(jù),可用作 Python pickle 文件(用于使用我們框架訓(xùn)練的智能體)和 JSON 數(shù)據(jù)文件(用于與受過(guò)其他框架訓(xùn)練的智能體進(jìn)行比較);我們還提供了一個(gè)網(wǎng)站,你可以在其中快速查看 60 個(gè)游戲中所有智能體的訓(xùn)練運(yùn)行情況。

下面展示我們?cè)?Seaquest 上的 4 個(gè)代理的訓(xùn)練情況,這是由 Arcade 學(xué)習(xí)環(huán)境支持的一種 Atari 2600 游戲。

在 Seaquest 上的 4 名智能體參加了訓(xùn)練。x 軸表示迭代,其中每次迭代是 100 萬(wàn)個(gè)游戲幀(4.5 小時(shí)的實(shí)時(shí)游戲);y 軸是每場(chǎng)比賽獲得的平均分?jǐn)?shù)。陰影區(qū)域顯示的是來(lái)自 5 次獨(dú)立運(yùn)行的置信區(qū)間。

我們還提供已經(jīng)訓(xùn)練好的深度網(wǎng)絡(luò),原始統(tǒng)計(jì)日志以及用 Tensorboard 繪圖的 Tensorflow 事件文件。這些都可以在網(wǎng)站的下載部分找到。

希望我們框架的靈活性和易用性將使研究人員敢于嘗試新的想法,包括漸進(jìn)式和激進(jìn)式的想法。我們已經(jīng)積極地將它用于我們的研究,并發(fā)現(xiàn)它能夠靈活且快速迭代許多想法。我們很高興可以為更大的社區(qū)做些貢獻(xiàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    163

    瀏覽量

    10602
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    268

    瀏覽量

    11276
  • tensorflow
    +關(guān)注

    關(guān)注

    13

    文章

    329

    瀏覽量

    60580

原文標(biāo)題:Google發(fā)布“多巴胺”開(kāi)源強(qiáng)化學(xué)習(xí)框架,三大特性全滿(mǎn)足

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    什么是深度強(qiáng)化學(xué)習(xí)?深度強(qiáng)化學(xué)習(xí)算法應(yīng)用分析

    什么是深度強(qiáng)化學(xué)習(xí)? 眾所周知,人類(lèi)擅長(zhǎng)解決各種挑戰(zhàn)性的問(wèn)題,從低級(jí)的運(yùn)動(dòng)控制(如:步行、跑步、打網(wǎng)球)到高級(jí)的認(rèn)知任務(wù)。
    發(fā)表于 07-01 10:29 ?1501次閱讀
    什么是深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法應(yīng)用分析

    深度學(xué)習(xí)框架TensorFlow&TensorFlow-GPU詳解

    TensorFlow&TensorFlow-GPU:深度學(xué)習(xí)框架TensorFlow&TensorFlo
    發(fā)表于 12-25 17:21

    反向強(qiáng)化學(xué)習(xí)的思路

    強(qiáng)化學(xué)習(xí)的另一種策略(二)
    發(fā)表于 04-03 12:10

    TensorFlow是什么

    和 TPU(Tensor Processing Units)。Project Magenta 能夠使用強(qiáng)化學(xué)習(xí)模型生成音樂(lè),運(yùn)用了 TensorFlow。澳大利亞海洋生物學(xué)家使用了 TensorFlow
    發(fā)表于 07-22 10:14

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    內(nèi)容2:課程一: TensoRFlow入門(mén)到熟練:課程二:圖像分類(lèi):課程三:物體檢測(cè):課程四:人臉識(shí)別:課程五:算法實(shí)現(xiàn):1、卷積神經(jīng)網(wǎng)絡(luò)CNN2、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN3、強(qiáng)化學(xué)習(xí)DRL4、對(duì)抗性生成
    發(fā)表于 01-10 13:42

    TensorFlow實(shí)戰(zhàn)之深度學(xué)習(xí)框架的對(duì)比

    Google近日發(fā)布了TensorFlow 1.0候選版,這第一個(gè)穩(wěn)定版將是深度學(xué)習(xí)框架發(fā)展中的里程碑的一步。自TensorFlow于2015年底正式
    發(fā)表于 11-16 11:52 ?4592次閱讀
    <b class='flag-5'>TensorFlow</b>實(shí)戰(zhàn)之深度<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>框架</b>的對(duì)比

    將深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

    深度強(qiáng)化學(xué)習(xí)DRL自提出以來(lái), 已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo,將深度強(qiáng)化學(xué)習(xí)DRL成推上新的熱點(diǎn)和高度,成為人工智能歷史上一個(gè)新的里程碑。因此,深
    發(fā)表于 06-29 18:36 ?2.8w次閱讀

    TensorFlow框架結(jié)構(gòu)解析

    TensorFlow是谷歌的第二代開(kāi)源的人工智能學(xué)習(xí)系統(tǒng),是用來(lái)實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的內(nèi)置框架學(xué)習(xí)軟件庫(kù)。目前,
    發(fā)表于 04-04 14:39 ?7126次閱讀
    <b class='flag-5'>TensorFlow</b>的<b class='flag-5'>框架</b>結(jié)構(gòu)解析

    人工智能機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎(jiǎng)勵(lì)信號(hào)(強(qiáng)化信號(hào))函數(shù)值最大,強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督
    發(fā)表于 05-30 06:53 ?1428次閱讀

    什么是強(qiáng)化學(xué)習(xí)?純強(qiáng)化學(xué)習(xí)有意義嗎?強(qiáng)化學(xué)習(xí)有什么的致命缺陷?

    強(qiáng)化學(xué)習(xí)是人工智能基本的子領(lǐng)域之一,在強(qiáng)化學(xué)習(xí)框架中,智能體通過(guò)與環(huán)境互動(dòng),來(lái)學(xué)習(xí)采取何種動(dòng)作能使其在給定環(huán)境中的長(zhǎng)期獎(jiǎng)勵(lì)最大化,就像在上述的棋盤(pán)游戲寓言中,你通過(guò)與棋盤(pán)的互動(dòng)來(lái)
    的頭像 發(fā)表于 07-15 10:56 ?1.8w次閱讀
    什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?純<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有意義嗎?<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有什么的致命缺陷?

    谷歌推出新的基于Tensorflow強(qiáng)化學(xué)習(xí)框架,稱(chēng)為Dopamine

    強(qiáng)化學(xué)習(xí)(RL)研究在過(guò)去幾年取得了許多重大進(jìn)展。強(qiáng)化學(xué)習(xí)的進(jìn)步使得 AI 智能體能夠在一些游戲上超過(guò)人類(lèi),值得關(guān)注的例子包括 DeepMind 攻破 Atari 游戲的 DQN,在圍棋中獲得矚目的 AlphaGo 和 AlphaGo Zero,以及在 Dota2 對(duì)戰(zhàn)人
    的頭像 發(fā)表于 08-31 09:20 ?3709次閱讀

    Facebook開(kāi)源Horizon主要是為了推進(jìn)AI強(qiáng)化學(xué)習(xí)的發(fā)展

    11月1日,F(xiàn)acebook開(kāi)源了Horizon,一個(gè)由Facebook的AI研究人員、推薦系統(tǒng)專(zhuān)家和工程師共同搭建的強(qiáng)化學(xué)習(xí)平臺(tái),其框架的構(gòu)建工作開(kāi)始于兩年半前,在過(guò)去一年中一直被Facebook內(nèi)部使用。
    發(fā)表于 11-05 09:34 ?851次閱讀

    人工智能強(qiáng)化學(xué)習(xí)開(kāi)源分享

    電子發(fā)燒友網(wǎng)站提供《人工智能強(qiáng)化學(xué)習(xí)開(kāi)源分享.zip》資料免費(fèi)下載
    發(fā)表于 06-20 09:27 ?1次下載
    人工智能<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b><b class='flag-5'>開(kāi)源</b>分享

    深度學(xué)習(xí)框架tensorflow介紹

    深度學(xué)習(xí)框架tensorflow介紹 深度學(xué)習(xí)框架TensorFlow簡(jiǎn)介 深度
    的頭像 發(fā)表于 08-17 16:11 ?2576次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí)如何做出決策,以最大化累積獎(jiǎng)勵(lì)。PyTorch 是一個(gè)流行的開(kāi)源機(jī)器
    的頭像 發(fā)表于 11-05 17:34 ?346次閱讀