0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

開辟新篇章!谷歌機(jī)器學(xué)習(xí)又有新進(jìn)展!

DR2b_Aiobservat ? 來源:YXQ ? 2019-06-22 11:16 ? 次閱讀

在谷歌最新的論文中,研究人員提出了“非政策強(qiáng)化學(xué)習(xí)”算法OPC,它是強(qiáng)化學(xué)習(xí)的一種變體,它能夠評估哪種機(jī)器學(xué)習(xí)模型將產(chǎn)生最好的結(jié)果。數(shù)據(jù)顯示,OPC比基線機(jī)器學(xué)習(xí)算法有著顯著的提高,更加穩(wěn)健可靠。

在谷歌AI研究團(tuán)隊(duì)一篇新發(fā)表的論文《通過非政策分類進(jìn)行非政策評估》(Off-PolicyEvaluation via Off-Policy Classification)和博客文章中,他們提出了所稱的“非政策分類”,即OPC(off-policy classification)。它能夠評估AI的表現(xiàn),通過將評估視為一個分類問題來驅(qū)動代理性能。

研究人員認(rèn)為他們的方法是強(qiáng)化學(xué)習(xí)的一種變體,它利用獎勵來推動軟件政策實(shí)現(xiàn)與圖像輸入?yún)f(xié)同工作這個目標(biāo),并擴(kuò)展到包括基于視覺的機(jī)器人抓取在內(nèi)的任務(wù)。

“完全脫離政策強(qiáng)化學(xué)習(xí)是一種變體。代理完全從舊數(shù)據(jù)中學(xué)習(xí),對于工程師來說這是很有吸引力的,因?yàn)樗梢栽诓恍枰锢頇C(jī)器人的情況下進(jìn)行模型迭代。”

Robotics at Google(專注機(jī)器學(xué)的的谷歌新團(tuán)隊(duì))的軟件工程師Alexa Irpan寫道,“完全脫離政策的RL,可以在先前代理收集的同一固定數(shù)據(jù)集上訓(xùn)練多個模型,然后選擇出最佳的那個模型?!?/p>

但是OPC并不像聽起來那么容易,正如Irpan在論文中所描述的,非政策性強(qiáng)化學(xué)習(xí)可以通過機(jī)器人進(jìn)行人工智能模型培訓(xùn),但不能進(jìn)行評估。并且在需要評估大量模型的方法中,地面實(shí)況評估通常效率太低。

OPC在假設(shè)任務(wù)狀態(tài)變化方面幾乎沒有隨機(jī)性,同時假設(shè)代理在實(shí)驗(yàn)結(jié)束時用“成功或失敗”來解決這個問題。兩個假設(shè)中第二個假設(shè)的二元性質(zhì),允許為每個操作分配兩個分類標(biāo)簽(“有效”表示成功或“災(zāi)難性”表示失?。?/p>

另外,OPC還依賴Q函數(shù)(通過Q學(xué)習(xí)算法學(xué)習(xí))來估計(jì)行為的未來總回報(bào)。代理商選擇具有最大預(yù)期回報(bào)的行動,其績效通過所選行動的有效頻率來衡量(這取決于Q函數(shù)如何正確地將行動分類為有效與災(zāi)難性),并以分類準(zhǔn)確性作為非政策評估分?jǐn)?shù)。

(左圖為基線,右圖為建議的方法之一,SoftOpC)

谷歌AI團(tuán)隊(duì)使用完全非策略強(qiáng)化學(xué)習(xí)對機(jī)器學(xué)習(xí)策略進(jìn)行了模擬培訓(xùn),然后使用從以前的實(shí)際數(shù)據(jù)中列出的非策略分?jǐn)?shù)對其進(jìn)行評估。

在機(jī)器人抓取任務(wù)時,他們報(bào)告OPC的一種變體SoftOPC在預(yù)測最終成功率方面表現(xiàn)最佳。假設(shè)有15種模型(其中7種純粹在模擬中訓(xùn)練)具有不同的穩(wěn)健性,SoftOPC產(chǎn)生的分?jǐn)?shù)與與真正的抓取成功密切相關(guān),并且相比于基線方法更加穩(wěn)定可靠。

在未來的研究中,研究人員打算用“噪聲”(noisier)和非二進(jìn)制動力學(xué)來探索機(jī)器學(xué)習(xí)任務(wù)?!拔覀冋J(rèn)為這個結(jié)果有希望應(yīng)用于許多現(xiàn)實(shí)世界的RL問題,”Irpan在論文結(jié)尾寫道。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6171

    瀏覽量

    105504
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8423

    瀏覽量

    132744
收藏 人收藏

    評論

    相關(guān)推薦

    比亞迪與華工科技開啟戰(zhàn)略合作新篇章

    近日,比亞迪半導(dǎo)體事業(yè)部與華工科技高理公司、激光公司開展座談交流,開啟戰(zhàn)略合作新篇章。
    的頭像 發(fā)表于 12-10 14:45 ?227次閱讀

    魏德米勒開啟產(chǎn)業(yè)數(shù)智轉(zhuǎn)型新篇章

    隨著制造業(yè)向高端、智能、綠色方向不斷邁進(jìn),以科技創(chuàng)新提質(zhì)增效,貼近客戶挖掘深度需求,成為助力產(chǎn)業(yè)發(fā)展的重要錨點(diǎn)。11月,工業(yè)聯(lián)接專家魏德米勒的腳步加“數(shù)”出發(fā) ,與客戶及合作伙伴共同開啟產(chǎn)業(yè)數(shù)智轉(zhuǎn)型新篇章。
    的頭像 發(fā)表于 11-22 15:00 ?264次閱讀

    IOT物聯(lián)網(wǎng)中臺:開啟智慧生活新篇章 物聯(lián)網(wǎng)平臺系統(tǒng)

    IOT物聯(lián)網(wǎng)中臺:開啟智慧生活新篇章 物聯(lián)網(wǎng)平臺系統(tǒng)
    的頭像 發(fā)表于 11-19 09:14 ?291次閱讀

    揚(yáng)帆出海!穩(wěn)石氫能AEM電解槽出貨智利,開啟全球商業(yè)化新篇章!

    繼國內(nèi)商業(yè)化獲得突破之后,此次海外訂單的交付,標(biāo)志著穩(wěn)石氫能正式開啟了AEM制氫設(shè)備全球商業(yè)化的新篇章!
    的頭像 發(fā)表于 11-01 10:31 ?258次閱讀
    揚(yáng)帆出海!穩(wěn)石氫能AEM電解槽出貨智利,開啟全球商業(yè)化<b class='flag-5'>新篇章</b>!

    重慶市第五人民醫(yī)院引領(lǐng)醫(yī)療電能質(zhì)量革命,點(diǎn)亮“健康”新篇章

    重慶市第五人民醫(yī)院引領(lǐng)醫(yī)療電能質(zhì)量革命,點(diǎn)亮“健康”新篇章
    的頭像 發(fā)表于 10-14 15:36 ?326次閱讀
    重慶市第五人民醫(yī)院引領(lǐng)醫(yī)療電能質(zhì)量革命,點(diǎn)亮“健康”<b class='flag-5'>新篇章</b>

    摩爾線程與中國移動攜手,共筑生態(tài)與應(yīng)用開創(chuàng)數(shù)智新篇章

    時代的新篇章。   摩爾線程,作為中國移動投資的國產(chǎn)全功能GPU企業(yè),同時也是中國移動的重要生態(tài)伙伴,在本次大會上展示了其全棧AI產(chǎn)品及解決方案,并在中國移動股權(quán)投資展位精彩亮相。此外,摩爾線程還積極參與了多個論壇活動,展示了與中國移動在多維度合作中的創(chuàng)新成果與最新進(jìn)展
    的頭像 發(fā)表于 10-14 15:36 ?622次閱讀

    復(fù)合機(jī)器人:開啟智能倉儲新篇章

    隨著工業(yè)4.0時代的到來,智能制造和智能倉儲已經(jīng)成為企業(yè)發(fā)展的重要驅(qū)動力。近日,一種全新的復(fù)合機(jī)器人倉庫搬運(yùn)方案亮相,該方案以復(fù)合機(jī)器人AMR為核心,通過與搬運(yùn)機(jī)器人AGV的緊密配合,開啟了智能倉儲的
    的頭像 發(fā)表于 10-12 16:58 ?285次閱讀
    復(fù)合<b class='flag-5'>機(jī)器</b>人:開啟智能倉儲<b class='flag-5'>新篇章</b>

    阿里巴巴AI賦能海外擴(kuò)張新篇章

    中國電商巨頭阿里巴巴集團(tuán)正積極重啟并加速其海外擴(kuò)張戰(zhàn)略,以應(yīng)對國內(nèi)電商市場競爭加劇的挑戰(zhàn)。此次擴(kuò)張的一大亮點(diǎn)在于,阿里巴巴將人工智能(AI)技術(shù)深度融入其國際業(yè)務(wù)布局中,開啟了海外發(fā)展的新篇章
    的頭像 發(fā)表于 07-12 17:56 ?1022次閱讀

    探索未來智能制造新篇章——富唯智能復(fù)合機(jī)器

    在科技飛速發(fā)展的今天,智能制造已成為推動產(chǎn)業(yè)升級的重要引擎。富唯智能憑借其在AI和機(jī)器人技術(shù)領(lǐng)域的深厚積累,推出了革命性的富唯智能復(fù)合機(jī)器人,開啟了智能制造的新篇章。
    的頭像 發(fā)表于 06-20 17:35 ?439次閱讀
    探索未來智能制造<b class='flag-5'>新篇章</b>——富唯智能復(fù)合<b class='flag-5'>機(jī)器</b>人

    高校嵌入式教學(xué)實(shí)驗(yàn)箱,開啟智慧教學(xué)新篇章

    高校嵌入式教學(xué)實(shí)驗(yàn)箱,開啟智慧教學(xué)新篇章
    的頭像 發(fā)表于 05-23 08:32 ?523次閱讀
    高校嵌入式教學(xué)實(shí)驗(yàn)箱,開啟智慧教學(xué)<b class='flag-5'>新篇章</b>

    深開鴻與哈工大重慶研究院合作共同開啟智能機(jī)器人與協(xié)同技術(shù)的新篇章

    近日,深開鴻與哈爾濱工業(yè)大學(xué)重慶研究院(以下簡稱“哈工大重慶研究院”)正式舉行合作啟動儀式,共同開啟智能機(jī)器人與協(xié)同技術(shù)的新篇章
    的頭像 發(fā)表于 05-13 09:43 ?741次閱讀
    深開鴻與哈工大重慶研究院合作共同開啟智能<b class='flag-5'>機(jī)器</b>人與協(xié)同技術(shù)的<b class='flag-5'>新篇章</b>

    深開鴻與哈工大重慶研究院攜手打造智能機(jī)器人與協(xié)同技術(shù)新篇章

    近日,深開鴻與哈爾濱工業(yè)大學(xué)重慶研究院(以下簡稱“哈工大重慶研究院”)正式舉行合作啟動儀式,共同開啟智能機(jī)器人與協(xié)同技術(shù)的新篇章。雙方將圍繞“智能機(jī)器人與協(xié)同技術(shù)”展開深度合作,致力于智能機(jī)器
    的頭像 發(fā)表于 05-12 08:32 ?534次閱讀
    深開鴻與哈工大重慶研究院攜手打造智能<b class='flag-5'>機(jī)器</b>人與協(xié)同技術(shù)<b class='flag-5'>新篇章</b>

    華盛昌與易達(dá)云成功簽署戰(zhàn)略協(xié)議,共同開啟合作新篇章

    2024年5月7日下午,華盛昌與易達(dá)云建供應(yīng)鏈科技(西安)有限公司成功簽署戰(zhàn)略合作協(xié)議,共同開啟全方面戰(zhàn)略合作新篇章。
    的頭像 發(fā)表于 05-11 17:43 ?526次閱讀
    華盛昌與易達(dá)云成功簽署戰(zhàn)略協(xié)議,共同開啟合作<b class='flag-5'>新篇章</b>

    首個鴻蒙生態(tài)創(chuàng)新中心在深揭幕,開啟鴻蒙產(chǎn)業(yè)新篇章共繪鴻蒙原生應(yīng)用開發(fā)新篇章

    首個鴻蒙生態(tài)創(chuàng)新中心在深揭幕 開啟鴻蒙產(chǎn)業(yè)新篇章 2024年3月19日,鴻蒙生態(tài)創(chuàng)新中心揭幕儀式在深圳舉行,標(biāo)志著鴻蒙產(chǎn)業(yè)發(fā)展邁出新的堅(jiān)實(shí)步伐。深圳市人民政府副秘書長黃強(qiáng),華為終端BG首席運(yùn)營官何剛
    發(fā)表于 03-20 09:55

    兩家企業(yè)有關(guān)LED項(xiàng)目的最新進(jìn)展

    近日,乾富半導(dǎo)體與英創(chuàng)力兩家企業(yè)有關(guān)LED項(xiàng)目傳來最新進(jìn)展。
    的頭像 發(fā)表于 01-15 13:37 ?700次閱讀