0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌DeepMind設(shè)置強(qiáng)迫機(jī)制使AI實(shí)現(xiàn)利益最大化

汽車玩家 ? 來(lái)源:大數(shù)據(jù)文摘微信公眾號(hào) ? 作者:趙吉克 ? 2020-03-16 09:24 ? 次閱讀

最近谷歌DeepMind提出了一種新的強(qiáng)化學(xué)習(xí)技術(shù),這種技術(shù)以一種全新方式來(lái)模擬人類行為。它可能會(huì)比之前發(fā)布的人工智能決策系統(tǒng)更強(qiáng)大,這對(duì)希望通過(guò)自動(dòng)化提高生產(chǎn)率的企業(yè)來(lái)說(shuō)可能是個(gè)福音。

如何解決多方零和博弈中的合作困境?

DeepMind用強(qiáng)化學(xué)習(xí)使AI實(shí)現(xiàn)利益最大化。這是一種基于對(duì)等契約機(jī)制的經(jīng)濟(jì)競(jìng)爭(zhēng)模型,該模型允許在多方博弈中結(jié)盟。這篇論文其中一位作者表示,這種結(jié)盟有單打獨(dú)斗不具有的特殊優(yōu)勢(shì)。

長(zhǎng)期以來(lái),零和游戲以其豐富的策略選擇空間和清晰的策略評(píng)估方式指導(dǎo)著人工智能研究。更重要的是這種競(jìng)爭(zhēng)廣泛存在于生物界、市場(chǎng)經(jīng)濟(jì)甚至是AlphaZero中。

DeepMind科學(xué)家首先尋求數(shù)學(xué)定義形成聯(lián)盟的挑戰(zhàn),關(guān)注聯(lián)盟形成多玩家零和游戲——也就是說(shuō),數(shù)學(xué)表示的情況下,每個(gè)參與者的收益或損失的效用是完全平衡的損失或收益的其他參與者的效用。

什么是多方零和博弈?

DeepMind將之定義為每個(gè)玩家的收益或損失完全由其余玩家的損失或收益提供。在一個(gè)對(duì)稱多方零和博弈中,每個(gè)玩家的行為模式都是一樣的,這往往會(huì)產(chǎn)生社會(huì)困境。(一個(gè)極簡(jiǎn)例子是“囚徒困境”)

零和博弈引入了合作后事情變得很復(fù)雜。緊急情況下,團(tuán)隊(duì)必須內(nèi)部協(xié)調(diào)才能有效地在游戲中競(jìng)爭(zhēng)。合作形成的過(guò)程本身就是一個(gè)社會(huì)困境——從直覺(jué)上看,玩家應(yīng)該合作來(lái)?yè)魯∑渌?,但合作團(tuán)隊(duì)內(nèi)部要求個(gè)體為更廣泛的利益做出妥協(xié),但這種犧牲未必和他們的自身利益一致。此外,決定加入或離開(kāi)哪個(gè)團(tuán)隊(duì)以及團(tuán)隊(duì)策略都是重要問(wèn)題。

DeepMind嘗試了一種“禮物游戲”,在游戲中,AI扮演的玩家從一堆標(biāo)記著自己代表色的數(shù)字籌碼開(kāi)始。在每個(gè)玩家的回合中,他們必須拿出自己對(duì)應(yīng)顏色的籌碼并將其贈(zèng)送給另一名玩家,或?qū)⑵錀壷?。全部玩家都失去自己?duì)應(yīng)顏色的數(shù)字籌碼時(shí)游戲結(jié)束,此時(shí)擁有最多顏色籌碼的玩家獲勝,贏家平分價(jià)值為“1”的籌碼,其他玩家平分價(jià)值為“0”的籌碼。

研究發(fā)現(xiàn),玩家往往表現(xiàn)得很自私,他們囤積籌碼以至于出現(xiàn)了三方平局。但事實(shí)上,如果兩名玩家交換籌碼,回報(bào)會(huì)更好。DeepMind將這種過(guò)程闡述為:盡管合作能帶來(lái)更好的結(jié)果,但人人都想從欺騙行為中獲利,也就是說(shuō)服對(duì)方交換然后食言。

這也就是說(shuō),如果有一種機(jī)制能維護(hù)合作行為存在,那強(qiáng)化學(xué)習(xí)可以適應(yīng)這種博弈。這種機(jī)制就是合同——在游戲中,每個(gè)玩家必須提交一份報(bào)價(jià),首先選擇合作伙伴,然后為該合作伙伴提出行動(dòng)建議,最后玩家承諾采取的行動(dòng)。如果兩個(gè)玩家提供了相同的契約,那么這些契約就具有了約束力,也就是說(shuō)環(huán)境強(qiáng)制執(zhí)行了所承諾的操作。

這種強(qiáng)制性機(jī)制是合作形成的基礎(chǔ)。

這種模型能讓我們?cè)诟鼜V闊的應(yīng)用環(huán)境中思考契約的作用。一個(gè)沒(méi)有強(qiáng)制實(shí)施機(jī)制的契約系統(tǒng)如果可以在多方動(dòng)態(tài)博弈中持續(xù)運(yùn)行將最終產(chǎn)生一個(gè)有價(jià)值的反饋回路,這將使得AI的應(yīng)用走向社會(huì)學(xué)和經(jīng)濟(jì)學(xué)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6172

    瀏覽量

    105622
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31097

    瀏覽量

    269429
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    光伏發(fā)電如何實(shí)現(xiàn)能效最大化

    光伏發(fā)電實(shí)現(xiàn)能效最大化是一個(gè)綜合性的問(wèn)題,需要從多個(gè)方面入手。以下是一些關(guān)鍵措施: 一、選用優(yōu)質(zhì)設(shè)備 太陽(yáng)能板 :選用具有高光電轉(zhuǎn)化效率和穩(wěn)定性的太陽(yáng)能板是基礎(chǔ)。例如,單晶硅太陽(yáng)能板通常比多
    的頭像 發(fā)表于 12-05 11:06 ?301次閱讀

    KM振動(dòng)分析與動(dòng)平衡服務(wù)實(shí)現(xiàn)工廠設(shè)備效率最大化

    振動(dòng)儀
    KM預(yù)測(cè)性維護(hù)專家
    發(fā)布于 :2024年10月16日 15:57:14

    擴(kuò)展塢使用技巧:如何最大化你的筆記本電腦接口能力

    最大化您的筆記本電腦接口能力,以下是一些實(shí)用的擴(kuò)展塢使用技巧: 了解您的需求:在購(gòu)買擴(kuò)展塢之前,明確您需要哪些類型的端口(如HDMI, USB-C, RJ45等)以及是否需要充電功能,以選擇最適合
    的頭像 發(fā)表于 10-08 10:52 ?530次閱讀

    液冷充電槍線最大化提高充電效率

    法法易提供的液冷充電槍線可以最大化的提升充電效率,讓大家的充電時(shí)間進(jìn)一步縮短。? 液冷充電槍線使用液體循環(huán)來(lái)冷卻電纜,以避免因高溫而導(dǎo)致電纜損壞或充電速度減緩。而且液冷充電槍線采用銅芯導(dǎo)線和耐高溫、耐磨損、
    的頭像 發(fā)表于 09-11 14:25 ?413次閱讀

    谷歌DeepMind被曝抄襲開(kāi)源成果,論文還中了頂流會(huì)議

    谷歌DeepMind一篇中了頂流新生代會(huì)議CoLM 2024的論文被掛了,瓜主直指其抄襲了一年前就掛在arXiv上的一項(xiàng)研究。開(kāi)源的那種。
    的頭像 發(fā)表于 07-16 18:29 ?607次閱讀
    <b class='flag-5'>谷歌</b><b class='flag-5'>DeepMind</b>被曝抄襲開(kāi)源成果,論文還中了頂流會(huì)議

    谷歌DeepMind發(fā)布人工智能模型AlphaFold最新版本

    谷歌DeepMind近日發(fā)布了人工智能模型AlphaFold的最新版本——AlphaFold 3,這一革命性的工具將在藥物發(fā)現(xiàn)和疾病治療領(lǐng)域發(fā)揮巨大作用。
    的頭像 發(fā)表于 05-10 11:26 ?606次閱讀

    谷歌DeepMind推出新一代藥物研發(fā)AI模型AlphaFold 3

    谷歌DeepMind公司近日重磅推出了一款名為AlphaFold 3的全新藥物研發(fā)AI模型,這一創(chuàng)新技術(shù)將為科學(xué)家們提供前所未有的幫助,使他們能更精確地理解疾病
    的頭像 發(fā)表于 05-10 09:35 ?403次閱讀

    谷歌DeepMind推出SIMI通用AI智能體

    近日,谷歌DeepMind團(tuán)隊(duì)發(fā)布了其最新研究成果——SIMI(Scalable Instructable Multiworld Agent),這是一個(gè)通用人工智能智能體,能夠在多種3D虛擬環(huán)境
    的頭像 發(fā)表于 03-18 11:39 ?991次閱讀

    數(shù)據(jù)賦能:構(gòu)建數(shù)據(jù)治理與AI的協(xié)同閉環(huán)

    在數(shù)字化浪潮中,數(shù)據(jù)已成為企業(yè)的新型燃料,而AI則是提煉這種燃料的精煉廠。數(shù)據(jù)治理與AI的協(xié)同作用,正在引領(lǐng)企業(yè)邁向更智能、更高效的未來(lái)。本文將展示企業(yè)如何通過(guò)將數(shù)據(jù)治理與AI技術(shù)相結(jié)合,實(shí)現(xiàn)
    的頭像 發(fā)表于 03-15 10:47 ?497次閱讀

    谷歌計(jì)劃重新推出改進(jìn)后的Gemini AI模型人像生成功能

    谷歌DeepMind的首席執(zhí)行官德米斯·哈薩比斯在2月26日透露,公司計(jì)劃在接下來(lái)的幾周內(nèi)重新發(fā)布其備受關(guān)注的Gemini AI模型人像生成功能。此前,由于在某些歷史圖像生成描述中出現(xiàn)了不準(zhǔn)確的問(wèn)題,
    的頭像 發(fā)表于 02-28 10:17 ?616次閱讀

    谷歌DeepMind推新AI模型Genie,能生成2D游戲平臺(tái)

    據(jù)報(bào)道,谷歌公司的DeepMind團(tuán)隊(duì)近期發(fā)布了AI模型Genie,此模型擁有多達(dá)110億個(gè)參數(shù),能夠依據(jù)用戶提供的圖片及提示詞創(chuàng)建出相當(dāng)完整的2D游戲場(chǎng)景。
    的頭像 發(fā)表于 02-27 14:53 ?800次閱讀

    谷歌宣布Gemma大模型全球開(kāi)放使用

    谷歌公司近日宣布,其先進(jìn)的AI大模型Gemma即日起在全球范圍內(nèi)開(kāi)放使用。這一新模型由谷歌DeepMind和其他團(tuán)隊(duì)合作開(kāi)發(fā),并與其最大
    的頭像 發(fā)表于 02-23 10:41 ?796次閱讀

    谷歌DeepMind資深AI研究員創(chuàng)辦AI Agent創(chuàng)企

    近日,剛從谷歌DeepMind離職的資深AI研究員Ioannis Antonoglou宣布創(chuàng)辦了一家名為“AI Agent”的創(chuàng)企。Ioannis Antonoglou常駐倫敦,此前曾
    的頭像 發(fā)表于 02-04 10:02 ?809次閱讀

    谷歌DeepMind科學(xué)家欲建AI初創(chuàng)公司

    據(jù)知情人士透露,谷歌人工智能部門DeepMind的兩名杰出科學(xué)家Laurent Sifre和Karl Tuyls正在與投資者商討在巴黎成立一家新的人工智能初創(chuàng)公司的事宜。
    的頭像 發(fā)表于 01-22 14:41 ?513次閱讀

    用于并行采樣的EVADC同步轉(zhuǎn)換,如何在最大化采樣率的同時(shí)最大限度地減少抖動(dòng)?

    ; 必須設(shè)置相位同步器才能讓 EVADC 達(dá)到其有記錄的性能。" SSE=0、USC=1 設(shè)置會(huì)降低 ADC 結(jié)果精度嗎? 請(qǐng)告知最適合我的手機(jī)殼的設(shè)置是什么? 為了實(shí)現(xiàn)
    發(fā)表于 01-18 07:59