0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

微軟亞洲研究院開發(fā)的麻將AI系統(tǒng)Suphx成為首個在國際知名專業(yè)麻將平臺“天鳳”

DPVg_AI_era ? 來源:lq ? 2019-09-13 16:59 ? 次閱讀

微軟亞洲研究院開發(fā)的麻將 AI 系統(tǒng) Suphx 成為首個在國際知名專業(yè)麻將平臺“天鳳”上榮升十段的 AI 系統(tǒng),這是目前 AI 系統(tǒng)在麻將領域取得的最好成績,其實力超越該平臺公開房間頂級人類選手的平均水平。

要說中國最流行、群眾基礎最深厚的運動是什么,那一定是歷史悠久、老少咸宜的“國粹”——麻將。 麻將的起源眾說紛紜,今天我們熟知的麻將玩法大體成型于晚清,在當時稱作“麻雀”。隨著商貿與外交活動的開展,麻將漸漸風行亞洲,乃至流傳到世界各地,成為蘊含著古老的東方哲學與博弈智慧的“一股神秘的東方力量”。在今天,無論是逢年過節(jié)的熱鬧團圓,還是日常小聚的茶余飯后,隨時隨地,湊齊四個人一桌牌就能打個熱火朝天。 國際智力運動聯(lián)盟在 2017 年宣布,競技麻將成為繼圍棋、象棋、國際象棋、橋牌和國際跳棋之后的第六項國際正式智力運動項目。近年來,隨著人工智能在象棋、圍棋、德州撲克等眾多棋牌類游戲中獲得亮眼的成績,AI 在麻將領域卻一直有待跨越性的突破。 今年6月,由微軟亞洲研究院開發(fā)的麻將 AI 系統(tǒng) Suphx 成為首個在國際知名專業(yè)麻將平臺“天鳳”上榮升十段的 AI 系統(tǒng),這是目前 AI 系統(tǒng)在麻將領域取得的最好成績,其實力超越該平臺公開房間頂級人類選手的平均水平。 5000 場麻將對局,Suphx 榮升天鳳十段

由于長期在民間廣為流傳,不同地區(qū)的麻將玩法非常多樣,缺乏統(tǒng)一的規(guī)則標準和評價體系。日本在線麻將競技平臺“天鳳”,因其完善的競技規(guī)則、專業(yè)的段位體系,成為了業(yè)界知名的高水平專業(yè)麻將平臺,受到職業(yè)麻將界的廣泛承認。天鳳吸引了全球近 33 萬名麻將愛好者,其中不乏大量的專業(yè)麻將選手。

天鳳平臺為高水平麻將玩家提供兩種競技房間:“特上房”對四段以上所有玩家免費開放,允許 AI 參與游戲,目前所有玩家在此房間的最高段位是十段;“鳳凰房”僅對七段以上的人類付費玩家開放,目前不允許 AI 參與游戲,在該房間能夠達到的最高段位是十一段,稱為“天鳳位”。自天鳳平臺在 2006 年推出以來,全平臺達到四人麻將天鳳位的麻將高手僅有13位,曾經(jīng)達到過十段的選手約有 180 位,而現(xiàn)役十段的人類選手也僅有十幾位。

微軟亞洲研究院開發(fā)的麻將 AI 系統(tǒng) Suphx(Super Phoenix,意為“超級鳳凰”)于 2019 年 3 月登陸天鳳平臺,在 AI 能夠參與的公開競技房“特上房”,Suphx 與人類選手展開了 5000 余場精彩激烈的四人麻將對局。6 月,Suphx 成為了首個成功達到天鳳十段的 AI 系統(tǒng)。

由于單局麻將的輸贏并不僅僅取決于實力,從發(fā)牌到抽牌,4 位玩家的手牌組合都充滿了不確定性,機遇也會對結果產生重要的影響。因此麻將的對局數(shù)越多,越能夠真實地反應一位雀士的穩(wěn)定水平,于是,天鳳平臺通過計算穩(wěn)定段位(Stable Rank)來衡量雀士的真實實力水平。玩家的段位越高,在比賽中排位第四受到的點數(shù)懲罰也越多,點數(shù)扣除到一定程度會導致降段,因此取得一個高而穩(wěn)定的穩(wěn)定段位是非常不易的。

在這 5000 余場對局中,Suphx的 穩(wěn)定段位超過了 8.7。這樣的穩(wěn)定段位是一個極高的數(shù)字。據(jù)統(tǒng)計,天鳳平臺的所有頂級人類選手在取得十段后,在“特上房”共參加過近萬場比賽,整體穩(wěn)定段位為 7.4。與所有取得過天鳳十段的頂級人類玩家相比,Suphx 在特上房的穩(wěn)定水平要領先約 1.3 個段位。此前,天鳳平臺還活躍著另外兩個麻將 AI 系統(tǒng),由東京大學在 2015 年開發(fā)的“爆打”和 Dwango 公司于 2018 年開發(fā)的基于深度學習模型的“NAGA25”,二者的穩(wěn)定段位均在 6.5 左右。

“我看了 Suphx 的比賽,”天鳳 ID 為“ASAPIN”的朝倉康心在社交媒體上表示,“我感覺它好像比我更強大!”“ASAPIN” 是在日本麻將玩家中無人不知曉的一個神級的存在,他是全世界天鳳玩家中率先到達“天鳳位”的第一人,是公認的天鳳位中的最強玩家之一。

Suphx 的杰出表現(xiàn)也獲得了天鳳平臺官方的認可與青睞:“毫無疑問,Suphx 是迄今為止段位最高的麻將 AI。我們在考慮歸檔 Suphx 的所有比賽錄像,以共享給全平臺的其他麻將選手進行參考和學習。我們也正在和麻將社區(qū)里的廣大玩家討論,是否可以破例允許 Suphx 進入只有人類玩家參與的‘鳳凰房’進行比賽。這樣,我們將有機會欣賞到更加激烈和精彩紛呈的比賽。”

天鳳平臺開發(fā)公司 C-EGG 的 CEO 角田真吾表示:“這是一項巨大的突破,Suphx 不僅幫助我們用更智能的方式發(fā)展傳統(tǒng)文化,更展示了拓展 AI 能力邊界的可能性,我想這對天鳳平臺、麻將社區(qū)乃至社會都是一個令人振奮的事情?!?/p>

全新預測探索與自我博弈策略,破解非完美信息游戲

與象棋、圍棋、德州撲克等棋牌類游戲相比,麻將具有更復雜的隱藏信息和更高的難度??傮w而言,麻將 AI 主要面臨以下挑戰(zhàn):

巨大的狀態(tài)空間:與只有 52 張牌的德州撲克相比,136 張麻將牌的排列組合可能性更多。同時,麻將中同一個玩家兩次出牌之間,夾雜了其他 3 個玩家的出牌和自己摸的底牌,可能出現(xiàn)的不同局面數(shù)目非常巨大。值得特別指出的是,在麻將中,4 位玩家的出牌順序是不固定的,任意一位玩家的“吃碰杠”都可能使出牌順序突然改變,導致游戲樹不規(guī)則、且動態(tài)變化。這些特點使麻將很難直接利用 AlphaGo 等棋盤游戲 AI 常用的蒙特卡洛樹搜索算法。

非完美信息博弈:象棋和圍棋屬于完美信息游戲,玩家可以看到棋局中對方玩家的落子。麻將則存在大量的隱藏信息。具體而言,麻將中每個玩家可以有 13 張手牌,另外還有 84 張底牌。對于一個玩家而言,他只知道自己手里的 13 張牌和之前已經(jīng)打出來的牌,卻無法知道別人的手牌和沒有翻出來的底牌,所以最多可以有超過 120 張未知的牌。 這么多的未知信息使得麻將的難度非常高。一方面,由于隨機性太大,玩家即便在出牌決策中估計對方玩家手牌、底牌等不可見的牌,也無法避免不確定性對于游戲走向的影響。這將對 AI 模型的訓練帶來很大挑戰(zhàn):AI 模型很難發(fā)現(xiàn)已知牌面信息和最優(yōu)打法之間的邏輯鏈路。另一方面,豐富的隱藏信息導致游戲樹的寬度非常大,對樹搜索算法的可行性提出了進一步的挑戰(zhàn)。

復雜的獎勵機制:日本麻將的規(guī)則是“無役不能和牌”,多樣的特殊牌面構成了復雜的“役種”和番數(shù)計算規(guī)則。一輪游戲共包含 8 局,單局得分與役種和番數(shù)相關,最后根據(jù) 8 局的得分總和進行排名,來形成最終影響段位的點數(shù)獎懲。因此有時麻將高手會策略性輸牌,例如,在第 8 輪時如果 A 玩家已經(jīng)大比分領先第二名,他可能會故意放炮給排名第四的玩家,來防止總分被排名第二的玩家反超,保證自己在最終結算時獲得最大的點數(shù)獎勵。這為構建高超的麻將 AI 策略帶來了額外的挑戰(zhàn),AI 需要審時度勢,把握進攻與防守的時機。

“面對麻將游戲的巨大挑戰(zhàn),AI 僅靠強大的計算力無法從根本上解決問題,而需要更強的直覺、預測、推理和模糊決策能力,”微軟亞洲研究院副院長、機器學習領域負責人劉鐵巖博士表示。

為了讓 Suphx 高效地學習麻將的復雜狀態(tài)和策略,微軟亞洲研究院針對麻將的特點與難點嘗試了一系列基于強化學習的新算法,希望通過技術層面的創(chuàng)新,讓 Suphx 具備有效的狀態(tài)表達機制和強大的策略學習能力,同時具有大局意識,能從游戲的全局角度做出策略性的判斷,確保統(tǒng)計意義上總分的領先地位。

比如,為了應對巨大的狀態(tài)空間,研究團隊引入了全新的機制對探索過程的多樣性進行動態(tài)調控,讓 Suphx 可以比傳統(tǒng)算法更加充分地試探牌局狀態(tài)的不同可能;另一方面,一旦某一輪的底牌給定,其狀態(tài)子空間會大幅縮小;所以研究團隊讓 Suphx 在推理階段根據(jù)本輪的牌局來動態(tài)調整策略,對縮小了的狀態(tài)子空間進行更有針對性的探索,從而更好地根據(jù)本輪牌局的演進做出自適應的決策。

其次,針對非完美信息博弈的挑戰(zhàn),Suphx 創(chuàng)新性地嘗試了先知教練技術來提升強化學習的效果。其基本思想是在自我博弈的訓練階段利用不可見的一些隱藏信息來引導 AI 模型的訓練方向,使其學習路徑更加清晰、更加接近完美信息意義下的最優(yōu)路徑,從而倒逼 AI 模型更加深入地理解可見信息,從中找到有效的決策依據(jù)。

另外,對于麻將復雜的牌面表達和計分機制,研究團隊還利用全盤預測技術搭建起每輪比賽和 8 輪過后的終盤結果之間的橋梁。這個預測器通過精巧的設計,可以理解每輪比賽對終盤的不同貢獻,從而將終盤的獎勵信號合理地分配回每一輪比賽之中,以便對自我博弈的過程進行更加直接而有效的指導,并使得 Suphx 可以學會一些具有大局觀的高級技巧。

得益于以上新技術和其他方面的創(chuàng)新,自今年 3 月進入天鳳平臺以來,Suphx 在與人類玩家的對局中學得非??臁D壳?,在平衡攻擊和防御方面,Suphx 表現(xiàn)出了比許多頂尖人類玩家更明智的策略,能夠戰(zhàn)略性地完成短期損失與長期收益之間的權衡,并根據(jù)已有的模糊信息進行快速決策。

Suphx 一直在不斷學習與進步,研究團隊也一直在對 Suphx 背后核心算法的價值進行評估、反思和迭代,從而實現(xiàn)進一步的改進和提升。劉鐵巖表示,“ 雖然 Suphx 根據(jù)麻將的獨特挑戰(zhàn)進行了針對性的設計,也取得了不錯的戰(zhàn)績,但我們的創(chuàng)新從未停止。我們期待在不久的將來發(fā)明出更新穎、更強大的 AI 技術,使得 Suphx 的能力有更大幅度的提升。縱觀歷史,游戲 AI 的進化始終與 AI 研究進展相生相伴,很多關于人工智能的研究都起源于研究如何構建能夠完成游戲的智能體。我們希望通過對 Suphx 的研究來探索及擴展已有AI技術的邊界,不斷推動人工智能領域的進步。”

突破AI研究的邊界,解決更復雜的現(xiàn)實挑戰(zhàn)

麻將這類不完美信息游戲,與圍棋、象棋等完美信息游戲相比,對人工智能來說具有更大的挑戰(zhàn)性,因此為開發(fā)新的人工智能算法提供了理想的環(huán)境。

我們生活的世界是由許許多多的隨機事件構成的,而且在很多情況下,無法知曉的信息也許遠多于我們能夠掌握的信息,而我們仍然要在這樣信息不完全的條件下做出大大小小的決策。

而麻將游戲中復雜的推理策略和帶有隨機性的博弈過程,比完美信息游戲更加貼近人類復雜的真實生活。AI 在不完美信息游戲中的突破,將有助于協(xié)助人類應對更多高度復雜的現(xiàn)實問題,尤其是在智能交通、金融投資等容易受到隨機突發(fā)狀況影響的場景中。

就麻將本身而言,Suphx 可以說是“另辟蹊徑”,風格自成一派,創(chuàng)造了許多新的策略和打法,許多觀看 Suphx 比賽的玩家都表示在觀戰(zhàn)過程中受到了啟發(fā),甚至有麻將愛好者將 Suphx 稱作“麻將教科書”、“Suphx 老師”,通過學習 Suphx 的打法,幫助他們進一步提升和豐富自己的麻將技巧。

“我已經(jīng)看了 300 多場 Suphx 的比賽,我甚至不再觀看人類玩家的比賽了。我從 Suphx 身上學到很多新技術,它們對于我的三人麻將打法有著非常大的啟發(fā)意義,”麻將選手太くないお在社交媒體上表示。今年 6 月太くないお剛剛成為世界上第 15 位三人麻將天鳳位獲得者,也是第一位在四人麻將和三人麻將中均取得天鳳位的頂級玩家。

劉鐵巖表示,“我們期待 Suphx 能夠成為眾多麻將愛好者的良師益友,幫助人類玩家學習和提升麻將技巧。未來,我們希望 Suphx 能獲得與‘天鳳位’的頂級麻將高手進行切磋和學習的機會,進一步提升和精進 AI 在麻將領域的推理和決策水平。同時,我們也期待通過游戲 AI 的研究推動人工智能技術的創(chuàng)新發(fā)展,讓人工智能真正走進人類的生活,幫助我們解決更加錯綜復雜的現(xiàn)實挑戰(zhàn)?!?/p>

Suphx 仍在天鳳平臺上繼續(xù)著自己的競技之旅,研究員們希望給予它更加寬松的環(huán)境來充分學習、不斷提高、自我演化;也希望在整個麻將社區(qū)的共同幫助和呵護下,Suphx 可以取得更大的進步,與麻將社區(qū)共同成長。未來,在合適的時機,研究員將會把 Suphx 的技術總結成為一篇論文,與大家分享更多技術細節(jié)。敬請期待!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6627

    瀏覽量

    104384
  • AI
    AI
    +關注

    關注

    87

    文章

    31493

    瀏覽量

    270097
  • 強化學習
    +關注

    關注

    4

    文章

    268

    瀏覽量

    11286

原文標題:微軟超級麻將雀神榮升十段!AI Suphx橫掃“天鳳”領先人類1.3個段位

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    鯤云科技與中國工業(yè)互聯(lián)網(wǎng)研究院成立AI+安全生產聯(lián)合實驗室

    2025 年 1 月 14 日舉行的智算創(chuàng)新研究院開業(yè)盛典上,鯤云科技與中國工業(yè)互聯(lián)網(wǎng)研究院(以下簡稱“工聯(lián)”)正式宣布聯(lián)合成立“AI
    的頭像 發(fā)表于 01-14 18:01 ?390次閱讀

    合光能首個海外研發(fā)平臺順利通過驗收

    近日,由合光能承擔的江蘇省政策引導類計劃(國際科技合作/港澳臺科技合作)“合光能西班牙智能光伏系統(tǒng)研發(fā)中心建設”項目順利通過常州國家高新區(qū)科技局組織的項目驗收。
    的頭像 發(fā)表于 12-31 14:26 ?157次閱讀

    安謀科技與智源研究院達成戰(zhàn)略合作,共建開源AI“芯”生態(tài)

    12月25日,安謀科技(中國)有限公司(以下簡稱“安謀科技”)與北京智源人工智能研究院(以下簡稱“智源研究院”)正式簽署戰(zhàn)略合作協(xié)議,雙方將面向多元AI芯片領域開展算子庫優(yōu)化與適配、編譯器與工具鏈
    發(fā)表于 12-26 17:06 ?205次閱讀
    安謀科技與智源<b class='flag-5'>研究院</b>達成戰(zhàn)略合作,共建開源<b class='flag-5'>AI</b>“芯”生態(tài)

    阿里云PAI獲首個國際標準認證,領跑AI平臺

    阿里云人工智能平臺PAI近日成為國內首個通過ITU-T F.AICP-GA國際標準和國內《智算工程平臺能力要求》一致性測評的科技公司,標志著
    的頭像 發(fā)表于 12-03 17:47 ?927次閱讀

    微軟東京開設日本首個研究基地

    近日,微軟東京正式啟用了其日本首個研究基地——微軟亞洲研究
    的頭像 發(fā)表于 11-19 16:26 ?292次閱讀

    行易道科技與中國科學院空信息創(chuàng)新研究院達成合作

    行易道科技立足車載成像雷達產業(yè)化和新技術持續(xù)創(chuàng)新突破,與雷達成像優(yōu)勢科研平臺合作再啟新篇:為充分發(fā)揮中國科學院空信息創(chuàng)新研究院(空
    的頭像 發(fā)表于 11-09 10:38 ?439次閱讀

    陳天橋雒芊芊腦科學研究院人工智能領域取得重大突破

    陳天橋雒芊芊腦科學研究院(TCCI)的人工智能團隊,憑借其大腦與記憶領域的深厚造詣,于人工智能界取得了突破性進展。其自主研發(fā)的OMNE多智能體框架,由Meta AI、Hugging
    的頭像 發(fā)表于 11-01 11:11 ?555次閱讀

    中國電信人工智能研究院完成首個全國產化萬卡萬參大模型訓練

    近日,中國電信人工智能研究院宣布了一項重大技術突破:成功完成國內首個基于全國產化萬卡集群訓練的萬億參數(shù)大模型。
    的頭像 發(fā)表于 09-30 16:41 ?1761次閱讀

    開啟全新AI時代 智能嵌入式系統(tǒng)快速發(fā)展——“第六屆國產嵌入式操作系統(tǒng)技術與產業(yè)發(fā)展論壇”圓滿結束

    航空航天大學杭州創(chuàng)新研究院成功舉辦。本屆論壇有16位知名專家學者和120余位產學各界嘉賓參會,論壇圍繞“開啟全新AI時代、智能嵌入式操作系統(tǒng)研究
    發(fā)表于 08-30 17:24

    中科馭數(shù)成為首批算力互聯(lián)互通研究組成員單位

    ? ?5月25日,由中國信通牽頭召開的算力互聯(lián)互通研究組成立大會上,中科馭數(shù)作為首批成員單位受邀出席啟動儀式,共話算力產業(yè)發(fā)展實踐。 ▲中科馭數(shù)
    的頭像 發(fā)表于 05-30 19:08 ?781次閱讀
    中科馭數(shù)<b class='flag-5'>成為首</b>批算力互聯(lián)互通<b class='flag-5'>研究</b>組成員單位

    長沙北斗研究院總部基地正式奠基

    主體建筑,4棟主體建筑分別對應北斗平臺、中試平臺、創(chuàng)新平臺、孵化平臺4個平臺,長沙北斗研究院總部
    的頭像 發(fā)表于 05-16 12:49 ?1254次閱讀

    達實智能正式簽約威高(上海)國際研究院項目!

    近日,深圳達實智能股份有限公司在上海市閔行區(qū)正式簽署了威高(上海)國際研究院項目合同,合同金額 2012.80 萬元。
    的頭像 發(fā)表于 05-15 10:51 ?531次閱讀

    航天宏圖與研究院合作共同推動遙感衛(wèi)星數(shù)據(jù)應用創(chuàng)新

    近日,航天宏圖信息技術股份有限公司(以下簡稱“航天宏圖”)與長沙儀空間科技研究院有限公司(以下簡稱“研究院”)正式簽署戰(zhàn)略合作框架協(xié)議。
    的頭像 發(fā)表于 04-23 17:11 ?634次閱讀
    航天宏圖與<b class='flag-5'>天</b>儀<b class='flag-5'>研究院</b>合作共同推動遙感衛(wèi)星數(shù)據(jù)應用創(chuàng)新

    依托廣立微建設的浙江省集成電路EDA技術重點企業(yè)研究院正式掛牌

    近日,依托廣立微建設的浙江省集成電路 EDA 技術重點企業(yè)研究院正式掛牌,成為目前浙江EDA領域唯一的省級重點企業(yè)研究院。
    的頭像 發(fā)表于 04-03 10:14 ?692次閱讀
    依托廣立微建設的浙江省集成電路EDA技術重點企業(yè)<b class='flag-5'>研究院</b>正式掛牌

    浙江圖靈算力研究院向知存科技頒發(fā)“年度最具影響力企業(yè)獎”

    近日,浙江圖靈算力研究院生態(tài)伙伴聯(lián)誼會在杭州舉行,知存科技作為研究院生態(tài)企業(yè)之一,與賽迪研究院、中科計算所、自動化所和中國RISC-V聯(lián)盟、國科大杭高院、西湖大學、中關村智用人工智能
    的頭像 發(fā)表于 03-06 14:02 ?889次閱讀