0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

博弈論應有的作用

IEEE電氣電子工程師 ? 來源:IEEE電氣電子工程師 ? 作者:IEEE電氣電子工程師 ? 2022-07-28 10:53 ? 次閱讀

“數據中心”和“博弈”(其英文為game,亦有游戲之意)二詞可能會讓人聯想到《魔獸世界》等多人在線游戲。但數據中心內還上演著另一種博弈,即共享計算機和存儲系統(tǒng)對資源的搶占。 甚至數據量堪稱最大的谷歌公司的員工也曾進行過這樣的博弈。當要求提交某項工作的計算需求時,一些員工為了減少與他人共享的資源數量而夸大資源請求。

有趣的是,還有些員工會減少資源請求,假裝自己的任務可以在任何計算機中輕松完成。一旦他們的任務被提交到機器上,就會耗盡機器上所有可用的資源,擠兌其他任務。 這種伎倆看起來有點滑稽,實際上卻引發(fā)了真正的問題——效率低下。 2018年,全球數據中心耗電量達2050億千瓦時,差不多和澳大利亞全境的用電量相當,約占全世界總用電量的1%。因服務器未能滿負荷運行,大量能源被浪費。一臺服務器空閑時消耗的電力是其峰值運行時的50%,因為服務器運行任務時,其固定電力成本會分攤到該任務上。運行單任務的用戶通常只占用20%到30%的服務器資源,因此多個用戶必須共享服務器,以提高利用率,進而提升能源效率。共享服務器還可以降低資金、運營和基礎設施的成本。畢竟并非人人都有足夠的財力來建立屬于自己的數據中心。為了分配共享資源,數據中心部署資源管理系統(tǒng),根據用戶需求和系統(tǒng)自身目標來分配可用的處理器內核、內存容量和網絡資源。乍一看,這項任務應當是簡單明了的,因為用戶往往會有互補需求。但事實并非如此。共享造成了用戶之間的競爭,就如谷歌投機取巧的員工那樣,這會扭曲資源的使用。因此,我們開展了一系列項目,采用博弈論,即描述理性決策者之間策略互動的數學模型,來管理利己用戶之間的資源分配,實現數據中心效率最大化。采用博弈論后,情況變得大為不同。

幫助一群理性而利己的用戶有效共享資源不是大數據時代的產物。幾十年來,經濟學家一直在這樣做。在經濟學中,市場機制根據供求來決定資源的價格。實際上,亞馬遜EC2和微軟Azure等公共數據中心中都部署了此類機制。在那里,真實的貨幣轉移作為一種工具,使用戶動機(性能)與提供商目標(效率)趨于一致。然而,很多情況下,貨幣交換并不起作用。

舉一個簡單的例子。假設你在最好朋友的婚禮上得到一張歌劇票,你決定把票贈送給最喜歡這場歌劇的人。因此你要進行所謂的第二價格密封拍賣:你讓朋友出價,規(guī)定贏家支付第二高的競價。數學上已經證明,在這場拍賣中,你的朋友沒有動機謊報對這張歌劇票的估價。如果你不想要錢或不讓朋友付給你錢,你的選擇就會變得非常有限。如果你詢問朋友想看歌劇的意愿,他們定會夸大想要歌劇票的愿望。歌劇票只是一個簡單的例子,但在很多地方,比如谷歌私人數據中心或學術計算機集群,金錢要么不能轉手,要么不該轉手,因此不能以此來決定歸誰所有。博弈論恰好為此類問題提供了實用的解決方案,并已實用于計算機網絡和計算機系統(tǒng)。我們可以從這兩個領域獲得靈感,但也不必解決其局限性。為避免計算機網絡擁塞,人們在設計管理機制方面做了很多工作,以此來管理自利和不協調的路由器。但是這些模型只考慮了對單個資源——網絡帶寬——的爭搶;而在數據中心計算機集群和服務器中,要爭奪的有各種各樣的資源。在計算機系統(tǒng)中,人們對考慮多種資源分配機制的興趣越來越濃厚,其中非常著名的是主體資源公平機制。然而,這類工作僅限于性能模型以及處理器與內存的比率,并不總能反映數據中心的情況。為提出適用于數據中心的博弈論模型,我們深入研究硬件架構的細節(jié),從最小層次——晶體管開始。長期以來,晶體管功耗隨體積縮小而降低,部分原因在于工作電壓降低。然而,20世紀初,這種被稱為登納德縮放比例的定律被打破。其結果是,在固定功率預算內,處理器的速度不能再按照我們習慣的速度增長。臨時解決方案是在同一芯片內安置多個處理器內核,這樣仍可以經濟地冷卻大量的晶體管。然而,你很快發(fā)現,長時間全速開啟運行所有內核會熔化芯片。2012年,計算機架構師提出了一種叫作“計算沖刺”(computational sprinting)的變通方法。其概念是,處理器內核在較短的時間隔內安全地突破功率預算,稱為沖刺。一次沖刺之后,處理器必須在下一次沖刺之前冷卻下來;否則芯片就會損毀。如果處理得當,沖刺可使系統(tǒng)更快速地響應工作負載的變化。沖刺計算最初針對的是智能手機等移動設備的處理器,這些處理器必須限制功耗,節(jié)省電量,同時避免灼傷用戶。但沖刺很快便應用于數據中心,幫助處理瞬時激增的計算需求。

這便是問題所在。假設自私用戶啟用可實現沖刺的服務器,這些服務器在數據中心中共享一個電源。用戶可以通過沖刺來提高處理器的計算能力,但若眾多處理器同時沖刺,電源負荷將會激增,斷路器將跳閘。在系統(tǒng)恢復時,迫使不間斷電源(UPS)中的電池提供電力。電力應急狀況出現后,電池需要充電,在此期間連接此電源的所有服務器都必須按額定功率運行,不允許沖刺。

這種情形是典型“公地悲劇”的一個版本,英國經濟學家威廉?福斯特?羅伊德 (William Forster Lloyd)在1833年的一篇文章中首次提出這一概念。他描述了如下情況:假設牧民共享一片牧牛地。如果一位牧民的牧牛超過規(guī)定數量,他就可以獲得邊際收益。但如果許多牧民效仿,過度放牧就會破壞土地,無人能獨善其身。我們與當時杜克大學的博士生樊淞春(Songchun Fan,音)將沖刺策略作為公地悲劇來研究。我們構建了一個關注兩個主要物理約束的系統(tǒng)模型。首先,對于服務器處理器,在芯片散熱時,要求處理器等待,并限制下一次沖刺操作。其次,對于服務器集群,如果斷路器跳閘,在不間斷電源(UPS)電池充電期間,所有服務器處理器都必須等待。我們設計了一個沖刺博弈游戲,用戶在每一回合中可能處于活躍狀態(tài)、沖刺后的冷卻狀態(tài)或緊急斷電后的恢復狀態(tài)。在每個回合,或者每一輪游戲中,用戶唯一的決定是處理器處于活躍狀態(tài)時是否進行沖刺。用戶希望優(yōu)化沖刺的收益,比如提高吞吐量或減少執(zhí)行時間。注意,這些收益會隨著沖刺的時間而變化。例如,需求越高,沖刺收益越大。

舉一個簡單的例子。假如你正處于第5回合游戲,沖刺將為你帶來10個單位的收益。然而,你必須讓處理器冷卻幾輪才能再次沖刺。如果等到第6回合再沖刺,你可以獲得20個單位的收益?;蛘吣愦蛩悴辉诘?回合沖刺,而保留到未來某一回合,但所有其他用戶都決定在第5回合沖刺,于是出現了電力應急情況,導致你無法在后面數回合中沖刺。更糟糕的是,你的收益降低了。所有用戶的決策都必須基于他們的獲益和其他用戶的沖刺策略。當少數幾個用戶博弈時或許很有趣,但當競爭對手的數量增長到數據中心規(guī)模時,決策就變得非常棘手。幸好,我們發(fā)現了在大型系統(tǒng)中優(yōu)化每個用戶策略的方法,即所謂的平均場博弈分析。這一方法將用戶行為描述為一個整體,避免了審視每個競爭對手策略的復雜性。這種統(tǒng)計方法的關鍵是假設任何單個用戶的動作都不會明顯改變平均系統(tǒng)行為?;谶@一假設,我們可估計所有用戶對任意指定用戶造成的影響。這類似于千百萬個上班族試圖優(yōu)化日常出行的方法。比如有一個上班族名叫愛麗絲,她不可能對每個路人的出行方式進行推斷,但她可以將所有上班族作為一個群體來形成某種預測,比如某一天他們希望到達的時間,以及他們的出行計劃對交通擁堵的影響。平均場博弈分析能夠使我們找到沖刺游戲的“平均場平衡”。用戶優(yōu)化自己對群體的響應,在平衡狀態(tài)下,偏離用戶對群體的最佳響應不會給用戶帶來益處。在交通領域的類比中,愛麗絲據其對通勤群體平均行為的了解來優(yōu)化自己的通勤。如果優(yōu)化后的計劃未能達到預期交通模式,她會校正預測并重新考慮計劃。隨著每位上班族幾天優(yōu)化一次,交通趨于某種重復的模式,上班族的獨立行為便會產生一種整體的平衡。

根據平均場平衡,我們制定了沖刺博弈游戲的最優(yōu)策略,可歸結如下:當性能增益超過某個閾值(具體視用戶而定)時,用戶應沖刺??梢酝ㄟ^數據中心的工作負載及其物理特性來計算這一閾值。在平均場平衡狀態(tài)下,每位用戶都以其最優(yōu)閾值運行,系統(tǒng)可獲得諸多收益。首先,數據中心的電源可以實現分布式管理,用戶無須向中央管理器請求沖刺許可,可自行實施策略。這種獨立使電源控制更加靈敏、節(jié)能。用戶可以在幾微秒的時間內調節(jié)處理器功耗,而如果他們必須等待幾十毫秒才能獲得許可并通過數據中心,那么這種效果將難以實現。其次,平衡可以完成更多計算工作,用戶可以根據自己的工作負載需求適時優(yōu)化沖刺策略。最后,用戶的策略變得簡單明了——當增益超過閾值時進行沖刺。這非常易于實現,且便于執(zhí)行。

我們在過去5年里開發(fā)了一系列數據中心管理系統(tǒng),沖刺電源管理項目僅僅是其中之一。在每一個系統(tǒng)中,我們都使用硬件架構和系統(tǒng)的關鍵細節(jié)來規(guī)劃博弈。當參與者表現出自私的行為時,建成的實用管理機制也可保障系統(tǒng)能夠穩(wěn)定運行。我們相信,這種保障會鼓勵參與共享系統(tǒng),并為節(jié)能和可擴展的數據中心奠定堅實基礎。

盡管我們已經設法解決服務器多處理器、服務器機架和服務器集群級別的資源分配問題,但是將它們用于大型數據中心仍將需要更多的工作。首先,必須能夠生成數據中心的性能配置文件。數據中心必須部署監(jiān)視硬件運行的必要設施、評估性能效果并推算資源參數。此類系統(tǒng)的多數博弈論解決方案都要離線分析階段。而更積極一點的方法,可以從一些先驗知識開始建造在線機制,然后在執(zhí)行過程中隨著特征變得更清晰,不斷更新其參數。甚至可能通過強化學習或其他形式的人工智能來在線改進機制的博弈規(guī)則。另外,在數據中心,用戶可能隨時到達和離開系統(tǒng);任務可能會在不同階段進入和退出;服務器可能會發(fā)生故障并重新啟動。所有這些事件都需要重新分配資源,但是資源的重新分配可能會破壞整個系統(tǒng)的計算,要求數據分流,從而耗盡資源。在保持每個人公平博弈的同時,應對所有這些變化都需要進行更多的工作,但我們相信博弈論將發(fā)揮其應有的作用。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 服務器
    +關注

    關注

    12

    文章

    9216

    瀏覽量

    85575
  • 數據中心
    +關注

    關注

    16

    文章

    4794

    瀏覽量

    72189
  • 大數據
    +關注

    關注

    64

    文章

    8895

    瀏覽量

    137503

原文標題:博弈論制勝數據中心

文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    有的MOSFET都有體二極管嗎?它有什么作用呢?硬件工程師要搞懂的電路知識點

    Part 01 前言 與三極管等其他的有源器件相比,MOSFET的不同尋常之處在于其原理圖符號會包含一個寄生器件——體二極管。那么是不是所有的MOSFET都會有體二極管嗎?這個體二極管它有什么作用
    的頭像 發(fā)表于 12-07 17:11 ?1719次閱讀
    所<b class='flag-5'>有的</b>MOSFET都有體二極管嗎?它有什么<b class='flag-5'>作用</b>呢?硬件工程師要搞懂的電路知識點

    【鋰電池】DSC測試鋰電池隔膜閉孔溫度熔點

    一、概述隔膜的作用1.使電池的正,負極分隔開來,防止短路;2.吸附電池中電解液,確保高的離子電導率;3.有的還能防止對電池反應有害的物質在電極間遷移;4.保證在電池發(fā)生異常時使電池反應停止,提高電池
    的頭像 發(fā)表于 11-11 09:30 ?265次閱讀
    【鋰電池】DSC測試鋰電池隔膜閉孔溫度熔點

    D類功放喇叭輸出端會接RC串聯在喇叭上面,它的作用是什么?

    D類功放喇叭輸出端會接RC串聯在喇叭上面,這個作用是什么?還看到有的是接CR,如下面這個圖C201和R200,這個有什么區(qū)別嗎,還有喇叭之間會接電容,這個作用又是什么,如下面的C33 ?還想請教各位,謝謝!
    發(fā)表于 11-01 07:25

    求救大佬,有沒有大佬知道這個B772在這個電路里面是什么作用

    從計算機過來搞PCB的,沒看懂這個B772在這里的作用,想請教大佬這個B772在這個電路的作用是怎么樣的。 查過資料有的說是開關,有的說是穩(wěn)壓,不太清除。
    發(fā)表于 09-25 23:15

    OP07供電電源中串個小電阻,有什么作用?

    看到有的設計中,運放(OP07)供電電源中串個小電阻,不知道有什么作用?有的在12V時串電阻1K。
    發(fā)表于 09-24 08:32

    霍爾式傳感器工作原理與電磁感應有什么關系

    生電動勢的現象?;魻柺絺鞲衅鞯墓ぷ髟砼c電磁感應有著密切的關系。 霍爾效應的發(fā)現 霍爾效應是由美國物理學家埃德溫·霍爾(Edwin Hall)在1879年發(fā)現的。他觀察到,當電流通過一個置于磁場中的導體時,導體兩側會產生一個垂直于電
    的頭像 發(fā)表于 09-23 15:18 ?411次閱讀

    OPA2340UA 0輸入時,有的運放是0輸出,有的0輸入有輸出,這是怎么回事?

    自己在供應商買了一些OPA2340UA發(fā)現0輸入時,有的運放是0輸出,有的0輸入有輸出,而且輸出的大小不一樣,為了完成我所需要的功能,要更換很多次運放,我以為是買到了假的運放,然后在官網申請了一些樣片,發(fā)現也是這樣
    發(fā)表于 08-29 07:28

    漏電保護器對什么情況不起作用

    漏電保護器是一種用于檢測和保護電氣線路中漏電現象的電氣安全裝置。它能夠及時切斷電源,防止電氣火災、觸電事故等安全問題的發(fā)生。然而,漏電保護器并非萬能的,它在某些特定情況下可能無法起到應有的保護作用
    的頭像 發(fā)表于 08-26 09:16 ?4195次閱讀

    助焊劑的作用主要有哪些

    ,助焊劑的化學作用便顯得尤為重要。它能與氧化層發(fā)生反應,清除氧化物,從而露出干凈的金屬表面,使其能夠與焊料順利結合。 助焊劑與氧化物之間的化學反應有多種機制:生成新物質、直接剝離氧化物或兩者同時發(fā)生。例如,松香
    的頭像 發(fā)表于 08-15 18:07 ?752次閱讀

    pcb射頻天線的邊際效應有哪些

    信號。然而,在設計、制造和使用過程中,PCB射頻天線可能會受到多種邊際效應的影響,這些效應可能會降低天線的性能,甚至導致系統(tǒng)失效。邊際效應主要源于電磁波的相互作用、材料特性、設計缺陷以及環(huán)境因素等。 1. 電磁波的相互作用 1.1 耦合效應 在
    的頭像 發(fā)表于 07-19 10:01 ?604次閱讀

    基于 ZYNQ AlphaGo 的棋類人機博弈 AR 系統(tǒng)

    。近些年來,增強現實(簡稱 AR)與人工神經網絡算法結合成為了一種極有價值的研究方向,本項作品中,我們采用卷積神經網絡和蒙特卡洛樹復刻了Alphago 的棋類博弈神經網絡, 配合
    發(fā)表于 07-17 19:27

    記錄一次使用easypoi時與源碼博弈的過程

    一、背景介紹 最近剛剛接手了保險一線之聲平臺的開發(fā)和維護工作,第一個需要修復的問題是:平臺的事件導出成excel功能在經過一次上線之后突然不可用了,于是就開始了幾輪痛苦的排查以及與源碼博弈的過程
    的頭像 發(fā)表于 07-03 16:33 ?354次閱讀
    記錄一次使用easypoi時與源碼<b class='flag-5'>博弈</b>的過程

    這才是封裝設計應有的樣子:插接件焊盤

    插件孔的標準孔徑尺寸:0.60mm(23.6mil),0.70mm(27.6mil),0.80mm(31.5mil),0.90mm(35.4mil),1.0mm(39.4mil)插件元器件引線(圓柱形)直徑與插件孔直徑D之差應為0.40mm(16mil)~0.60mm(24mil),即插件孔與元器件引線的間隙L為0.20mm(7.9mil)~0.30mm(1
    的頭像 發(fā)表于 06-21 08:11 ?1257次閱讀
    這才是封裝設計<b class='flag-5'>應有的</b>樣子:插接件焊盤

    企業(yè)數據備份體系化方法的七大原則:數據生命周期規(guī)劃:資產管理的新篇章

    在數字化浪潮中,數據如同新時代的石油,成為了推動企業(yè)前進的核心動力。但與所有寶貴資源一樣,如果我們不能妥善管理,這種無形的資產就難以發(fā)揮其應有的價值。這就是為何數據生命周期規(guī)劃(DLP)顯得如此重要
    的頭像 發(fā)表于 03-11 14:24 ?357次閱讀

    數據中心機房建設的痛點:投資與運維之間的博弈

    在數字化浪潮的推動下,數據中心機房建設成為企業(yè)發(fā)展不可或缺的一環(huán)。然而,這一過程中存在一系列的痛點,其中投資與運維之間的博弈成為機房建設的重要議題。本文將深入探討機房系統(tǒng)建設中的投資及運行維護痛點
    的頭像 發(fā)表于 02-03 09:54 ?762次閱讀