電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)AI技術(shù)在近年快速發(fā)展,應(yīng)用領(lǐng)域越來越廣泛的同時(shí),也帶來了巨大的算力需求,數(shù)據(jù)中心建設(shè)規(guī)模不斷擴(kuò)大,算力芯片功率越來越高,導(dǎo)致數(shù)據(jù)中心的能耗暴增。
有數(shù)據(jù)顯示,目前全球正在建設(shè)或處于不同開發(fā)階段的數(shù)據(jù)中心有7000多個(gè),是2015年的2倍。而目前全球數(shù)據(jù)中心消耗的電力大概占總電力消耗的1%至2%,預(yù)計(jì)到2030年,數(shù)據(jù)中心電力需求還會(huì)增長(zhǎng)160%,到本世紀(jì)末,數(shù)據(jù)中心在全球電力消耗占比可能高達(dá)4%。
根據(jù)國(guó)家能源局?jǐn)?shù)據(jù),2022年中國(guó)數(shù)據(jù)中心耗電量達(dá)到2700億千瓦時(shí)。預(yù)計(jì)到2030年耗電量將飆升至接近4000億千瓦時(shí),這是什么概念?三峽電站年設(shè)計(jì)發(fā)電量?jī)H882億千瓦時(shí)。
因此,解決數(shù)據(jù)中心電力消耗高的問題,一方面是提高使用清潔能源的比例或增加發(fā)電量,另一方面是從數(shù)據(jù)中心本身著手,提高效率,降低能耗。
為降低數(shù)據(jù)中心能耗作出的努力
數(shù)據(jù)中心的能耗主要來自于幾大部分,包括核心的服務(wù)器機(jī)柜中各種設(shè)備;為機(jī)房提供恒溫恒濕的精密空調(diào),以及服務(wù)器板卡上的散熱風(fēng)扇,甚至是水冷系統(tǒng)等;供配電系統(tǒng),比如變壓器、不間斷電源(UPS)、配電柜等,它們?cè)陔娔苻D(zhuǎn)換和分配過程中也會(huì)產(chǎn)生能耗。
當(dāng)然最關(guān)鍵的就是算力芯片,比如英偉達(dá)最新推出GB200AI加速卡由2個(gè)B200 GPU和一個(gè)Grace CPU組成,估算單卡的峰值功率將高達(dá)2700W。
而一個(gè)用于訓(xùn)練萬億參數(shù)級(jí)別大模型的數(shù)據(jù)中心,過去動(dòng)輒需要超過上萬塊AI加速卡。以英偉達(dá)2017年推出的V100 GPU來看,當(dāng)時(shí)單卡最大熱設(shè)計(jì)功耗是250W,F(xiàn)P64算力是7TFLOPS,F(xiàn)P32算力是14TFLOPS。
通過在過去幾年工藝制程的提升,以及芯片架構(gòu)設(shè)計(jì)上的改進(jìn),從V100到A100再到H100,2022年H100的最大熱設(shè)計(jì)功耗是300W-350W,相比V100提高了20%到40%。但同時(shí)它的算力增長(zhǎng)幅度更大,F(xiàn)P64算力26TFLOPS,相比V100提升371%;FP32算力51TFLOPS,相比V100提升364%,能效比提升幅度巨大。
而GB200更是采用NVLink-C2C 片上互聯(lián)技術(shù),集成兩個(gè)GPU和一個(gè)CPU核心,構(gòu)成一個(gè)超大芯片,這是封裝和高速互連技術(shù)所帶來的提升。
所以在算力芯片上,盡管摩爾定律式微,工藝制程帶來的性能提升越來越小,但英偉達(dá)CEO黃仁勛又提出了“黃氏定律”,GPU能效每?jī)赡陮⒃黾右槐兑陨?。除了芯片工藝制程之外,芯片架?gòu)設(shè)計(jì)、封裝技術(shù)的發(fā)展,依然能夠推動(dòng)GPU能效的持續(xù)提升。
在算力芯片之外,數(shù)據(jù)中心的電源、供配電系統(tǒng)也是能耗大戶。數(shù)據(jù)中心的電源效率通常用電源使用效率(PUE)來衡量,PUE是數(shù)據(jù)中心消耗的所有電力與IT設(shè)備使用的電力之比。PUE的值越接近1,表示數(shù)據(jù)中心的電源效率越高,能耗越低。
簡(jiǎn)單來說就是,當(dāng)數(shù)據(jù)中心的所有電力消耗都被用于真正起到計(jì)算和存儲(chǔ)作用的機(jī)柜時(shí),PUE就是1。但由于數(shù)據(jù)中心還有空調(diào)、供配電、監(jiān)控、建筑照明等外圍用電設(shè)備,所以在實(shí)際應(yīng)用中PUE遠(yuǎn)大于1。
根據(jù)2018年的統(tǒng)計(jì)數(shù)據(jù),全球數(shù)據(jù)中心的PUE平均值為1.58。一些地區(qū)或國(guó)家可能有更嚴(yán)格的要求,比如在中國(guó),北京和深圳對(duì)新建數(shù)據(jù)中心的PUE要求在1.4以下,上海的要求更為嚴(yán)格,要求PUE達(dá)到1.3以下。
為了降低PUE,有些企業(yè)嘗試在冷卻上下功夫,比如微軟在2018年啟動(dòng)了一項(xiàng)實(shí)驗(yàn),在蘇格蘭海岸外 117 英尺的水下安裝了擁有864臺(tái)服務(wù)器的數(shù)據(jù)中心,測(cè)試?yán)煤K峤档蛿?shù)據(jù)中心能耗的可行性。2020年微軟公布了測(cè)試結(jié)果,表示水下服務(wù)器的設(shè)備故障率僅為陸地?cái)?shù)據(jù)中心的 1/8,同時(shí)海水溫度穩(wěn)定,可以穩(wěn)定為服務(wù)器散熱。然而有趣的是,微軟今年卻宣布未來不會(huì)在世界任何地方建設(shè)海底數(shù)據(jù)中心,耐人尋味。
除此之外,服務(wù)器電源轉(zhuǎn)換效率對(duì)于目前功率越來越大的服務(wù)器來說,收益更大,因此近年服務(wù)器電源效率就受到了更多關(guān)注。
第三代半導(dǎo)體,助力服務(wù)器電源效率突破
服務(wù)器電源需要在服務(wù)器機(jī)架有限的空間里提供大功率供電,一方面需要更高的功率密度,其次是需要更高的轉(zhuǎn)換效率。業(yè)界對(duì)電源有多個(gè)等級(jí)標(biāo)準(zhǔn),比如銅牌電源的轉(zhuǎn)換效率大于等于82%,在50%負(fù)載下效率要在85%以上;最高級(jí)的鈦金牌電源,在50%負(fù)載下轉(zhuǎn)換效率要達(dá)到96%,在10%和100%負(fù)載下效率也需要超過90%。
由于服務(wù)器需要常年24小時(shí)不間斷運(yùn)行,那么幾個(gè)百分點(diǎn)的效率差距,就能產(chǎn)生巨大的成本收益。比如將1000W的服務(wù)器上的白金電源換成鈦金級(jí)電源,每年可以節(jié)省200千瓦時(shí)電力消耗。如果在一個(gè)十萬臺(tái)服務(wù)器的超大型數(shù)據(jù)中心中,一年就可以節(jié)省2000萬千瓦時(shí),大大降低數(shù)據(jù)中心運(yùn)營(yíng)成本。
所以結(jié)合高效率和高功率密度的兩大需求,第三代半導(dǎo)體開始應(yīng)用到服務(wù)器電源上。比如華為PAC3000S12-T1鈦金級(jí)3000W服務(wù)器電源,就采用了GaN功率器件,功率密度超過6W每立方毫米,轉(zhuǎn)換效率超過96%,最高可達(dá)98%。
英飛凌今年發(fā)布的數(shù)據(jù)中心電源路線圖上也表示,將推出兩款混合使用硅、GaN、SiC三類晶體管開關(guān)以實(shí)現(xiàn)100W每英寸立方的高功率密度和97.5%的高轉(zhuǎn)換效率的服務(wù)器電源,采用全數(shù)字控制交錯(cuò)式無橋圖騰柱PFC搭配全橋GaN LLC電路設(shè)計(jì)。
英諾賽科去年推出了一款2kW的服務(wù)器電源方案,功率密度達(dá)到76W每立方英寸,效率達(dá)到96.5%,采用 InnoGaN 650V 氮化鎵芯片以及圖騰柱無橋 PFC+LLC 結(jié)構(gòu)。
納微半導(dǎo)體去年也推出了一款3.2kW數(shù)據(jù)中心電源平臺(tái),功率密度接近100W每立方英寸,且效率超過96.5%。按照此前發(fā)布的路線圖,納微半導(dǎo)體今年還將發(fā)布一款全新的4.5kW電源平臺(tái),將GaN技術(shù)和SiC技術(shù)結(jié)合,功率密度提升至135W每立方英寸以上,效率超過97%。
小結(jié):
隨著數(shù)據(jù)中心大基建時(shí)代加速,數(shù)據(jù)中心能耗將受到更多關(guān)注,從發(fā)電端到綠色能源利用再到降低數(shù)據(jù)中心能耗,或許還將加速更多的新技術(shù)發(fā)展以及落地。
-
第三代半導(dǎo)體
+關(guān)注
關(guān)注
3文章
156瀏覽量
6986
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論