專訪 Maury Wood,Vicor 戰(zhàn)略營銷副總裁
生成式人工智能(genAI)帶來的文化革命可能像互聯網普及一樣對人類產生深遠影響。從您的角度來看,目前情況如何?
過去 18 個月以來,我們見證了整個生成式人工智能生態(tài)系統(tǒng)的飛速創(chuàng)新,涵蓋處理器芯片、專用軟件和超級計算機等多個領域,這些創(chuàng)新加速了特定領域人工智能應用的開發(fā),同時,許多企業(yè)紛紛宣布戰(zhàn)略規(guī)劃,這預示著生成式人工智能將在可預見的未來對全球經濟產生巨大影響。目前,生成式人工智能模型的訓練已經在計算性能、存儲容量和網絡帶寬方面達到了前所未有的高水平。一些當今性能最高的超級計算機(通常以浮點數學性能衡量)專門用于生成式人工智能模型訓練。生成式人工智能正推動半導體、基礎設施硬件、系統(tǒng)軟件和網絡邊緣等領域的空前投資,這種投資熱潮有望進一步擴展到家庭和工作場所的嵌入式人工智能設備領域。
生成式人工智能的快速普及會帶來哪些負面影響?
除了人們普遍擔憂的問題外,這波創(chuàng)新浪潮的一個主要成本是云數據中心的能耗急劇增加,這些數據中心承擔著生成式人工智能的訓練和推理任務,而能耗的預測數據令人擔憂。例如,《紐約時報》的一項預測顯示,到 2027 年,生成式人工智能的用電量將相當于阿根廷、荷蘭或瑞典一年的用電量。生成式人工智能模型的訓練和推理帶來日益嚴重的能耗挑戰(zhàn),與社會減少能源使用和溫室氣體排放的目標背道而馳。
為何生成式人工智能計算如此耗電?
首先,讓我們區(qū)分兩個概念。當我們個人使用生成式人工智能工具時,我們是在對預訓練的大型語言模型(LLM)進行查詢,這種所謂的"推理"活動并不特別耗電,甚至可以在網絡邊緣設備上進行。然而,訓練生成式人工智能大型語言模型的過程則需要在我之前提到的超級計算機上進行大量計算(目前這個過程通常需要數月)。這些超級計算機使用成千上萬個基于圖形處理單元(GPU)的專用處理器,每個處理器包含的晶體管都數量驚人——通常超過 1000 億。這些訓練處理器采用了最先進的半導體工藝技術,如 4 納米 CMOS 工藝,但在運行過程中會漏電。由于這些晶體管的供電電壓約為 0.7VDD,持續(xù)的電流需求可能高達 1000 安培或更高,導致持續(xù)功耗(也稱為熱設計功耗)達到 700 瓦特或更高。如果每臺生成式人工智能超級計算機的數千個處理器和全球數百臺云端生成式人工智能超級計算機都乘以 700 瓦,總體電力消耗就會急劇飆升。
舉個例子,根據英偉達(Nvidia)的數據,OpenAI 的 GPT-3 模型有 1750 億個參數,整個訓練周期需要約 300 澤字節(jié)浮點運算(300 zettaFLOPS,即每秒 1021 次浮點運算),相當于 3X1023 次數學運算。而且這些模型的規(guī)模只會不斷增加,目前正在開發(fā)的神經網絡模型參數已達到萬億級。
圖 1:生成式人工智能訓練處理器的峰值電流需求不斷攀升,似乎沒有盡頭。
常規(guī)開關模式電源架構能否滿足生成式人工智能的供電需求?
直到最近,數據中心機架還在使用 12V 直流配電系統(tǒng)。在過去十年中,Vicor 等電源系統(tǒng)創(chuàng)新公司一直倡導在數據中心機架中使用 48V 直流電源,因為根據歐姆定律,電壓更高可以在具有非零電阻的導體中降低功耗。開放計算項目組織(Open Compute Project)標準化的開放機架規(guī)范大大推動了 48V 直流電源在高性能計算應用中的采用。在早期的生成式人工智能配電架構中,這種 48V 直流電源在加速模塊上轉換為中間母線電壓,然后再通過跨電感電壓穩(wěn)壓器(TLVR)供電,然而這種方法在可擴展性和電流密度方面存在明顯的局限性。
概念性加速模塊(AM),展示基于 GPU 的處理器并支持高帶寬內存(HBM),是生成式人工智能的基本構建模塊。
為何 TLVR 方法不足以滿足生成式人工智能處理器的供電需求?
在用于生成式人工智能訓練處理器的加速模塊上,可用的印刷電路板(PCB)空間非常有限,這意味著這些處理器的供電子系統(tǒng)必須具有超高的功率密度(W/mm2)和電流密度(A/mm2)。傳統(tǒng)電源根本無法達到所需的功率和電流密度,既無法提供足夠的電流,也無法適應有限的 PCB 面積。此外,生成式人工智能訓練處理器的電源組件還必須滿足負載瞬變引起的動態(tài)性能需求。同樣,傳統(tǒng)的供電方法并不能很好地滿足這些要求。另外,生成式人工智能供電架構中的組件必須具有出色的散熱能力。無論生成式人工智能系統(tǒng)采用液冷還是風冷,電源組件都必須具有高熱導率,其封裝還要能在整個使用壽命期內承受極高水平的熱循環(huán)。最新的生成式人工智能加速模塊采用分級電源架構,其負載點轉換器使用電流倍增技術,如 Vicor 公司的創(chuàng)新技術。
Vicor 的分比式電源架構(FPA)在負載點采用具有出色散熱性能的模塊化電流倍增器(MCM),非常適合生成式人工智能訓練應用。
Vicor 技術如何改進生成式人工智能的供電?
Vicor 獨特的電源模塊采用模塑成型,然后使用無電鍍鎳浸金(ENIG)工藝進行電鍍。模壓結構確保機械剛性,以及在溫度、濕度和振動等環(huán)境下的穩(wěn)定性。電鍍外表面有利于高良率的表面貼裝組裝,同時為使用冷板強制風冷或液冷提供了理想的熱傳導條件。Vicor 電源模塊采用專有的正弦振幅轉換器(SAC)電路拓撲,使用零電壓開關(ZVS)和零電流開關(ZCS)技術來最大限度地減少開關噪聲和雜散輻射,同時最大化 DC-DC 轉換效率。Vicor 還使用高頻 MOSFET 開關來減小高度集成模塊的物理尺寸。此外,Vicor 為人工智能/高性能計算應用設計的負載點組件非常?。ā?.7mm),并在一系列與 PCB 兼容的封裝中提供可擴展的電流輸出。在可預見的未來,生成式人工智能無疑將繼續(xù)是現代計算世界中最耗電且散熱挑戰(zhàn)最大的應用。Vicor 將繼續(xù)創(chuàng)新,滿足這一激動人心的新業(yè)務機會不斷攀升的供電需求。
-
處理器
+關注
關注
68文章
19313瀏覽量
230044 -
數據中心
+關注
關注
16文章
4792瀏覽量
72175 -
人工智能
+關注
關注
1791文章
47352瀏覽量
238771
原文標題:隨著人工智能(AI)的發(fā)展,電力挑戰(zhàn)也隨之而來
文章出處:【微信號:Vicor,微信公眾號:Vicor】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論