在這個(gè)以高性能計(jì)算和大模型推動(dòng)未來(lái)通用人工智能時(shí)代,算力已成為科技發(fā)展的隱形支柱。本文將重點(diǎn)探討算力的演進(jìn),深入分析在不同領(lǐng)域中算力如何成為推動(dòng)進(jìn)步的基石;著眼于液冷如何突破算力瓶頸成為引領(lǐng)未來(lái)的先鋒,對(duì)液冷散熱的三種方式(冷板式、浸沒(méi)式和噴淋式)做了詳細(xì)的對(duì)比分析、成本測(cè)算和市場(chǎng)空間預(yù)測(cè)。并為您提供一份“實(shí)用教程”,指導(dǎo)如何將普通服務(wù)器改裝為液冷服務(wù)器,以應(yīng)對(duì)越來(lái)越復(fù)雜的計(jì)算需求。
如果您錯(cuò)過(guò)了精彩的的英偉達(dá)2024GTC大會(huì),小編特地為您總結(jié)其6大亮點(diǎn),見(jiàn)文末。
算力演進(jìn):世界模型
視角下的技術(shù)需求變化
談及大模型,最近大火的大模型莫過(guò)于Sora視頻模型。Sora標(biāo)志著計(jì)算機(jī)視覺(jué)的重大進(jìn)展,是首個(gè)展現(xiàn)高級(jí)"涌現(xiàn)"能力的視頻生成模型。它依托于強(qiáng)大的Diffusion Transformer架構(gòu)和大量高質(zhì)量數(shù)據(jù),帶來(lái)視頻技術(shù)的飛躍——類似于GPT-3在語(yǔ)言模型中的突破。Sora的創(chuàng)新點(diǎn)在于時(shí)間-空間壓縮、去噪的Transformer處理,以及CLIP風(fēng)格的調(diào)節(jié),可根據(jù)GPT-4加強(qiáng)的指令生成精準(zhǔn)視頻。
一、Video Encoding:將視頻信息有效地轉(zhuǎn)化為機(jī)器理解的方法至關(guān)重要
Sora解決了視頻生成中一個(gè)關(guān)鍵挑戰(zhàn):如何處理視頻數(shù)據(jù)的多樣性和復(fù)雜性,包括不同分辨率和寬高比,以及比文本和圖片更豐富的信息,如空間、時(shí)間和內(nèi)容。它的一大創(chuàng)新是制定了一種能夠統(tǒng)一不同視頻類型的表示方法,對(duì)大量多維視覺(jué)數(shù)據(jù)進(jìn)行有效的大規(guī)模訓(xùn)練。
Sora 技術(shù)報(bào)告中的 Encoding 模式
Sora的初步工作是將復(fù)雜的視頻內(nèi)容轉(zhuǎn)化成機(jī)器能夠處理的潛在特征,類似于大語(yǔ)言模型中文本的tokenization。不同之處在于視頻的轉(zhuǎn)換不僅需要保留內(nèi)容信息,還要維護(hù)時(shí)間和二維空間位置,而語(yǔ)言模型僅涉及內(nèi)容和一維位置。鑒于單幀視頻像素量巨大,轉(zhuǎn)化過(guò)程也起到了數(shù)據(jù)壓縮作用,目前的做法是將每幀壓縮到16×16或32×32的規(guī)模。
視頻生成模型 Patch 方法對(duì)比
Transformer模型由于不能直接處理高維數(shù)據(jù),因此Sora通過(guò)將視頻數(shù)據(jù)分割成時(shí)空?qǐng)D像塊來(lái)訓(xùn)練。一種方法是把每一幀分解成若干小塊,然后按時(shí)間順序排列為一維數(shù)組;另一種方法是把視頻片段分成立體圖像塊,包含時(shí)間和空間信息,雖然計(jì)算更復(fù)雜,但能獲取更連貫的時(shí)空信息。
Sora 生成不同比例的視頻內(nèi)容保存度更好
Sora視頻生成模型的一大創(chuàng)新是能夠適應(yīng)自由寬高比的視頻生成,同時(shí)確保關(guān)鍵元素的完整性。不同于傳統(tǒng)模型如ViT,要求圖像塊大小固定且輸入為正方形,Sora可能使用了名為“Patch n’ Pack”的技術(shù),容許處理多樣化的輸入分辨率和寬高比。該技術(shù)使圖像塊的大小可以靈活調(diào)整,適應(yīng)不同的視頻要求,并將來(lái)自不同圖像的塊整合到一起,實(shí)現(xiàn)更高效率的訓(xùn)練。此外,通過(guò)識(shí)別圖像塊間的相似度,可以丟棄重復(fù)內(nèi)容,從而進(jìn)一步提速訓(xùn)練過(guò)程。
Navit 的數(shù)據(jù)處理方法
二、模型的核心部分:Diffusion Transformer
Sora是基于Transformer的Diffusion Model。模型結(jié)構(gòu)最初由 Scalable Diffusion Models with Transformers 這篇論文提出,也就是 DiTs。
DiT 的核心架構(gòu)
Stable Diffusion包括三個(gè)關(guān)鍵組成部分,各自由獨(dú)立的神經(jīng)網(wǎng)絡(luò)構(gòu)成:
1、文本編碼器
利用Transformer模型將文本中的每個(gè)單詞或Token轉(zhuǎn)換為向量。
2、圖像信息生成器
這是Stable Diffusio的核心,它結(jié)合文本向量特征和初始噪聲創(chuàng)建含有圖像信息的數(shù)據(jù)。
3、圖像解碼器
把上述數(shù)據(jù)轉(zhuǎn)換回清晰的圖像。
Sora在其圖像信息生成器部分,用Transformer取代U-Net,以保留其伸縮性和高效性等特點(diǎn)。繼其后Google的Genie和Snap的Snap Videos皆采用ST-Transformer。
Sora的研究表明,視頻生成模型采用Transformer后,模型能力的提升與計(jì)算資源和模型規(guī)模成正比,與GPT3.0發(fā)布時(shí)證實(shí)的大模型潛力相似。OpenAI的實(shí)驗(yàn)也驗(yàn)證了增加算力,如32倍于基礎(chǔ)情況,能顯著提高視頻生成的質(zhì)量。
不同算力下 Sora 生成視頻的對(duì)比
三、大語(yǔ)言模型訓(xùn)練和推理對(duì)計(jì)算資源的需求分布不同
大語(yǔ)言模型最新發(fā)展追蹤
目前AI模型呈現(xiàn)出以下競(jìng)爭(zhēng)激烈和快速更新的發(fā)展趨勢(shì):
1、長(zhǎng)上下文處理
新模型如Gemini1.5和Kimi已能處理百萬(wàn)級(jí)別Token,對(duì)內(nèi)存和處理能力都提出較高要求。
2、多模態(tài)理解
能理解圖片、視頻和音頻的大模型成為未來(lái)發(fā)展趨勢(shì),但處理這些風(fēng)格的數(shù)據(jù)也將增加對(duì)內(nèi)存需求。
3、MOE模型
Mixtral、Gemini1.5、Grok等模型應(yīng)用了GPT的MOE(Mixture-of-Experts)技術(shù),能夠處理各種不同類型的問(wèn)題,雖然增加了模型參數(shù),但在推理階段由于只需調(diào)用部分子模型,計(jì)算效率仍得以提升。
大語(yǔ)言模型訓(xùn)練和推理過(guò)程的計(jì)算需求分布
大模型在訓(xùn)練和推理過(guò)程中對(duì)計(jì)算資源的需求各不相同。訓(xùn)練階段需要大量算力和網(wǎng)絡(luò)帶寬。推理過(guò)程的預(yù)填充階段對(duì)算力和內(nèi)存需求較大,解碼階段則更依賴于內(nèi)存帶寬、內(nèi)存大小和低網(wǎng)絡(luò)延遲。
在大語(yǔ)言模型的訓(xùn)練中,系統(tǒng)會(huì)一次性預(yù)測(cè)整個(gè)句子中的每個(gè)Token的下一個(gè)Token,并計(jì)算所有位置的Token的損失來(lái)進(jìn)行優(yōu)化。這個(gè)過(guò)程可以并行計(jì)算,所需的算力和集群規(guī)模較大,因此對(duì)機(jī)器間的網(wǎng)絡(luò)帶寬要求也相對(duì)較高。
大語(yǔ)言模型訓(xùn)練過(guò)程
大語(yǔ)言模型的推理過(guò)程分為兩個(gè)階段:
首先是Prefill階段,也稱為預(yù)處理階段。在此階段,模型會(huì)進(jìn)行一次計(jì)算密集型的操作,計(jì)算并存儲(chǔ)每一層的key和value。這個(gè)過(guò)程雖然只進(jìn)行一次,但對(duì)每個(gè)請(qǐng)求的提示(prompt)來(lái)說(shuō)都是必需的。該計(jì)算過(guò)程主要對(duì)矩陣進(jìn)行并行乘法運(yùn)算,并將結(jié)果儲(chǔ)存在所謂的KV緩存中,這是大語(yǔ)言模型的關(guān)鍵組成部分。
其次模型進(jìn)入到解碼階段,這是一個(gè)串行操作過(guò)程,主要負(fù)責(zé)生成新的Token。模型采用自回歸方式,利用已生成的和先前所有的Token作為輸入,預(yù)測(cè)并生成下一個(gè)Token。這包含兩個(gè)主要步驟:第一利用預(yù)處理階段創(chuàng)建的KV緩存計(jì)算并輸出下一個(gè)Token的嵌入;第二在計(jì)算過(guò)程中,當(dāng)前Token在每一層的key和value會(huì)被計(jì)算并存儲(chǔ),并更新到預(yù)處理階段的KV緩存中。通過(guò)這種方式,模型可以持續(xù)優(yōu)化其預(yù)測(cè),確保生成序列既連貫又具有邏輯性。
四、對(duì)算力需求的影響:Patch/Token 數(shù)量的大幅提高對(duì)內(nèi)存容量需求有積極影響
視頻生成模型與大語(yǔ)言模型對(duì)計(jì)算資源的不同需求
視頻生成模型相較于大語(yǔ)言模型在算力需求上的主要差異在于:視頻模型需要處理的Patch數(shù)量遠(yuǎn)多于文本的Token數(shù)量。視頻的Patch數(shù)量與其時(shí)長(zhǎng)(T)、寬度(W)、高度(H)及每幀的Patch密度(Ps)密切相關(guān)。在Transformer模型中,影響計(jì)算復(fù)雜度的關(guān)鍵因素是Self-Attention層,其處理難度與Patch數(shù)量平方成正比。同時(shí),訓(xùn)練期間還需儲(chǔ)存大量Self-Attention層的計(jì)算中間結(jié)果,占用的存儲(chǔ)空間也與Patch數(shù)量的平方成正比。
以Sora可以生成的1080P、30幀/秒、60秒時(shí)長(zhǎng)視頻為例,在32x32的Patch密度下,總Patch數(shù)量可以超過(guò)180萬(wàn)。而最新的大語(yǔ)言模型Gemini 1.5 Pro的Token上限是100萬(wàn)??紤]到Sora估計(jì)的參數(shù)規(guī)模為20到50億,雖然比GPT-4少了一個(gè)數(shù)量級(jí),但其Patch的平均數(shù)量至少多了兩個(gè)數(shù)量級(jí),導(dǎo)致推理過(guò)程中內(nèi)存需求的大幅躍升。因此,更大的算力和內(nèi)存將使模型產(chǎn)生更高分辨率和更長(zhǎng)的視頻。同樣,針對(duì)同一提示,更大的模型參數(shù)量能產(chǎn)生更好的視頻效果,但相應(yīng)地需要更多的算力和內(nèi)存。
五、對(duì)算力需求的影響:推理時(shí)算力需求的增長(zhǎng)大于內(nèi)存速率需求的增長(zhǎng)
Diffusion 模型推理生成圖片的過(guò)程
雖然Sora和GPT的核心都是Transformer,但在推理邏輯上,Sora的DiT與大語(yǔ)言模型存在差異。Diffusion根據(jù)多個(gè)時(shí)間步驟迭代生成,基于隨機(jī)噪聲潛在矩陣,每一步都會(huì)逐步精細(xì)化圖像、視頻以逼近輸入的提示。優(yōu)化后大約需要20步就能獲得性能和效果的平衡。
GPT等大語(yǔ)言模型采用Decoder-Only Transformer架構(gòu),通過(guò)自回歸方式預(yù)測(cè)下一個(gè)Token,對(duì)內(nèi)存帶寬需求極大,屬于內(nèi)存密集型任務(wù)。而Sora的DiT是Encoder-Only Transformer架構(gòu),在每一步的推理過(guò)程中,會(huì)一次性輸出全部長(zhǎng)度的Patch,減少對(duì)計(jì)算卡內(nèi)存訪存次數(shù),屬于計(jì)算密集型任務(wù)。
目前用于訓(xùn)練和推理計(jì)算卡的算力/內(nèi)存對(duì)比
受制于美國(guó)禁令,國(guó)內(nèi)特供的H20在算力上相較于H100受到限制,不過(guò)在內(nèi)存帶寬上有所提高,意味著在大語(yǔ)言模型(LLM)的推理任務(wù)中,H20比H100性能要高出約10%。然而,對(duì)于視頻生成模型,H20由于算力被限制,相比H100在性能上有顯著劣勢(shì)。
Groq的芯片以SRAM為基礎(chǔ),內(nèi)存帶寬高達(dá)80TB/s,其在Token生成速度上遠(yuǎn)超GPT和Gemini系列,但這種設(shè)計(jì)在視頻生成模型的推理中沒(méi)有優(yōu)勢(shì)。綜上所述,對(duì)于高質(zhì)量視頻生成模型來(lái)說(shuō),未來(lái)的趨勢(shì)是需求將傾向于更高的算力和更大的顯存容量,而非內(nèi)存帶寬;因此,配備高算力和大顯存的芯片更適合視頻生成模型的推理任務(wù)。而在內(nèi)存帶寬方面,即使是GDDR也足以滿足需求。
突破算力瓶頸
液冷引領(lǐng)未來(lái)
NVIDIA首席執(zhí)行官黃仁勛最近在2024年SIEPR經(jīng)濟(jì)峰會(huì)上披露,新一代DGX GPU服務(wù)器將采用液冷技術(shù),意味著液冷時(shí)代的加速到來(lái)。戴爾也專門為NVIDIA新一代AI GPU設(shè)計(jì)冷卻系統(tǒng)。
隨著AI服務(wù)器功耗的快速上升,有效的散熱解決方案的需求促進(jìn)液冷技術(shù)的滲透。例如,Intel/AMD的主流CPU功耗已達(dá)到350W/400W,而NVIDIA的H100 GPU最大功耗可達(dá)700W,其未來(lái)產(chǎn)品B100預(yù)計(jì)功耗將達(dá)到1000W。華為Atlas 900 PoD單機(jī)柜最大功耗也已經(jīng)超過(guò)46kW,遠(yuǎn)超傳統(tǒng)風(fēng)冷系統(tǒng)極限,液冷技術(shù)成為處理日益增加的單機(jī)柜功率的關(guān)鍵升級(jí)方案。
目前數(shù)據(jù)中心的液冷滲透率在2022年底僅為5%-8%,但預(yù)計(jì)在2023-2024年期間,芯片制造商、服務(wù)器廠商、IDC企業(yè)等產(chǎn)業(yè)鏈關(guān)鍵主體將加速布局液冷解決方案,2025年可能會(huì)出現(xiàn)訂單量大規(guī)模釋放。在未來(lái)3至5年內(nèi),國(guó)內(nèi)數(shù)據(jù)中心的液冷滲透率預(yù)計(jì)將實(shí)現(xiàn)爆發(fā)式增長(zhǎng)。據(jù)估算2025年,國(guó)內(nèi)IDC液冷行業(yè)市場(chǎng)規(guī)模將達(dá)到約48.31億元,期間年均復(fù)合增長(zhǎng)率為71.11%;預(yù)計(jì)到2028年,市場(chǎng)規(guī)模將增至約98.72億元,年均復(fù)合增長(zhǎng)率預(yù)計(jì)為43.02%。
AI 助推液冷滲透率快速提升
一、數(shù)據(jù)中心面臨的挑戰(zhàn)
數(shù)據(jù)中心的能耗問(wèn)題和散熱挑戰(zhàn)日益凸顯。依靠區(qū)域能源和環(huán)境優(yōu)勢(shì)可減少用電及冷卻費(fèi)用。在能源緊張和自然條件不佳下,提高數(shù)據(jù)中心能效和綠色運(yùn)營(yíng)成為行業(yè)趨勢(shì)。為此,我們需要確保產(chǎn)熱和移熱速率的一致性,同時(shí)提升能源使用效率。新型散熱技術(shù)的開(kāi)發(fā)和應(yīng)用是提升我國(guó)數(shù)據(jù)中心能效和環(huán)保發(fā)展的關(guān)鍵。
要保證數(shù)據(jù)中心穩(wěn)定運(yùn)作,關(guān)鍵是使冷卻系統(tǒng)與服務(wù)器產(chǎn)熱量保持同步。隨著單個(gè)機(jī)柜服務(wù)器數(shù)量的增加,散熱需求也在增長(zhǎng),這就要求持續(xù)創(chuàng)新散熱技術(shù),尤其在風(fēng)冷和液冷兩大散熱方式中尋求提高冷卻效率的方法。
不同類型冷卻系統(tǒng)對(duì)比
二、數(shù)據(jù)中心能耗分布
數(shù)據(jù)中心的散熱冷卻是能耗的主要部分,要在提高移熱速率的同時(shí)注意能效。能源利用效率(PUE)是評(píng)估數(shù)據(jù)中心能耗的關(guān)鍵指標(biāo),它是總能耗與IT設(shè)備能耗的比。理想情況是PUE接近1,即數(shù)據(jù)中心的能源更多地用于IT運(yùn)作而非其他功耗。目前我國(guó)數(shù)據(jù)中心中有近半的能量用于散熱,顯示出PUE值偏高,意味著較高的冷卻成本及節(jié)能空間。
三、數(shù)據(jù)中心的冷板式液冷
液冷技術(shù)對(duì)數(shù)據(jù)中心的整個(gè)生命周期產(chǎn)生重要影響,包括設(shè)計(jì)、位置選擇、建設(shè)、交付及運(yùn)維過(guò)程。液冷系統(tǒng)通過(guò)液體循環(huán)系統(tǒng)在冷卻液與需要降溫的設(shè)備間進(jìn)行熱交換。冷卻水可以直接從機(jī)架上的CDU(冷卻分配單元)獲得,或由一個(gè)服務(wù)多個(gè)機(jī)架的集中式CDU提供。
數(shù)據(jù)中心液冷系統(tǒng)示意圖
數(shù)據(jù)中心液冷系統(tǒng)中冷板冷卻是目前主流技術(shù),它屬于間接液冷方式。主要分為三種形式:間接液冷、單相直接液冷、兩相直接液冷。冷板冷卻技術(shù)通過(guò)液體在與IT設(shè)備芯片接觸的金屬板內(nèi)流動(dòng)進(jìn)行熱交換,是一種高效的芯片級(jí)冷卻方法并廣泛應(yīng)用。結(jié)合液冷和風(fēng)冷,液體主要冷卻芯片,風(fēng)冷用于硬盤等部件。與傳統(tǒng)的風(fēng)冷系統(tǒng)相比較,冷板冷卻系統(tǒng)更節(jié)能、噪音更低,并且不需依賴昂貴的水冷機(jī)組。
數(shù)據(jù)中心冷板式液冷系統(tǒng)
四、芯片級(jí)液冷與液冷服務(wù)器市場(chǎng)潛力巨大
液冷技術(shù)原始應(yīng)用于機(jī)械加工和變壓器,但目前正迅速擴(kuò)展至數(shù)據(jù)中心。該技術(shù)適應(yīng)數(shù)據(jù)中心高熱流密度冷卻需求,成為解決高效芯片散熱的策略。瀕臨急需高效散熱的現(xiàn)實(shí),芯片級(jí)液冷成為主導(dǎo)趨勢(shì)。散熱方式預(yù)期將發(fā)展為直接與芯片接觸式冷卻。政策支持和技術(shù)需求,尤其是人工智能等新興領(lǐng)域的推動(dòng),使芯片級(jí)液冷和液冷服務(wù)器市場(chǎng)前景廣闊。
全球數(shù)據(jù)中心平均功率情況
五、數(shù)據(jù)中心規(guī)模預(yù)測(cè)
當(dāng)前中國(guó)數(shù)據(jù)中心行業(yè)正深入云服務(wù)階段,預(yù)計(jì)未來(lái)10年的市場(chǎng)潛力巨大,并有望在“十四五”期間保持約25%的年均增長(zhǎng)率。自2000年以來(lái),行業(yè)已從高速增長(zhǎng)轉(zhuǎn)向穩(wěn)步發(fā)展,并兩度出現(xiàn)增速放緩。2021年,數(shù)字經(jīng)濟(jì)和東數(shù)西算等多重因素推動(dòng)行業(yè)迅速發(fā)展,并出現(xiàn)短期增速。到了2023年,在投資策略、東數(shù)西算規(guī)范加嚴(yán)及人工智能需求激增等利好影響下,行業(yè)有望在“十四五”末期經(jīng)歷新一輪增長(zhǎng)。
六、液冷系統(tǒng)市場(chǎng)空間
液冷技術(shù)根據(jù)液體與器件的接觸形式大致可分為冷板式、浸沒(méi)式和噴淋式三種。冷板式通過(guò)間接接觸穩(wěn)定散熱,技術(shù)成熟,改造成本低。浸沒(méi)式和噴淋式直接接觸發(fā)熱部件,但因成本和實(shí)際操作難度,應(yīng)用并不廣泛,尤其是噴淋式對(duì)環(huán)境影響較大,應(yīng)用相對(duì)較少。
冷板式液冷將發(fā)熱元件如CPU和GPU放置于液體流經(jīng)的冷板上,有效率地導(dǎo)熱。如基于Intel和浪潮合作的高密服務(wù)器內(nèi)部,采用冷板技術(shù)保持CPU等器件的冷卻。系統(tǒng)從室內(nèi)的熱交換器將熱量轉(zhuǎn)移到室外的冷卻塔,完成循環(huán)。
冷板式液冷系統(tǒng)架構(gòu)情況
浸沒(méi)式液冷系統(tǒng)通過(guò)直接將發(fā)熱器件浸入不導(dǎo)電的冷卻液中實(shí)現(xiàn)高效散熱。室內(nèi)側(cè),單相系統(tǒng)中元件直接浸于冷卻液中,而在兩相系統(tǒng)中,發(fā)熱器件被浸入低沸點(diǎn)液體中,液體吸熱沸騰并在冷凝器中變回液態(tài),持續(xù)循環(huán)散熱。室外側(cè)相似于冷板式系統(tǒng),熱液在室外冷卻塔釋放熱量后低溫回環(huán),進(jìn)行循環(huán)散熱。
浸沒(méi)式液冷系統(tǒng)架構(gòu)情況
短期內(nèi),冷板式液冷因技術(shù)成熟、與現(xiàn)有系統(tǒng)兼容性好、維護(hù)方便和改造成本較低,非常適合AI時(shí)代對(duì)散熱的需求和數(shù)據(jù)中心從風(fēng)冷向液冷的過(guò)渡階段。長(zhǎng)期看,浸沒(méi)式液冷憑借其良好的導(dǎo)熱性能、高效的余熱回收能力和支持更高機(jī)柜功率的優(yōu)勢(shì),會(huì)更適合未來(lái)數(shù)據(jù)中心冷卻需求的演變,尤其是在機(jī)柜單元功率不斷增加的情況下,浸沒(méi)式液冷可以提供更高效的冷卻解決方案,并且助力降低數(shù)據(jù)中心的總體能源使用效率(PUE)。
三種液冷技術(shù)方案對(duì)比
隨著國(guó)內(nèi)互聯(lián)網(wǎng)巨頭如百度、阿里、騰訊、華為等紛紛開(kāi)發(fā)AI大模型,我們可依據(jù)以下假定進(jìn)行預(yù)估:一臺(tái)AI服務(wù)器配備8塊GPU;邏輯推理功耗是訓(xùn)練的10倍;10家公司的AI模型總功率是GPT3.5的10倍;數(shù)據(jù)中心的總功耗需考慮額外設(shè)備增加10%;冷板式與浸沒(méi)式液冷系統(tǒng)的成本比為7:3。按這些假定測(cè)算,液冷市場(chǎng)將因AI服務(wù)器需求,分別增長(zhǎng)約44.4億元(冷板式)與47.6億元(浸沒(méi)式),共計(jì)約92億元增量。
七、不同制冷方式成本測(cè)算
據(jù)CDCC測(cè)算,冷板式液冷系統(tǒng)初期建設(shè)成本較低,運(yùn)行成本有優(yōu)勢(shì),尤其是在電費(fèi)支出方面??紤]到數(shù)據(jù)中心的10年生命周期,與傳統(tǒng)風(fēng)冷系統(tǒng)相比,冷板式和單相浸沒(méi)液冷能分別減少成本15%和8%,其中冷板式在總體擁有成本(TCO)上的優(yōu)勢(shì)更為顯著。
八、相關(guān)政策法規(guī)
2020年3月,中國(guó)提出推進(jìn)新型基礎(chǔ)設(shè)施,包括數(shù)據(jù)中心建設(shè),以滿足智能化和數(shù)字轉(zhuǎn)型需求。新基建以技術(shù)創(chuàng)新和數(shù)據(jù)驅(qū)動(dòng)為核心,服務(wù)于高質(zhì)量發(fā)展。數(shù)據(jù)中心是關(guān)鍵的算力基礎(chǔ)設(shè)施,隨著一線城市發(fā)展放緩,周邊區(qū)域新數(shù)據(jù)中心迅速崛起,全國(guó)范圍內(nèi)政策支持新型基建發(fā)展。
我國(guó)數(shù)據(jù)中心正日益壯大,尤其是超大型數(shù)據(jù)中心。綠色發(fā)展已成必由之路,降低能源使用效率(PUE)是發(fā)展的關(guān)鍵。響應(yīng)能耗問(wèn)題,國(guó)家相關(guān)部門頒布政策,促進(jìn)數(shù)據(jù)中心環(huán)保建設(shè),專注于優(yōu)化冷卻系統(tǒng)和能源管理。
實(shí)用教程——普通服務(wù)器
改裝液冷服務(wù)器
將普通服務(wù)器改裝成液冷服務(wù)器顯著提升其性能的穩(wěn)定性,延長(zhǎng)使用壽命,低噪運(yùn)行;冷板與管線靈活布置以及散熱器的可配置性使空間使用更為靈活,有效降低能源消耗,保障服務(wù)器穩(wěn)定運(yùn)行。以下是改裝教程:
一、準(zhǔn)備資料
主要工具和設(shè)備:
- 選用與服務(wù)器尺寸相適應(yīng)的冷板
- 液冷插件
- 液體冷卻設(shè)備(泵和散熱器)
- 兼容冷板電源
二、安裝程序
1、斷開(kāi)電源
確保服務(wù)器已關(guān)閉,與外部電源斷開(kāi)連接。
2、拆卸服務(wù)器至裸機(jī)狀態(tài)
取下側(cè)板暴露服務(wù)器內(nèi)部,取下所有電源線路,并帶防靜電手以防止靜電傷害敏感部件。
3、安裝冷板
將冷板安裝在CPU以及產(chǎn)生大量熱量的元器件上,如GPU等。
4、連接液冷系統(tǒng)
用管路將冷板、泵以及散熱器連接起來(lái),使冷卻液在系統(tǒng)中流動(dòng),進(jìn)行熱量傳輸。流動(dòng)方向一般是從泵到冷板,再?gòu)睦浒宓缴崞鳌?/p>
5、更換電源
有些電源不適合冷板液冷,如有需要,更換為兼容電源。
6、安裝散熱器
選擇合適位置安裝散熱器和風(fēng)扇(一般在服務(wù)器機(jī)箱外部,有些裝在內(nèi)部),連接電源,使其可以工作。
7、檢查泄漏
在系統(tǒng)內(nèi)注入冷卻液,打開(kāi)泵,仔細(xì)查看每個(gè)接頭是否漏水。切記,在此檢查過(guò)程中,服務(wù)器應(yīng)保持電源斷開(kāi)狀態(tài)。
8、優(yōu)化和調(diào)試
在成功安裝冷卻系統(tǒng)并檢查無(wú)泄漏后,再次運(yùn)行服務(wù)器,檢查各部件溫度是否正常,液冷系統(tǒng)是否正常工作,如有需要,進(jìn)行進(jìn)一步優(yōu)化。
三、注意事項(xiàng)
1、安裝液冷系統(tǒng)之前,詳細(xì)閱讀所有硬件設(shè)備說(shuō)明書(shū)。
2、避免使用任何可能導(dǎo)致電荷態(tài)錯(cuò)誤的工具。
3、液冷系統(tǒng)中使用的液體通常具備抗腐蝕和抗生物污染的特性,所以務(wù)必確保使用正確的液體。
4、在處理電子產(chǎn)品時(shí)務(wù)必謹(jǐn)慎。在操作過(guò)程中不慎引發(fā)的任何損害可能不享受保修條款的保護(hù)。
5、未經(jīng)訓(xùn)練的人嘗試安裝液冷系統(tǒng)可能會(huì)導(dǎo)致設(shè)備損壞,因此如果不熟悉這個(gè)過(guò)程,最好找有相關(guān)經(jīng)驗(yàn)的專業(yè)人士進(jìn)行安裝。
附:GTC 2024六大亮點(diǎn)
北京時(shí)間3月19日凌晨,世界各地的頂尖技術(shù)精英齊聚一堂,共襄盛舉。英偉達(dá)GTC吸引無(wú)數(shù)科技界佼佼者前來(lái)現(xiàn)場(chǎng)。英偉達(dá)創(chuàng)始人及CEO黃仁勛的123分鐘演講回顧英偉達(dá)在加速計(jì)算領(lǐng)域走過(guò)的三十年歷程,提及CUDA的問(wèn)世和向OpenAI交付第一臺(tái)AI超級(jí)計(jì)算機(jī)DGX等關(guān)鍵時(shí)刻。
演講焦點(diǎn)很快轉(zhuǎn)向生成式AI技術(shù),宣布在EDA領(lǐng)域的一些重要合作。黃仁勛接著宣布英偉達(dá)的新旗艦AI芯片——Blackwell GPU,其性能和功能遠(yuǎn)超前代產(chǎn)品Hopper,擁有更大尺寸、更新的FP8、FP6、FP4精度、以及更豐富的HBM內(nèi)存和帶寬,極大提升性能。
在過(guò)去八年中,英偉達(dá)從Pascal架構(gòu)躍升至Blackwell架構(gòu),AI計(jì)算性能提高1000倍。黃仁勛的最終目標(biāo)是打造具有處理萬(wàn)億參數(shù)級(jí)別GPU計(jì)算能力的最強(qiáng)AI基礎(chǔ)設(shè)施。
亮點(diǎn)一
英偉達(dá)推出全新的Blackwell GPU具有比上代提升2.5倍的訓(xùn)練性能和在FP4精度下推理性能是上一代FP8的5倍。此外,第五代NVLink互連速度比Hopper快兩倍,支撐最多576個(gè)GPU拓展,有效解決萬(wàn)億參數(shù)級(jí)混合專家模型帶來(lái)的通信瓶頸問(wèn)題。
Blackwell GPU的六大核心技術(shù)革新:
1、Blackwell GPU被譽(yù)為世界上最強(qiáng)大的芯片,集成高達(dá)2080億顆晶體管,采用臺(tái)積電先進(jìn)4NP制程,基于統(tǒng)一內(nèi)存架構(gòu)和雙芯配置,通過(guò)NVHyperfuse高達(dá)10TB/s的芯片間接口連接兩個(gè)GPU die,共享192GB HBM3e內(nèi)存和8TB/s顯存帶寬,其單卡AI訓(xùn)練算力高達(dá)20PFLOPS,相較于上一代Hopper的H100和H200,有了顯著的晶體管數(shù)量和性能的飛躍。
2、第二代Transformer引擎,整合微張量縮放支持與先進(jìn)的動(dòng)態(tài)范圍管理算法,通過(guò)與TensorRT-LLM和NeMo Megatron框架結(jié)合,為FP4精度的AI推理提供強(qiáng)大能力,并支持雙倍計(jì)算和模型規(guī)模,保持高精度的同時(shí)提升性能和效率。
3、第五代NVLink,為每個(gè)GPU提供1.8TB/s雙向帶寬,支撐多達(dá)576個(gè)GPU間的高速通信,滿足復(fù)雜大語(yǔ)言模型的通信要求。
4、RAS引擎,負(fù)責(zé)確保GPU的可靠性、可用性和可維護(hù)性,通過(guò)AI驅(qū)動(dòng)的預(yù)防性維護(hù)進(jìn)行診斷和預(yù)測(cè),延長(zhǎng)系統(tǒng)正常運(yùn)行時(shí)間,降低運(yùn)營(yíng)成本。
5、安全AI,通過(guò)機(jī)密計(jì)算保護(hù)AI模型和客戶數(shù)據(jù),不犧牲性能的同時(shí)支持新的本地接口加密協(xié)議。
6、解壓縮引擎,支持最新的數(shù)據(jù)格式,加速數(shù)據(jù)庫(kù)查詢,為數(shù)據(jù)分析和數(shù)據(jù)科學(xué)提供最高性能。
英偉達(dá)Blackwell GPU系列產(chǎn)品得到AWS、谷歌、Meta、微軟、OpenAI、特斯拉等的青睞。馬斯克甚至公開(kāi)表示在AI領(lǐng)域找不到比英偉達(dá)更好的硬件產(chǎn)品。
有趣的是,此次對(duì)于Blackwell系列GPU的發(fā)布,英偉達(dá)更加強(qiáng)調(diào)整體系統(tǒng)性能而非單芯片性能。市場(chǎng)上有傳言,B100可能售價(jià)約3萬(wàn)美元,而B(niǎo)200則為3.5萬(wàn)美元,若定價(jià)漲幅不大,那么這個(gè)系列GPU的市場(chǎng)競(jìng)爭(zhēng)力將非常可怕。性能提升之大,性價(jià)比遠(yuǎn)遠(yuǎn)超過(guò)上一代Hopper。
亮點(diǎn)二
英偉達(dá)高調(diào)推出Blackwell平臺(tái)完整體系,為萬(wàn)億參數(shù)級(jí)的GPU計(jì)算量身定做,該平臺(tái)包括不同的關(guān)鍵組成部分:從基礎(chǔ)HGX B100整合型GPU、新一代的NVLink Switch、超性能GB200超級(jí)芯片計(jì)算節(jié)點(diǎn),到全新的X800系列網(wǎng)絡(luò)交換機(jī)。
GB200 Grace Blackwell通過(guò)高速NVLink-C2C互連集成2個(gè)Blackwell GPU和1個(gè)英偉達(dá)Grace CPU,實(shí)現(xiàn)大范圍計(jì)算和內(nèi)存的高效連接。此外,英偉達(dá)還推出多節(jié)點(diǎn)、液冷、機(jī)架級(jí)系統(tǒng)英偉達(dá)GB200 NVL72,提供720PFLOPSAI訓(xùn)練性能和1.44EFLOPS的AI推理性能,內(nèi)置30TB快速顯存,處理高達(dá)27萬(wàn)億參數(shù)的語(yǔ)言模型。
Blackwell平臺(tái)不僅能大幅提升實(shí)時(shí)推理速度,而且通過(guò)先進(jìn)的網(wǎng)絡(luò)擴(kuò)展釋放更強(qiáng)的AI性能。新一代的DGX SuperPOD則由多個(gè)DGX GB200系統(tǒng)組成,采用液冷的機(jī)架級(jí)擴(kuò)展架構(gòu),在FP4精度下提供11.5EFLOPSAI算力。
亮點(diǎn)三
英偉達(dá)發(fā)布數(shù)十個(gè)面向企業(yè)的生成式AI微服務(wù),旨在提供包裝和交付軟件的全新方式,助力企業(yè)和開(kāi)發(fā)者簡(jiǎn)易部署多樣的AI模型。
英偉達(dá)在其硬件產(chǎn)品線基礎(chǔ)上,繼續(xù)發(fā)揮其在CUDA和生成式AI生態(tài)系統(tǒng)中所積累的技術(shù)優(yōu)勢(shì),推出一系列適用于企業(yè)級(jí)的生成式AI微服務(wù)。旨在簡(jiǎn)化企業(yè)定制和部署AI Copilots(智能助手)的流程。企業(yè)不再需要從頭編寫軟件,而是可以通過(guò)組裝AI模型、指定任務(wù)、提供示例與審查計(jì)劃和結(jié)果方式來(lái)創(chuàng)建軟件。
NIM是英偉達(dá)提供的推理微服務(wù)的一個(gè)例子,它基于英偉達(dá)的加速計(jì)算庫(kù)和生成式AI模型構(gòu)建,并支持標(biāo)準(zhǔn)API。這種微服務(wù)在英偉達(dá)廣泛的CUDA安裝基礎(chǔ)上運(yùn)作,并已針對(duì)新一代的GPU進(jìn)行了優(yōu)化。企業(yè)現(xiàn)在能夠使用這些微服務(wù)在自己的平臺(tái)上創(chuàng)建和部署定制化的應(yīng)用程序,同時(shí)保有知識(shí)產(chǎn)權(quán)和控制權(quán)。
為支持快速部署NIM微服務(wù),英偉達(dá)將提供預(yù)先構(gòu)建AI容器,這將允許開(kāi)發(fā)人員將部署時(shí)間從幾周縮短到幾分鐘。該微服務(wù)還支持英偉達(dá)以及其它公司如AI21、Adept、Cohere等模型,同時(shí)也支持開(kāi)放模型,比如谷歌、Hugging Face和Meta等公司的模型。用戶將能夠訪問(wèn)亞馬遜SageMaker、谷歌Kubernetes引擎和微軟Azure AI上的NIM微服務(wù),并與流行的AI框架集成。
亮點(diǎn)四
英偉達(dá)宣告與臺(tái)積電和新思科技的合作,光刻計(jì)算平臺(tái)cuLitho將正式投入生產(chǎn),使光刻計(jì)算速度提高至40至60倍,并通過(guò)增強(qiáng)的生成式AI算法為2nm以上的高級(jí)制程開(kāi)發(fā)注入助力。
亮點(diǎn)五
英偉達(dá)推出Project GROOT人形機(jī)器人基礎(chǔ)模型和新款Jetson Thor人形機(jī)器人計(jì)算機(jī),同時(shí)對(duì)Isaac機(jī)器人平臺(tái)做出重大升級(jí)。黃仁勛還在現(xiàn)場(chǎng)展示一名由迪士尼研究公司打造的小型英偉達(dá)機(jī)器人,并與其進(jìn)行互動(dòng)。
亮點(diǎn)六
英偉達(dá)與蘋果強(qiáng)強(qiáng)聯(lián)手,將Omniverse平臺(tái)引入蘋果Vision Pro,宣布提供Omniverse Cloud API,加速工業(yè)數(shù)字孿生軟件工具的發(fā)展。
除上述更新,黃仁勛還分享了在其他領(lǐng)域的進(jìn)展。在電信領(lǐng)域,英偉達(dá)即將推出6G研究云平臺(tái),由生成式AI和Omniverse驅(qū)動(dòng),以推動(dòng)無(wú)線通信技術(shù)發(fā)展。地球氣候數(shù)字孿生平臺(tái)Earth-2現(xiàn)在可用,通過(guò)交互式高分辨率仿真來(lái)加速氣候和天氣的預(yù)測(cè)。
醫(yī)療健康領(lǐng)域被認(rèn)為是AI帶來(lái)最大影響的領(lǐng)域之一,英偉達(dá)在推動(dòng)影像系統(tǒng)和基因測(cè)序儀器方面進(jìn)行合作,并且推出新型的生物軟件。在汽車行業(yè),全球最大的自動(dòng)駕駛汽車公司比亞迪未來(lái)電動(dòng)汽車將采用搭載英偉達(dá)Blackwell架構(gòu)的新一代自動(dòng)駕駛汽車處理器DRIVE Thor,預(yù)計(jì)明年開(kāi)始量產(chǎn)。
審核編輯 黃宇
-
AI
+關(guān)注
關(guān)注
87文章
30896瀏覽量
269108 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3776瀏覽量
91111 -
算力
+關(guān)注
關(guān)注
1文章
977瀏覽量
14822 -
大模型
+關(guān)注
關(guān)注
2文章
2451瀏覽量
2714
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論