毒龙导航精品福利国产100页,无码人妻精品一区二区三区久久久

智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會(huì)，阿里巴巴通義千問大模型技術(shù)負(fù)責(zé)人周暢，「清華系Sora」生數(shù)科技CEO唐家渝，Open-Sora開發(fā)團(tuán)隊(duì)潞晨科技創(chuàng)始人尤洋等40+位嘉賓已確認(rèn)參會(huì)，其中鴻博股份副總裁&英博數(shù)科CEO周韡韡，中科曙光智能計(jì)算產(chǎn)品事業(yè)部總經(jīng)理杜夏威，安謀科技產(chǎn)品總監(jiān)楊磊三位算力與芯片領(lǐng)域的大咖將帶來主題演講，歡迎報(bào)名。

小編按：美國時(shí)間3月18日在美國圣何塞SAP中心舉行Nvidia GTC 2024，CEO黃仁勛開幕演說：見證AI變革時(shí)刻。其中最火最熱的當(dāng)屬Blackwell架構(gòu)和其架構(gòu)下的B200 GPU。各方解讀都有，本文整理anandtech翻譯，嘗試淺析Blackwell的架構(gòu)和實(shí)現(xiàn)，供各位參考。不當(dāng)之處請(qǐng)批評(píng)指正。

目前，英偉達(dá)已經(jīng)穩(wěn)固地占據(jù)了生成式人工智能加速器市場的主導(dǎo)地位，它長期以來一直明確表示，該公司不會(huì)放慢腳步并查看觀點(diǎn)。相反，英偉達(dá)打算繼續(xù)迭代其GPU和加速器的多代產(chǎn)品路線圖，以利用其早期優(yōu)勢(shì)，并在加速器市場中不斷增長的競爭對(duì)手中保持領(lǐng)先地位。因此，盡管 NVIDIA 廣受歡迎的 H100/H200/GH200 系列加速器已經(jīng)是硅谷最熱門的門票，但現(xiàn)在是時(shí)候談?wù)撓乱淮铀倨骷軜?gòu)來滿足NVIDIA的AI 野心了：Blackwell。

在 5 年來首次面對(duì)面GTC的背景下（自Volta成立以來，NVIDIA從未舉辦過此類GTC，NVIDIA首席執(zhí)行官黃仁勛（Jensen Huang）將登臺(tái)宣布公司在過去幾年中一直在努力開發(fā)的一系列新企業(yè)產(chǎn)品和技術(shù)。但這些公告都不像英偉達(dá)的服務(wù)器芯片公告那樣引人注目，因?yàn)檎荋opper架構(gòu)GH100芯片和運(yùn)行在它之上的NVIDIA深度軟件堆棧揭開了AI加速器行業(yè)的蓋子，并使NVIDIA成為全球第三大最有價(jià)值的公司。

Blackwell架構(gòu)以美國統(tǒng)計(jì)學(xué)和數(shù)學(xué)先驅(qū)David Harold Blackwell博士的名字命名，他撰寫了第一本貝葉斯統(tǒng)計(jì)學(xué)教科書，Blackwell 架構(gòu)再次成為 NVIDIA 在公司許多標(biāo)志性架構(gòu)設(shè)計(jì)上加倍努力的理念，希望找到更智能、更努力地工作的方法，以提高其最重要的數(shù)據(jù)中心/HPC加速器的性能。NVIDIA與 Hopper（以及之前的Ampere）合作得非常好，在高層次上Blackwell的目標(biāo)是帶來更多相同的功能，但具有更多功能、更大的靈活性和更多的晶體管。

正如我在 Hopper 發(fā)布會(huì)上所寫的那樣，“NVIDIA 已經(jīng)為如何應(yīng)對(duì)服務(wù)器 GPU 行業(yè)制定了一個(gè)非常可靠的劇本。在硬件方面，基本上可以歸結(jié)為正確識(shí)別當(dāng)前和未來的趨勢(shì)以及客戶對(duì)高性能加速器的需求，投資于以極快的速度處理這些工作負(fù)載所需的硬件，然后優(yōu)化所有這些。對(duì)于布萊克威爾來說，這種心態(tài)并沒有改變。NVIDIA 改進(jìn)了其芯片設(shè)計(jì)的各個(gè)方面，從性能到內(nèi)存帶寬，每個(gè)元素都旨在提高特定工作負(fù)載/場景的性能或消除可擴(kuò)展性的瓶頸。而且，NVIDIA再次繼續(xù)尋找更多方法來減少工作量。

在今天的GTC主題演講之前，NVIDIA向媒體提供了有關(guān)Blackwell架構(gòu)和實(shí)現(xiàn)該架構(gòu)的第一款芯片的有限預(yù)簡報(bào)。我之所以說“有限”，是因?yàn)樵摴驹谥黝}演講之前沒有透露一些關(guān)鍵規(guī)格，甚至 GPU 本身的名稱也不清楚;NVDIA稱其為“Blackwell GPU”。但以下是我們目前所知道的關(guān)于下一代 NVIDIA 加速器核心的概要。

除非另有說明，否則密集/非稀疏操作的張量吞吐量數(shù)據(jù)

首先要注意的是，Blackwell GPU將會(huì)很大。按照字面。它將進(jìn)入的B200模塊將在單個(gè)封裝上具有兩個(gè)GPU 芯片。沒錯(cuò)，NVIDIA終于用他們的旗艦加速器實(shí)現(xiàn)了小芯片。雖然他們沒有透露單個(gè)模具的尺寸，但我們被告知它們是“十字線大小”的模具，這應(yīng)該使它們每個(gè)超過800mm2。GH100芯片本身已經(jīng)接近臺(tái)積電的4納米光罩限制，因此NVIDIA在這里的增長空間非常小——至少不會(huì)停留在單個(gè)芯片內(nèi)。

奇怪的是，盡管存在這些芯片空間限制，但NVIDIA并沒有為Blackwell使用臺(tái)積電3nm級(jí)節(jié)點(diǎn)。從技術(shù)上講，他們正在使用一個(gè)新節(jié)點(diǎn)—臺(tái)積電4NP—但這只是用于GH100 GPU的4N節(jié)點(diǎn)的更高性能版本。因此，多年來，英偉達(dá)第一次沒有利用主要新節(jié)點(diǎn)的性能和密度優(yōu)勢(shì)。這意味著 Blackwell 幾乎所有的效率提升都必須來自架構(gòu)效率，而這種效率和橫向擴(kuò)展的龐大規(guī)模相結(jié)合將帶來 Blackwell的整體性能提升。

盡管堅(jiān)持使用4nm級(jí)節(jié)點(diǎn)，但NVIDIA已經(jīng)能夠?qū)⒏嗟木w管壓縮到單個(gè)芯片中。整個(gè)加速器的晶體管數(shù)量為 208B，即每個(gè)芯片 104B 晶體管。GH100是 80B 晶體管，因此每個(gè) B100 芯片的晶體管總體上增加了約 30%，按照歷史標(biāo)準(zhǔn)來看，這是一個(gè)適度的收益。這反過來又是為什么我們看到NVIDIA為其完整的GPU使用更多芯片的原因。

對(duì)于他們的第一款多芯片芯片，英偉達(dá)打算跳過尷尬的“一個(gè)芯片上有兩個(gè)加速器”階段，直接讓整個(gè)加速器表現(xiàn)為單個(gè)芯片。根據(jù)英偉達(dá)的說法，這兩個(gè)芯片作為“一個(gè)統(tǒng)一的CUDA GPU”運(yùn)行，提供完整的性能，沒有任何妥協(xié)。關(guān)鍵是芯片之間的高帶寬I/O 鏈路，NVIDIA將其稱為NV-高帶寬接口（NV-HBI），并提供10TB/秒的帶寬。據(jù)推測，這是總量，這意味著芯片可以同時(shí)向每個(gè)方向發(fā)送5TB/秒。

到目前為止，尚未詳細(xì)說明的是這種鏈接的構(gòu)建——NVIDIA 是否始終依賴晶圓基板芯片（CoWoS），使用基礎(chǔ)芯片策略（AMD MI300），或者他們是否依賴單獨(dú)的本地中介層來連接兩個(gè)芯片（蘋果的 UltraFusion）。無論哪種方式，這都比我們迄今為止看到的任何其他雙芯片橋接解決方案的帶寬都要大得多，這意味著大量的引腳都在發(fā)揮作用。

在Blackwell加速器上，每個(gè)芯片都與4個(gè)HBM3E存儲(chǔ)器堆棧配對(duì)，總共8個(gè)堆棧，形成8192位的有效存儲(chǔ)器總線寬度。所有 AI 加速器的制約因素之一是內(nèi)存容量（不要低估對(duì)帶寬的需求），因此能夠放置更多堆棧對(duì)于提高加速器的本地內(nèi)存容量非常重要。Blackwell GPU總共提供（高達(dá)）192GB的HBM3E，或24GB/堆棧，這與H200的24GB/堆棧容量相同（比原來的16GB/堆棧H100多50%的內(nèi)存）。

據(jù)英偉達(dá)稱，該芯片的總HBM內(nèi)存帶寬為8TB/秒，相當(dāng)于每個(gè)堆棧1TB/秒，或8Gbps/引腳的數(shù)據(jù)速率。正如我們?cè)谥暗腍BM3E報(bào)道中所指出的，內(nèi)存最終設(shè)計(jì)為9.2Gbps/引腳或更高，但我們經(jīng)?？吹絅VIDIA在其服務(wù)器加速器的時(shí)鐘速度上玩得有點(diǎn)保守。無論哪種方式，這幾乎是 H2.4內(nèi)存帶寬的100倍（或比 H200 多 66%），因此NVIDIA的帶寬顯著增加。

最后，這一代的TDP也再次上升。由于NVIDIA仍處于4nm 級(jí)節(jié)點(diǎn)上，并且現(xiàn)在將超過兩倍的晶體管封裝到單個(gè)Blackwell GPU中，因此TDP除了上升之外無處可去。B200是一個(gè)1000W的模塊，高于H100的700W。B200機(jī)器顯然仍然可以進(jìn)行風(fēng)冷，但毋庸置疑，NVIDIA預(yù)計(jì)液體冷卻的使用將比以往任何時(shí)候都多，無論是出于必要還是出于成本原因。同時(shí)，對(duì)于現(xiàn)有的硬件安裝，NVIDIA還將發(fā)布具有700W TDP的低端B100加速器，使其與H100系統(tǒng)兼容。

總體而言，與集群級(jí)別的H100相比，NVIDIA的目標(biāo)是將訓(xùn)練性能提高4倍，推理性能提高30 倍，同時(shí)將能效提高25倍。我們將介紹這背后的一些技術(shù)，毫無疑問，有關(guān)NVIDIA打算如何實(shí)現(xiàn)這一目標(biāo)的更多信息將在主題演講中揭曉。

但從這些目標(biāo)中得到的最有趣的收獲是干擾性能的提高。NVIDIA目前在訓(xùn)練方面占據(jù)主導(dǎo)地位，但推理是一個(gè)更廣泛、競爭更激烈的市場。然而一旦這些大型模型被訓(xùn)練出來，將需要更多的計(jì)算資源來執(zhí)行它們，而NVIDIA不想被排除在外。但這意味著要找到一種方法，在一個(gè)更加殘酷的市場中占據(jù)（并保持）令人信服的領(lǐng)先優(yōu)勢(shì)，因此NVIDIA有他們的工作要做。

布萊克威爾的三種類型：GB200、B200和B100

NVIDIA 最初將生產(chǎn)三個(gè)基于 Blackwell GPU 的加速器。

旗艦獨(dú)立加速器是B200，其TDP為1000 瓦，獨(dú)樹一幟。這部分與現(xiàn)有的 H100系統(tǒng)不兼容，相反，將圍繞它構(gòu)建新系統(tǒng)。

有趣的是，盡管這是NVIDIA將提供的傳統(tǒng)加速器中最快的，但這并不是峰值性能的Blackwell配置。B200 仍然比最快的Blackwell產(chǎn)品慢 10% 左右。

什么是性能巔峰的產(chǎn)品？Grace·Blackwell超級(jí)芯片GB200。由兩個(gè)Blackwell GPU和一個(gè)72 核Grace CPU組成，是所有Blackwell GPU中速度最快的。例如，這是Blackwell GPU中唯一可以達(dá)到每個(gè)GPU 20 PFLOPS稀疏 FP4計(jì)算性能的配置。當(dāng)然，在單個(gè)超級(jí)芯片上使用兩個(gè)Blackwell GPU，超級(jí)芯片的總吞吐量是其兩倍，即40 PFLOPS FP4。

由于我們沒有關(guān)于 Blackwell GPU 的任何詳細(xì)規(guī)格，因此目前尚不清楚這是否只是時(shí)鐘速度差異，或者 GB200 是否正在獲得具有更多啟用張量核心的 GPU 配置。但無論哪種方式，如果您想要最好的布萊克威爾，您都需要以 GB200 超級(jí)芯片的形式購買它，以及隨之而來的 Grace。

然而，GB200的電力成本很高。GB200模塊配備2個(gè)GPU和板載高性能CPU，可以高達(dá)2700瓦的功率運(yùn)行，是Grace Hopper 200（GH200）峰值可配置 TDP的2.7 倍。假設(shè) Grace CPU 本身的 TDP 為 300W，這使得 Blackwell GPU 在這種配置下的 TDP 達(dá)到驚人的 1200W TDP。歸根結(jié)底，TDP有些武斷（你通?？梢栽陔妷?頻率曲線上走得更遠(yuǎn)一點(diǎn)，以獲得更多的功率），但從廣義上講，Blackwell最顯著的性能提升也是以顯著更高的功耗為代價(jià)的。

但對(duì)于那些負(fù)擔(dān)不起更高功率預(yù)算的客戶，NVIDIA 的最后一個(gè)Blackwell加速器SKU：B100。HGX B100 主板設(shè)計(jì)為與 HGX H100 主板直接兼容，以相同的每 GPU TDP 700 瓦運(yùn)行。TDP 最低，這是性能最低的 Blackwell 加速器變體，額定可提供約 78% 的 B200 計(jì)算性能。但與它將取代的 H100 GPU 相比，B100 預(yù)計(jì)將在等精度下提供大約 80% 的計(jì)算吞吐量。當(dāng)然，B100 可以訪問更快、更大數(shù)量的 HBM3E 內(nèi)存。

目前，NVIDIA尚未公布任何Blackwell配置的定價(jià)。第一批基于Blackwell的加速器將于今年晚些時(shí)候發(fā)貨，但該公司沒有提供任何關(guān)于它將是哪種Blackwell類型（或者是否會(huì)是所有類型）的指導(dǎo)。

第二代變壓器發(fā)動(dòng)機(jī)：精度更低

從架構(gòu)上講，NVIDIA 與 Hopper 的一大勝利是他們決定優(yōu)化其 Transformer 類型模型的架構(gòu)，其中包含專用硬件（NVIDIA 稱之為 Transformer Engine）。通過利用變壓器不需要以高精度（FP16）處理所有稱重和參數(shù)這一事實(shí)，NVIDIA增加了對(duì)這些操作與較低精度（FP8）操作混合的支持，以減少內(nèi)存需求并提高吞吐量。當(dāng) GPT-3/ChatGPT 在 2022 年晚些時(shí)候起飛時(shí)，這個(gè)決定得到了非常豐厚的回報(bào)，剩下的就是歷史了。

那么，對(duì)于他們的第二代變壓器引擎，NVIDIA將更加低迷。Blackwell 將能夠處理低至 FP4 精度的數(shù)字格式——是的，一種只有 16 個(gè)狀態(tài)的浮點(diǎn)數(shù)字格式——著眼于使用極低精度的格式進(jìn)行推理。對(duì)于FP4提供的精度太低的工作負(fù)載，NVIDIA還增加了對(duì)FP6精度的支持。與 FP8 相比，F(xiàn)P6 沒有提供任何計(jì)算性能優(yōu)勢(shì)——它基本上仍然作為 FP8 操作通過 NVIDIA 的張量核心——但由于數(shù)據(jù)大小縮小了 25%，它仍然提供內(nèi)存壓力和帶寬優(yōu)勢(shì)。一般來說，LLM 推理仍然受到這些加速器的內(nèi)存容量的限制，因此通過推理降低內(nèi)存使用量有很大的壓力。

與此同時(shí)，在訓(xùn)練方面，NVIDIA正在考慮在FP8上進(jìn)行更多的訓(xùn)練，而不是目前使用的BF16 / FP16。這再次使計(jì)算吞吐量保持在較高水平，內(nèi)存消耗較低。但是，LLM訓(xùn)練中使用的精度最終超出了NVIDIA的控制范圍，而取決于開發(fā)人員，他們需要優(yōu)化他們的模型以在這些低精度下工作。

在這一點(diǎn)上，轉(zhuǎn)換器已經(jīng)顯示出一種有趣的能力，可以處理較低精度的格式，而不會(huì)在精度方面損失太多。但至少可以說，F(xiàn)P4 相當(dāng)?shù)?。因此，在沒有進(jìn)一步信息的情況下，我非常好奇 NVIDIA 及其用戶打算如何以如此低的數(shù)據(jù)精度滿足他們的準(zhǔn)確性需求，因?yàn)?FP4 對(duì)推理有用似乎是決定 Blackwell 作為推理平臺(tái)的成敗。

無論如何，NVIDIA 希望單個(gè)基于 Blackwell 的 GPU 能夠提供高達(dá) 10 PetaFLOPS 的稀疏性 FP8 性能，或 5 PFLOPS 的密集矩陣。這大約是 H100 速率的 2.5 倍，甚至更荒謬的 FP4 推理性能為 20 PFLOPS。H100 甚至沒有從 FP4 中受益，因此與其最小 FP8 數(shù)據(jù)大小相比，當(dāng)可以使用 FP4 時(shí)，B200 的原始推理吞吐量應(yīng)該會(huì)增加 5 倍。

假設(shè) NVIDIA 的計(jì)算性能比與 H100 保持不變，F(xiàn)P16 性能是 FP8 的一半，并從那里向下擴(kuò)展，B200 也將是一款非常強(qiáng)大的芯片，精度也更高。盡管至少對(duì)于人工智能用途而言，但顯然目標(biāo)是嘗試以盡可能低的精度逃脫。

另一方面，在主題演講之前，F(xiàn)P64張量性能也未被披露。NVIDIA 自 Ampere 架構(gòu)以來一直提供 FP64 張量功能，盡管與較低的精度相比，速度要低得多。這對(duì)絕大多數(shù) AI 工作負(fù)載幾乎沒有用處，但對(duì) HPC 工作負(fù)載是有益的。因此，我很好奇 NVIDIA 在這里計(jì)劃了什么——B200 是否會(huì)在 HPC 方面發(fā)揮重要作用，或者 NVIDIA 是否打算全力以赴開發(fā)低精度 AI。

NVLink 5：1.8TB/秒的芯片IO，多機(jī)架域可擴(kuò)展性

除了拋出更多的張量核心和更多的內(nèi)存帶寬之外，從硬件的角度來看，加速器性能的第三個(gè)關(guān)鍵因素是互連帶寬。NVIDIA 對(duì)他們?cè)谶^去十年中通過其專有的 NVLink 互連系統(tǒng)所取得的成就感到非常自豪，并且他們正在繼續(xù)為 Blackwell 在帶寬和可擴(kuò)展性方面進(jìn)行迭代。特別是考慮到需要將大量系統(tǒng)聯(lián)網(wǎng)在一起，以便及時(shí)訓(xùn)練最大的 LLM，并建立一個(gè)足夠大的內(nèi)存池來容納它們，NVLink 是 NVIDIA 加速器設(shè)計(jì)和成功的關(guān)鍵因素。

Blackwell推出了第五代NVLink，為了簡單起見可稱為NVLink 5。

看看迄今為止披露的規(guī)格，在高層次上，NVIDIA已將NVLink的帶寬從每個(gè) GPU的900GB/秒翻倍到每個(gè)GPU的1800GB/秒。與上一代產(chǎn)品相比，這是過去幾年NVLink帶寬的最大飛躍，因?yàn)?022年的Hopper架構(gòu)僅提供了50%的 NVLink帶寬環(huán)比提升。

值得注意的是，NVIDIA將互連帶寬量增加了一倍，同時(shí)將 GPU上的芯片數(shù)量增加了一倍，因此流入每個(gè)芯片的數(shù)據(jù)量沒有變化。但是，由于兩個(gè)芯片需要作為一個(gè)處理器協(xié)同工作，因此要消耗（和洗牌）的數(shù)據(jù)總量顯著增加。

也許更有趣的是，在引擎蓋下，每個(gè)GPU的NVLink數(shù)量沒有變化;GH100 Hopper的NVLink 容量為18 個(gè)鏈路，Blackwell GPU 的 NVLink 容量也是 18個(gè)鏈路。因此，NVLink 5的所有帶寬增益都來自鏈路中每個(gè)高速對(duì)的 200Gbps的更高信令速率。這與最近幾代NVLink一致，后者在每次迭代中都使信令速率翻了一番。

否則，由于NVLink 4的鏈路數(shù)量保持不變，本地芯片拓?fù)溥x項(xiàng)基本保持不變。NVIDIA的HGX H100設(shè)計(jì)已經(jīng)合并了4 路和8路設(shè)置，而HGX B200/B100設(shè)置將相同。這并不意味著NVIDIA沒有增加NVLink域中GPU數(shù)量的雄心壯志，但它將是機(jī)架級(jí)別而不是節(jié)點(diǎn)級(jí)別。

這讓我們想到了NVIDIA在展會(huì)上的大型芯片公告：第五代NVLink Switch。與NVLink的片上功能相對(duì)應(yīng)，NVIDIA的專用NVLink交換機(jī)芯片既負(fù)責(zé)單節(jié)點(diǎn)通信，也負(fù)責(zé)將機(jī)架內(nèi)的多個(gè)節(jié)點(diǎn)連接在一起。甚至在 NVIDIA收購網(wǎng)絡(luò)專業(yè)公司Mellanox之前，該公司就已經(jīng)通過NVLink交換機(jī)提供交換式GPU網(wǎng)絡(luò)。

審核編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

存儲(chǔ)器

存儲(chǔ)器

+關(guān)注

關(guān)注
38

文章
7639

瀏覽量
166623
加速器

加速器

+關(guān)注

關(guān)注
2

文章
824

瀏覽量
38975
NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5267

瀏覽量
105906
晶體管

晶體管

+關(guān)注

關(guān)注
77

文章
9993

瀏覽量
140916
英偉達(dá)

英偉達(dá)

+關(guān)注

關(guān)注
22

文章
3926

瀏覽量
93250

原文標(biāo)題：NVIDIA Blackwell架構(gòu)和實(shí)現(xiàn)詳解

文章出處：【微信號(hào)：算力基建，微信公眾號(hào)：算力基建】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

搜索歷史

深入解析NVIDIA Blackwell架構(gòu)及其實(shí)現(xiàn)細(xì)節(jié)

評(píng)論

電子發(fā)燒友