大 GPU 優(yōu)勢(shì)在于通過并行計(jì)算實(shí)現(xiàn)大量重復(fù)性計(jì)算。GPGPU即通用GPU,能夠幫助 CPU 進(jìn)行非圖形相關(guān)程序的運(yùn)算。在類似的價(jià)格和功率范圍內(nèi),GPU 能提供比CPU 高得多的指令吞吐量和內(nèi)存帶寬。GPGPU 架構(gòu)設(shè)計(jì)時(shí)去掉了 GPU 為了圖形處理而設(shè)計(jì)的加速硬件單元,保留了 GPU 的 SIMT架構(gòu)和通用計(jì)算單元,通過 GPU 多條流水線的并行計(jì)算來實(shí)現(xiàn)大量計(jì)算。
所以基于 GPU 的圖形任務(wù)無法直接運(yùn)行在 GPGPU 上,但對(duì)于科學(xué)計(jì)算,AI 訓(xùn)練、推理任務(wù)(主要是矩陣運(yùn)算)等通用計(jì)算類型的任務(wù)仍然保留了 GPU 的優(yōu)勢(shì),即高效的搬運(yùn)和運(yùn)算有海量數(shù)據(jù)的重復(fù)性任務(wù)。目前主要用于例如物理計(jì)算、加密解密、科學(xué)計(jì)算以及比特幣等加密貨幣的生成。
隨著超算等高并發(fā)性計(jì)算的需求不斷提升,英偉達(dá)以推動(dòng) GPU 從專用計(jì)算芯片走向通用計(jì)算處理器為目標(biāo)推出了GPGPU,并于 2006 年前瞻性發(fā)布并行編程模型 CUDA,以及對(duì)應(yīng)工業(yè)標(biāo)準(zhǔn)的 OpenCL。CUDA 是英偉達(dá)的一種通用并行計(jì)算平臺(tái)和編程模型,它通過利用圖形處理器 (GPU)的處理能力,可大幅提升計(jì)算性能。CUDA 使英偉達(dá)的 GPU 能夠執(zhí)行使用 C、C++、Fortran、OpenCL、DirectCompute 和其他語言編寫的程序。在 CUDA 問世之前,對(duì) GPU 編程必須要編寫大量的底層語言代碼;CUDA 可以讓普通程序員可以利用 C 語言、C++等為 CUDA 架構(gòu)編寫程序在 GPU平臺(tái)上進(jìn)行大規(guī)模并行計(jì)算,在全球 GPGPU 開發(fā)市場(chǎng)占比已超過 80%。GPGPU 與 CUDA 組成的軟硬件底座,構(gòu)成了英偉達(dá)引領(lǐng) AI 計(jì)算及數(shù)據(jù)中心領(lǐng)域的根基。
GPU 架構(gòu)升級(jí)過程計(jì)算能力不斷強(qiáng)化,Hopper 架構(gòu)適用于高性能計(jì)算(HPC)和 AI 工作負(fù)載。英偉達(dá)在架構(gòu)設(shè)計(jì)上,不斷加強(qiáng) GPU 的計(jì)算能力和能源效率。在英偉達(dá) GPU 架構(gòu)的演變中,從最先 Tesla 架構(gòu),分別經(jīng)過 Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere至發(fā)展為今天的 Hopper 架構(gòu)。
以 Pascal 架構(gòu)為分界點(diǎn),自 2016 年后英偉達(dá)逐步開始向深度學(xué)習(xí)方向演進(jìn)。根據(jù)英偉達(dá)官網(wǎng),Pascal 架構(gòu),與上一代 Maxwell 相比,神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度提高 12 倍多,并將深度學(xué)習(xí)推理吞吐量提升了 7 倍。
Volta 架構(gòu),配備 640 個(gè) Tensor 內(nèi)核增強(qiáng)性能,可提供每秒超過 100 萬億次(TFLOPS)的深度學(xué)習(xí)性能,是上一代 Pascal 架構(gòu)的 5 倍以上。
Turing 架構(gòu),配備全新 Tensor Core,每秒可提供高達(dá) 500 萬億次的張量運(yùn)算。
Ampere架構(gòu),采用全新精度標(biāo)準(zhǔn) Tensor Float 32(TF32),無需更改任何程序代碼即可將AI 訓(xùn)練速度提升至 20 倍。
最新Hopper 架構(gòu)是第一個(gè)真正異構(gòu)加速平臺(tái),采用臺(tái)積電 4nm 工藝,擁有超 800 億晶體管,主要由 Hopper GPU、Grace CPU、NVLINK C2C 互聯(lián)和 NVSwitch 交換芯片組成,根據(jù)英偉達(dá)官網(wǎng)介紹,其性能相較于上一代 Megatron 530B 擁有 30 倍 AI 推理速度的提升。
AMD 數(shù)據(jù)中心領(lǐng)域布局全面,形成 CPU+GPU+FPGA+DPU 產(chǎn)品矩陣。與英偉達(dá)相比,AMD 在服務(wù)器端 CPU 業(yè)務(wù)表現(xiàn)較好,根據(jù) Passmark 數(shù)據(jù)顯示,2021 年 Q4 AMD EPYC 霄龍系列在英特爾壟斷下有所增長(zhǎng),占全球服務(wù)器 CPU 市場(chǎng)的 6%。依據(jù) CPU 業(yè)務(wù)的優(yōu)勢(shì),AMD 在研發(fā) GPGPU 產(chǎn)品時(shí)推出 Infinity Fabric 技術(shù),將 EPYC 霄龍系列 CPU 與 Instinct MI 系列 GPU 直接相連,實(shí)現(xiàn)一致的高速緩存,形成協(xié)同效應(yīng)。此外,AMD 分別于 2022 年 2 月、4 月收購(gòu) Xilinx 和Pensando,補(bǔ)齊 FPGA 與 DPU 短板,全面進(jìn)軍數(shù)據(jù)中心領(lǐng)域。
軟件方面,AMD 推出 ROCm 平臺(tái)打造 CDNA 架構(gòu),但無法替代英偉達(dá) CUDA 生態(tài)。AMD 最新的面向 GPGPU 架構(gòu)為 CDNA 系列架構(gòu),CDNA 架構(gòu)使用 ROCm 自主生態(tài)進(jìn)行編寫。AMD 的 ROCm 生態(tài)采取 HIP 編程模型,但 HIP 與 CUDA 的編程語法極為相似,開發(fā)者可以模仿 CUDA 的編程方式為 AMD 的 GPU 產(chǎn)品編程,從而在源代碼層面上兼容 CUDA。所以從本質(zhì)上來看,ROCm 生態(tài)只是借用了 CUDA 的技術(shù),無法真正替代 CUDA 產(chǎn)生壁壘。
軟硬件共同布局形成生態(tài)系統(tǒng),造就英偉達(dá)核心技術(shù)壁壘。
? 硬件端:基于 GPU、DPU 和 CPU 構(gòu)建英偉達(dá)加速計(jì)算平臺(tái)生態(tài):
(1)主要產(chǎn)品 Tesla GPU 系列迭代速度快,從 2008 年至 2022 年,先后推出 8 種 GPU 架構(gòu),平均兩年多推出新架構(gòu),半年推出新產(chǎn)品。超快的迭代速度使英偉達(dá)的 GPU 性能走在 AI 芯片行業(yè)前沿,引領(lǐng)人工智能計(jì)算領(lǐng)域發(fā)生變革。
(2)DPU 方面,英偉達(dá)于 2019 年戰(zhàn)略性收購(gòu)以色列超算以太網(wǎng)公司 Mellanox,利用其InfiniBand(無限帶寬)技術(shù)設(shè)計(jì)出 Bluefield 系列 DPU 芯片,彌補(bǔ)其生態(tài)在數(shù)據(jù)交互方面的不足。InfiniBand 與以太網(wǎng)相同,是一種計(jì)算機(jī)網(wǎng)絡(luò)通信標(biāo)準(zhǔn),但它具有極高的吞吐量和極低的延遲,通常用于超級(jí)計(jì)算機(jī)的互聯(lián)。英偉達(dá)的 Bluefield DPU 芯片可用于分擔(dān) CPU 的網(wǎng)絡(luò)連接算力需求,從而提高云數(shù)據(jù)中心的效率,降低運(yùn)營(yíng)成本。
(3)CPU 方面,自主設(shè)計(jì) Grace CPU 并推出 Grace Hopper 超級(jí)芯片,解決內(nèi)存帶寬瓶頸問題。采用 x86 CPU 的傳統(tǒng)數(shù)據(jù)中心會(huì)受到 PCIe 總線規(guī)格的限制,CPU 到 GPU 的帶寬較小,算效率受到影響;而 Grace Hopper 超級(jí)芯片提供自研 Grace CPU+GPU 相結(jié)合的一致內(nèi)存模型,從而可以使用英偉達(dá) NVLink-C2C 技術(shù)快速傳輸,其帶寬是第 5 代 PCIe 帶寬的 7 倍,極大提高了數(shù)據(jù)中心的運(yùn)行性能。
相較于 A100 GPU,H100 性能再次大幅提升。在 H100 配備第四代 Tensor Core 和 Transformer引擎(FP8 精度),同上一代 A100 相比,AI 推理能力提升 30 倍。其核心采用的是 TSMC 目前最先進(jìn)的 4nm 工藝,H100 使用雙精度 Tensor Core 的 FLOPS 提升 3 倍。
在算力需求快速增長(zhǎng)的進(jìn)程中,國(guó)產(chǎn) GPU 正面臨機(jī)遇與挑戰(zhàn)并存的局面。目前,國(guó)產(chǎn) GPU 廠商的核心架構(gòu)多為自研,難度極高,需投入海量資金以及高昂的人力和時(shí)間成本。由于我國(guó) GPU 行業(yè)起步較晚,缺乏相應(yīng)生態(tài),目前同國(guó)際一流廠商仍存在較大差距。在中美摩擦加劇、經(jīng)濟(jì)全球化逆行的背景下,以海光信息、天數(shù)智芯、壁仞科技和摩爾線程等為代表的國(guó)內(nèi) GPU 廠商進(jìn)展迅速,國(guó)產(chǎn) GPU 自主可控未來可期。
以O(shè)pen AI的算力基礎(chǔ)設(shè)施為例,芯片層面 GPGPU 的需求最為直接受益,其次是 CPU、AI 推理芯片、FPGA 等。AI 服務(wù)器市場(chǎng)的擴(kuò)容,同步帶動(dòng)高速網(wǎng)卡、HBM、DRAM、NAND、PCB 等需求提升。
審核編輯 :李倩
-
gpu
+關(guān)注
關(guān)注
28文章
4740瀏覽量
128950 -
AI
+關(guān)注
關(guān)注
87文章
30896瀏覽量
269107 -
算力
+關(guān)注
關(guān)注
1文章
977瀏覽量
14822
原文標(biāo)題:大模型訓(xùn)練,英偉達(dá)Turing、Ampere和Hopper算力分析
文章出處:【微信號(hào):AI_Architect,微信公眾號(hào):智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論