0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大模型訓(xùn)練,英偉達(dá)Turing、Ampere和Hopper算力分析

智能計(jì)算芯世界 ? 來源:智能計(jì)算芯世界 ? 2023-05-15 11:16 ? 次閱讀

GPU 優(yōu)勢(shì)在于通過并行計(jì)算實(shí)現(xiàn)大量重復(fù)性計(jì)算。GPGPU即通用GPU,能夠幫助 CPU 進(jìn)行非圖形相關(guān)程序的運(yùn)算。在類似的價(jià)格和功率范圍內(nèi),GPU 能提供比CPU 高得多的指令吞吐量和內(nèi)存帶寬。GPGPU 架構(gòu)設(shè)計(jì)時(shí)去掉了 GPU 為了圖形處理而設(shè)計(jì)的加速硬件單元,保留了 GPU 的 SIMT架構(gòu)和通用計(jì)算單元,通過 GPU 多條流水線的并行計(jì)算來實(shí)現(xiàn)大量計(jì)算。

所以基于 GPU 的圖形任務(wù)無法直接運(yùn)行在 GPGPU 上,但對(duì)于科學(xué)計(jì)算,AI 訓(xùn)練、推理任務(wù)(主要是矩陣運(yùn)算)等通用計(jì)算類型的任務(wù)仍然保留了 GPU 的優(yōu)勢(shì),即高效的搬運(yùn)和運(yùn)算有海量數(shù)據(jù)的重復(fù)性任務(wù)。目前主要用于例如物理計(jì)算、加密解密、科學(xué)計(jì)算以及比特幣等加密貨幣的生成。

7d90cb3e-f2ce-11ed-90ce-dac502259ad0.png

7da4486c-f2ce-11ed-90ce-dac502259ad0.png

隨著超算等高并發(fā)性計(jì)算的需求不斷提升,英偉達(dá)以推動(dòng) GPU 從專用計(jì)算芯片走向通用計(jì)算處理器為目標(biāo)推出了GPGPU,并于 2006 年前瞻性發(fā)布并行編程模型 CUDA,以及對(duì)應(yīng)工業(yè)標(biāo)準(zhǔn)的 OpenCL。CUDA 是英偉達(dá)的一種通用并行計(jì)算平臺(tái)和編程模型,它通過利用圖形處理器 (GPU)的處理能力,可大幅提升計(jì)算性能。CUDA 使英偉達(dá)的 GPU 能夠執(zhí)行使用 C、C++、Fortran、OpenCL、DirectCompute 和其他語言編寫的程序。在 CUDA 問世之前,對(duì) GPU 編程必須要編寫大量的底層語言代碼;CUDA 可以讓普通程序員可以利用 C 語言、C++等為 CUDA 架構(gòu)編寫程序在 GPU平臺(tái)上進(jìn)行大規(guī)模并行計(jì)算,在全球 GPGPU 開發(fā)市場(chǎng)占比已超過 80%。GPGPU 與 CUDA 組成的軟硬件底座,構(gòu)成了英偉達(dá)引領(lǐng) AI 計(jì)算及數(shù)據(jù)中心領(lǐng)域的根基。

GPU 架構(gòu)升級(jí)過程計(jì)算能力不斷強(qiáng)化,Hopper 架構(gòu)適用于高性能計(jì)算(HPC)和 AI 工作負(fù)載。英偉達(dá)在架構(gòu)設(shè)計(jì)上,不斷加強(qiáng) GPU 的計(jì)算能力和能源效率。在英偉達(dá) GPU 架構(gòu)的演變中,從最先 Tesla 架構(gòu),分別經(jīng)過 Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere至發(fā)展為今天的 Hopper 架構(gòu)。

以 Pascal 架構(gòu)為分界點(diǎn),自 2016 年后英偉達(dá)逐步開始向深度學(xué)習(xí)方向演進(jìn)。根據(jù)英偉達(dá)官網(wǎng),Pascal 架構(gòu),與上一代 Maxwell 相比,神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度提高 12 倍多,并將深度學(xué)習(xí)推理吞吐量提升了 7 倍。

Volta 架構(gòu),配備 640 個(gè) Tensor 內(nèi)核增強(qiáng)性能,可提供每秒超過 100 萬億次(TFLOPS)的深度學(xué)習(xí)性能,是上一代 Pascal 架構(gòu)的 5 倍以上。

Turing 架構(gòu),配備全新 Tensor Core,每秒可提供高達(dá) 500 萬億次的張量運(yùn)算。

Ampere架構(gòu),采用全新精度標(biāo)準(zhǔn) Tensor Float 32(TF32),無需更改任何程序代碼即可將AI 訓(xùn)練速度提升至 20 倍。

最新Hopper 架構(gòu)是第一個(gè)真正異構(gòu)加速平臺(tái),采用臺(tái)積電 4nm 工藝,擁有超 800 億晶體管,主要由 Hopper GPU、Grace CPU、NVLINK C2C 互聯(lián)和 NVSwitch 交換芯片組成,根據(jù)英偉達(dá)官網(wǎng)介紹,其性能相較于上一代 Megatron 530B 擁有 30 倍 AI 推理速度的提升。

7dce498c-f2ce-11ed-90ce-dac502259ad0.png

7df2e0f8-f2ce-11ed-90ce-dac502259ad0.png

AMD 數(shù)據(jù)中心領(lǐng)域布局全面,形成 CPU+GPU+FPGA+DPU 產(chǎn)品矩陣。與英偉達(dá)相比,AMD 在服務(wù)器端 CPU 業(yè)務(wù)表現(xiàn)較好,根據(jù) Passmark 數(shù)據(jù)顯示,2021 年 Q4 AMD EPYC 霄龍系列在英特爾壟斷下有所增長(zhǎng),占全球服務(wù)器 CPU 市場(chǎng)的 6%。依據(jù) CPU 業(yè)務(wù)的優(yōu)勢(shì),AMD 在研發(fā) GPGPU 產(chǎn)品時(shí)推出 Infinity Fabric 技術(shù),將 EPYC 霄龍系列 CPU 與 Instinct MI 系列 GPU 直接相連,實(shí)現(xiàn)一致的高速緩存,形成協(xié)同效應(yīng)。此外,AMD 分別于 2022 年 2 月、4 月收購(gòu) Xilinx 和Pensando,補(bǔ)齊 FPGA 與 DPU 短板,全面進(jìn)軍數(shù)據(jù)中心領(lǐng)域。

軟件方面,AMD 推出 ROCm 平臺(tái)打造 CDNA 架構(gòu),但無法替代英偉達(dá) CUDA 生態(tài)。AMD 最新的面向 GPGPU 架構(gòu)為 CDNA 系列架構(gòu),CDNA 架構(gòu)使用 ROCm 自主生態(tài)進(jìn)行編寫。AMD 的 ROCm 生態(tài)采取 HIP 編程模型,但 HIP 與 CUDA 的編程語法極為相似,開發(fā)者可以模仿 CUDA 的編程方式為 AMD 的 GPU 產(chǎn)品編程,從而在源代碼層面上兼容 CUDA。所以從本質(zhì)上來看,ROCm 生態(tài)只是借用了 CUDA 的技術(shù),無法真正替代 CUDA 產(chǎn)生壁壘。

7e10d8ec-f2ce-11ed-90ce-dac502259ad0.png

軟硬件共同布局形成生態(tài)系統(tǒng),造就英偉達(dá)核心技術(shù)壁壘。

? 硬件端:基于 GPU、DPU 和 CPU 構(gòu)建英偉達(dá)加速計(jì)算平臺(tái)生態(tài):

(1)主要產(chǎn)品 Tesla GPU 系列迭代速度快,從 2008 年至 2022 年,先后推出 8 種 GPU 架構(gòu),平均兩年多推出新架構(gòu),半年推出新產(chǎn)品。超快的迭代速度使英偉達(dá)的 GPU 性能走在 AI 芯片行業(yè)前沿,引領(lǐng)人工智能計(jì)算領(lǐng)域發(fā)生變革。

(2)DPU 方面,英偉達(dá)于 2019 年戰(zhàn)略性收購(gòu)以色列超算以太網(wǎng)公司 Mellanox,利用其InfiniBand(無限帶寬)技術(shù)設(shè)計(jì)出 Bluefield 系列 DPU 芯片,彌補(bǔ)其生態(tài)在數(shù)據(jù)交互方面的不足。InfiniBand 與以太網(wǎng)相同,是一種計(jì)算機(jī)網(wǎng)絡(luò)通信標(biāo)準(zhǔn),但它具有極高的吞吐量和極低的延遲,通常用于超級(jí)計(jì)算機(jī)的互聯(lián)。英偉達(dá)的 Bluefield DPU 芯片可用于分擔(dān) CPU 的網(wǎng)絡(luò)連接算力需求,從而提高云數(shù)據(jù)中心的效率,降低運(yùn)營(yíng)成本。

(3)CPU 方面,自主設(shè)計(jì) Grace CPU 并推出 Grace Hopper 超級(jí)芯片,解決內(nèi)存帶寬瓶頸問題。采用 x86 CPU 的傳統(tǒng)數(shù)據(jù)中心會(huì)受到 PCIe 總線規(guī)格的限制,CPU 到 GPU 的帶寬較小,算效率受到影響;而 Grace Hopper 超級(jí)芯片提供自研 Grace CPU+GPU 相結(jié)合的一致內(nèi)存模型,從而可以使用英偉達(dá) NVLink-C2C 技術(shù)快速傳輸,其帶寬是第 5 代 PCIe 帶寬的 7 倍,極大提高了數(shù)據(jù)中心的運(yùn)行性能。

7e293068-f2ce-11ed-90ce-dac502259ad0.png

相較于 A100 GPU,H100 性能再次大幅提升。在 H100 配備第四代 Tensor Core 和 Transformer引擎(FP8 精度),同上一代 A100 相比,AI 推理能力提升 30 倍。其核心采用的是 TSMC 目前最先進(jìn)的 4nm 工藝,H100 使用雙精度 Tensor Core 的 FLOPS 提升 3 倍。

7e4bf6b6-f2ce-11ed-90ce-dac502259ad0.png

7e7237ea-f2ce-11ed-90ce-dac502259ad0.png

在算力需求快速增長(zhǎng)的進(jìn)程中,國(guó)產(chǎn) GPU 正面臨機(jī)遇與挑戰(zhàn)并存的局面。目前,國(guó)產(chǎn) GPU 廠商的核心架構(gòu)多為自研,難度極高,需投入海量資金以及高昂的人力和時(shí)間成本。由于我國(guó) GPU 行業(yè)起步較晚,缺乏相應(yīng)生態(tài),目前同國(guó)際一流廠商仍存在較大差距。在中美摩擦加劇、經(jīng)濟(jì)全球化逆行的背景下,以海光信息、天數(shù)智芯、壁仞科技和摩爾線程等為代表的國(guó)內(nèi) GPU 廠商進(jìn)展迅速,國(guó)產(chǎn) GPU 自主可控未來可期。

7e8b9604-f2ce-11ed-90ce-dac502259ad0.png

7ea246a6-f2ce-11ed-90ce-dac502259ad0.png

以O(shè)pen AI的算力基礎(chǔ)設(shè)施為例,芯片層面 GPGPU 的需求最為直接受益,其次是 CPU、AI 推理芯片、FPGA 等。AI 服務(wù)器市場(chǎng)的擴(kuò)容,同步帶動(dòng)高速網(wǎng)卡、HBM、DRAM、NAND、PCB 等需求提升。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4740

    瀏覽量

    128950
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30896

    瀏覽量

    269107
  • 算力
    +關(guān)注

    關(guān)注

    1

    文章

    977

    瀏覽量

    14822

原文標(biāo)題:大模型訓(xùn)練,英偉達(dá)Turing、Ampere和Hopper算力分析

文章出處:【微信號(hào):AI_Architect,微信公眾號(hào):智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    通往AGI之路:揭秘英偉達(dá)A100、A800、H800、V100在高性能計(jì)算與大模型訓(xùn)練中的霸主地位

    英偉達(dá)前段時(shí)間發(fā)布GH 200包含 36 個(gè) NVLink 開關(guān),將 256 個(gè) GH200 Grace Hopper 芯片和 144TB 的共享內(nèi)存連接成一個(gè)單元。除此之外,英偉
    的頭像 發(fā)表于 06-29 11:23 ?2.9w次閱讀
    通往AGI之路:揭秘<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>A100、A800、H800、V100在高性能計(jì)算與大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>中的霸主地位

    AIGC需求大爆發(fā),英偉達(dá)芯片已漲價(jià)近四成

    12月份開始上漲,截至2023年4月上半月,5個(gè)月價(jià)格累計(jì)漲幅達(dá)20.0%。 目前,對(duì)于所有AI大模型而言,無論是推理還是訓(xùn)練,基本都是依賴英偉達(dá)
    的頭像 發(fā)表于 05-16 01:08 ?2936次閱讀

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

    30 倍,能源效率提高了 25 倍。這些提升使得它能夠更快地處理大規(guī)模的人工智能任務(wù),加速模型訓(xùn)練和推理過程。 **2. **超級(jí)計(jì)算機(jī) 英偉達(dá)推出的 DGX GB200 超級(jí)計(jì)算
    發(fā)表于 05-13 17:16

    英偉達(dá)DPU的過“芯”之處

    ,從而在這兩個(gè)領(lǐng)域更好地替代CPU,從而釋放CPU的給到其他更多應(yīng)用。英偉達(dá)在DPU上的技術(shù)突破,來自于去年收購(gòu)以色列芯片制造公司Mellanox之后,在這家公司的硬件基礎(chǔ)上開發(fā)出
    發(fā)表于 03-29 14:42

    英偉達(dá)H100 Transformer引擎加速AI訓(xùn)練 準(zhǔn)確而且高達(dá)6倍性能

    Hopper 架構(gòu)從頭開始構(gòu)建,憑借強(qiáng)大的和快速的內(nèi)存來加速這些新一代 AI 工作負(fù)載,從而處理日益增長(zhǎng)的網(wǎng)絡(luò)和數(shù)據(jù)集。 Transformer 引擎是全新 Hopper 架構(gòu)的
    的頭像 發(fā)表于 04-01 09:24 ?4210次閱讀

    火種初現(xiàn)的國(guó)產(chǎn)GPU,誰能突破封鎖?

    事實(shí)上,英偉達(dá)與AI可謂是緣分不淺,截至目前,英偉達(dá)的GPU芯片正在為全球絕大多數(shù)的人工智能系統(tǒng)提供最基礎(chǔ)的
    的頭像 發(fā)表于 04-03 10:07 ?1934次閱讀

    英偉達(dá)a100顯卡介紹

    英偉達(dá)a100顯卡介紹 英偉達(dá)A100顯卡是一款專為數(shù)據(jù)中心設(shè)計(jì)的顯卡,采用了全新的
    的頭像 發(fā)表于 08-07 17:59 ?8680次閱讀

    英偉達(dá)A100的優(yōu)勢(shì)分析

    英偉達(dá)A100的優(yōu)勢(shì)分析 在大模型訓(xùn)練中,A100是非常強(qiáng)大的GPU。A100是英偉
    的頭像 發(fā)表于 08-08 15:25 ?3282次閱讀

    英偉達(dá)A100的是多少?

    ,但 A100 的是前者的 20 倍。 A100是英偉達(dá)推出的一款強(qiáng)大的數(shù)據(jù)中心GPU,采用全新的Ampere架構(gòu)。它擁有高達(dá)6,912
    的頭像 發(fā)表于 08-08 15:28 ?3.7w次閱讀

    英偉達(dá)全球首發(fā)超級(jí)AI芯片 訓(xùn)練模型成本更低

    黃仁勛向數(shù)千名開發(fā)者和圖形專業(yè)人士發(fā)表講話,宣布更新 GH200 Grace Hopper 超級(jí)芯片、英偉達(dá) AI Workbench,并將把生成式 AI 引入英偉
    的頭像 發(fā)表于 08-09 14:42 ?1175次閱讀

    模型“狂歡”之下,之困何解?

    打造一個(gè)AI大模型究竟需要多少算?公開數(shù)據(jù)顯示,ChatGPT初始所需的就是1萬塊英偉達(dá)A
    的頭像 發(fā)表于 08-23 16:09 ?763次閱讀

    英偉達(dá)H200怎么樣

    英偉達(dá)H200的非常強(qiáng)大。作為新一代AI芯片,H200在性能上有了顯著的提升,能夠處理復(fù)雜的AI任務(wù)和大數(shù)據(jù)分析。然而,具體的
    的頭像 發(fā)表于 03-07 16:15 ?2130次閱讀

    英偉達(dá)靜候新品來臨,亞馬遜暫緩購(gòu)買Grace Hopper

    今年3月,英偉達(dá)發(fā)布了全新的Blackwell處理器,距離前任產(chǎn)品Hopper的發(fā)布不過短短一年。英偉達(dá)首席執(zhí)行官黃仁勛表示,新款產(chǎn)品在
    的頭像 發(fā)表于 05-22 09:07 ?306次閱讀

    亞馬遜AWS暫緩訂購(gòu)英偉達(dá)Grace Hopper,等待新品Grace Blackwel

    今年 3 月,英偉達(dá)宣布了新款人工智能處理器Blackwell,比上一代Hopper提前不到一年面世。CEO黃仁勛表示,新產(chǎn)品在訓(xùn)練大規(guī)模語言模型
    的頭像 發(fā)表于 05-22 12:03 ?649次閱讀

    軟銀升級(jí)人工智能計(jì)算平臺(tái),安裝4000顆英偉達(dá)Hopper GPU

    軟銀公司宣布,其正在擴(kuò)展的日本頂級(jí)人工智能計(jì)算平臺(tái)已安裝了約4000顆英偉達(dá)Hopper GPU。這一舉措顯著提升了平臺(tái)的計(jì)算能力。據(jù)悉,該平臺(tái)自2023年9月開始運(yùn)行,最初配備了大約2000顆
    的頭像 發(fā)表于 11-04 16:18 ?437次閱讀