0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI服務(wù)器總體架構(gòu)和關(guān)鍵技術(shù)

智能計(jì)算芯世界 ? 來(lái)源:智能計(jì)算芯世界 ? 2024-01-11 11:28 ? 次閱讀

本文來(lái)自“AI服務(wù)器白皮書(shū)(2023年)”,人工智能行業(yè)是對(duì)算力、算法和數(shù)據(jù)等數(shù)字資源進(jìn)行創(chuàng)造、加工、整合,最終實(shí)現(xiàn)用機(jī)器替代人,為傳統(tǒng)行業(yè)智慧賦能。算力、算法、數(shù)據(jù)是人工智能的三大要素。人工智能產(chǎn)業(yè)鏈包括三層:基礎(chǔ)層、技術(shù)層和應(yīng)用層。

(1)基礎(chǔ)層:人工智能產(chǎn)業(yè)的基礎(chǔ),主要提供 AI 專有算力支持和開(kāi)發(fā)環(huán)境的設(shè)備和服務(wù),包括 AI 芯片、 系統(tǒng)開(kāi)發(fā)框架、AI 服務(wù)器等基礎(chǔ)設(shè)施等;

(2)技術(shù)層:在 AI 算力的支持下,通過(guò)系統(tǒng)開(kāi)發(fā)框架進(jìn)行各場(chǎng)景數(shù)據(jù)的訓(xùn)練和 學(xué)習(xí),開(kāi)發(fā)出計(jì)算機(jī)視覺(jué)、語(yǔ)音語(yǔ)義、知識(shí)圖譜等 AI 算法,并將其搭載于硬件設(shè)備上形成行業(yè)級(jí)解決方案;

(3)應(yīng)用層:針對(duì)不同的行業(yè)和場(chǎng)景,進(jìn)行人工智能技術(shù)的商業(yè)化落地。

AI 服務(wù)器是人工智能基礎(chǔ)層的核心物理設(shè)備,其面向深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)需要的快速,低精度,浮點(diǎn)運(yùn)算高度并行數(shù)值計(jì)算,搭載大量計(jì)算內(nèi)核和高帶寬內(nèi)存資源,用于支撐深度學(xué)習(xí)訓(xùn)練和線上推理計(jì)算框架模型和應(yīng)用,可以在多個(gè)節(jié)點(diǎn)之間高速互聯(lián)、高效地?cái)U(kuò)展的硬件平臺(tái)。有別于傳統(tǒng)服務(wù)器以 CPU 提供主要算力,人工智能服務(wù)器多采用異構(gòu)架構(gòu)進(jìn)行加速計(jì)算,常采用CPU+GPU、CPU+FPGA、CPU+ASIC 等多種形式。通過(guò)搭配不同的異構(gòu)加速芯片,形成不同性能和可編程靈活性的人工智能算力硬件。目前廣泛使用的 AI 服務(wù)器是 CPU+GPU。

通過(guò) AI 服務(wù)器構(gòu)成人工智能基礎(chǔ)層的智能算力集群,聯(lián)合智能模型平臺(tái)和數(shù)據(jù)基礎(chǔ)服務(wù)平臺(tái),支撐技術(shù)層和應(yīng)用層的人工智能應(yīng)用場(chǎng)景落地。隨著大模型訓(xùn)練對(duì)云端算力的持續(xù)增長(zhǎng)需求,AI 服務(wù)器部署規(guī)模越來(lái)越大,持續(xù)增長(zhǎng)的計(jì)算速度和計(jì)算效率需求,推動(dòng)著 AI 服務(wù)器的人工智能行業(yè)技術(shù)迭代。

(一)AI 服務(wù)器總體架構(gòu)

隨著人工智能和大模型應(yīng)用的持續(xù)演進(jìn)和廣泛部署,“CPU+”架構(gòu)已成為人工智能服務(wù)器的設(shè)計(jì)藍(lán)本。

在這一架構(gòu)中,CPU繼續(xù)發(fā)揮其作為系統(tǒng)的中央處理單元的關(guān)鍵角色,負(fù)責(zé)任務(wù)的調(diào)度、系統(tǒng)管理和部分計(jì)算工作。然而,為了適應(yīng)大模型和特定 AI 應(yīng)用的計(jì)算密集性需求,服務(wù)器必須融合其他具有豐富計(jì)算核心的硬件加速器,能夠在短時(shí)間內(nèi)處理大量的數(shù)據(jù)和計(jì)算任務(wù)。

6ded33a4-b013-11ee-8b88-92fbcf53809c.png

以人工智能計(jì)算領(lǐng)域中廣泛使用的 GPU 計(jì)算部件為典型代表,詳細(xì)描述了在現(xiàn)代“CPU+”架構(gòu)中,人工智能加速部件與 CPU 的協(xié)同工作流程。在這種架構(gòu)中,待處理的數(shù)據(jù)首先從 CPU 內(nèi)存?zhèn)鬏數(shù)紾PU 的顯存。這一步通常涉及大數(shù)據(jù)量的遷移,因此高帶寬和低延遲的內(nèi)存接口如 PCIe 和 NVLink 成為了優(yōu)化的關(guān)鍵。一旦數(shù)據(jù)被載入顯存,CPU 便開(kāi)始向 GPU 發(fā)送程序指令。這些指令利用 GPU 的并行性能,驅(qū)動(dòng)其多達(dá)數(shù)千的計(jì)算核心去執(zhí)行。利用 GPU 的強(qiáng)大并行計(jì)算能力,顯存中的數(shù)據(jù)會(huì)被快速處理。例如,在深度學(xué)習(xí)中,GPU可以并行處理大規(guī)模的矩陣乘法和卷積操作。計(jì)算完成后,結(jié)果存儲(chǔ)在顯存中,并在需要時(shí)傳輸回 CPU 內(nèi)存。從“CPU+”這種架構(gòu)的應(yīng)用可以明顯看出 CPU 的角色更偏向于指令協(xié)調(diào)和結(jié)果匯總,而實(shí)際上的高并行度計(jì)算任務(wù)則交給了 GPU 這類加速部件。這種分工策略符合 Amdahl 定律的觀點(diǎn):系統(tǒng)的總體性能提升受制于其最慢部分。

因此,通過(guò)優(yōu)化可并行化的計(jì)算部分,將 CPU 和專門(mén)設(shè)計(jì)的硬件加速器如 GPU 結(jié)合,從而實(shí)現(xiàn)高效并行處理,滿足日益增長(zhǎng)的計(jì)算需求。

(二)異構(gòu)計(jì)算加速計(jì)算芯片

異構(gòu)計(jì)算指的是在一個(gè)計(jì)算系統(tǒng)中使用多種不同類型的處理器或核心來(lái)執(zhí)行計(jì)算任務(wù)。這種方式旨在利用各種處理器的特定優(yōu)勢(shì),以獲得更高的性能或能效。

傳統(tǒng)服務(wù)器系統(tǒng)內(nèi)處理器以 CPU(即中央處理單元)為主。CPU 有很強(qiáng)的通用性,需要處理各種不同的數(shù)據(jù)類型,通常負(fù)責(zé)執(zhí)行計(jì)算機(jī)和操作系統(tǒng)所需的命令和流程,因此其擅長(zhǎng)無(wú)序超標(biāo)量與復(fù)雜控制指令級(jí)的執(zhí)行。

本輪人工智能熱潮的理論基礎(chǔ)是人工神經(jīng)網(wǎng)絡(luò),為了更好地訓(xùn)練和使用深度神經(jīng)網(wǎng)絡(luò),就需要對(duì)計(jì)算密集型大規(guī)模矩陣進(jìn)行并行處理。CPU 的架構(gòu)決定了其難以適用于大規(guī)模的人工智能計(jì)算。而異構(gòu)計(jì)算加速器集成大量計(jì)算核心,簡(jiǎn)化邏輯控制單元設(shè)計(jì),提升系統(tǒng)的并行計(jì)算性能。

當(dāng)前異構(gòu)計(jì)算加速器發(fā)展呈現(xiàn)多樣化。人工智能芯片按照技術(shù)架構(gòu)分類,可以劃分為圖像處理單元(GPU)、現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)、專用集成電路(ASIC)等。

GPU:AI 算力的核心

6df954cc-b013-11ee-8b88-92fbcf53809c.png

CPU 作為中央處理核心,其硬件架構(gòu)中為了滿足高性能和低 延 遲 的 需 求 , 特 地 增 強(qiáng) 了 高 速 緩 存 ( Cache ) 和 控 制 單 元(Control)的比例。相較之下,算術(shù)邏輯單元(ALU)在整體構(gòu)造中所占的份額較小,這限制了 CPU 在大規(guī)模并行計(jì)算方面的表現(xiàn)。

GPU 的架構(gòu)以計(jì)算單元為核心,采用了高度精簡(jiǎn)且高效的流水線設(shè)計(jì),專為處理高度并行和線程化的計(jì)算任務(wù)而生,具有大規(guī)模并行計(jì)算的能力。

傳統(tǒng)的 GDDR 顯存模塊通常焊接在 GPU 的 PCB 板上,這種配置可能會(huì)限制數(shù)據(jù)傳輸?shù)乃俾屎涂偞鎯?chǔ)容量。隨著技術(shù)的發(fā)展,這些限制逐漸成為了圖形處理性能的瓶頸。為了解決這個(gè)問(wèn)題,HBM (High Bandwidth Memory) 技 術(shù) 應(yīng) 運(yùn) 而 生 。HBM 使用了 TSV(Through-Silicon Vias) 技術(shù),允許多個(gè) DRAM 芯片垂直堆疊起來(lái),從而實(shí)現(xiàn)更高的數(shù)據(jù)帶寬。HBM 與 GPU 核心的連接則是通過(guò)一個(gè)特殊的互連層實(shí)現(xiàn),這不僅進(jìn)一步提高了數(shù)據(jù)傳輸速率,而且大大減少了 PCB 的使用面積。

盡管 HBM 在帶寬、體積和能效上都展現(xiàn)出了明顯的優(yōu)勢(shì),但由于其生產(chǎn)成本相對(duì)較高,GDDR 仍然是消費(fèi)級(jí) GPU 市場(chǎng)的主流選擇。而在對(duì)性能和能效要求更高的數(shù)據(jù)中心環(huán)境中,HBM則得到了更廣泛的應(yīng)用。

(1) NVIDIA GPU

2022 年春季 GTC 大會(huì)上,英偉達(dá)發(fā)布其新款 NVIDIA GraceHopper 超級(jí)芯片產(chǎn)品,Hopper H100 Tensor Core GPU。

Tensor Cores 是專門(mén)針對(duì)矩陣乘法和累加(MMA)數(shù)學(xué)運(yùn)算的高性能計(jì)算核心,為 AI 和 HPC 應(yīng)用提供了開(kāi)創(chuàng)性的性能。當(dāng) TensorCores 在一個(gè) NVIDIA GPU 的多個(gè)流多處理器(SM)中并行操作時(shí),與標(biāo)準(zhǔn)的浮點(diǎn)數(shù)(FP)、整數(shù)(INT)和融合乘法-累加(FMA)運(yùn)算相比,它們能夠大幅提高吞吐量和效率。

6daea012-b013-11ee-8b88-92fbcf53809c.png

(2)英特爾 Gaudi2 GPU

Gaudi2 深度學(xué)習(xí)加速器,以第一代 Gaudi 高性能架構(gòu)為基礎(chǔ),以多方位性能與能效比提升,加速高性能大語(yǔ)言模型運(yùn)行。具備:24 個(gè)可編程 Tensor 處理器核心(TPCs);21 個(gè) 100Gbps(RoCEv2)以太網(wǎng)接口;96GB HBM2E 內(nèi)存容量;2.4TB/秒的總內(nèi)存帶寬;48MB片上 SRAM。

Gaudi2 處理器提供 2.4T 的網(wǎng)絡(luò)帶寬,片上集成 24 x 100 GbpsRoCE V2 RDMA 網(wǎng)卡,可通過(guò)標(biāo)準(zhǔn)以太交換或直連路由實(shí)現(xiàn) Gaudi 芯片內(nèi)部通信;Gaudi2 的內(nèi)存子系統(tǒng)包括 96 GB 的 HBM2E 內(nèi)存,提供2.45 TB/秒的帶寬,此外還有 48 MB 的本地 SRAM,帶寬足以允許 MME、TPC、DMAs 和 RDMA NICs 并行操作;支持 FP32,TF32,BF16,FP16 和FP8。

通過(guò)在 GPT-3 模型上的測(cè)試,以及相關(guān) MLPerf 基準(zhǔn)測(cè)試結(jié)果,為 Gaudi2 提供了卓越性能和高效可擴(kuò)展性的有力驗(yàn)證。

(3)海光 DCU

目前海光研發(fā)的 DCU 達(dá) 64 個(gè)內(nèi)核,每個(gè)內(nèi)核包含 4 個(gè) SIMT 運(yùn)算單元和 1 個(gè)標(biāo)量整型運(yùn)算單元,每個(gè) SIMT 包含多個(gè)可配置浮點(diǎn)乘加運(yùn)算單元,SIMT 的每個(gè)指令周期內(nèi)可以并行處理 64 個(gè)獨(dú)立的運(yùn)算線程。這種多內(nèi)核多線程的 SIMT 架構(gòu),可以保證 DCU 每個(gè)時(shí)鐘周期完成 4096 次高精度浮點(diǎn)乘加運(yùn)算。

6e18d00e-b013-11ee-8b88-92fbcf53809c.png

海光 DCU 具有生態(tài)友好、精度覆蓋、安全筑底,三大特點(diǎn)。目前海光 DCU 與 Hygon、Intel、AMD 等 CPU 平臺(tái)服務(wù)器整體兼容,與國(guó)內(nèi)外主流 OS 全面適配。同時(shí),與絕大部分主流框架(包括 TensorFlow、Pytorch、PaddlePaddle等)和算法模型(包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí) CV 與 NLP、大模型等)全面適配,并進(jìn)行了大規(guī)模部署和上百個(gè)大型應(yīng)用場(chǎng)景的驗(yàn)證。

(4)沐曦

MXC500 是沐曦第一代通用 GPU 計(jì)算卡產(chǎn)品,基于自研 IP 進(jìn)行芯片設(shè)計(jì),MXC500 采用通用 GPU 技術(shù)路線,通過(guò)內(nèi)置大量并行計(jì)算單元實(shí)現(xiàn)人工智能等領(lǐng)域上層應(yīng)用的并行計(jì)算加速。一方面,GPU 架構(gòu)相比 CPU 等串行計(jì)算硬件能夠?qū)崿F(xiàn)大幅度的計(jì)算加速;另一方面,GPU 架構(gòu)相比包括 NPU、DSA 等的 ASIC 計(jì)算芯片具有更好的通用性,能夠適應(yīng)廣泛的應(yīng)用領(lǐng)域和計(jì)算場(chǎng)景,并能夠針對(duì) AI 算法的進(jìn)步實(shí)現(xiàn)快速的跟進(jìn)創(chuàng)新。

MXC500 采用純自研通用 GPU 架構(gòu),如下圖,核心計(jì)算單元由8個(gè)DPC(Data Processing Cluster,數(shù)據(jù)處理組)組成,每個(gè) DPC 包含大量 AP(Acceleration Processor,加速處理器),從而實(shí)現(xiàn)大規(guī)模并行計(jì)算加速。在 GPU 內(nèi)部,Command Engine 負(fù)責(zé)將并行計(jì)算任務(wù)以線程(thread)為單位分發(fā)到不同的 AP 中進(jìn)行處理,核心計(jì)算單元與內(nèi)部的寄存器、L1 緩存、L2 緩存構(gòu)成高速的數(shù)據(jù)通路,并通過(guò)高速數(shù)據(jù)總線與 PCIe 單元、多卡互聯(lián)(采用私有協(xié)議 MetaXLink)、存儲(chǔ)控制器、DMA(直接內(nèi)存讀取,Direct MemoryAccess)等外圍電路模塊進(jìn)行通信。

6e284642-b013-11ee-8b88-92fbcf53809c.png

MXC500 內(nèi)置 4 顆 HBM2e 顆粒,通過(guò) 2.5D 封裝技術(shù)與核心計(jì)算芯粒封裝到同一顆芯片內(nèi)部。HBM2e 總?cè)萘繛?64GB,帶寬高達(dá)1.55TB/s。MXC500 通過(guò)沐曦自研的私有化通信協(xié)議 MetaXLink實(shí)現(xiàn)多GPU之間的直接互聯(lián),能夠支持最多單機(jī)8卡全互聯(lián)的拓?fù)洹?/p>

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4742

    瀏覽量

    128973
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    9184

    瀏覽量

    85490
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30947

    瀏覽量

    269217
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    47314

    瀏覽量

    238656

原文標(biāo)題:GPU:AI服務(wù)器關(guān)鍵技術(shù)及核心

文章出處:【微信號(hào):AI_Architect,微信公眾號(hào):智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    RISC架構(gòu)服務(wù)器簡(jiǎn)介

    RISC架構(gòu)服務(wù)器簡(jiǎn)介RISC架構(gòu)服務(wù)器是指采用精簡(jiǎn)指令系統(tǒng)計(jì)算結(jié)構(gòu)(RISC)的服務(wù)器,與IA架構(gòu)
    發(fā)表于 11-13 22:01

    CDMA原理與關(guān)鍵技術(shù)

    CDMA原理與關(guān)鍵技術(shù)
    發(fā)表于 08-16 20:25

    車載移動(dòng)異構(gòu)無(wú)線網(wǎng)絡(luò)架構(gòu)關(guān)鍵技術(shù)是什么?

    車載移動(dòng)異構(gòu)無(wú)線網(wǎng)絡(luò)架構(gòu)關(guān)鍵技術(shù)是什么?
    發(fā)表于 06-07 06:29

    什么是HarmonyOS?鴻蒙OS架構(gòu)關(guān)鍵技術(shù)是什么?

    什么是HarmonyOS?鴻蒙OS架構(gòu)關(guān)鍵技術(shù)是什么?
    發(fā)表于 09-23 09:02

    基于視頻服務(wù)器的視頻監(jiān)控系統(tǒng)的設(shè)計(jì)

          介紹了一種基于視頻服務(wù)器的視頻監(jiān)控系統(tǒng)的設(shè)計(jì),著重介紹了視頻服務(wù)器、系統(tǒng)的總體設(shè)計(jì)和關(guān)鍵技術(shù),并給出了實(shí)現(xiàn)方法。
    發(fā)表于 09-03 10:10 ?18次下載

    淺析AI服務(wù)器與普通服務(wù)器的區(qū)別

    隨著大數(shù)據(jù)、云計(jì)算、人工智能等技術(shù)的成熟與在各行各業(yè)的應(yīng)用,在人工智能時(shí)代,AI服務(wù)器這個(gè)新興名詞也頻繁的出現(xiàn)在人們的視線范圍內(nèi),有人預(yù)測(cè)在人工智能時(shí)代,AI
    的頭像 發(fā)表于 01-23 17:27 ?4046次閱讀

    AI服務(wù)器的應(yīng)用場(chǎng)景有哪些?

    關(guān)鍵詞:人工智能、高性能計(jì)算、HPC、GPU、CPU、服務(wù)器、人工智能服務(wù)器、人工智能工作站、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、液冷散熱、冷板式液冷、水冷工作站、液冷服務(wù)器、
    的頭像 發(fā)表于 01-30 10:06 ?2773次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>服務(wù)器</b>的應(yīng)用場(chǎng)景有哪些?

    一文解析AI服務(wù)器技術(shù) AI服務(wù)器和傳統(tǒng)通用服務(wù)器的區(qū)別

    AI服務(wù)器和傳統(tǒng)通用服務(wù)器在設(shè)計(jì)方案上主要區(qū)別在于對(duì)高性能計(jì)算資源、內(nèi)存和存儲(chǔ)、網(wǎng)絡(luò)連接(PCB)、電源管理等。AI服務(wù)器為應(yīng)對(duì)
    發(fā)表于 04-14 10:41 ?1w次閱讀

    AI服務(wù)器與傳統(tǒng)服務(wù)器的區(qū)別是什么?

    AI 服務(wù)器確實(shí)是整個(gè)服務(wù)器市場(chǎng)的一部分,但它們是專門(mén)為基于云的 AI 模型訓(xùn)練或推理而設(shè)計(jì)的。在規(guī)格方面,廣義的AI
    發(fā)表于 06-21 12:40 ?1930次閱讀

    AI服務(wù)器架構(gòu)的五大硬件拆解

    AI 服務(wù)器我們瞄準(zhǔn)英偉達(dá) DGX A100 和 DGX H100 兩款具有標(biāo)桿性產(chǎn)品力的產(chǎn)品進(jìn)行分析,鑒于 H100 發(fā)布時(shí)間較短、資料詳盡度不夠,我們首先從 DGX A100 出發(fā)來(lái)觀測(cè)具有產(chǎn)品力的 AI
    發(fā)表于 08-11 09:24 ?5493次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>服務(wù)器</b><b class='flag-5'>架構(gòu)</b>的五大硬件拆解

    物理服務(wù)器對(duì)ai發(fā)展的應(yīng)用

    物理服務(wù)器AI發(fā)展中扮演著重要的角色。傳統(tǒng)的以CPU為計(jì)算部件的服務(wù)器架構(gòu)已難以滿足人工智能的新需求,因此,"CPU+ GPU/FPGA/ASIC"的異構(gòu)計(jì)算
    的頭像 發(fā)表于 12-22 09:19 ?456次閱讀

    ai服務(wù)器是什么架構(gòu)類型

    AI服務(wù)器,即人工智能服務(wù)器,是專門(mén)為人工智能應(yīng)用設(shè)計(jì)的高性能計(jì)算服務(wù)器AI服務(wù)器
    的頭像 發(fā)表于 07-02 09:51 ?1089次閱讀

    AI服務(wù)器的特點(diǎn)和關(guān)鍵技術(shù)

    AI服務(wù)器,即人工智能服務(wù)器,是一種專門(mén)設(shè)計(jì)用于運(yùn)行和加速人工智能(AI)算法與模型的硬件設(shè)備。隨著人工智能技術(shù)的快速發(fā)展和普及,
    的頭像 發(fā)表于 07-17 16:34 ?1682次閱讀

    什么是AI服務(wù)器AI服務(wù)器的優(yōu)勢(shì)是什么?

    AI服務(wù)器是一種專門(mén)為人工智能應(yīng)用設(shè)計(jì)的服務(wù)器,它采用異構(gòu)形式的硬件架構(gòu),通常搭載GPU、FPGA、ASIC等加速芯片,利用CPU與加速芯片的組合來(lái)滿足高吞吐量互聯(lián)的需求,為自然語(yǔ)言處
    的頭像 發(fā)表于 09-21 11:43 ?890次閱讀

    GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)

    眾所周知,在大型模型訓(xùn)練中,通常采用每臺(tái)服務(wù)器配備多個(gè)GPU的集群架構(gòu)。在上一篇文章《高性能GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)(上篇)》中,我們對(duì)GP
    的頭像 發(fā)表于 11-05 16:20 ?372次閱讀
    GPU<b class='flag-5'>服務(wù)器</b><b class='flag-5'>AI</b>網(wǎng)絡(luò)<b class='flag-5'>架構(gòu)</b>設(shè)計(jì)