久久久久久一级片,高清欧美日韩视频一区二区

1. 網(wǎng)絡(luò)的價(jià)值在于延續(xù)了集群算力摩爾定律

芯片層面網(wǎng)絡(luò)：chip-to-chip場(chǎng)景，從PCIe到高速連接

（一）通用/傳統(tǒng)場(chǎng)景：PCIe是服務(wù) 器內(nèi)部通信的總線標(biāo)準(zhǔn)，制約了電口通信速率的提升。經(jīng)典的通用服務(wù)器內(nèi)，CPU、圖形卡、硬盤驅(qū)動(dòng)器、SSD、Wi-Fi 、以太網(wǎng) 設(shè)備等主要基于PCIe（PCI express）協(xié)議相互連接。相較于4.0版本，PCIe 5.0傳輸速度更高，x16帶寬（雙向）從64 GB/s提升到了128 GB/s；目前規(guī)范制定已迭代至6.0版本，帶寬再翻倍。

異構(gòu)計(jì)算的初步創(chuàng)新：在PCIe物理架構(gòu)和電氣接口的基礎(chǔ)上，英特爾等牽頭成立CXL聯(lián)盟并最新推出 CXL 2.0-3.0規(guī)范，用于AI、高性能計(jì)算等場(chǎng)景中CPU與GPU等的互聯(lián)，通過“內(nèi)存池化”等方式優(yōu) 化內(nèi)存調(diào)用，進(jìn)而提升系統(tǒng)整體性能。

（二）Nvidia代表，已對(duì)標(biāo)PCIe推出NVLink解決異構(gòu)計(jì)算與AI算力網(wǎng)絡(luò)瓶頸。 NVLink是Nvidia專門設(shè)計(jì)用于點(diǎn)對(duì)點(diǎn)鏈路高速互聯(lián)的網(wǎng)絡(luò)方案（例如GPU to GPU連接）。據(jù)Nvidia白皮書，NVLink的開銷比傳統(tǒng)網(wǎng)絡(luò)更低。傳統(tǒng)網(wǎng)絡(luò)中復(fù)雜網(wǎng)絡(luò)功能（例如端到端重試、自適應(yīng)路由、數(shù)據(jù)包重新排序等），在NVLink體系下可以在增加端口數(shù)的情況下進(jìn)行權(quán)衡。此外，基于NVLink的網(wǎng)絡(luò)接口更加簡(jiǎn)單，允許將應(yīng)用程序?qū)?、表示層和?huì)話層功能直接嵌入到 CUDA本身中，從而進(jìn)一步減少通信開銷。

此外Nvidia發(fā)布適用于超算服務(wù)器內(nèi)部的NVSwitch芯片（最早2018 GTC大會(huì)發(fā)布第一代，作用類似于交換機(jī)ASIC），進(jìn)一步通過上述NVLink協(xié)議接口將多個(gè)GPU高速互聯(lián)到一起。據(jù)技術(shù)文檔，在H100芯片+NVLink gen4協(xié)議這一代，Nvidia配套了NVSwitch gen3芯片方案，采用臺(tái)積電4N工藝，滿足GPU間的點(diǎn)對(duì)點(diǎn)連接，內(nèi)嵌ALU使NVSwitch提供FP32 的400GFLOPS計(jì)算吞吐，每個(gè)芯片64個(gè)NVLink 4接口。依據(jù)技術(shù)文檔，NVSwitch3芯片大小50mm*50mm，包括一個(gè) SHARP 控制器，可并行管理多達(dá) 128 個(gè) SHARP 組；內(nèi)嵌ALU可幫助NVSwitch提供FP32的400GFLOPS計(jì)算吞吐，并且支持FP16、 FP32、FP64和BF16等精度計(jì)算。 NVSwitch3芯片提供64個(gè)NVLink4接口，每個(gè)NVLink4通道x2即200Gbps單向帶寬，單個(gè)芯片可提供64 x 200Gbps=12.8Tbps（1.6TB/s）單向帶寬、或3.2TB/s雙工帶寬。

設(shè)備層面網(wǎng)絡(luò)：InfiniBand、NVLink等正迭代通用算力下的以太網(wǎng)需求

結(jié)合實(shí)際情況，我們認(rèn)為：?jiǎn)蜸oC性能提升，不意味著算力集群整體性能的提升；單純“堆砌”集群芯片數(shù)量，而不優(yōu)化網(wǎng)絡(luò)連接，集群性能提升很快就會(huì)遇到瓶頸。傳統(tǒng)云計(jì)算場(chǎng)景下，算力設(shè)備以同構(gòu)計(jì)算和簡(jiǎn)單的異構(gòu)計(jì)算為主，通用的以太網(wǎng)很難滿足大規(guī)模GPU集群的連接需求。

英偉達(dá)解決集群性能瓶頸的方式是引入 InfiniBand 網(wǎng) 絡(luò) ，并將 C2C場(chǎng)景下應(yīng)用的NVLink延伸至設(shè)備間互聯(lián)。據(jù)Nvidia，2020年公司以69億美元的價(jià) 格收購(gòu) 網(wǎng) 絡(luò) 芯片廠商 Mellanox，后者致力于數(shù)據(jù)中心 InfiniBand和以太網(wǎng)互聯(lián)產(chǎn)品的研發(fā)。 2022-2023 年 DGX H100 SuperPOD集群完善，重要變化體現(xiàn)在NVLink從板上/片間互聯(lián) 走向不同Server或板卡的互聯(lián)，同時(shí)Nvidia也相應(yīng)發(fā)布了NVLink 交換機(jī)（Hot chip等公開資料）。

據(jù)Nvidia設(shè)計(jì)，每套SuperPOD集群32臺(tái)服務(wù)器折合256個(gè)H100 GPU，AI性能高達(dá) 1EFlops；每套系統(tǒng)配18臺(tái)NVLink交換機(jī)，系統(tǒng)雙向帶寬57.6TB/s；（網(wǎng)絡(luò)需求增加）。依照技術(shù)文檔推薦方案，每套系統(tǒng)的32臺(tái)DGX H100服務(wù)器中的400Gb/s ConnectX-7網(wǎng) 卡對(duì)外與IB交換機(jī)連接，用于連接多套SuperPOD系統(tǒng)。兩層NVSwitch芯片設(shè)計(jì)：一層交換芯片位于服務(wù)器內(nèi)，二層交換芯片位于交換機(jī)內(nèi)。128個(gè)L1層芯片（32臺(tái)服務(wù)器，每臺(tái)4個(gè)）+36個(gè)L2層芯片（18臺(tái)NVLink交換機(jī)，每臺(tái)2個(gè)）。一個(gè)集群內(nèi)所有256個(gè)GPU的互聯(lián)，都通過NVLink和NVLink交換機(jī)單獨(dú)完成，不經(jīng)過CX-7 PCIe網(wǎng)絡(luò)。我們認(rèn)為，從通信網(wǎng)絡(luò)角度看， DGX H100 SuperPOD高算力、高吞吐升級(jí)的精髓，在于：將過去A100及之前用于服務(wù)器內(nèi)部GPU高效連接的NVLink，外化到整個(gè)集群，借助新的 NVLink交換機(jī)，搭建L1、L2兩層網(wǎng)絡(luò)，實(shí)現(xiàn)跨服務(wù)器、跨機(jī)柜的GPU to GPU連接。

IDC層面網(wǎng)絡(luò)：AI與通用云計(jì)算架構(gòu)核心差異在于組網(wǎng)

依據(jù)實(shí)際情況，數(shù)據(jù)中心中，擁有較大外部客戶群、提供XaaS的數(shù)據(jù)中心更可能由南北向的流量主導(dǎo)；另一方面，對(duì)計(jì)算和存儲(chǔ)有大量?jī)?nèi)部需求時(shí)，在服務(wù)器之間看到更多的東西向流量，可以將他們的數(shù)據(jù)中心運(yùn)營(yíng)成具有較高徑向的巨大集群。兩種主要的典型數(shù)據(jù)中心架構(gòu)類型： 1）超大規(guī)模數(shù)據(jù)中心。這些架構(gòu)相對(duì)龐大，層與層之間有一定的收斂性，例如3:1，并且在spine層以上依靠相干ZR光模塊互連（DCI）。800G網(wǎng)絡(luò)的一個(gè)重要邊界約束是，在服務(wù)器到TOR層使用 200G互連。而TOR-leaf/spine層通常使用PSA；spine層通常依靠PSM4 4x200G。（層層匯聚，類似毛細(xì)血管到主靜脈，帶寬匯聚、連接數(shù)減少、網(wǎng)絡(luò)架構(gòu)金字塔形。）

2）AI的數(shù)據(jù)中心網(wǎng)絡(luò)以胖樹fat-tree架構(gòu)為主。比超大規(guī)模網(wǎng)絡(luò)的層數(shù)少、在各層之間幾乎無(wú)收斂。 fat-tree是業(yè)界普遍認(rèn)可的實(shí)現(xiàn)無(wú)阻塞網(wǎng)絡(luò)的技術(shù)，對(duì)于任意的通信模式，總有路徑讓他們的通信帶寬達(dá)到網(wǎng)卡帶寬，且用到的所有交換機(jī)都是相同的；fat-tree無(wú)帶寬收斂：傳統(tǒng)的樹形網(wǎng)絡(luò)拓?fù)渲?，帶寬是逐層收斂的，樹根處的網(wǎng)絡(luò)帶寬要遠(yuǎn)小于各個(gè) 葉子處所有帶寬的總和。而fat-tree則更像是真實(shí)的樹，越到樹根，枝干越粗，即：從葉子到樹根，網(wǎng)絡(luò)帶寬不收斂。尤其在訓(xùn)練側(cè)，數(shù)據(jù)、算力以內(nèi)部流轉(zhuǎn)為主，較多依賴內(nèi)部徑向流量的統(tǒng)一高帶寬。高速網(wǎng)絡(luò)設(shè)備/器件的需求量更大。

2. Nvidia：H100到GH200，網(wǎng)絡(luò)價(jià)值陡增

AIGC“前夜”，Nvidia A100的網(wǎng)絡(luò)架構(gòu)與設(shè)備需求以 200G為基礎(chǔ)。

Nvidia的A100體系是典型的200G網(wǎng)絡(luò)結(jié)構(gòu)。 DGX A100的核心網(wǎng)卡Mellanox ConnectX-6主要基于200Gb/s HDR InfiniBand網(wǎng)絡(luò)。因此底層網(wǎng)絡(luò)帶寬即200G。DGX A100服務(wù)器背板明確擁有8個(gè)用于Compute的200G QSFP56接口。另外擁有2個(gè)用于Storage的接口。據(jù)技術(shù)文檔，A100的DGX SuperPOD集群，服務(wù)器與交換設(shè)備數(shù)量之比大致在1 : 1左右。 A100 SuperPOD設(shè)計(jì)單集群20臺(tái)DGX A100，搭配12臺(tái)用于Compute的IB交換機(jī)以及6 臺(tái)用于Storage的IB交換機(jī)（IB交換機(jī)QM8790為40 ports x 200 Gb規(guī)格）。

當(dāng)前“算力之巔”：英偉達(dá)H100的網(wǎng)絡(luò)架構(gòu)與設(shè)備需求提升至400G/800G基準(zhǔn)

在Chapter 1中我們已經(jīng)討論過，H100網(wǎng)絡(luò)架構(gòu)基礎(chǔ)是 InfiniBand NDR 400Gb 網(wǎng) 絡(luò) + NVLink 800Gb網(wǎng)絡(luò)。一個(gè)標(biāo)準(zhǔn)的DGX H100 SuperPOD由32臺(tái)DGX H100、8個(gè)機(jī)柜組成。同時(shí)搭配8個(gè)Leaf交換機(jī)和 4個(gè)Spine交換機(jī)，均為IB NDR 400。另外搭配若干Storage交換機(jī)、Management、 UFM、In-Band、Out-of-Band設(shè)備。與A100相比，H100主板接口明顯減少，尤其Compute接口由8個(gè)減少為4個(gè)，但單口總帶寬提升4倍至800Gb （服務(wù)器廠商定制版本也有8×400G選擇）。同理于A100之測(cè)算，一個(gè)128 DGX H100服務(wù)器集群（4x SuperPOD，實(shí)際127臺(tái)服務(wù)器，預(yù)留 1臺(tái)空位替換UFM）為例，搭載1016個(gè)GPU、32 個(gè)Leaf交換機(jī)、26臺(tái)Spine交換機(jī)（InfiniBand 網(wǎng)絡(luò)需求）；線纜數(shù)超2000條。1個(gè)SuperPOD對(duì)應(yīng)8 Leaf、4 Spine；線纜數(shù)超500條。此外In-Band、Out-ofBand交換機(jī)主要需要100G、400G網(wǎng)絡(luò)。

GH200的設(shè)計(jì)精髓：最大化利用NVLink和InfiniBand 網(wǎng)絡(luò)，光連接更優(yōu)先

GH200體系的交換機(jī)需求，以256 片Grace CPU+H100 GPU為例： 96+36 = 132臺(tái) NVLink交換機(jī) （800G）；24臺(tái) InfiniBand交換機(jī)（預(yù)計(jì) 400G/800G）；42臺(tái) 以太網(wǎng)交換機(jī)（預(yù)計(jì) 100G/200G，用于存儲(chǔ)、管理等）；相比“256 GPUs的DGX SuperPOD集群，交換機(jī)用量不超過50臺(tái)”，GH200系統(tǒng)的交換機(jī) 需求大幅提升。

因此我們預(yù)計(jì)，Nvidia未來(lái)將越來(lái)越重視在AI體系中引入NVLink網(wǎng)絡(luò)，通過網(wǎng)絡(luò)連接來(lái) 降低系統(tǒng)成本、提升整體性能： DGX H100服務(wù)器的架構(gòu)設(shè)計(jì)，仍可見傳統(tǒng)PC與通用服務(wù)器一路沿襲的思路，例如 motherboard、gpu tray等結(jié)構(gòu)；而GH200則基于NVLink和AI需求對(duì)“芯片-設(shè)備IDC”的網(wǎng)絡(luò)架構(gòu)做了重新設(shè)計(jì)。從系統(tǒng)復(fù)雜度、投資強(qiáng)度、整體性能提升三方面看，網(wǎng) 絡(luò)設(shè)備與器件（包括交換機(jī)、光模塊等）在系統(tǒng)中的重要性顯著提升。

3. 谷歌：TPU v4背后，是OCS與更激進(jìn)的光網(wǎng)絡(luò)設(shè)計(jì)

谷歌TPU：迭代至v4，ASIC 3D組網(wǎng)適配AI需求

谷歌自研TPU可追溯至2014年；據(jù)谷歌論文（TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings），最新TPU v4集群采用激進(jìn)的全光組網(wǎng)方案。據(jù)歷代發(fā)布數(shù)據(jù)： TPU v1主要用于推理場(chǎng)景，單向架構(gòu)，發(fā)布于2015年； TPU v2則定位于訓(xùn)練場(chǎng)景，單板4顆芯片，64G HBM替代DDR3，Interconnect Router提供4個(gè) ICI Link做芯片互聯(lián)、分別496Gbps帶寬（類似NVLink），發(fā)布于2017年； TPU v3同樣單板4顆芯片，128G HBM，ICI Link帶寬提升至656Gbps，發(fā)布于2018年； TPU v4的128G HBM帶寬升級(jí)至1200GBps，ICI Link則迭代為6路448Gbps。

谷歌OCS：全光交換、WDM等光通信技術(shù)，算力與網(wǎng)絡(luò)同行

OCS即Optical circuit switches，是谷歌TPU v4網(wǎng)絡(luò)連接的核心交換機(jī)。通常數(shù)據(jù)中心內(nèi)數(shù)據(jù)交換是光電混合網(wǎng)絡(luò)，設(shè)備之間的主要互聯(lián)通過光纜/銅纜/光電轉(zhuǎn)換器件、以及交換機(jī)ASIC/Serdes/PCIE/NVLink等鏈路實(shí)現(xiàn)。與過去在網(wǎng)絡(luò)層之間多次將信號(hào)“從電轉(zhuǎn)換為光再到電”不同，OCS是一種全光學(xué)的連接方案，通過MEMS陣列結(jié)合光環(huán)路器、波分復(fù)用光模塊實(shí)現(xiàn)光路的靈活切換、以達(dá)到直接通過光信號(hào)組建交換網(wǎng)絡(luò)的目的。

4. AMD、Amazon等：芯片亦持續(xù)迭代

AMD：MI300系列2.5D-3D封裝，板上帶寬顯著增加

據(jù)AMD發(fā)布會(huì)，MI300系列方案內(nèi)存容量與帶寬顯著提升：MI300X擁有192GB的HBM3、 5.2TBps的帶寬和896GBps的Infinity Fabric帶寬； AMD Infinity 架構(gòu)將 8 個(gè)MI300X 加速器連接在一個(gè)系統(tǒng)中，提供合計(jì)1.5 TB的HBM3內(nèi)存。

Amazon：自研Trainium芯片支撐Trn1等訓(xùn)練云服務(wù)

Amazon發(fā)布由自研芯片 Trainuim支持的AWS EC2 Trn1：每臺(tái)Trn1最多可搭配16顆 Trainium芯片，芯片內(nèi)Neuron Link專用連接并搭配HBM內(nèi)存，調(diào)用800 Gbps的Elastic Fabric Adapter網(wǎng)絡(luò)接口，可橫向拓展至1萬(wàn)顆以上的Trainium芯片。進(jìn)階版本Trn1n的EFA帶寬將達(dá)到 1600 Gbps。

5. 結(jié)論

結(jié)合上文： 1）系統(tǒng)復(fù)雜度、投資強(qiáng)度、整體性能提升效果三方面看，網(wǎng)絡(luò)設(shè)備與器件（包括交換機(jī)、光模塊等）在 AI系統(tǒng)中的重要性顯著提升：Nvidia H100到GH200系統(tǒng)，官方標(biāo)準(zhǔn)配置下800G光模塊用量可提升 30%-275%，同樣256GPU集群的交換機(jī)需求從不足50臺(tái)提升至150臺(tái)以上。 2）谷歌自研TPU v4背后，是矩陣計(jì)算、OCS光交換與更激進(jìn)的光網(wǎng)絡(luò)設(shè)計(jì)。3D組網(wǎng)是TPU v4系統(tǒng)最大亮點(diǎn)，網(wǎng)絡(luò)起重要作用，導(dǎo)入全光交換、WDM等光通信技術(shù)后，算力與網(wǎng)絡(luò)需求同步提升。 3）AMD最新MI300體系和AWS自研Trn訓(xùn)練芯片，同樣重視帶寬、拓展性的價(jià)值。

我們認(rèn)為：在AI領(lǐng)域，網(wǎng)絡(luò)的價(jià)值在于延續(xù)了集群算力的摩爾定律。 1）吞吐帶寬與連接架構(gòu)是算力性能不可忽視的決定因素。 2）芯片層面，高速c2c連接方案（如NVLink、CXL等）的推廣，是宏觀設(shè)備/數(shù)據(jù)中心層高速網(wǎng)絡(luò)、光網(wǎng)絡(luò)等需求爆發(fā)的底層邏輯。 3）設(shè)備層面，單SoC性能提升+芯片“堆量”，不意味著算力集群整體性能的線性提升；而Nvidia、 Google、AMD、AWS等算力大廠正應(yīng)用InfiniBand、OCS等新架構(gòu)替代通用算力下的以太網(wǎng)，帶來(lái) 增量網(wǎng)絡(luò)需求。

報(bào)告節(jié)選：

責(zé)任編輯：彭菁

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

接口

接口

+關(guān)注

關(guān)注
33

文章
8598

瀏覽量
151153
服務(wù)器

服務(wù)器

+關(guān)注

關(guān)注
12

文章
9160

瀏覽量
85420
異構(gòu)計(jì)算

異構(gòu)計(jì)算

+關(guān)注

關(guān)注
2

文章
101

瀏覽量
16297

原文標(biāo)題：數(shù)據(jù)中心的通訊連接方式選擇

文章出處：【微信號(hào)：AIOT大數(shù)據(jù)，微信公眾號(hào)：AIOT大數(shù)據(jù)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

【一文看懂】什么是異構(gòu)計(jì)算？

隨著人工智能、深度學(xué)習(xí)、大數(shù)據(jù)處理等技術(shù)的快速發(fā)展，計(jì)算需求的復(fù)雜性不斷提升。傳統(tǒng)的單一計(jì)算架構(gòu)已難以滿足高效處理復(fù)雜任務(wù)的要求，異構(gòu)計(jì)算因此應(yīng)運(yùn)而生，成為現(xiàn)代計(jì)算領(lǐng)域的一個(gè)重要方向。

發(fā)表于 12-04 01:06 ?1410次閱讀

【一文看懂】什么是<b class='flag-5'>異構(gòu)計(jì)算</b>？

異構(gòu)計(jì)算的前世今生

異構(gòu)計(jì)算已經(jīng)成了半導(dǎo)體業(yè)界不得不思考的一個(gè)話題，傳統(tǒng)通用計(jì)算的性能捉襟見肘，過去承諾的每隔一段時(shí)間芯片性能翻倍的豪言壯語(yǔ)已經(jīng)沒有人再提了。如今我們用到的手機(jī)中，各種除CPU以外的計(jì)算單元層出不窮

發(fā)表于 12-17 09:35 ?4354次閱讀

異構(gòu)計(jì)算在人工智能什么作用？

的異構(gòu)計(jì)算平臺(tái)應(yīng)用于各種復(fù)雜的人工智能負(fù)載。除了算法，數(shù)據(jù)外，異構(gòu)計(jì)算將會(huì)為AI應(yīng)用帶來(lái)更強(qiáng)大的支持。異構(gòu)計(jì)算，特別是加速器的發(fā)展和創(chuàng)新，將會(huì)為業(yè)界、最終用戶和創(chuàng)業(yè)公司帶來(lái)更無(wú)限的商機(jī)

發(fā)表于 08-07 08:39

什么是異構(gòu)并行計(jì)算

先了解什么是異構(gòu)并行計(jì)算同構(gòu)計(jì)算是使用相同類型指令集和體系架構(gòu)的計(jì)算單元組成系統(tǒng)的計(jì)算方式。而異構(gòu)計(jì)算

發(fā)表于 07-19 08:27

異構(gòu)計(jì)算的前世今生

異構(gòu)計(jì)算已經(jīng)成了半導(dǎo)體業(yè)界不得不思考的一個(gè)話題，傳統(tǒng)通用計(jì)算的性能捉襟見肘，過去承諾的每隔一段時(shí)間芯片性能翻倍的豪言壯語(yǔ)已經(jīng)沒有人再提了。如今我們用到的手機(jī)中，各種除CPU以外的計(jì)算單元層出不窮

發(fā)表于 12-26 08:00

異構(gòu)計(jì)算場(chǎng)景下構(gòu)建可信執(zhí)行環(huán)境

本文轉(zhuǎn)載自 OpenHarmony TSC 《峰會(huì)回顧第4期 | 異構(gòu)計(jì)算場(chǎng)景下構(gòu)建可信執(zhí)行環(huán)境》演講嘉賓 | 金意兒回顧整理 | 廖濤排版校對(duì) | 李萍萍嘉賓簡(jiǎn)介金意兒，華為可信計(jì)算

發(fā)表于 08-15 17:35

請(qǐng)問模型推理只用到了kpu嗎？可以cpu，kpu，fft異構(gòu)計(jì)算嗎？

請(qǐng)問模型推理只用到了kpu嗎？可以cpu，kpu，fft異構(gòu)計(jì)算嗎？

發(fā)表于 09-14 08:13

異構(gòu)計(jì)算芯片的機(jī)遇與挑戰(zhàn)

異構(gòu)計(jì)算的機(jī)遇與挑戰(zhàn) 異構(gòu)計(jì)算是指不同類型的指令集和體系架構(gòu)的計(jì)算單元組成的系統(tǒng)的計(jì)算方式，目前 CPU+GPU以及CPU+FPGA 都是最受業(yè)界關(guān)注的

發(fā)表于 09-27 10:22 ?26次下載

基于FPGA的異構(gòu)計(jì)算是趨勢(shì)

目前處于AI大爆發(fā)時(shí)期，異構(gòu)計(jì)算的選擇主要在FPGA和GPU之間。盡管目前異構(gòu)計(jì)算使用最多的是利用GPU來(lái)加速，F(xiàn)PGA作為一種高性能、低功耗的可編程芯片，在處理海量數(shù)據(jù)時(shí)，F(xiàn)PGA計(jì)算效率更高，優(yōu)勢(shì)更為突出，尤其在大量服務(wù)器部

發(fā)表于 04-25 09:17 ?1.1w次閱讀

異構(gòu)計(jì)算的兩大派別為什么需要異構(gòu)計(jì)算？

20世紀(jì)80年代，異構(gòu)計(jì)算技術(shù)就已經(jīng)誕生了。所謂的異構(gòu)，就是CPU、DSP、GPU、ASIC、協(xié)處理器、FPGA等各種計(jì)算單元、使用不同的類型指令集、不同的體系架構(gòu)的計(jì)算單元，組成一個(gè)

發(fā)表于 04-28 11:41 ?2.3w次閱讀

異構(gòu)計(jì)算：架構(gòu)與技術(shù)

如果您希望創(chuàng)建優(yōu)秀的移動(dòng)體驗(yàn)，那么，優(yōu)化就不是可有可無(wú)的事情，而是關(guān)鍵之舉。它可以幫助您將好的想法實(shí)現(xiàn)得更加出彩。在上一篇“使用QDN異構(gòu)計(jì)算工具開發(fā)項(xiàng)目”文章中，我們討論了異構(gòu)計(jì)算的概念

發(fā)表于 09-18 19:18 ?862次閱讀

異構(gòu)計(jì)算，你準(zhǔn)備好了么？

摩爾定律失靈了，已是不爭(zhēng)的事實(shí)。單純的提升一種芯片性能變的代價(jià)越來(lái)越高，與此同時(shí)，異構(gòu)計(jì)算成為提高計(jì)算力的主流方向。什么是異構(gòu)計(jì)算？ 異構(gòu)計(jì)算的前景怎么樣？ OpenPOWER系統(tǒng)上

發(fā)表于 09-25 17:27 ?477次閱讀

OPPO開發(fā)者大會(huì)2021 關(guān)于異構(gòu)計(jì)算

關(guān)于異構(gòu)計(jì)算系統(tǒng)級(jí)性能功耗優(yōu)化方案的異構(gòu)部署、異構(gòu)內(nèi)核、易購(gòu)底座等相關(guān)內(nèi)容。

發(fā)表于 10-27 17:56 ?3230次閱讀

異構(gòu)計(jì)算真就完美無(wú)缺嗎

異構(gòu)計(jì)算已經(jīng)成了半導(dǎo)體業(yè)界不得不思考的一個(gè)話題，傳統(tǒng)通用計(jì)算的性能捉襟見肘，過去承諾的每隔一段時(shí)間芯片性能翻倍的豪言壯語(yǔ)已經(jīng)沒有人再提了。如今我們用到的手機(jī)中，各種除CPU以外的計(jì)算單元層出不窮

發(fā)表于 12-21 09:25 ?1953次閱讀

異構(gòu)計(jì)算：解鎖算力潛能的新途徑

在這個(gè)數(shù)據(jù)爆炸的時(shí)代，計(jì)算力是推動(dòng)社會(huì)與科技創(chuàng)新的核心。從日常智能設(shè)備的流暢運(yùn)行到超級(jí)計(jì)算機(jī)的尖端模擬，均依賴強(qiáng)大的計(jì)算能力。但面對(duì)多樣化的復(fù)雜計(jì)算

發(fā)表于 07-18 08:28 ?7832次閱讀

搜索歷史

異構(gòu)計(jì)算的初步創(chuàng)新

評(píng)論

【一文看懂】什么是異構(gòu)計(jì)算？

異構(gòu)計(jì)算的前世今生

異構(gòu)計(jì)算在人工智能什么作用？

什么是異構(gòu)并行計(jì)算

異構(gòu)計(jì)算的前世今生

異構(gòu)計(jì)算場(chǎng)景下構(gòu)建可信執(zhí)行環(huán)境

請(qǐng)問模型推理只用到了kpu嗎？可以cpu，kpu，fft異構(gòu)計(jì)算嗎？

異構(gòu)計(jì)算芯片的機(jī)遇與挑戰(zhàn)

基于FPGA的異構(gòu)計(jì)算是趨勢(shì)

異構(gòu)計(jì)算的兩大派別為什么需要異構(gòu)計(jì)算？

異構(gòu)計(jì)算：架構(gòu)與技術(shù)

異構(gòu)計(jì)算，你準(zhǔn)備好了么？

OPPO開發(fā)者大會(huì)2021 關(guān)于異構(gòu)計(jì)算

異構(gòu)計(jì)算真就完美無(wú)缺嗎

異構(gòu)計(jì)算：解鎖算力潛能的新途徑