AI、元宇宙、大模型......每一個火爆名詞的背后都代表著巨大的算力需求。據(jù)了解,AI模型所需的算力每100天就要翻一倍,遠(yuǎn)超摩爾定律的18-24個月。5年后,AI所需的算力規(guī)模將是今天的100萬倍以上。
在這種背景下,加速計算提供了必要的計算能力和內(nèi)存,其解決方案涉及硬件、軟件和網(wǎng)絡(luò)的組合。接下來,我們將回顧和梳理常見的硬件加速器,如GPU、ASIC、TPU、FPGA等,以及如CUDA、OpenCL等軟件解決方案。此外,還將探討PCIe、NVLink、CXL、InfiniBand、以太網(wǎng)等網(wǎng)絡(luò)互聯(lián)技術(shù)。
硬件、軟件和網(wǎng)絡(luò)互聯(lián)
摩爾定律的終結(jié)標(biāo)志著 CPU 性能增長的放緩,人們開始對當(dāng)前價值 1 萬億美元的純 CPU 服務(wù)器市場的未來發(fā)展產(chǎn)生質(zhì)疑。隨著對更強(qiáng)大的應(yīng)用程序和系統(tǒng)的需求不斷增加,傳統(tǒng)的 CPU 難以與加速計算競爭。與傳統(tǒng)CPU相比,加速計算利用 GPU、ASIC、TPU 和 FPGA 等專用硬件來加速某些任務(wù)的執(zhí)行。
加速計算適用于可并行化的任務(wù),如HPC、AI/ML、深度學(xué)習(xí)和大數(shù)據(jù)分析等。通過將某些類型的工作負(fù)載卸載到專用硬件設(shè)備上,加速計算可極大提高性能和效率。
硬件加速器
硬件加速器是加速計算的基礎(chǔ),包括圖形處理單元 (GPU)、專用集成電路 (ASIC) 和現(xiàn)場可編程門陣列 (FPGA)。
GPU廣泛應(yīng)用于各種計算密集型任務(wù),擅長同時執(zhí)行許多復(fù)雜的計算,并行計算能力使其成為處理復(fù)雜數(shù)據(jù)集和大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練的理想選擇。
ASIC是為執(zhí)行特定任務(wù)而設(shè)計的定制芯片,在速度、功耗和整體性能方面具有一定優(yōu)勢。神經(jīng)處理單元 (NPU) 和深度學(xué)習(xí)處理器 (DLP) 也屬于ASIC,旨在加速 AI 工作負(fù)載。谷歌的的張量處理單元 (TPU)也是ASIC家族的一員,專為加速機(jī)器學(xué)習(xí)工作負(fù)載而設(shè)計。
FPGA是一種半導(dǎo)體集成電路,與通用 CPU 相比,F(xiàn)PGA可以重新編程,更有效地執(zhí)行特定任務(wù)。與 ASIC、GPU 和 CPU 中的固定架構(gòu)不同,F(xiàn)PGA 硬件包括可配置邏輯塊和可編程互連。這樣就算在芯片發(fā)貨和部署后,也可以進(jìn)行功能更新。
盡管FPGA因其靈活性在HPC和AI/ML領(lǐng)域備受青睞,但與GPU和專用ASIC相比,其開發(fā)速度較慢,軟件生態(tài)系統(tǒng)也相對不夠完善。由于其編程復(fù)雜性,F(xiàn)PGA 在人工智能工作負(fù)載中的采用較為緩慢,專業(yè)工程師的數(shù)量也有限。
軟件
加速計算利用API 和編程模型(如CUDA和OpenCL)將軟件和硬件加速器連接,API 和編程模型使開發(fā)人員能夠編寫在 GPU 上運(yùn)行的代碼,并利用軟件庫來高效實(shí)現(xiàn)算法。
CUDA(統(tǒng)一計算架構(gòu))是英偉達(dá)開發(fā)的專有 GPU 編程框架,與英偉達(dá)的 GPU 緊密集成,充分利用了 GPU 的并行計算能力和專用硬件優(yōu)化。CUDA 提供了更底層的編程接口,允許開發(fā)人員直接訪問 GPU 的內(nèi)部特性和功能。
CUDA 的生態(tài)系統(tǒng)主要集中在英偉達(dá)的 GPU 上,由于其專用硬件優(yōu)化和與 GPU 的緊密集成,可以提供更高的性能。英偉達(dá)還提供了豐富的開發(fā)工具和庫,使得 CUDA 在深度學(xué)習(xí)、科學(xué)計算等領(lǐng)域得到廣泛應(yīng)用。
OpenCL(開放計算語言)是一個開放的、跨平臺的編程框架,由 Khronos Group 組織開發(fā)和維護(hù)。它的設(shè)計目標(biāo)是支持各種硬件平臺,包括不僅限于 GPU 的處理器單元,如 CPU、FPGA 等。OpenCL 使用基于 C 語言的編程模型,允許開發(fā)人員利用各種設(shè)備上的并行計算能力。
OpenCL 擁有更廣泛的硬件支持,包括多個廠商的 GPU、CPU 以及其他加速設(shè)備。這意味著開發(fā)人員可以在不同的硬件平臺上使用相同的代碼進(jìn)行開發(fā),并且能夠更靈活地適應(yīng)不同的需求。
OpenCL和CUDA都是強(qiáng)大的GPU加速計算框架,CUDA在與英偉達(dá)GPU的緊密結(jié)合下提供了更高性能,適用于專注于英偉達(dá)平臺開發(fā)者;而OpenCL具有跨平臺兼容性和多廠商支持的優(yōu)勢,適用于需要在不同硬件平臺上進(jìn)行開發(fā)的場景。
網(wǎng)絡(luò)互聯(lián)
網(wǎng)絡(luò)在加速計算中發(fā)揮著至關(guān)重要的作用,它促進(jìn)了數(shù)以萬計的處理單元(例如 GPU、內(nèi)存和存儲設(shè)備)之間的通信。各種網(wǎng)絡(luò)技術(shù)被用來實(shí)現(xiàn)計算設(shè)備之間的通信,多個設(shè)備之間共享數(shù)據(jù)。常見的技術(shù)包括:
PCI Express (PCIe)是一種高速串行計算機(jī)擴(kuò)展總線標(biāo)準(zhǔn),主要用于連接CPU與各類高速外圍設(shè)備,如GPU、SSD、網(wǎng)卡、顯卡等。與傳統(tǒng)的PCI總線相比,PCIe采用點(diǎn)對點(diǎn)連接方式,具有更高的性能和可擴(kuò)展性。伴隨著AI、自動駕駛、AR/VR等應(yīng)用快速發(fā)展,計算要求愈來愈高,處理器I/O帶寬的需求每三年實(shí)現(xiàn)翻番,PCIe也大致按照3年一代的速度更新演進(jìn),每一代升級幾乎能夠?qū)崿F(xiàn)傳輸速率的翻倍,并有著良好的向后兼容性。
2003 年P(guān)CIe 1.0 正式發(fā)布,可支持每通道傳輸速率為 250MB/s,總傳輸速率為 2.5 GT/s。
2007 年推出PCIe 2.0 規(guī)范。在 PCIe 1.0 的基礎(chǔ)上將總傳輸速率提高了一倍,達(dá)到 5 GT/s,每通道傳輸速率從 250 MB/s 上升至 500 MB/s。
2022 年 PCIe 6.0 規(guī)范正式發(fā)布,總帶寬提高至 64 GT/s。
2022年6月,PCI-SIG聯(lián)盟宣布PCIe 7.0版規(guī)范,單條通道(x1)單向可實(shí)現(xiàn)128GT/s傳輸速率,計劃于2025年推出最終版本。
NVLink 是英偉達(dá)開發(fā)的高速互連技術(shù),旨在加快 CPU 與 GPU、GPU 與 GPU 之間的數(shù)據(jù)傳輸速度,提高系統(tǒng)性能。NVLink通過GPU之間的直接互聯(lián),可擴(kuò)展服務(wù)器內(nèi)的多GPU I/O,相較于傳統(tǒng)PCIe總線可提供更高效、低延遲的互聯(lián)解決方案。
NVLink的首個版本于2014年發(fā)布,首次引入了高速GPU互連。2016年發(fā)布的P100搭載了第一代NVLink,提供 160GB/s 的帶寬,相當(dāng)于當(dāng)時 PCIe 3.0 x16 帶寬的 5 倍。V100搭載的NVLink2將帶寬提升到300GB/s ,A100搭載了NVLink3帶寬為600GB/s。目前NVLink已迭代至第四代,可為多GPU系統(tǒng)配置提供高于以往1.5倍的帶寬以及更強(qiáng)的可擴(kuò)展性,H100中包含18條第四代NVLink鏈路,總帶寬達(dá)到900 GB/s,是PCIe 5.0帶寬的7倍。
Infinity Fabric是AMD 開發(fā)的高速互連技術(shù),被用于連接AMD處理器內(nèi)部的各個核心、緩存和其他組件,以實(shí)現(xiàn)高效的數(shù)據(jù)傳輸和通信。Infinity Fabric采用了一種分布式架構(gòu),其中包含多個獨(dú)立的通道,每個通道都可以進(jìn)行雙向數(shù)據(jù)傳輸。這種設(shè)計使得不同核心之間可以直接進(jìn)行快速而低延遲的通信,從而提高了整體性能。此外,Infinity Fabric還具備可擴(kuò)展性和靈活性。它允許在不同芯片之間建立連接,并支持將多顆處理器組合成更強(qiáng)大的系統(tǒng)。
Compute Express Link (CXL)是一種開放式行業(yè)標(biāo)準(zhǔn)互連,可在主機(jī)處理器與加速器、內(nèi)存緩沖區(qū)和智能 I/O 設(shè)備等設(shè)備之間提供高帶寬、低延遲連接,從而滿足高性能異構(gòu)計算的要求,并且其維護(hù)CPU內(nèi)存空間和連接設(shè)備內(nèi)存之間的一致性。CXL優(yōu)勢主要體現(xiàn)在極高兼容性和內(nèi)存一致性兩方面上。
CXL 3.0是2022年8月份發(fā)布的標(biāo)準(zhǔn),在許多方面都進(jìn)行了較大的革新。CXL3.0建立在PCI-Express 6.0之上(CXL1.0/1.1和2.0版本建立在PCIe5.0之上),其帶寬提升了兩倍,并且其將一些復(fù)雜的標(biāo)準(zhǔn)設(shè)計簡單化,確保了易用性。
InfiniBand是一種高速、低延遲互連技術(shù),由 IBTA(InfiniBand Trade Association)提出,其規(guī)定了一整套完整的鏈路層到傳輸層(非傳統(tǒng)OSI七層模型的傳輸層,而是位于其之上)規(guī)范,但是其無法兼容現(xiàn)有以太網(wǎng)。InfiniBand擁有高吞吐量和低延遲,擴(kuò)展性好,通過交換機(jī)在節(jié)點(diǎn)間的點(diǎn)對點(diǎn)通道進(jìn)行數(shù)據(jù)傳輸,通道私有且受保護(hù)。
目前InfiniBand的傳輸速度為400Gb/s,路線圖顯示,IBTA計劃于2024年推出XDR 800Gb/s InfiniBand產(chǎn)品,并在2026年后推出GDR 1600Gb/s產(chǎn)品。InfiniBand的高傳輸速度打通高性能計算中數(shù)據(jù)傳輸速率瓶頸,提升吞吐量和計算效率。
以太網(wǎng)是應(yīng)用最廣泛最成熟的網(wǎng)絡(luò)技術(shù),可在數(shù)據(jù)中心的服務(wù)器之間傳輸大量數(shù)據(jù),這對于許多加速計算任務(wù)至關(guān)重要。RoCE協(xié)議下,以太網(wǎng)融合RDMA功能,在高性能計算場景下的通信性能大幅提升。今年,為應(yīng)對AI 和HPC工作負(fù)載提出的新挑戰(zhàn),網(wǎng)絡(luò)巨頭聯(lián)合成立了超以太網(wǎng)聯(lián)盟(UEC),超以太網(wǎng)解決方案堆棧將利用以太網(wǎng)的普遍性和靈活性處理各種工作負(fù)載,同時具有可擴(kuò)展性和成本效益,為以太網(wǎng)注入了新的活力。
加速計算為傳統(tǒng)CPU和日益增長的數(shù)據(jù)需求之間搭起了一座橋梁,從數(shù)據(jù)中心到邊緣計算,加速計算已廣泛應(yīng)用于各種領(lǐng)域。英偉達(dá)創(chuàng)始人黃仁勛曾表示,計算已經(jīng)發(fā)生了根本性的變化,CPU擴(kuò)展的時代已結(jié)束,購買再多的CPU已無法解決問題。加速計算將與AI一起推動,新計算時代“引爆點(diǎn)”已到來。
審核編輯:湯梓紅
-
以太網(wǎng)
+關(guān)注
關(guān)注
40文章
5438瀏覽量
171957 -
網(wǎng)絡(luò)互聯(lián)
+關(guān)注
關(guān)注
0文章
15瀏覽量
9566 -
gpu
+關(guān)注
關(guān)注
28文章
4749瀏覽量
129034 -
硬件
+關(guān)注
關(guān)注
11文章
3343瀏覽量
66283 -
軟件
+關(guān)注
關(guān)注
69文章
4968瀏覽量
87672
原文標(biāo)題:從硬件、軟件到網(wǎng)絡(luò)互聯(lián),AI時代下的加速計算技術(shù)
文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論