0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

硬件、軟件和網(wǎng)絡(luò)互聯(lián)技術(shù)詳解

SDNLAB ? 來源:SDNLAB ? 2024-01-08 10:53 ? 次閱讀

AI、元宇宙、大模型......每一個火爆名詞的背后都代表著巨大的算力需求。據(jù)了解,AI模型所需的算力每100天就要翻一倍,遠(yuǎn)超摩爾定律的18-24個月。5年后,AI所需的算力規(guī)模將是今天的100萬倍以上。

在這種背景下,加速計算提供了必要的計算能力和內(nèi)存,其解決方案涉及硬件、軟件和網(wǎng)絡(luò)的組合。接下來,我們將回顧和梳理常見的硬件加速器,如GPU、ASIC、TPU、FPGA等,以及如CUDA、OpenCL等軟件解決方案。此外,還將探討PCIe、NVLink、CXL、InfiniBand、以太網(wǎng)等網(wǎng)絡(luò)互聯(lián)技術(shù)。

硬件、軟件和網(wǎng)絡(luò)互聯(lián)

摩爾定律的終結(jié)標(biāo)志著 CPU 性能增長的放緩,人們開始對當(dāng)前價值 1 萬億美元的純 CPU 服務(wù)器市場的未來發(fā)展產(chǎn)生質(zhì)疑。隨著對更強(qiáng)大的應(yīng)用程序和系統(tǒng)的需求不斷增加,傳統(tǒng)的 CPU 難以與加速計算競爭。與傳統(tǒng)CPU相比,加速計算利用 GPU、ASIC、TPU 和 FPGA 等專用硬件來加速某些任務(wù)的執(zhí)行。

加速計算適用于可并行化的任務(wù),如HPC、AI/ML、深度學(xué)習(xí)和大數(shù)據(jù)分析等。通過將某些類型的工作負(fù)載卸載到專用硬件設(shè)備上,加速計算可極大提高性能和效率。

硬件加速器

硬件加速器是加速計算的基礎(chǔ),包括圖形處理單元 (GPU)、專用集成電路 (ASIC) 和現(xiàn)場可編程門陣列 (FPGA)。

wKgaomWbY7iACb_AAADiB0iysgU226.png

GPU廣泛應(yīng)用于各種計算密集型任務(wù),擅長同時執(zhí)行許多復(fù)雜的計算,并行計算能力使其成為處理復(fù)雜數(shù)據(jù)集和大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練的理想選擇。

ASIC是為執(zhí)行特定任務(wù)而設(shè)計的定制芯片,在速度、功耗和整體性能方面具有一定優(yōu)勢。神經(jīng)處理單元 (NPU) 和深度學(xué)習(xí)處理器 (DLP) 也屬于ASIC,旨在加速 AI 工作負(fù)載。谷歌的的張量處理單元 (TPU)也是ASIC家族的一員,專為加速機(jī)器學(xué)習(xí)工作負(fù)載而設(shè)計。

FPGA是一種半導(dǎo)體集成電路,與通用 CPU 相比,F(xiàn)PGA可以重新編程,更有效地執(zhí)行特定任務(wù)。與 ASIC、GPU 和 CPU 中的固定架構(gòu)不同,F(xiàn)PGA 硬件包括可配置邏輯塊和可編程互連。這樣就算在芯片發(fā)貨和部署后,也可以進(jìn)行功能更新。

盡管FPGA因其靈活性在HPC和AI/ML領(lǐng)域備受青睞,但與GPU和專用ASIC相比,其開發(fā)速度較慢,軟件生態(tài)系統(tǒng)也相對不夠完善。由于其編程復(fù)雜性,F(xiàn)PGA 在人工智能工作負(fù)載中的采用較為緩慢,專業(yè)工程師的數(shù)量也有限。

軟件

加速計算利用API 和編程模型(如CUDA和OpenCL)將軟件和硬件加速器連接,API 和編程模型使開發(fā)人員能夠編寫在 GPU 上運(yùn)行的代碼,并利用軟件庫來高效實(shí)現(xiàn)算法。

CUDA(統(tǒng)一計算架構(gòu))是英偉達(dá)開發(fā)的專有 GPU 編程框架,與英偉達(dá)的 GPU 緊密集成,充分利用了 GPU 的并行計算能力和專用硬件優(yōu)化。CUDA 提供了更底層的編程接口,允許開發(fā)人員直接訪問 GPU 的內(nèi)部特性和功能。

CUDA 的生態(tài)系統(tǒng)主要集中在英偉達(dá)的 GPU 上,由于其專用硬件優(yōu)化和與 GPU 的緊密集成,可以提供更高的性能。英偉達(dá)還提供了豐富的開發(fā)工具和庫,使得 CUDA 在深度學(xué)習(xí)、科學(xué)計算等領(lǐng)域得到廣泛應(yīng)用。

OpenCL(開放計算語言)是一個開放的、跨平臺的編程框架,由 Khronos Group 組織開發(fā)和維護(hù)。它的設(shè)計目標(biāo)是支持各種硬件平臺,包括不僅限于 GPU 的處理器單元,如 CPU、FPGA 等。OpenCL 使用基于 C 語言的編程模型,允許開發(fā)人員利用各種設(shè)備上的并行計算能力。

OpenCL 擁有更廣泛的硬件支持,包括多個廠商的 GPU、CPU 以及其他加速設(shè)備。這意味著開發(fā)人員可以在不同的硬件平臺上使用相同的代碼進(jìn)行開發(fā),并且能夠更靈活地適應(yīng)不同的需求。

OpenCL和CUDA都是強(qiáng)大的GPU加速計算框架,CUDA在與英偉達(dá)GPU的緊密結(jié)合下提供了更高性能,適用于專注于英偉達(dá)平臺開發(fā)者;而OpenCL具有跨平臺兼容性和多廠商支持的優(yōu)勢,適用于需要在不同硬件平臺上進(jìn)行開發(fā)的場景。

網(wǎng)絡(luò)互聯(lián)

網(wǎng)絡(luò)在加速計算中發(fā)揮著至關(guān)重要的作用,它促進(jìn)了數(shù)以萬計的處理單元(例如 GPU、內(nèi)存和存儲設(shè)備)之間的通信。各種網(wǎng)絡(luò)技術(shù)被用來實(shí)現(xiàn)計算設(shè)備之間的通信,多個設(shè)備之間共享數(shù)據(jù)。常見的技術(shù)包括:

PCI Express (PCIe)是一種高速串行計算機(jī)擴(kuò)展總線標(biāo)準(zhǔn),主要用于連接CPU與各類高速外圍設(shè)備,如GPU、SSD、網(wǎng)卡、顯卡等。與傳統(tǒng)的PCI總線相比,PCIe采用點(diǎn)對點(diǎn)連接方式,具有更高的性能和可擴(kuò)展性。伴隨著AI、自動駕駛、AR/VR等應(yīng)用快速發(fā)展,計算要求愈來愈高,處理器I/O帶寬的需求每三年實(shí)現(xiàn)翻番,PCIe也大致按照3年一代的速度更新演進(jìn),每一代升級幾乎能夠?qū)崿F(xiàn)傳輸速率的翻倍,并有著良好的向后兼容性。

2003 年P(guān)CIe 1.0 正式發(fā)布,可支持每通道傳輸速率為 250MB/s,總傳輸速率為 2.5 GT/s。

2007 年推出PCIe 2.0 規(guī)范。在 PCIe 1.0 的基礎(chǔ)上將總傳輸速率提高了一倍,達(dá)到 5 GT/s,每通道傳輸速率從 250 MB/s 上升至 500 MB/s。

2022 年 PCIe 6.0 規(guī)范正式發(fā)布,總帶寬提高至 64 GT/s。

2022年6月,PCI-SIG聯(lián)盟宣布PCIe 7.0版規(guī)范,單條通道(x1)單向可實(shí)現(xiàn)128GT/s傳輸速率,計劃于2025年推出最終版本。

wKgZomWbY7iAbiJ4AAMGs43zj7I808.png

NVLink 是英偉達(dá)開發(fā)的高速互連技術(shù),旨在加快 CPU 與 GPU、GPU 與 GPU 之間的數(shù)據(jù)傳輸速度,提高系統(tǒng)性能。NVLink通過GPU之間的直接互聯(lián),可擴(kuò)展服務(wù)器內(nèi)的多GPU I/O,相較于傳統(tǒng)PCIe總線可提供更高效、低延遲的互聯(lián)解決方案。

NVLink的首個版本于2014年發(fā)布,首次引入了高速GPU互連。2016年發(fā)布的P100搭載了第一代NVLink,提供 160GB/s 的帶寬,相當(dāng)于當(dāng)時 PCIe 3.0 x16 帶寬的 5 倍。V100搭載的NVLink2將帶寬提升到300GB/s ,A100搭載了NVLink3帶寬為600GB/s。目前NVLink已迭代至第四代,可為多GPU系統(tǒng)配置提供高于以往1.5倍的帶寬以及更強(qiáng)的可擴(kuò)展性,H100中包含18條第四代NVLink鏈路,總帶寬達(dá)到900 GB/s,是PCIe 5.0帶寬的7倍。

wKgaomWbY7iASCxaAAF3yQHeFK8132.png

Infinity Fabric是AMD 開發(fā)的高速互連技術(shù),被用于連接AMD處理器內(nèi)部的各個核心、緩存和其他組件,以實(shí)現(xiàn)高效的數(shù)據(jù)傳輸和通信。Infinity Fabric采用了一種分布式架構(gòu),其中包含多個獨(dú)立的通道,每個通道都可以進(jìn)行雙向數(shù)據(jù)傳輸。這種設(shè)計使得不同核心之間可以直接進(jìn)行快速而低延遲的通信,從而提高了整體性能。此外,Infinity Fabric還具備可擴(kuò)展性和靈活性。它允許在不同芯片之間建立連接,并支持將多顆處理器組合成更強(qiáng)大的系統(tǒng)。

Compute Express Link (CXL)是一種開放式行業(yè)標(biāo)準(zhǔn)互連,可在主機(jī)處理器與加速器、內(nèi)存緩沖區(qū)和智能 I/O 設(shè)備等設(shè)備之間提供高帶寬、低延遲連接,從而滿足高性能異構(gòu)計算的要求,并且其維護(hù)CPU內(nèi)存空間和連接設(shè)備內(nèi)存之間的一致性。CXL優(yōu)勢主要體現(xiàn)在極高兼容性和內(nèi)存一致性兩方面上。

CXL 3.0是2022年8月份發(fā)布的標(biāo)準(zhǔn),在許多方面都進(jìn)行了較大的革新。CXL3.0建立在PCI-Express 6.0之上(CXL1.0/1.1和2.0版本建立在PCIe5.0之上),其帶寬提升了兩倍,并且其將一些復(fù)雜的標(biāo)準(zhǔn)設(shè)計簡單化,確保了易用性。

InfiniBand是一種高速、低延遲互連技術(shù),由 IBTA(InfiniBand Trade Association)提出,其規(guī)定了一整套完整的鏈路層到傳輸層(非傳統(tǒng)OSI七層模型的傳輸層,而是位于其之上)規(guī)范,但是其無法兼容現(xiàn)有以太網(wǎng)。InfiniBand擁有高吞吐量和低延遲,擴(kuò)展性好,通過交換機(jī)在節(jié)點(diǎn)間的點(diǎn)對點(diǎn)通道進(jìn)行數(shù)據(jù)傳輸,通道私有且受保護(hù)。

wKgaomWbY7mAFBVZAATBK6EFi_w954.png

目前InfiniBand的傳輸速度為400Gb/s,路線圖顯示,IBTA計劃于2024年推出XDR 800Gb/s InfiniBand產(chǎn)品,并在2026年后推出GDR 1600Gb/s產(chǎn)品。InfiniBand的高傳輸速度打通高性能計算中數(shù)據(jù)傳輸速率瓶頸,提升吞吐量和計算效率。

以太網(wǎng)是應(yīng)用最廣泛最成熟的網(wǎng)絡(luò)技術(shù),可在數(shù)據(jù)中心的服務(wù)器之間傳輸大量數(shù)據(jù),這對于許多加速計算任務(wù)至關(guān)重要。RoCE協(xié)議下,以太網(wǎng)融合RDMA功能,在高性能計算場景下的通信性能大幅提升。今年,為應(yīng)對AI 和HPC工作負(fù)載提出的新挑戰(zhàn),網(wǎng)絡(luò)巨頭聯(lián)合成立了超以太網(wǎng)聯(lián)盟(UEC),超以太網(wǎng)解決方案堆棧將利用以太網(wǎng)的普遍性和靈活性處理各種工作負(fù)載,同時具有可擴(kuò)展性和成本效益,為以太網(wǎng)注入了新的活力。

加速計算為傳統(tǒng)CPU和日益增長的數(shù)據(jù)需求之間搭起了一座橋梁,從數(shù)據(jù)中心到邊緣計算,加速計算已廣泛應(yīng)用于各種領(lǐng)域。英偉達(dá)創(chuàng)始人黃仁勛曾表示,計算已經(jīng)發(fā)生了根本性的變化,CPU擴(kuò)展的時代已結(jié)束,購買再多的CPU已無法解決問題。加速計算將與AI一起推動,新計算時代“引爆點(diǎn)”已到來。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 以太網(wǎng)
    +關(guān)注

    關(guān)注

    40

    文章

    5438

    瀏覽量

    171957
  • 網(wǎng)絡(luò)互聯(lián)

    關(guān)注

    0

    文章

    15

    瀏覽量

    9566
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4749

    瀏覽量

    129034
  • 硬件
    +關(guān)注

    關(guān)注

    11

    文章

    3343

    瀏覽量

    66283
  • 軟件
    +關(guān)注

    關(guān)注

    69

    文章

    4968

    瀏覽量

    87672

原文標(biāo)題:從硬件、軟件到網(wǎng)絡(luò)互聯(lián),AI時代下的加速計算技術(shù)

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    #硬聲創(chuàng)作季 #網(wǎng)絡(luò)互聯(lián)技術(shù) VTP技術(shù)

    網(wǎng)絡(luò)互聯(lián)
    發(fā)布于 :2022年11月27日 21:58:55

    #硬聲創(chuàng)作季 #網(wǎng)絡(luò)互聯(lián)技術(shù) 網(wǎng)絡(luò)互聯(lián)設(shè)備

    網(wǎng)絡(luò)互聯(lián)
    發(fā)布于 :2022年11月27日 22:03:42

    中智訊-移動互聯(lián)網(wǎng)技術(shù)及課程建設(shè)

    移動互聯(lián)網(wǎng)綜合應(yīng)用的能力,能從事智能手機(jī)、嵌入式設(shè)備、平板電腦、M2M等移動設(shè)備的應(yīng)用軟件開發(fā)、銷售、維護(hù)等工作,具備良好的團(tuán)隊(duì)合作精神的高端技能型人才。移動互聯(lián)網(wǎng)就是把互聯(lián)網(wǎng)技術(shù)應(yīng)用
    發(fā)表于 08-17 15:57

    硬件互聯(lián)網(wǎng)連接

    請教各位大神我之間是做軟件java開發(fā)的現(xiàn)在 覺得未來互聯(lián)網(wǎng)是必然發(fā)展趨勢,現(xiàn)在 學(xué)習(xí)了解物聯(lián)網(wǎng)技術(shù),我想弄一款可穿戴的智能終端設(shè)備,通過GPRS實(shí)現(xiàn)跟服務(wù)器數(shù)據(jù)傳遞交互,我現(xiàn)在該怎么做該怎么操作了,該做那些準(zhǔn)備看些什么樣的書了
    發(fā)表于 05-24 15:52

    詳解基于軟件無線電的A/D轉(zhuǎn)換技術(shù)

    的中頻、甚至直接對射頻信號進(jìn)行數(shù)字化,后面所有功能都由軟件或數(shù)字硬件實(shí)現(xiàn)。軟件無線電通信系統(tǒng)要求ADC具有高速度、高精度和寬帶輸入信號范圍。 主要依靠一攬子電阻網(wǎng)絡(luò)來保證量化精度的傳統(tǒng)
    發(fā)表于 05-28 07:51

    智能硬件開發(fā)經(jīng)驗(yàn)分享:從產(chǎn)品經(jīng)理的角度,分析做互聯(lián)網(wǎng)軟件和智能硬件思維的不同?

    我從互聯(lián)網(wǎng)行業(yè)轉(zhuǎn)做智能硬件已經(jīng)6個月了,由于對硬件技術(shù)和流程的不熟悉,這個過程中也踩了不少坑。另外互聯(lián)網(wǎng)思維和做
    發(fā)表于 04-15 10:18

    如何通過蜂窩網(wǎng)絡(luò)建立快速互聯(lián)網(wǎng)連接?

    ://www.quectel.com/wp-content/uplo .. .n_V1.8.pdf)。要在合理的時間內(nèi)發(fā)送圖像,大概我需要使用蜂窩模塊上的 USB 2.0 接口。ESP-32 是否有軟件庫 + 硬件模塊組合,可以讓我通過蜂窩
    發(fā)表于 03-01 08:05

    網(wǎng)絡(luò)動畫詳解

    網(wǎng)絡(luò)動畫詳解 引言 現(xiàn)在,您在互聯(lián)網(wǎng)上到處都能看到動態(tài)圖片!Web設(shè)計者們可以使用多種技術(shù)來制作動畫,包括: GIF動畫­ 動態(tài)HTML Java S
    發(fā)表于 08-04 08:51 ?1070次閱讀

    數(shù)據(jù)存儲指南 存儲備份技術(shù)詳解

    數(shù)據(jù)存儲指南 存儲備份技術(shù)詳解   數(shù)據(jù)存儲備份技術(shù)一般包含硬件技術(shù)軟件技術(shù)等,
    發(fā)表于 01-09 10:16 ?1094次閱讀

    網(wǎng)絡(luò)存儲技術(shù)詳解

    網(wǎng)絡(luò)存儲技術(shù)詳解 網(wǎng)絡(luò)存儲技術(shù)一般分為三種,分別是NAS、SAN、DAS: NAS網(wǎng)絡(luò)存儲器
    發(fā)表于 01-13 11:29 ?1211次閱讀

    網(wǎng)絡(luò)互聯(lián),什么是網(wǎng)絡(luò)互聯(lián)

    網(wǎng)絡(luò)互聯(lián),什么是網(wǎng)絡(luò)互聯(lián) 互聯(lián)網(wǎng)是一組相互連接的網(wǎng)絡(luò),它們形成單一的通信系統(tǒng),允許任何
    發(fā)表于 03-22 10:55 ?1038次閱讀

    硬件電路設(shè)計具體詳解

    硬件電路設(shè)計具體詳解。
    發(fā)表于 04-05 11:51 ?76次下載

    PC辦公軟件網(wǎng)絡(luò)疑難破解方法及技巧的分析(1000例詳解

    本文詳細(xì)介紹了PC辦公軟件網(wǎng)絡(luò)疑難的破解方法及技巧的1000例詳解
    發(fā)表于 11-26 09:50 ?16次下載
    PC辦公<b class='flag-5'>軟件</b>與<b class='flag-5'>網(wǎng)絡(luò)</b>疑難破解方法及技巧的分析(1000例<b class='flag-5'>詳解</b>)

    加強(qiáng)工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)軟件建設(shè)

    工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)軟件基礎(chǔ)設(shè)施是支撐工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)平臺和應(yīng)用的基礎(chǔ)設(shè)施,既包含傳輸網(wǎng)絡(luò)、存儲設(shè)備、運(yùn)算資源等硬件集合,也包含數(shù)據(jù)采集、數(shù)據(jù)治
    的頭像 發(fā)表于 04-15 09:56 ?3367次閱讀

    詳解數(shù)字信號處理的軟硬件實(shí)現(xiàn)

    詳解數(shù)字信號處理的量化效應(yīng)、軟件實(shí)現(xiàn)和硬件實(shí)現(xiàn)。
    發(fā)表于 07-07 14:57 ?0次下載
    <b class='flag-5'>詳解</b>數(shù)字信號處理的軟<b class='flag-5'>硬件</b>實(shí)現(xiàn)