国产精品1024永久免费中国,97久久综合区小说区

前一段時間的2024 re:Invent 大會中，亞馬遜云科技可謂是重磅連連，發(fā)布了全套最新AI networking基礎(chǔ)設(shè)施方案。亞馬遜云科技公用計算高級副總裁 Peter DeSantis 首先引用了一篇 2020 年的論文：“AI 場景中巨量的計算負(fù)載，并不能完全通過 Scale Out AI 集群來解決，同樣也需要 Scale Up單臺 AI 服務(wù)器的能力?！?基于這樣的設(shè)計思想，Peter 推出了 Trainium2 Server 和 Trainium2 UltraServer。同時單個芯片性能對于集群的總效率也起到了重要的基礎(chǔ)算力作用，本文主要回顧亞馬遜最新的AI Networking片內(nèi)/片間/網(wǎng)間綜合解決方案。

Trainium2 服務(wù)器

Trainium2 和 Trainium2-Ultra 服務(wù)器的構(gòu)建塊就是我們所說的 Trainium2“物理服務(wù)器”。每個 Trainium2 物理服務(wù)器都有一個獨特的架構(gòu)，占用 18 個機架單元 (RU)，由一個 2 機架單元 (2U) CPU 機頭托盤組成，該托盤連接到八個 2U 計算托盤。在服務(wù)器的背面，所有計算托盤都使用類似于 GB200 NVL36 的無源銅背板連接在一起形成一個 4×4 2D 環(huán)面，不同之處在于，對于 GB200 NVL36，背板將每個 GPU 連接到多個 NVSwitches，而在 Trainium2 上，沒有使用交換機，所有連接都只是兩個加速器之間的點對點連接。

每個 2U 計算托盤有兩個 Trainium 芯片，沒有 CPU。這與 GB200 NVL72 架構(gòu)不同，在 GB200 NVL72 架構(gòu)中，每個計算托盤在同一個托盤中同時具有 CPU 和 GPU。每個 Trainium2 計算托盤通常也被稱為 JBOG，即“只是一堆 GPU”，因為每個計算托盤沒有任何 CPU，不能獨立運行。

(來源：Semianalysis)

Scale Inside 單個芯片片內(nèi)互聯(lián)

Trainium2芯片

于 2023 年發(fā)布， Trainium2 采用了Multi-Die Chiplet架構(gòu)，并使用CoWoS-S/R先進(jìn)封裝技術(shù)，將計算芯粒和(HBM)模塊集成在一個緊湊的封裝(Package)內(nèi)。具體而言，每個 Trainium2 單卡內(nèi)封裝了 2 個 Trainium2 計算Die，而每個Die旁邊都配備了 2 塊 96GB HBM3 內(nèi)存模塊，提供高達(dá) 46TB/s 的帶寬。目前沒有提及Multi-die間的互聯(lián)協(xié)議，暫且理解為私有協(xié)議。這種先進(jìn)的封裝設(shè)計克服了芯片尺寸的工程極限，最大限度地縮小了計算和內(nèi)存之間的距離，使用大量高帶寬、低延遲的互聯(lián)將它們連接在一起。這不僅降低了延遲，還能使用更高效的協(xié)議交換數(shù)據(jù)，提高了性能。

在計算核心方面，Trainium2 由少量大型 NeuronCore 組成，每個 NeuronCore 內(nèi)部集成了張量引擎、矢量引擎、標(biāo)量引擎和 GPSIMD 引擎，各司其職協(xié)同工作。這種設(shè)計思路與傳統(tǒng) GPGPU 使用大量較小張量核心形成鮮明對比，大型核心在處理 Gen AI 工作負(fù)載時能夠有效減少控制開銷。目前大模型參數(shù)量級常常到達(dá)數(shù)千億甚至數(shù)萬億，Trainium2 是面向 AI 大模型的高性能訓(xùn)練芯片，與第一代 Trainium 芯片相比，Trainium2 訓(xùn)練速度提升至 4 倍，能夠部署在多達(dá) 10 萬個芯片的計算集群中，大幅降低了模型訓(xùn)練時間，同時能效提升多達(dá) 2 倍。

Scale Up超節(jié)點間互聯(lián)

在競爭愈發(fā)激烈的 AI 大模型領(lǐng)域中，如何能夠更高效的、更低成本的、更快速擴(kuò)容滿足算力需求的能力，就成為了贏得市場的關(guān)鍵之一。正如亞馬遜云科技公用計算高級副總裁 Peter 所言：“在推動前沿模型的發(fā)展的進(jìn)程中，對于極為苛刻的人工智能工作負(fù)載來說，再強大的計算能力也永遠(yuǎn)不夠?！盨cale Up 所帶來的好處就是為大模型訓(xùn)練提供了更大的訓(xùn)練成功率、更高效的梯度數(shù)據(jù)匯聚與同步、更低的能源損耗?；?Trainium2 UltraServer 支撐的 Amazon EC2 Trn2 UltraServer 可以提供高達(dá) 83.2 FP8 PetaFLOPS 的性能以及 6TB 的 HBM3 內(nèi)存，峰值帶寬達(dá)到 185 TB/s，并借助 12.8 Tb/s EFA(Elastic Fabric Adapter)網(wǎng)絡(luò)進(jìn)行互連。讓 AI 工程師能夠考慮在單臺 64 卡一體機內(nèi)以更短的時間訓(xùn)練出更加復(fù)雜、更加精準(zhǔn)的 AI 模型。

AWS Scale Up也是一個超節(jié)點的HBD域, 其機架互聯(lián)結(jié)構(gòu)和NVL36類似，由2個機架緊密耦合組成。一個機架32個GPU計算卡，超節(jié)點HBD域共64個GPU計算卡互聯(lián)。Scale Up超節(jié)點是業(yè)界目前正在積極探索的領(lǐng)域，盡管生態(tài)存在技術(shù)路徑的差異，但基于開放協(xié)議的技術(shù)路徑將是未來GPU互聯(lián)的關(guān)鍵，也是國內(nèi)未來構(gòu)建更大規(guī)模、更高效率集群的必經(jīng)之路。

(來源：Semianalysis)

Trn2-Ultra SKU 由每個縱向擴(kuò)展域的 4 個 16 芯片物理服務(wù)器組成，因此每個縱向擴(kuò)展域由 64 個芯片組成，由兩個機架組成，其配置類似于 GB200 NVL36x2。為了沿 z 軸形成圓環(huán)，每個物理服務(wù)器都使用一組有源銅纜連接到其他兩個物理服務(wù)器。

NeuronLink 私有協(xié)議構(gòu)成TB級互聯(lián)

Trainium2 UltraServer 一定要提及的就是 NeuronLink，它是一種亞馬遜云科技專有的網(wǎng)絡(luò)互聯(lián)技術(shù)，可使多臺 Trainium2 Server 連接起來，成為一臺邏輯上的服務(wù)器。我們可以理解Neuronlink和NVlink類似是一種基于私有的GPU/xPU片間通信協(xié)議。

NeuronLink 技術(shù)可以讓 Trainium2 Server 之間直接訪問彼此的內(nèi)存，并提供每秒 2 TB 的帶寬(高于目前的NVlink)，延遲僅為 1 微秒。NeuronLink 技術(shù)使得多臺 Trainium2 Server 就像是一臺超級計算機一樣工作，故稱之為 “UltraServer”?！斑@正是訓(xùn)練萬億級參數(shù)的大型人工智能模型所需要的超級計算平臺，非常強大!” Peter 介紹道。

(來源：Semianalysis)

Scale Out 十萬卡集群網(wǎng)間互聯(lián)

在 Scale Out 層面，亞馬遜云科技正在與 Anthropic 合作部署 Rainier 項目，Anthropic 聯(lián)合創(chuàng)始人兼首席計算官 Tom Brown 宣布下一代 Claude 模型將在 Project Rainier 上訓(xùn)練。Rainier 項目是一個龐大的 AI 超級計算集群，包含數(shù)十萬個 Trainium2 芯片，預(yù)計可提供約 130 FP8 ExaFLOPS 的超強性能，運算能力是以往集群的 5 倍多，將為 Anthropic 的下一代 Claude AI 模型提供支持。Rainier 項目將會幫助 Anthropic 的客戶可以用更低價格、更快速度使用到更高智能的 Claude AI 大模型服務(wù)。

(來源：Semianalysis)

對于 Trn2，每個計算托盤最多有 8 個 200G EFAv3 NIC網(wǎng)卡，每個橫向擴(kuò)展以太網(wǎng)芯片可提供高達(dá) 800Gbit/s 的速度。從計算托盤連接到 CPU 托盤的籠子也需要一個重定時器。計算托盤左側(cè)的 Trainium2 芯片將使用與 CPU 托盤連接的前 8 個通道，而右側(cè)的 Trainium2 芯片將使用連接到 CPU 托盤的最后 8 個通道。

對于 Leaf 和 Spine 交換機，AWS 將使用基于 Broadcom Tomahawk4的 1U 25.6T 白盒交換機。AWS 不使用多個交換機來組成基于機箱的模塊化交換機，因為這種設(shè)置的爆炸半徑很大。如果機箱發(fā)生故障，則機箱連接的所有線卡和鏈路都會發(fā)生故障。這可能涉及數(shù)百個 Trainium2 芯片。

Front End 前端網(wǎng)絡(luò)

我們提及一下連接傳統(tǒng)以太網(wǎng)的前端網(wǎng)絡(luò)，亞馬遜使用的Nitro 芯片作為世界上最早發(fā)布的 DPU 之一，其旨在實現(xiàn) Network、Storage、Hypervisor、Security 等虛擬化技術(shù)方面的 Workload offloading，消除了傳統(tǒng)虛擬化技術(shù)對 CPU 資源的性能開銷。同時還集成了多種功能，包括 Security Root 信任根、內(nèi)存保護(hù)、安全監(jiān)控等，以此來加強 Amazon EC2 實例的高性能和高安全性。安全性以及加密功能對于云計算中心的多租戶網(wǎng)絡(luò)安全至關(guān)重要。我們在之前的一期Kiwi Talks有講述智能網(wǎng)卡與DPU在應(yīng)用上的主要區(qū)別，亞馬遜的前端網(wǎng)絡(luò)案例可以讓我們更清楚的了解兩者在應(yīng)用上的不同

用于AI網(wǎng)絡(luò)Scale Out的智能網(wǎng)卡作為更輕量級的硬件多用于網(wǎng)絡(luò)加速，與交換機等組件共同完成擁塞控制、自適應(yīng)理由、選擇性重傳等系列AI網(wǎng)絡(luò)傳輸問題。SmartNIC和DPU的技術(shù)路徑存在顯著不同。

在 2024 re:Invent 中，我們看到亞馬遜云將 Nitro DPU 與 Graviton CPU 之間的 PCIe 鏈路都進(jìn)行了加密，創(chuàng)建了一個相互鎖定的信任網(wǎng)絡(luò)，使 CPU 到 CPU、CPU 到 DPU 的所有連接都由硬件提供安全保護(hù)。

寫在最后，全球主流超大規(guī)模云廠商已經(jīng)成功搭建萬卡集群并朝著十萬卡集群目標(biāo)邁進(jìn)。但礙于生態(tài)壁壘，部分廠商還基于私有協(xié)議在構(gòu)建自有網(wǎng)絡(luò)體系。與此同時，國內(nèi)的萬卡集群在異構(gòu)芯片調(diào)度、軟硬件打通、超節(jié)點HBD域構(gòu)建等方面仍然面臨挑戰(zhàn)，未來人工智能網(wǎng)絡(luò)還有很長一段路要走，還有待行業(yè)積極擁抱開源開放的協(xié)議與物理接口，以實現(xiàn)更緊密的協(xié)同發(fā)展。

關(guān)于我們AI網(wǎng)絡(luò)全棧式互聯(lián)架構(gòu)產(chǎn)品及解決方案提供商

奇異摩爾，成立于2021年初，是一家行業(yè)領(lǐng)先的AI網(wǎng)絡(luò)全棧式互聯(lián)產(chǎn)品及解決方案提供商。公司依托于先進(jìn)的高性能RDMA 和Chiplet技術(shù)，創(chuàng)新性地構(gòu)建了統(tǒng)一互聯(lián)架構(gòu)——Kiwi Fabric，專為超大規(guī)模AI計算平臺量身打造，以滿足其對高性能互聯(lián)的嚴(yán)苛需求。我們的產(chǎn)品線豐富而全面，涵蓋了面向不同層次互聯(lián)需求的關(guān)鍵產(chǎn)品，如面向北向Scale out網(wǎng)絡(luò)的AI原生智能網(wǎng)卡、面向南向Scale up網(wǎng)絡(luò)的GPU片間互聯(lián)芯粒、以及面向芯片內(nèi)算力擴(kuò)展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產(chǎn)品共同構(gòu)成了全鏈路互聯(lián)解決方案，為AI計算提供了堅實的支撐。

奇異摩爾的核心團(tuán)隊匯聚了來自全球半導(dǎo)體行業(yè)巨頭如NXP、Intel、Broadcom等公司的精英，他們憑借豐富的AI互聯(lián)產(chǎn)品研發(fā)和管理經(jīng)驗，致力于推動技術(shù)創(chuàng)新和業(yè)務(wù)發(fā)展。團(tuán)隊擁有超過50個高性能網(wǎng)絡(luò)及Chiplet量產(chǎn)項目的經(jīng)驗，為公司的產(chǎn)品和服務(wù)提供了強有力的技術(shù)保障。我們的使命是支持一個更具創(chuàng)造力的芯世界，愿景是讓計算變得簡單。奇異摩爾以創(chuàng)新為驅(qū)動力，技術(shù)探索新場景，生態(tài)構(gòu)建新的半導(dǎo)體格局，為高性能AI計算奠定穩(wěn)固的基石。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4861

瀏覽量
130193
服務(wù)器

服務(wù)器

+關(guān)注

關(guān)注
12

文章
9542

瀏覽量
86822
AI

AI

+關(guān)注

關(guān)注
87

文章
33169

瀏覽量
273389
亞馬遜

亞馬遜

+關(guān)注

關(guān)注
8

文章
2687

瀏覽量
84230

原文標(biāo)題：十萬卡集群的必經(jīng)之路：亞馬遜云科技AI Networking片內(nèi)/片間/網(wǎng)間互聯(lián)解決方案回顧

文章出處：【微信號：奇異摩爾，微信公眾號：奇異摩爾】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聚云科技獲亞馬遜云科技生成式AI能力認(rèn)證

近日，云管理服務(wù)提供商聚云科技成功獲得亞馬遜云科技生成式AI能力認(rèn)證。此次認(rèn)證標(biāo)志著聚云科技在利

發(fā)表于 02-19 10:33 ?276次閱讀

聚云科技榮獲亞馬遜云科技生成式AI能力認(rèn)證

Bedrock等技術(shù)，從應(yīng)用范圍、模型選擇、數(shù)據(jù)處理、模型調(diào)優(yōu)到應(yīng)用集成與部署等方面，助力企業(yè)加速生成式AI應(yīng)用落地。此外，聚云科技還基于亞馬遜云科技打造RAGPro企業(yè)知識庫、

發(fā)表于 02-14 16:07 ?241次閱讀

聚云科技榮獲亞馬遜云科技生成式AI能力認(rèn)證助力企業(yè)加速生成式AI應(yīng)用落地

、數(shù)據(jù)處理、模型調(diào)優(yōu)到應(yīng)用集成與部署等方面，助力企業(yè)加速生成式AI應(yīng)用落地。此外，聚云科技還基于亞馬遜云科技打造RAGPro企業(yè)知識庫、AI

發(fā)表于 02-14 13:41 ?99次閱讀

HERE與亞馬遜云科技合作創(chuàng)新AI地圖解決方案

近日，亞馬遜云科技與HERE科技(HERE)宣布達(dá)成一項全新的云基礎(chǔ)設(shè)施合作協(xié)議。此次合作旨在通過融合雙方的技術(shù)優(yōu)勢，為汽車制造商提供一個可擴(kuò)展且精簡的位置感知軟件解決方案，以加速軟件

發(fā)表于 01-20 11:04 ?382次閱讀

HERE攜手亞馬遜云科技創(chuàng)新AI地圖解決方案，加速軟件定義汽車發(fā)展

汽車制造商在電動、自動化及軟件定義汽車領(lǐng)域的發(fā)展步伐北京2025年1月15日?/美通社/ -- 亞馬遜云科技宣布與HERE科技（HERE）達(dá)成一項新的云基礎(chǔ)設(shè)施合作協(xié)議，旨在為汽車制造商開發(fā)位置感知軟件提供一個可擴(kuò)展且精簡的

發(fā)表于 01-15 15:33 ?291次閱讀

亞馬遜云科技與Adobe攜手推出AEP解決方案

近日，Adobe宣布了一項重要合作——與亞馬遜云科技深化戰(zhàn)略伙伴關(guān)系，共同推出Adobe Experience Platform(AEP)解決方案。這一全新服務(wù)的推出，旨在為全球品牌提供強大的數(shù)字化

發(fā)表于 12-25 15:44 ?386次閱讀

亞馬遜云科技與SAP推出GROW with SAP解決方案

近日，亞馬遜云科技與SAP攜手宣布了一項重要合作——在亞馬遜云科技平臺上提供GROW with SAP解決方案。這一舉措旨在幫助各種規(guī)模的企

發(fā)表于 12-24 16:44 ?553次閱讀

基于亞馬遜云科技的GROW with SAP解決方案助力企業(yè)簡化云端ERP部署

GROW with SAP解決方案將上架亞馬遜云科技Marketplace，助力企業(yè)快速應(yīng)用ERP云軟件，并利用前沿生成式AI

發(fā)表于 12-09 15:11 ?444次閱讀

NVIDIA亮相2024亞馬遜云科技re:Invent全球大會

為了擴(kuò)展開發(fā)者和企業(yè)在云端的可能性，NVIDIA 和亞馬遜云科技（Amazon Web Services）本周于拉斯維加斯舉行的亞馬遜云科技 re:Invent 上齊聚一堂，展示全新

發(fā)表于 12-05 11:51 ?631次閱讀

Infor選擇Amazon Bedrock支持生成式AI解決方案

解決方案，加快為企業(yè)創(chuàng)造價值。此次合作不僅加深了Infor與亞馬遜云科技長達(dá)十一年的合作關(guān)系，同時展現(xiàn)了雙方在長期攜手利用亞馬遜云科技服務(wù)提

發(fā)表于 10-10 11:13 ?212次閱讀

亞馬遜云科技助力Shulex打造生成式AI應(yīng)用

杭州數(shù)里行間科技有限公司（Shulex），作為全球領(lǐng)先的VOC（消費者洞察）市場AI SaaS解決方案提供商，攜手亞馬遜云科技，成功推出了基于生成式

發(fā)表于 08-14 16:27 ?769次閱讀

涂鴉智能借助亞馬遜云科技全面擁抱生成式AI打造智慧解決方案

提升開發(fā)者效率北京2024年7月8日?/美通社/ -- 全球化云開發(fā)者平臺涂鴉智能應(yīng)用亞馬遜云科技的生成式AI技術(shù)與服務(wù)，在針對智慧領(lǐng)域云

發(fā)表于 07-08 15:29 ?510次閱讀

亞馬遜云科技與SAP攜手云ERP體驗,引領(lǐng)AI新紀(jì)元

近日，全球云計算的領(lǐng)軍者亞馬遜云科技與知名的企業(yè)應(yīng)用解決方案提供商SAP共同宣布，雙方將擴(kuò)大戰(zhàn)略合作，共同打造現(xiàn)代化的云ERP體驗，并借助生

發(fā)表于 06-11 14:43 ?653次閱讀

亞馬遜云科技攜手SAP通過生成式AI解鎖創(chuàng)新潛力

科技與SAP宣布擴(kuò)大戰(zhàn)略合作，旨在革新現(xiàn)代化的云ERP體驗，并利用生成式AI為企業(yè)帶來全新功能與效率提升。雙方將共同努力，簡化客戶在亞馬遜云科技上采用RISE with SAP

發(fā)表于 06-07 10:53 ?483次閱讀

掌閱科技選擇亞馬遜云科技為重要云服務(wù)供應(yīng)商

創(chuàng)新閱讀體驗，從而提升用戶粘性。借助亞馬遜云科技中國（北京）區(qū)域（光環(huán)新網(wǎng)運營）和（寧夏）區(qū)域（西云數(shù)據(jù)運營）的機器學(xué)習(xí)平臺Amazon SageMaker以及Stable Diffusion

發(fā)表于 05-16 17:26 ?606次閱讀

搜索歷史

亞馬遜云科技AI Networking解決方案回顧

評論

聚云科技獲亞馬遜云科技生成式AI能力認(rèn)證

聚云科技榮獲亞馬遜云科技生成式AI能力認(rèn)證

聚云科技榮獲亞馬遜云科技生成式AI能力認(rèn)證助力企業(yè)加速生成式AI應(yīng)用落地

HERE與亞馬遜云科技合作創(chuàng)新AI地圖解決方案

HERE攜手亞馬遜云科技創(chuàng)新AI地圖解決方案，加速軟件定義汽車發(fā)展

亞馬遜云科技與Adobe攜手推出AEP解決方案

亞馬遜云科技與SAP推出GROW with SAP解決方案

基于亞馬遜云科技的GROW with SAP解決方案助力企業(yè)簡化云端ERP部署

NVIDIA亮相2024亞馬遜云科技re:Invent全球大會

Infor選擇Amazon Bedrock支持生成式AI解決方案

亞馬遜云科技助力Shulex打造生成式AI應(yīng)用

涂鴉智能借助亞馬遜云科技全面擁抱生成式AI打造智慧解決方案

亞馬遜云科技與SAP攜手云ERP體驗,引領(lǐng)AI新紀(jì)元

亞馬遜云科技攜手SAP通過生成式AI解鎖創(chuàng)新潛力

掌閱科技選擇亞馬遜云科技為重要云服務(wù)供應(yīng)商

電子發(fā)燒友