近日,英偉達(dá)投資了一家號(hào)稱專注于人工智能數(shù)據(jù)中心網(wǎng)絡(luò)芯片的初創(chuàng)公司Enfabrica,消息一出瞬間刷屏朋友圈。 據(jù)悉,此次Enfabrica的B 輪融資由 Atreides Management 牽頭,Sutter Hill Ventures、英偉達(dá)、IAG Capital Partners、Liberty Global Ventures、Valor Equity Partners、Infinitum Partners 和 Alumni Ventures 參與,B輪融資共獲得1.25億美元資金,讓 Enfabrica 的融資總額達(dá)到 1.48 億美元。 就這樣一個(gè)成立于 2020 年的初創(chuàng)公司,怎么就入了英偉達(dá)的法眼呢? 01
英偉達(dá)為什么要投資Enfabrica?
別看Enfabrica 成立時(shí)間不長(zhǎng),但它背后的初始成員可謂臥虎藏龍,都是來自博通、谷歌、思科、AWS、英特爾等公司的大佬。
Enfabrica豪華創(chuàng)始團(tuán)隊(duì)
聯(lián)合創(chuàng)始人兼CEO Rochan Sankar曾是博通的產(chǎn)品營(yíng)銷和管理總監(jiān),推動(dòng)了五代“Trident”和“Tomahawk”數(shù)據(jù)中心交換機(jī)ASIC;
首席開發(fā)官 Shrijeet Mukherjee 曾在思科、Cumulus Networks、谷歌等公司就職;
芯片設(shè)計(jì)總監(jiān)Mike Jorda曾在博通負(fù)責(zé)數(shù)據(jù)中心芯片設(shè)計(jì)21年;
系統(tǒng)測(cè)試總監(jiān)Michael Goldflam 曾在博通負(fù)責(zé)交換軟件15年;
軟件工程VP Carlo Contavalli 曾在谷歌負(fù)責(zé)軟件工程12年;
首席架構(gòu)師Thomas Norrie 曾在谷歌硬件負(fù)責(zé)12年;
芯片架構(gòu)師Gavin Starks曾是智能終端公司Netronome Systems的首席技術(shù)官。
Enfabrica的創(chuàng)始顧問Christos Kozyrakis是斯坦福大學(xué)電氣工程和科學(xué)教授,也是 MAST 的負(fù)責(zé)人,曾在谷歌和英特爾等組織從事研究;另一位重量級(jí)顧問Albert Greenberg目前在 Uber擔(dān)任平臺(tái)工程副總裁,在微軟負(fù)責(zé)Azure Networking十多年,在此之前,他是AT&T貝爾實(shí)驗(yàn)室的網(wǎng)絡(luò)專家。擁有大規(guī)模數(shù)據(jù)分析專業(yè)知識(shí)的康奈爾大學(xué)副教授Rachit Agarwal也是Enfabrica的顧問。
Enfabrica ACF解決方案
Enfabrica致力于開發(fā)數(shù)據(jù)中心網(wǎng)絡(luò)芯片和軟件以支持 AI 計(jì)算工作負(fù)載,并于2023 年 3 月發(fā)布了首款名為 Accelerated Compute Fabric (ACF) 設(shè)備的芯片。據(jù)稱該芯片可為分布式人工智能、擴(kuò)展現(xiàn)實(shí)、高性能計(jì)算和應(yīng)用程序提供強(qiáng)大的可擴(kuò)展性和性能,并節(jié)約成本。
Enfabrica表示,新資金將用于推進(jìn)其突破性 ACF Switch (ACF-S) 設(shè)備和解決方案的生產(chǎn),這些設(shè)備和解決方案補(bǔ)充了 GPU、CPU 和加速器,以解決數(shù)據(jù)中心AI和高性能計(jì)算集群中的關(guān)鍵網(wǎng)絡(luò)、I/O(輸入/輸出)和內(nèi)存擴(kuò)展問題。
英偉達(dá)投資動(dòng)機(jī)
英偉達(dá)的GPU芯片面臨著一個(gè)問題:它們有時(shí)會(huì)閑置,因?yàn)檫B接它們的網(wǎng)絡(luò)無法足夠快地向它們提供數(shù)據(jù)。Enfabrica芯片創(chuàng)建了一個(gè)看起來像中心輻射的網(wǎng)絡(luò),允許進(jìn)行數(shù)據(jù)處理的Nvidia GPU從多個(gè)不同的地方提取數(shù)據(jù),而不會(huì)碰到“減速帶”。
英偉達(dá)參與的理由正是這一點(diǎn),這讓客戶能夠更有效地利用 GPU 計(jì)算資源,GPU 空閑等待數(shù)據(jù)的時(shí)間更短。據(jù)稱,在相同的性能點(diǎn)上,使用 ACF 能夠讓大型語言模型 (LLM) 推理的性能提高約 50%,深度學(xué)習(xí)推薦模型 (DLRM) 推理的性能提高75%。
“當(dāng)前人工智能熱潮的根本挑戰(zhàn)是基礎(chǔ)設(shè)施的擴(kuò)展”,Enfabrica 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Rochan Sankar 表示。
“無可否認(rèn),人工智能為眾多行業(yè)帶來了變革性價(jià)值。但對(duì)于尋求控制其分布式人工智能基礎(chǔ)設(shè)施和服務(wù)的客戶來說,迫切需要將爆炸性的需求與擴(kuò)展人工智能計(jì)算的總體成本、效率和易用性聯(lián)系起來。大部分?jǐn)U展問題在于 I/O 子系統(tǒng)、內(nèi)存移動(dòng)和附加到 GPU 計(jì)算的網(wǎng)絡(luò),而這些正是 Enfabrica 的 ACF 解決方案的亮點(diǎn)。”
02
Enfabrica ACF Switch (ACF-S)有什么魔力?
Enfabrica 的首款芯片ACF-S是該公司自 2020 年以來全新開發(fā),采用完全基于標(biāo)準(zhǔn)的硬件和軟件接口,包括多端口 800 千兆位以太網(wǎng)網(wǎng)絡(luò)和高基數(shù) PCIe Gen5 和CXL 2.0+ 接口。ACF-S 設(shè)備可在參與 AI 或加速計(jì)算工作負(fù)載的 GPU、CPU、加速器 ASIC、內(nèi)存、閃存和網(wǎng)絡(luò)元件的任意組合之間提供可擴(kuò)展、可組合、高帶寬的數(shù)據(jù)移動(dòng)。
在不改變?cè)O(shè)備驅(qū)動(dòng)程序上的物理接口、協(xié)議或軟件層的情況下,ACF-S 可在單個(gè)硅芯片中的異構(gòu)計(jì)算和內(nèi)存資源之間提供多太比特的交換和橋接,同時(shí)顯著減少設(shè)備數(shù)量、I/O 延遲跳數(shù),以及AI 集群中由架頂式網(wǎng)絡(luò)交換機(jī)、RDMA-over-Ethernet NIC、Infiniband HCA、PCIe/CXL 交換機(jī)和 CPU 附加DRAM消耗的設(shè)備功率。
通過整合獨(dú)特的 CXL 內(nèi)存橋接功能,Enfabrica 的 ACF-S 是第一個(gè)可以為任何加速器提供無頭內(nèi)存擴(kuò)展的數(shù)據(jù)中心芯片產(chǎn)品,使單個(gè) GPU 機(jī)架能夠直接、低延遲、無競(jìng)爭(zhēng)地訪問本地 CXL。內(nèi)存容量是 GPU 原生高帶寬內(nèi)存 (HBM) 的50倍以上。
突破 I/O 和網(wǎng)絡(luò)瓶頸
隨著人工智能工作負(fù)載變得愈發(fā)強(qiáng)大,GPU 網(wǎng)絡(luò)痛點(diǎn)以及內(nèi)存和存儲(chǔ)擴(kuò)展的挑戰(zhàn)也愈發(fā)緊迫。
Rochan Sankar 表示:“生成式 AI 正在迅速改變數(shù)據(jù)中心計(jì)算流量的性質(zhì)和數(shù)量。人工智能訓(xùn)練總量和用戶服務(wù)規(guī)模將繼續(xù)呈指數(shù)級(jí)增長(zhǎng)。當(dāng)前的服務(wù)器 I/O 和網(wǎng)絡(luò)解決方案存在嚴(yán)重的瓶頸,導(dǎo)致它們要么無法滿足需求規(guī)模,要么嚴(yán)重未充分利用昂貴的計(jì)算資源,這反過來又施加了成本和功效的壓力?!?/p>
Enfabrica 表示,其 ACF-S 芯片效率更高,可通過本機(jī) 800 Gb以太網(wǎng)網(wǎng)絡(luò)直接橋接和互連 GPU、CPU和內(nèi)存資源,消除對(duì)專用網(wǎng)絡(luò)互連和傳統(tǒng)架頂通信硬件的需求,充當(dāng)通用數(shù)據(jù)移動(dòng)器,克服現(xiàn)有數(shù)據(jù)中心的 I/O 限制。
第一代 ACF-S 芯片代號(hào)為“Millennium”,現(xiàn)已提供樣品,Millennium 芯片的概念如下:
ACF-S 芯片剛發(fā)布時(shí)給自己的定位是人工智能訓(xùn)練系統(tǒng)的核心。Enfabrica表示,它可以創(chuàng)建一個(gè)比英偉達(dá)和Meta創(chuàng)建的系統(tǒng)更好的可組合GPU服務(wù)器,并可以在ACF-S設(shè)備網(wǎng)絡(luò)中進(jìn)一步擴(kuò)展這種可組合性,來創(chuàng)建一個(gè)更大的虛擬計(jì)算和內(nèi)存池,同時(shí)節(jié)約 40%左右的成本。
而現(xiàn)在Enfabrica又將ACF-S 設(shè)備定位為 AI 集群的網(wǎng)絡(luò)和內(nèi)存訪問的中間層,如下所示:
ACF-S 設(shè)備可以應(yīng)用于任何 PCI-Express 加速器,無論是否為英偉達(dá)、甚至是否為 GPU。它還有助于解決限制人工智能工作負(fù)載的內(nèi)存容量問題。
盡管這并不能真正解決 GPU 主機(jī)上內(nèi)存的帶寬問題,但它確實(shí)意味著外殼內(nèi)的 GPU 池可以共享節(jié)點(diǎn)內(nèi)的內(nèi)存,并且 ACF-S 設(shè)備的層次結(jié)構(gòu)可以為此創(chuàng)建一個(gè)結(jié)構(gòu)內(nèi)存池。請(qǐng)注意,所有這些都是在 CXL 3.0 協(xié)議實(shí)際投入使用之前完成的,以便在大型 GPU 節(jié)點(diǎn)集群中更廣泛地共享。
或者如果你只是想使用 Grace-Hopper 超級(jí)芯片,可以這樣做:
在leaf/spine網(wǎng)絡(luò)中,800 Gb/秒以太網(wǎng)交換機(jī)作為spine,ACF-S 設(shè)備作為leaf,三跳網(wǎng)絡(luò)中最多可支持 1,000 個(gè) Grace-Hopper 設(shè)備,這就是一臺(tái)相當(dāng)厲害的人工智能超級(jí)計(jì)算機(jī)了。Nvidia DXG GH100 集群最多擁有 256 個(gè) Grace-Hopper 超級(jí)芯片。在spine網(wǎng)絡(luò)中添加另一跳可以進(jìn)一步擴(kuò)展它,但這也會(huì)增加網(wǎng)絡(luò)延遲。
“像這樣的平臺(tái)的想法是,我們可以構(gòu)建一個(gè)數(shù)據(jù)中心規(guī)模的人工智能網(wǎng)絡(luò),該網(wǎng)絡(luò)可以適當(dāng)?shù)胤謱雍头纸赓Y源,這樣不僅可以優(yōu)化性能,還可以優(yōu)化可組合性,”Sankar 表示,“現(xiàn)在,所有的東西都被裝進(jìn)了這些極其巨大、極其昂貴的設(shè)備中。但我們創(chuàng)建了一個(gè)黑匣子,可以實(shí)現(xiàn)數(shù)據(jù)中心范圍內(nèi)的可組合性。因此,可以改變 GPU 的數(shù)量、改變 CPU 的數(shù)量,就像我們需要為人工智能推理和人工智能訓(xùn)練所做的那樣。根據(jù) GPU 的選擇,你可能會(huì)有不同的內(nèi)存與計(jì)算觸發(fā)器的比率。我們的系統(tǒng)支持對(duì)最靠近 GPU 的內(nèi)存進(jìn)行分層,一直到我們所說的用于接收和移動(dòng)數(shù)據(jù)的場(chǎng)內(nèi)存。它提供上下文存儲(chǔ)、預(yù)處理、標(biāo)記、檢查點(diǎn),所有這些功能需要大量的快速存儲(chǔ)。目前,GPU 的運(yùn)行方式類似于 L1 緩存,所有內(nèi)容都位于 HBM 內(nèi)存中。相比之下,我們提供了以極其靈活和高性能的方式移動(dòng)和存儲(chǔ)數(shù)據(jù)的能力。”
再或者,你需要為L(zhǎng)LM創(chuàng)建一個(gè)成本較低的推理引擎,你可以:
Enfabrica 認(rèn)為通過將 CXL DRAM 掛在網(wǎng)絡(luò)不同部分的 ACF-S 設(shè)備上,可以用一半數(shù)量的 CPU 和 GPU 來驅(qū)動(dòng)推理。
ACF-S 取代 DPU?
ACF-S的網(wǎng)絡(luò)節(jié)點(diǎn):
我們可以看到 ACF-S 取代了 NIC,但我們不確定它能在多大程度上取代真正的、成熟的 DPU。但長(zhǎng)遠(yuǎn)來看,ACF-S 應(yīng)該奔著這個(gè)目標(biāo)去做,這可以讓企業(yè)不必為每臺(tái)服務(wù)器再額外購(gòu)買 DPU。
ACF-S 系統(tǒng)可配置為 GPU 網(wǎng)絡(luò)節(jié)點(diǎn),托管最多 10 個(gè) PCI-Express 5.0 x16 設(shè)備和最多 4 個(gè) 800 Gb/秒或 8 個(gè) 400 Gb/秒。它具有足夠的能力在服務(wù)器底座中托管多達(dá) 8 個(gè) GPU 加速器或多達(dá) 20 個(gè) CPU。
作為內(nèi)存池節(jié)點(diǎn),ACF-S 系統(tǒng)最多可擁有4個(gè) 2 TB CXL 附加卡,總共 8 TB DDR5 內(nèi)存,4個(gè)連接到服務(wù)器的 PCI-Express 5.0 x16 端口以及相同的4個(gè) 800 Gb/秒或8個(gè) 400 Gb/秒以太網(wǎng)端口連接到網(wǎng)絡(luò)。
下圖是 GPU/CPU 節(jié)點(diǎn)配置的例子,展示了兩個(gè) ACF-S ASIC、八個(gè) GPU 以及一對(duì)主機(jī) CPU 卡:
每個(gè)機(jī)架的 I/O 組件減少了 75%,I/O 組件功率減少了 50%。
綜上看來,英偉達(dá)成為 Enfabrica B 輪融資的投資者之一也就不足為奇了。
目前英偉達(dá)正在投資各種初創(chuàng)公司,就像英特爾在過去二十年所做的那樣,這是為了與你的合作伙伴以及你的潛在競(jìng)爭(zhēng)對(duì)手保持更親密的關(guān)系。
但也有分析師表示,Enfabrica完全具備作為英偉達(dá)競(jìng)爭(zhēng)對(duì)手的潛力,未來英偉達(dá)可能會(huì)考慮收購(gòu)這家初創(chuàng)公司。
-
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1449瀏覽量
34060 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3776瀏覽量
91114 -
網(wǎng)絡(luò)芯片
+關(guān)注
關(guān)注
0文章
30瀏覽量
12094
原文標(biāo)題:英偉達(dá)為什么要投資網(wǎng)絡(luò)芯片初創(chuàng)公司Enfabrica?
文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論