0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

內(nèi)存帶寬瓶頸如何破?

sakobpqhz ? 來(lái)源:半導(dǎo)體行業(yè)觀察 ? 2023-02-06 14:09 ? 次閱讀

內(nèi)存帶寬是當(dāng)下阻礙某些應(yīng)用程序性能的亟需解決的問(wèn)題,現(xiàn)在你可以通過(guò)地選擇芯片來(lái)調(diào)整 CPU 內(nèi)核與內(nèi)存帶寬的比率,并且您可以依靠芯片制造商和系統(tǒng)構(gòu)建商進(jìn)一步推動(dòng)它。

如果 CPU 在內(nèi)存帶寬和某些情況下的內(nèi)存容量方面不受限制,那么考慮一下 HPC 和 AI 計(jì)算會(huì)是什么樣子是很有趣的?;蛘吒鼫?zhǔn)確地說(shuō),如果內(nèi)存相對(duì)于計(jì)算而言不是那么昂貴?;蛟S,我們可以對(duì)前者做點(diǎn)什么,我們會(huì)臉色發(fā)青,也許會(huì)死于等待對(duì)后者發(fā)生的事情,正如我們上周簡(jiǎn)要談到的那樣。

有時(shí)候,你所能做的就是做一個(gè)止血帶,即使你不能立即永久性地解決手頭的問(wèn)題,也要試著繼續(xù)運(yùn)動(dòng)?;蛘吣_,或者傷口所在的地方。這讓我們思考,現(xiàn)在的服務(wù)器購(gòu)買(mǎi)者如何通過(guò)服務(wù)器CPU和系統(tǒng)制造商的一些適度調(diào)整,至少可以使每個(gè)核心的內(nèi)存帶寬更加平衡。

正如去年的圖靈獎(jiǎng)得主、行業(yè)名人Jack Dongarra在主題演講中恰當(dāng)?shù)刂赋龅哪菢?,幾十年?lái),情況一年比一年糟糕。

我們考慮這個(gè)問(wèn)題已經(jīng)有一段時(shí)間了,早在 2019 年 8 月,IBM 就對(duì) Power10 處理器進(jìn)行了預(yù)覽,并且預(yù)期(但從未交付過(guò))高帶寬 Power9'——這是 Power9 “prime”,而不是打字錯(cuò)誤——系統(tǒng)藍(lán)色巨人在 2019 年 10 月與我們談到了我們對(duì)具有高內(nèi)存帶寬的系統(tǒng)的興趣。(我們稱(chēng)它為 Power E955,這樣它就有了一個(gè)名字,盡管它從未推出過(guò)。)IBM 展示了它的 OpenCAPI 內(nèi)存接口 (OMI) 以及它隨 Power10 機(jī)器一起提供的內(nèi)存,但這張圖表概括了 IBM 的內(nèi)容相信它可以在各種技術(shù)的電源芯片插座上做:

bca912da-a3bf-11ed-bfe3-dac502259ad0.jpg

IBM 的 OMI 差分 DDR 內(nèi)存,它使用串行接口和 SerDes,本質(zhì)上與處理器上用于 NUMA、NVLink 和 OpenCAPI 端口的“Bluelink”信號(hào)相同,與普通的并行 DDR4 接口有很大不同,具體DDR 協(xié)議,無(wú)論是 DDR4 還是 DDR5,都位于存儲(chǔ)卡上的緩沖芯片上,而從存儲(chǔ)卡到 CPU 的接口是一種更通用的 OMI 協(xié)議。

這種早在 2019 年就在開(kāi)發(fā)中的 OMI 內(nèi)存提供了大約 320 GB/秒的每個(gè)插槽和從 256 GB 到 4 TB 的每個(gè)插槽的容量。通過(guò)帶寬優(yōu)化版本,將內(nèi)存模塊數(shù)量減少四分之一,并為每個(gè)插槽提供 128 GB 至 512 GB 的 DDR4 容量,IBM 可以將 Power9 芯片上的內(nèi)存帶寬提高到 650 GB/秒,并且借助預(yù)計(jì)在 2021 年推出的 Power10 服務(wù)器,它可以使用時(shí)鐘速度更快的 DDR5 內(nèi)存將速度提高到 800 GB/秒。

同時(shí),對(duì)于預(yù)計(jì)在 2020 年交付的 Power9 系統(tǒng),IBM 估計(jì)如果它使用 HBM2 堆疊內(nèi)存,它可以提供 16 GB 到 32 GB 的容量,并提供大約 1 TB/秒的每個(gè)插槽帶寬。這是每個(gè)插槽的大量?jī)?nèi)存帶寬,但內(nèi)存容量并不是很大。

無(wú)論出于何種原因——我們認(rèn)為無(wú)論它們是什么,它們都不是好產(chǎn)品,但這可能與藍(lán)色巨人與當(dāng)時(shí)的代工合作伙伴 Globalfoundries 的技術(shù)和法律困難有關(guān)——Power9 系統(tǒng),很可能是四路機(jī)器每個(gè)插座中都帶有雙芯片模塊,從未面世。

但早在 2022 年 7 月,“帶寬野獸”的想法就被重新命名為 Power E1050,作為 Power10 中端系統(tǒng)陣容的一部分。

當(dāng)“Cirrus”P(pán)ower10 處理器規(guī)格于 2020 年 8 月公布時(shí),IBM 表示該芯片每個(gè)內(nèi)核的峰值內(nèi)存帶寬為 256 GB/秒,每個(gè)內(nèi)核的持續(xù)內(nèi)存帶寬為 120 GB/秒。Power10 芯片上有 16 個(gè)內(nèi)核,但為了在 IBM 的新代工合作伙伴三星的 7 納米工藝上獲得更好的產(chǎn)量,最多只有 15 個(gè)內(nèi)核處于活動(dòng)狀態(tài)。關(guān)于去年 7 月推出的入門(mén)級(jí)和中端 Power10 機(jī)器、4、8、10 和 12 核在 SKU 堆棧中可用,而 15 核變體僅在可擴(kuò)展到 16 插槽的高端“Denali”P(pán)ower E1080 系統(tǒng)中可用。目前尚不清楚這些峰值和持續(xù)內(nèi)存帶寬數(shù)據(jù)是否適用于 DDR5 內(nèi)存,但我們懷疑是這樣。IBM 確實(shí)交付了使用基于 DDR4 內(nèi)存的 OMI 內(nèi)存的 Power E1050(和其他 Power10 機(jī)器),并在其演示中表示配備 DDR5 內(nèi)存的 Power10 的內(nèi)存流性能將是 DDR4 內(nèi)存的 2 倍。

bcbc9e68-a3bf-11ed-bfe3-dac502259ad0.jpg

以上比較針對(duì)的是單芯片 Power10 模塊。對(duì)于雙芯片模塊,將它們加倍,然后針對(duì)保持在與單芯片模塊相同的熱包絡(luò)內(nèi)所需的降檔時(shí)鐘速度進(jìn)行調(diào)整。

采用 Power E1050 機(jī)器,服務(wù)器最多有四個(gè) Power10 DCM,總共有 96 個(gè)核心。這八個(gè)小芯片共有八個(gè) OMI 內(nèi)存控制器,支持多達(dá) 64 個(gè)差分 DIMM,DDR4 內(nèi)存運(yùn)行頻率為 3.2 GHz,并在內(nèi)核之間提供 1.6 TB/秒的總帶寬。也就是說(shuō),在系統(tǒng)中 96 個(gè)核心的峰值時(shí),每個(gè) Power10 核心的內(nèi)存帶寬為 17 GB/秒。

首先,讓我們回到核心技術(shù)。Power E1050的臃腫配置使用了12核Power10芯片,但有一款48核的改型只使用了6核芯片。(是的,Power10內(nèi)核的成品率只有37.5%。)這使得每核帶寬翻了一番,達(dá)到34 GB/秒。如果你改用運(yùn)行在6.4 GHz的DDR5內(nèi)存,這是昂貴的,而且價(jià)格并不合理,那么你可以獲得每核高達(dá)68 GB/秒的內(nèi)存帶寬。

現(xiàn)在,理論上,如果CXL內(nèi)存擴(kuò)展器可用,您可以進(jìn)一步推動(dòng)這個(gè)真正的Power E1050,您可以在CXL內(nèi)存上的每個(gè)插槽消耗PCI-Express 5.0帶寬的56個(gè)通道中的48個(gè),添加6個(gè)x8 CXL內(nèi)存擴(kuò)展器,每個(gè)擴(kuò)展器以32 GB/秒的速度產(chǎn)生另外192 GB/秒的內(nèi)存帶寬(當(dāng)然,還有一些附加延遲)。這使得你的總帶寬達(dá)到1.8 TB/秒,每核帶寬達(dá)到38 GB/秒。如果IBM使每個(gè)Power10芯片上的內(nèi)核數(shù)更小,那么每個(gè)內(nèi)核的內(nèi)存帶寬就可以調(diào)高。如果每個(gè)芯片有4個(gè)內(nèi)核,每個(gè)系統(tǒng)有32個(gè)內(nèi)核,那么每個(gè)內(nèi)核的內(nèi)存帶寬最高可達(dá)57.1 GB/秒。轉(zhuǎn)到DDR5內(nèi)存+ CXL內(nèi)存,每個(gè)核心可以達(dá)到84 GB/秒。

01進(jìn)入混合計(jì)算引擎

請(qǐng)注意,沒(méi)有人說(shuō)這很便宜。但對(duì)于某些工作負(fù)載,這可能是一個(gè)比將代碼移植到GPU或等待CPU-GPU混合計(jì)算引擎(AMD的Instinct MI300A, Nvidia的Grace-Hopper, Intel的Falcon Shores)上市更好的答案。雖然這些處理器每個(gè)核心都有很高的內(nèi)存帶寬,但內(nèi)存容量將受到限制,因此比IBM Power10和英特爾“Sapphire Rapids”Max系列CPU(混合HBM 2e/DDR5內(nèi)存)的性能要有限得多。

英偉達(dá)Grace芯片擁有72個(gè)核心和16組LPDDR5內(nèi)存,總?cè)萘繛?12 GB,每個(gè)插槽的內(nèi)存為546 GB/秒。計(jì)算出來(lái)每個(gè)核的內(nèi)存帶寬為7.6 GB/秒。Hopper GPU擁有132個(gè)流多處理器(相當(dāng)于CPU的核心),其HBM3堆疊內(nèi)存的帶寬最高可達(dá)3000 GB/秒。(在H100加速器上,有5個(gè)堆棧產(chǎn)出80gb。)計(jì)算出來(lái),每個(gè)GPU“核心”的帶寬為22.7 GB/秒,這只是給你一個(gè)參考框架。如果您將Grace上的所有LPDDR5內(nèi)存視為一種類(lèi)似cxl的內(nèi)存,則可以將CPU-GPU復(fù)合物的內(nèi)存容量提高到總共592 GB,并將聚合內(nèi)存帶寬提高到3,536 GB/秒。根據(jù)您的意愿在該綜合體中分配核心和SMs。您可以將GPU視為CPU核心的非常昂貴的快速內(nèi)存加速器,計(jì)算出每個(gè)Grace核心的內(nèi)存帶寬為49.3 GB/秒,每個(gè)Hopper SM的內(nèi)存帶寬為26.9 GB/秒。

上面提到的Power10系統(tǒng)就在這個(gè)范圍內(nèi),沒(méi)有太多的工程方法。

對(duì)于AMD Instinct MI300A,我們知道它有128 GB的HBM3堆疊內(nèi)存,分布在8個(gè)組、6個(gè)GPU和2個(gè)12核Epyc 9004 CPU芯片上,但我們不知道帶寬,也不知道MI300A包上的6個(gè)GPU芯片集合上的短信數(shù)量。我們可以對(duì)帶寬做一個(gè)有根據(jù)的猜測(cè)。HBM3以每引腳6.4 Gb/秒的速度運(yùn)行信令,最多可達(dá)16個(gè)通道。根據(jù)堆疊的DRAM芯片數(shù)量(從4個(gè)到16個(gè))和它們的容量(每個(gè)堆棧從4 GB到64 GB),您可以獲得不同的容量和帶寬。

使用16 Gb DRAM,最初的HBM3堆棧預(yù)計(jì)每個(gè)堆棧提供819 Gb /秒的帶寬。看起來(lái)AMD可能會(huì)使用8個(gè)16gb芯片堆棧,每個(gè)堆棧有8個(gè)芯片,這將提供128 Gb的容量,并將產(chǎn)生6552 Gb /秒的總帶寬,以去年4月HBM3規(guī)范宣布時(shí)的預(yù)期速度。我們認(rèn)為MI300A封裝上的Epyc 9004芯片有16個(gè)內(nèi)核,但其中只有12個(gè)用于提高產(chǎn)量和可能的時(shí)鐘速度,當(dāng)這些Epyc內(nèi)核達(dá)到HBM3內(nèi)存時(shí),每個(gè)內(nèi)核的內(nèi)存帶寬將達(dá)到驚人的273 GB/秒。

很難說(shuō)這六個(gè)GPU芯片上有多少短信,但與之前的AMD和Nvidia GPU加速器相比,每條短信的帶寬可能會(huì)非常高。但是,同樣,每個(gè)計(jì)算引擎的總內(nèi)存為128 GB并不是很大的容量。

而且,為了抑制我們的熱情,由于熱的原因,AMD可能不得不削減DRAM堆棧和/或HBM3內(nèi)存速度,因此可能達(dá)不到我們預(yù)期的帶寬數(shù)字。即使是每個(gè)CPU核心帶寬的一半,這也會(huì)令人印象深刻。同樣,對(duì)于只使用cpu的應(yīng)用程序,GPU是一個(gè)非常昂貴的附加組件。

任何CXL內(nèi)存可能掛在這個(gè)處理器上以增加額外的容量,這將在這方面有所幫助,但不會(huì)對(duì)每個(gè)核心或SM的帶寬增加太多。

我們對(duì)未來(lái)的英特爾獵鷹海岸CPU-GPU混合處理器的了解還不夠多,根本無(wú)法進(jìn)行任何計(jì)算。

02在CPU和NUMA拯救HBM嗎?

這讓我們想到了英特爾的藍(lán)寶石Rapids與HBM2e內(nèi)存,它也有一種模式,同時(shí)支持HBM2e和DDR5內(nèi)存。我們之所以對(duì)Sapphire Rapids感興趣,不僅是因?yàn)樗谀承┳凅w中支持HBM2e堆疊內(nèi)存,還因?yàn)樗谄渌凅w中也具有八路NUMA可伸縮性。

我們認(rèn)為可以允許創(chuàng)建一個(gè)八路,hbm功能的系統(tǒng),同時(shí)使用DDR5和CXL主存。讓我們從頭開(kāi)始,從普通的Sapphire Rapids Xeon SP CPU開(kāi)始。

據(jù)我們所能估計(jì),Sapphire Rapids Xeon SP上的8個(gè)DDR5內(nèi)存通道可以在一個(gè)插座上提供略高于307 GB/秒的內(nèi)存帶寬。如果每個(gè)通道有一個(gè)DIMM,運(yùn)行頻率為4.8 GHz,則最大容量為2tb。使用每個(gè)通道兩個(gè)內(nèi)存,每個(gè)插槽的容量可以翻倍,達(dá)到4 TB,但運(yùn)行速度較慢的4.4 GHz,每個(gè)插槽只能產(chǎn)生282 GB/秒的內(nèi)存帶寬。(后一種情況是內(nèi)存容量大,而不是內(nèi)存帶寬大。)在Xeon SP-8490H上,每個(gè)通道有一個(gè)內(nèi)存,60個(gè)內(nèi)核運(yùn)行在1.9 GHz,計(jì)算出來(lái)每個(gè)內(nèi)核的帶寬只有5.1 GB/秒。如果你使用Xeon SP-8444H處理器,它只有16個(gè)核心,但運(yùn)行在更高的2.9 GHz,所以你可以恢復(fù)掉核時(shí)失去的一些性能,每個(gè)核心的帶寬為19.2 GB/秒。

好吧,如果你想提高插座上每個(gè)核心的內(nèi)存帶寬,你可以切換到Xeon SP-6434,它有8個(gè)內(nèi)核,運(yùn)行頻率為3.7 GHz。在4.8 GHz DDR5速度下,每核帶寬將增加一倍,達(dá)到38.4 GB/秒。這個(gè)處理器上活動(dòng)的UPI鏈路少了一個(gè),因此雙插座服務(wù)器上的耦合效率會(huì)低一些,而且延遲和帶寬也會(huì)低一些。這與使用3.2 GHz DDR4內(nèi)存的六核Power10芯片大致相同,類(lèi)似于Grace Arm服務(wù)器CPU上的每個(gè)核從其本地LPDDR5內(nèi)存中看到的情況。

現(xiàn)在,讓我們談?wù)勊{(lán)寶石急流HBM變體。頂部的bin Max系列CPU有56個(gè)核,四個(gè)HBM2e堆棧有64gb的容量和1230gb /秒的總帶寬。計(jì)算出來(lái),每個(gè)核的內(nèi)存帶寬為22 GB/秒。低倉(cāng)部分有32個(gè)核,相同的1230 GB/秒內(nèi)存,或每個(gè)核38 GB/秒。如果在插座上添加DDR5內(nèi)存,則可以再增加307 GB/秒,如果添加CXL內(nèi)存擴(kuò)展器,則可以再增加192 GB/秒。所以現(xiàn)在32個(gè)核心的內(nèi)存總量達(dá)到了1729 GB/秒,也就是54 GB/秒。

現(xiàn)在,讓我們將其發(fā)揮到極致,利用NUMA互連將8個(gè)Sapphire Rapids HBM插座(英特爾不允許這樣做)連接在一起,并將每個(gè)插座在4 GHz下運(yùn)行的內(nèi)核數(shù)降至8個(gè)內(nèi)核。這將產(chǎn)生64個(gè)運(yùn)行頻率為4 GHz的內(nèi)核,比藍(lán)寶石Rapids 60核至強(qiáng)SP-8490H更具魅力。但是現(xiàn)在,將HBM、DDR5和CXL內(nèi)存全部添加進(jìn)來(lái)后,這8個(gè)插槽的內(nèi)存帶寬總計(jì)為13,912 GB/秒,每個(gè)核的總帶寬為217.4 GB/秒。

我們確信,這不會(huì)是一個(gè)便宜的盒子。但話說(shuō)回來(lái),Power E1050也不是。

如果IBM將Power E1080的核心撥下來(lái),并添加CXL擴(kuò)展器,它可以通過(guò)16個(gè)插槽獲得一些東西,這將是連接到這16個(gè)插槽的OMI內(nèi)存的6544 GB/秒,再加上PCI-Express 5.0總線上的6個(gè)CXL內(nèi)存模塊的3,072 GB/秒,總共9,616 GB/秒。你想要多少核?每個(gè)Power10 SCM有4個(gè)內(nèi)核,即64個(gè)內(nèi)核,計(jì)算出來(lái)每個(gè)內(nèi)核的主存帶寬為150 GB/秒。

bccfc42a-a3bf-11ed-bfe3-dac502259ad0.jpg

關(guān)鍵是,有一種方法可以構(gòu)建專(zhuān)注于每個(gè)核心更好的內(nèi)存帶寬的服務(wù)器節(jié)點(diǎn),因此適合加速某些類(lèi)型的HPC和分析工作負(fù)載,甚至可能是部分AI訓(xùn)練工作負(fù)載。你的計(jì)算能力會(huì)比內(nèi)存容量或內(nèi)存帶寬的限制更大,你必須非常小心,不要因?yàn)闆](méi)有足夠的內(nèi)核從內(nèi)存中提取數(shù)據(jù)和向內(nèi)存中插入數(shù)據(jù)而使昂貴的內(nèi)存負(fù)擔(dān)過(guò)重。

順便說(shuō)一下,我們不太確定這種帶寬野獸方法如何加速人工智能訓(xùn)練——也許只在預(yù)訓(xùn)練的模型上進(jìn)行修剪和調(diào)整。我們有一種預(yù)感,即使是GPU在GPU核心時(shí)延和附加的HBM2e和HBM3堆疊內(nèi)存帶寬之間也存在不平衡,因此它們無(wú)法在接近峰值計(jì)算效率的任何地方運(yùn)行。

我們充分認(rèn)識(shí)到,這一切都不便宜。但GPU加速的機(jī)器也不是。但是,對(duì)于某些工作負(fù)載來(lái)說(shuō),更好地平衡計(jì)算、內(nèi)存帶寬和內(nèi)存容量可能比將內(nèi)存分割成碎片并將數(shù)據(jù)集分散到幾十個(gè)CPU上更好。不可否認(rèn),您確實(shí)需要以不同的方式加速這些工作負(fù)載——并跨內(nèi)存層次結(jié)構(gòu)對(duì)它們進(jìn)行編程——以突破極限。

這就是思想實(shí)驗(yàn)的作用。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19547

    瀏覽量

    231871
  • IBM
    IBM
    +關(guān)注

    關(guān)注

    3

    文章

    1784

    瀏覽量

    75077
  • DDR
    DDR
    +關(guān)注

    關(guān)注

    11

    文章

    717

    瀏覽量

    65783
  • HPC
    HPC
    +關(guān)注

    關(guān)注

    0

    文章

    328

    瀏覽量

    23944
  • 電源芯片
    +關(guān)注

    關(guān)注

    43

    文章

    1119

    瀏覽量

    77496

原文標(biāo)題:內(nèi)存帶寬瓶頸如何破?IBM的方法!

文章出處:【微信號(hào):算力基建,微信公眾號(hào):算力基建】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    內(nèi)存擴(kuò)展CXL加速發(fā)展,繁榮AI存儲(chǔ)

    和IO墻的瓶頸。它通過(guò)PCI Express的物理層,提供低延遲和高帶寬的連接,旨在支持下一代數(shù)據(jù)中心的高性能計(jì)算和內(nèi)存密集型工作負(fù)載。 ? CXL主要有CXL.io、CXL.cache
    的頭像 發(fā)表于 08-18 00:02 ?5168次閱讀
    <b class='flag-5'>內(nèi)存</b>擴(kuò)展CXL加速發(fā)展,繁榮AI存儲(chǔ)

    普渡機(jī)器人PUDU SH1如何助力酒店服務(wù)升級(jí)

    當(dāng)傳統(tǒng)清潔遇上人力短缺、效率瓶頸,酒店如何局?
    的頭像 發(fā)表于 02-26 09:22 ?244次閱讀

    使用 Memtester 對(duì)華為云 X 實(shí)例進(jìn)行內(nèi)存性能測(cè)試

    測(cè)試環(huán)境 ? 3.3 測(cè)試命令 ? 4 測(cè)試數(shù)據(jù)及性能分析 ? 4.1 帶寬測(cè)試結(jié)果 ? 4.2 延遲測(cè)試結(jié)果 ? 5 性能瓶頸與優(yōu)化建議 ? 6 總結(jié) ? 前言 在云計(jì)算的應(yīng)用場(chǎng)景中,內(nèi)存性能對(duì)系統(tǒng)
    的頭像 發(fā)表于 12-30 14:52 ?190次閱讀
    使用 Memtester 對(duì)華為云 X 實(shí)例進(jìn)行<b class='flag-5'>內(nèi)存</b>性能測(cè)試

    南亞科技與補(bǔ)丁科技攜手開(kāi)發(fā)定制超高帶寬內(nèi)存

    近日,臺(tái)灣地區(qū)知名的DRAM內(nèi)存制造商南亞科技宣布,已與專(zhuān)業(yè)DRAM設(shè)計(jì)公司補(bǔ)丁科技達(dá)成戰(zhàn)略合作,共同致力于定制超高帶寬內(nèi)存(Customized Ultra-High-Bandwidth
    的頭像 發(fā)表于 12-20 14:28 ?337次閱讀

    固定帶寬與動(dòng)態(tài)帶寬的區(qū)別

    在現(xiàn)代通信網(wǎng)絡(luò)中,帶寬是一個(gè)關(guān)鍵的資源,它決定了數(shù)據(jù)傳輸?shù)乃俣群托省?b class='flag-5'>帶寬管理是網(wǎng)絡(luò)管理員和IT專(zhuān)業(yè)人員必須面對(duì)的一個(gè)重要任務(wù)。帶寬可以以?xún)煞N主要方式分配:固定帶寬和動(dòng)態(tài)
    的頭像 發(fā)表于 12-06 17:07 ?802次閱讀

    HBM4需求激增,英偉達(dá)與SK海力士攜手加速高帶寬內(nèi)存技術(shù)革新

    隨著生成式AI技術(shù)的迅猛發(fā)展和大模型參數(shù)量的急劇增加,對(duì)高帶寬、高容量存儲(chǔ)的需求日益迫切,這直接推動(dòng)了高帶寬內(nèi)存(HBM)市場(chǎng)的快速增長(zhǎng),并對(duì)HBM的性能提出了更為嚴(yán)苛的要求。近日,韓國(guó)SK集團(tuán)
    的頭像 發(fā)表于 11-05 14:13 ?533次閱讀

    SK海力士第三季度業(yè)績(jī)創(chuàng)歷史新高,高帶寬內(nèi)存與HBM需求旺盛

    受高帶寬內(nèi)存和HBM市場(chǎng)的強(qiáng)勁需求推動(dòng),SK海力士在今年第三季度的銷(xiāo)售額、營(yíng)業(yè)利潤(rùn)和凈利潤(rùn)均達(dá)到了歷史新高。這一業(yè)績(jī)表現(xiàn)有望消除市場(chǎng)對(duì)半導(dǎo)體行業(yè)可能再次陷入衰退的擔(dān)憂,特別是針對(duì)一些人近期提出的“半導(dǎo)體冬天論”。
    的頭像 發(fā)表于 10-25 11:38 ?561次閱讀

    前端總線與內(nèi)存頻率怎么配

    內(nèi)存、北橋芯片等組件之間傳輸數(shù)據(jù)的通道。前端總線頻率指的是這個(gè)通道的數(shù)據(jù)傳輸速率,通常以MHz(兆赫茲)為單位。它反映了CPU與內(nèi)存之間的數(shù)據(jù)傳輸量或者說(shuō)帶寬。 內(nèi)存頻率 :
    的頭像 發(fā)表于 10-12 09:10 ?502次閱讀

    正常音量信號(hào)輸入tas5548后音的原因?怎么解決?

    我現(xiàn)在使用的是cs8416+tas5548+tas5416方案,發(fā)現(xiàn)一個(gè)問(wèn)題,音源是電腦同軸輸出。 問(wèn)題是:電腦最大音量輸出, 功放聲音伴隨著低頻會(huì)有咔咔 的音(同樣音量的同軸信號(hào)接到其他數(shù)字
    發(fā)表于 08-15 08:13

    三星電子突破瓶頸,HBM3e內(nèi)存芯片獲英偉達(dá)質(zhì)量認(rèn)證

    在科技界的密切關(guān)注下,三星電子與英偉達(dá)之間的合作再次傳來(lái)振奮人心的消息。據(jù)韓國(guó)主流媒體NewDaily最新報(bào)道,三星電子已成功通過(guò)英偉達(dá)的HBM3e(高帶寬內(nèi)存)質(zhì)量測(cè)試,標(biāo)志著這家科技巨頭在高端
    的頭像 發(fā)表于 07-04 15:24 ?488次閱讀

    成都匯陽(yáng)投資關(guān)于跨越帶寬增長(zhǎng)極限,HBM 賦能AI新紀(jì)元

    ? ? ?【AI 時(shí)代新需求,HBM 應(yīng)運(yùn)而生】 隨著人工智能技術(shù)的快速發(fā)展,傳統(tǒng)的 GDDR 內(nèi)存逐漸達(dá)到其技術(shù)發(fā)展的瓶頸: 1)GDDR5 無(wú)法跟上 GPU 性能發(fā)展:AI 訓(xùn)練的參數(shù)量每?jī)赡?/div>
    的頭像 發(fā)表于 07-04 10:55 ?796次閱讀

    集成32GB HBM2e內(nèi)存,AMD Alveo V80加速卡助力傳感器處理、存儲(chǔ)壓縮等

    中,無(wú)論是存儲(chǔ)器還是網(wǎng)絡(luò)訪問(wèn)都容易形成瓶頸。網(wǎng)絡(luò)接口只支持25G、100G,內(nèi)存采用DDR而FPGA的帶寬遠(yuǎn)高于內(nèi)存
    的頭像 發(fā)表于 06-05 16:16 ?2321次閱讀
    集成32GB HBM2e<b class='flag-5'>內(nèi)存</b>,AMD Alveo V80加速卡助力傳感器處理、存儲(chǔ)壓縮等

    NuLink PHY技術(shù):突破計(jì)算芯片內(nèi)存瓶頸

    NuLink PHY技術(shù)通過(guò)雙向傳輸功能和靈活的設(shè)計(jì),為構(gòu)建更優(yōu)越的計(jì)算引擎提供了新的途徑。相比傳統(tǒng)的硅中介層封裝技術(shù),NuLink PHY能夠提高計(jì)算與內(nèi)存之間的平衡,提高帶寬利用率,并降低制造成本。
    發(fā)表于 04-11 10:25 ?593次閱讀
    NuLink PHY技術(shù):突破計(jì)算芯片<b class='flag-5'>內(nèi)存</b><b class='flag-5'>瓶頸</b>

    什么是HBM3E內(nèi)存?Rambus HBM3E/3內(nèi)存控制器內(nèi)核

    Rambus HBM3E/3 內(nèi)存控制器內(nèi)核針對(duì)高帶寬和低延遲進(jìn)行了優(yōu)化,以緊湊的外形和高能效的封裝為人工智能訓(xùn)練提供了最大的性能和靈活性。
    發(fā)表于 03-20 14:12 ?3060次閱讀
    什么是HBM3E<b class='flag-5'>內(nèi)存</b>?Rambus HBM3E/3<b class='flag-5'>內(nèi)存</b>控制器內(nèi)核