點(diǎn)擊藍(lán)字關(guān)注我們
從高性能計(jì)算到人工智能訓(xùn)練、游戲和汽車應(yīng)用,對帶寬的需求正在推動下一代高帶寬內(nèi)存的發(fā)展。
HBM3將帶來2X的帶寬和容量,除此之外還有其他一些好處。雖然它曾經(jīng)被認(rèn)為是一種“慢而寬”的內(nèi)存技術(shù),用于減少芯片外內(nèi)存中的信號傳輸延遲,但現(xiàn)在HBM3正變得越來越快,越來越寬。在某些情況下,甚至被用于L4緩存。
Arm首席研究工程師Alejandro Rico表示:“這些新功能將使每傳輸位的焦耳效率達(dá)到更高水平,而且更多設(shè)計(jì)可以使用HBM3-only內(nèi)存解決方案,不需要額外的片外存儲。AI/ML、HPC和數(shù)據(jù)分析等應(yīng)用可以利用大帶寬來保持可擴(kuò)展性。合理利用HBM3帶寬需要一個具有高帶寬片上網(wǎng)絡(luò)和處理元素的處理器設(shè)計(jì),通過提高內(nèi)存級并行性來使數(shù)據(jù)速率最大化?!?/p>
人工智能訓(xùn)練芯片通常需要處理萬億字節(jié)的原始數(shù)據(jù),而HBM3可以達(dá)到這個水平。Rambus的產(chǎn)品營銷高級總監(jiān)Frank Ferro指出:“用戶在開發(fā)ASIC電路來更好地解決人工智能問題的同時,需要更多的帶寬。
每個用戶都試圖想用一個更高效的處理器來實(shí)現(xiàn)他們特定的神經(jīng)網(wǎng)絡(luò),并在實(shí)現(xiàn)時達(dá)到更好的內(nèi)存利用率和CPU利用率。對于人工智能訓(xùn)練來說,HBM一直是最佳選擇,因?yàn)樗峁┝烁鄮捄透凸?。雖然價格上有點(diǎn)貴,但對于這些應(yīng)用程序來說(尤其是進(jìn)入云計(jì)算的應(yīng)用程序)還是負(fù)擔(dān)得起的。HBM3實(shí)際上只是一種自然遷移。”
雖然JEDEC尚未公布未獲批準(zhǔn)的HBM3規(guī)范細(xì)節(jié),但Rambus報告稱其HBM3子系統(tǒng)帶寬將增加到8.4 Gbps(HBM2e為3.6Gbps)。采用HBM3的產(chǎn)品預(yù)計(jì)將在2023年初發(fā)貨。
“當(dāng)芯片的關(guān)鍵性能指標(biāo)是每瓦特內(nèi)存帶寬,或者HBM3是實(shí)現(xiàn)所需帶寬的唯一途徑時,采用HBM3是有益的,”Cadence的IP組總監(jiān)Marc Greenberg表示:“與基于PCB的方法(如DDR5、LPDDR5/5X或GDDR6)相比,這種帶寬和效率的代價是在系統(tǒng)中增加額外的硅,并可能增加制造/組裝/庫存成本。額外的硅通常是一個插入器,以及每個HBM3 DRAM堆棧下面的一個基模?!?/p>
為什么HBM很重要
自HBM首次宣布以來的十年里,已有2.5代標(biāo)準(zhǔn)進(jìn)入市場。在此期間,創(chuàng)建、捕獲、復(fù)制和消耗的數(shù)據(jù)量從2010年的2 ZB增加到2020年的64.2 ZB,據(jù)Statista預(yù)測,這一數(shù)字將在2025年增長近三倍,達(dá)到181 ZB。
Synopsys的高級產(chǎn)品營銷經(jīng)理Anika Malhotra表示:“2016年,HBM2將信令速率提高了一倍,達(dá)到2 Gbps,帶寬達(dá)到256 GB/s。兩年后,HBM2E出現(xiàn)了,實(shí)現(xiàn)了3.6 Gbps和460 GB/s的數(shù)據(jù)速率。性能需求在增加,高級工作負(fù)載對帶寬的需求也在增加,因?yàn)楦叩膬?nèi)存帶寬是實(shí)現(xiàn)計(jì)算性能的關(guān)鍵因素?!?/p>
“除此之外,為了更快地處理所有這些數(shù)據(jù),芯片設(shè)計(jì)也變得越來越復(fù)雜,通常需要專門的加速器、片內(nèi)或封裝內(nèi)存儲器及接口。HBM被視為將異構(gòu)分布式處理推到一個完全不同水平的一種方式?!?/p>
“最初,高帶寬內(nèi)存只是被圖形公司視為進(jìn)化方向上的一步;但是后來網(wǎng)絡(luò)和數(shù)據(jù)中心意識到HBM可以為內(nèi)存結(jié)構(gòu)帶來更多的帶寬。所有推動數(shù)據(jù)中心采用HBM的動力在于更低延遲、更快訪問和更低功耗?!盡alhotra說。“通常情況下,CPU為內(nèi)存容量進(jìn)行優(yōu)化,而加速器和GPU為內(nèi)存帶寬進(jìn)行優(yōu)化。但是隨著模型尺寸的指數(shù)增長,系統(tǒng)對容量和帶寬的需求同時在增長(即不會因?yàn)樵黾尤萘亢?,對帶寬需求降低)。我們看到更多的?nèi)存分層,包括支持對軟件可見的HBM + DDR,以及使用HBM作為DDR的軟件透明緩存。除了CPU和GPU, HBM也很受數(shù)據(jù)中心FPGA的歡迎。”
HBM最初的目的是替代GDDR等其他內(nèi)存,由一些領(lǐng)先的半導(dǎo)體公司(特別是英偉達(dá)和AMD)推動。這些公司仍然在JEDEC工作組中大力推動其發(fā)展,英偉達(dá)是該工作組的主席,AMD是主要貢獻(xiàn)者之一。
Synopsys產(chǎn)品營銷經(jīng)理Brett Murdock表示:“GPU目前有兩種選擇。一種是繼續(xù)使用GDDR,這種在SoC周圍會有大量的外設(shè);另一種是使用HBM,可以讓用戶獲得更多的帶寬和更少的物理接口,但是整體成本相對更高。還有一點(diǎn)需要強(qiáng)調(diào)的是物理接口越少,功耗越低。所以使用GDDR非常耗電,而HBM非常節(jié)能。所以說到底,客戶真正想問的是花錢的首要任務(wù)是什么?對于HBM3,已經(jīng)開始讓答案朝‘可能應(yīng)該把錢花在HBM上’傾斜?!?/p>
盡管在最初推出時,HBM 2/2e僅面向AMD和Nvidia這兩家公司,但現(xiàn)在它已經(jīng)擁有了龐大的用戶基礎(chǔ)。當(dāng)HBM3最終被JEDEC批準(zhǔn)時,這種增長有望大幅擴(kuò)大。
關(guān)鍵權(quán)衡
芯片制造商已經(jīng)明確表示,當(dāng)系統(tǒng)中有插入器時HBM3會更有意義,例如基于chiplet的設(shè)計(jì)已經(jīng)使用了硅插入器。Greenberg表示:“在許多系統(tǒng)中還沒有插入器的情況下,像GDDR6、LPDDR5/5X或DDR5這樣的PCB內(nèi)存解決方案可能比添加插入器來實(shí)現(xiàn)HBM3更具成本優(yōu)勢?!?/p>
然而,隨著規(guī)模經(jīng)濟(jì)發(fā)揮作用,這些權(quán)衡可能不再是一個問題。Synopsys的Murdock表示,對于使用HBM3的用戶來說,最大的考慮是管理PPA,因?yàn)榕cGDDR相比,在相同的帶寬下,HBM設(shè)備的硅面積更小、功耗更低,需要處理的物理接口也更少。
“此外,與DDR、GDDR或LPDDR接口相比,IP端的HBM設(shè)備在SoC上的物理實(shí)現(xiàn)方法相當(dāng)野蠻粗暴。對于一般物理接口,我們有很多方法去實(shí)現(xiàn)它:可以在模具的側(cè)面放一個完整的線性PHY,可以繞過拐角,也可以把它折疊起來。但是對于HBM,當(dāng)要放下一個HBM立體時,JEDEC已經(jīng)準(zhǔn)確地定義了這個立體上的bump map是什么樣子的。用戶將把它放在插入器上,它將緊挨著SoC,所以如何在SoC上構(gòu)建bump map只有一個可行的選擇。”
這些決策會影響可靠性。雖然在bump方面減少了靈活性,但增加的可預(yù)測性意味著更高的可靠性。
特別是在2.5D和3D帶來的復(fù)雜性下,可以消除的變量越多越好。
Malhotra表示,在HBM3被廣泛采用的AI/ML應(yīng)用中,電源管理是最重要的考慮因素?!皩τ跀?shù)據(jù)中心和邊緣設(shè)備來說都是如此。權(quán)衡圍繞著功耗、性能、面積和帶寬。對于邊緣計(jì)算,隨著第四個變量(帶寬)加入到傳統(tǒng)的PPA方程中,復(fù)雜性正在不斷增加。在AI/ML的處理器設(shè)計(jì)或加速器設(shè)計(jì)中,功耗、性能、面積、帶寬的權(quán)衡很大程度上取決于工作負(fù)載的性質(zhì)?!?/p>
如何確保正常工作?
雖然HBM3實(shí)現(xiàn)看起來足夠簡單,但由于這些內(nèi)存通常用于關(guān)鍵任務(wù)應(yīng)用程序,必須確保它們能夠按預(yù)期工作。Rambus的產(chǎn)品營銷工程師Joe Rodriguez表示,應(yīng)該使用多個供應(yīng)商提供的芯片調(diào)試和硬件啟動工具,以確保整個內(nèi)存子系統(tǒng)正常運(yùn)行。
用戶通常利用供應(yīng)商提供的測試平臺和模擬環(huán)境,這樣他們就可以使用控制器開始運(yùn)行模擬,看看系統(tǒng)在HBM 2e/3系統(tǒng)上的表現(xiàn)如何。
Rambus公司的Ferro表示:“在考慮整體系統(tǒng)效率時,HBM實(shí)現(xiàn)一直是一個挑戰(zhàn),因?yàn)槊娣e太小。面積小是件好事,但現(xiàn)在系統(tǒng)有了CPU或GPU,可能有4個或更多HBM DRAM。這意味著熱量、功耗、信號完整性、制造可靠性都是物理實(shí)現(xiàn)時必須解決的問題?!?/p>
為了從插入器和封裝設(shè)計(jì)中獲得最優(yōu)性能,即使在HBM2e,許多公司都努力通過插入器獲得良好的信號完整性。更復(fù)雜的是,每個代工廠對于這些插入器都有不同的設(shè)計(jì)規(guī)則,有些規(guī)則比其他的更具挑戰(zhàn)性。
結(jié)論
在可預(yù)見的未來,我們將繼續(xù)實(shí)現(xiàn)更高內(nèi)存帶寬,即將到來的HBM3有望開啟系統(tǒng)設(shè)計(jì)的一個新階段,將系統(tǒng)性能提升到一個新的水平。
為了實(shí)現(xiàn)這一點(diǎn),行業(yè)參與者必須繼續(xù)解決數(shù)據(jù)密集型SoC的設(shè)計(jì)和驗(yàn)證需求,以及最先進(jìn)協(xié)議(如HBM3)的驗(yàn)證解決方案。作為一個整體,這些解決方案應(yīng)該結(jié)合在一起,以允許對協(xié)議和時序檢查進(jìn)行規(guī)范性驗(yàn)證,保證設(shè)計(jì)可以得到充分驗(yàn)證。
原文鏈接:
https://semiengineering.com/hbm3s-impact-on-chip-design/
編輯:jq
-
芯片
+關(guān)注
關(guān)注
455文章
50812瀏覽量
423574 -
soc
+關(guān)注
關(guān)注
38文章
4165瀏覽量
218242 -
人工智能
+關(guān)注
關(guān)注
1791文章
47274瀏覽量
238464 -
HBM
+關(guān)注
關(guān)注
0文章
380瀏覽量
14755 -
HBM3
+關(guān)注
關(guān)注
0文章
74瀏覽量
154
原文標(biāo)題:HBM3來了!
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論