蘋(píng)果公司發(fā)布的 M1 Ultra再次讓愛(ài)好者和分析師感到驚訝。因?yàn)檫@個(gè)芯片是 M1 Max 的一種變體,可以有效地將兩個(gè)芯片融合為一個(gè),讓雙芯片設(shè)計(jì)被軟件視為單個(gè)硅片。
Nvidia在2022 年 GPU 技術(shù)大會(huì)上發(fā)布了類(lèi)似的消息,該公司首席執(zhí)行官Jensen Huang宣布公司將把公司的兩個(gè)新 Grace CPU 處理器融合到一個(gè)“超級(jí)芯片”中。
這些公告針對(duì)不同的市場(chǎng)。
蘋(píng)果將目光投向了消費(fèi)者和專(zhuān)業(yè)工作站領(lǐng)域,而英偉達(dá)則打算在高性能計(jì)算領(lǐng)域展開(kāi)競(jìng)爭(zhēng)。然而,目的上的分歧只是突顯了迅速終結(jié)單片芯片設(shè)計(jì)時(shí)代的廣泛挑戰(zhàn)。
多芯片設(shè)計(jì)并不是什么新鮮事,但這個(gè)想法在過(guò)去五年中迅速流行起來(lái)。AMD、蘋(píng)果、英特爾和英偉達(dá)都不同程度地涉足。AMD通過(guò)其 EPYC 和 RYZEN 處理器追求小芯片設(shè)計(jì)。英特爾計(jì)劃效仿 Sapphire Rapids,這是一種即將推出的服務(wù)器市場(chǎng)架構(gòu),基于使用它稱(chēng)為“tile”的小芯片而構(gòu)建。現(xiàn)在,Apple 和 Nvidia 也加入了這一行列——盡管它們的設(shè)計(jì)針對(duì)的是截然不同的市場(chǎng)。
Nvidia 的 Grace CPU 超級(jí)芯片
現(xiàn)代芯片制造的挑戰(zhàn)推動(dòng)了向多芯片設(shè)計(jì)的轉(zhuǎn)變。晶體管的小型化已經(jīng)放緩,但前沿設(shè)計(jì)中晶體管數(shù)量的增長(zhǎng)并沒(méi)有放緩的跡象。
Apple 的 M1 Ultra 擁有 1140 億個(gè)晶體管,芯片面積(或制造面積)約為 860 平方毫米(M1 Ultra 的官方數(shù)據(jù)無(wú)法獲得,但單個(gè) M1 Max 芯片的芯片面積為 432 mm2)。
Nvidia 的 Grace CPU 的晶體管數(shù)量仍處于保密狀態(tài),但與 Grace CPU 一起宣布的 Hopper H100 GPU 包括 800 億個(gè)晶體管。從角度來(lái)看,AMD 2019 年發(fā)布的 64 核 EYPC Rome 處理器擁有 395 億個(gè)晶體管。
晶體管將這種高度推動(dòng)現(xiàn)代芯片生產(chǎn)推向了極致,使多芯片設(shè)計(jì)更具吸引力。Counterpoint 研究分析師Akshara Bassi表示:“多芯片模塊封裝使芯片廠商能夠在單片設(shè)計(jì)方面提供更好的功率效率和性能,因?yàn)樾酒穆闫叽缱兊酶蟛⑶揖A良率問(wèn)題變得更加突出?!?/p>
從市場(chǎng)現(xiàn)狀看來(lái),除了 Cerebras(一家試圖構(gòu)建跨越整個(gè)硅晶圓的芯片的初創(chuàng)公司)之外,芯片行業(yè)似乎一致認(rèn)為,單片設(shè)計(jì)正變得比它的價(jià)值更麻煩。
這種向小芯片的轉(zhuǎn)變是在制造商的支持下同步進(jìn)行的。臺(tái)積電是領(lǐng)先者,提供一套名為 3DFabric 的先進(jìn)封裝。AMD 在一些 EPYC 和 RYZEN 處理器設(shè)計(jì)中使用了屬于 3DFabric 的技術(shù),幾乎可以肯定,Apple 將其用于 M1 Ultra(Apple 尚未證實(shí)這一點(diǎn),但 M1 Ultra 由 TSMC 生產(chǎn))。英特爾有自己的封裝技術(shù),例如EMIB和Foveros。雖然最初是供英特爾自己使用的,但隨著英特爾代工服務(wù)公司的開(kāi)放,該公司的芯片制造技術(shù)正與更廣泛的行業(yè)相關(guān)聯(lián)。
“圍繞基礎(chǔ)半導(dǎo)體設(shè)計(jì)、制造和封裝的生態(tài)系統(tǒng)已經(jīng)發(fā)展到支持設(shè)計(jì)節(jié)點(diǎn)經(jīng)濟(jì)可靠地生產(chǎn)基于小芯片的解決方案的程度,” Hyperion Research 的高級(jí)分析師Mark Nossokoff在一封電子郵件中說(shuō)。“無(wú)縫集成各種小芯片功能的軟件設(shè)計(jì)工具也已經(jīng)成熟,可以?xún)?yōu)化目標(biāo)解決方案的性能。”
Chiplets 將繼續(xù)存在,但就目前而言,這是一個(gè)孤島世界。AMD、Apple、Intel 和 Nvidia 正在使用他們自己的互連設(shè)計(jì),用于特定的封裝技術(shù)。
Universal Chiplet Interconnection Express希望將行業(yè)聚集在一起。該開(kāi)放標(biāo)準(zhǔn)于 2022 年 3 月 2 日宣布,提供了一個(gè)針對(duì)“成本效益性能”的“標(biāo)準(zhǔn)”2D 包和一個(gè)針對(duì)前沿設(shè)計(jì)的“高級(jí)”封裝。UCIe 還支持通過(guò) PCIe 和 CXL 進(jìn)行封裝外連接,從而為在高性能計(jì)算環(huán)境中跨多臺(tái)機(jī)器連接多個(gè)芯片開(kāi)辟了潛力。
UCIe 白皮書(shū)中的 UCIe 封裝選項(xiàng)示例
UCIe 是一個(gè)開(kāi)始,但標(biāo)準(zhǔn)的未來(lái)還有待觀察。“最初的 UCIe 發(fā)起人的創(chuàng)始成員代表了眾多技術(shù)設(shè)計(jì)和制造領(lǐng)域的杰出貢獻(xiàn)者,包括 HPC 生態(tài)系統(tǒng),”Nossokoff 說(shuō),“但很有很多行業(yè)主要組織尚未加入,包括 Apple、 AWS、Broadcom、IBM、NVIDIA以及其他硅代工廠和內(nèi)存供應(yīng)商。”
Bassi 指出,英偉達(dá)可能特別不愿意參與。該公司已經(jīng)開(kāi)放了自己的用于定制硅集成的 NVLink-C2C 互連,使其成為 UCIe 的潛在競(jìng)爭(zhēng)對(duì)手。
但是,雖然 UCIe 和 NVLink-C2C 等互連的命運(yùn)將決定游戲規(guī)則,但它們不太可能改變正在玩的游戲。
Apple 的 M1 Ultra 可以被視為煤礦中的金絲雀。多芯片設(shè)計(jì)不再僅限于數(shù)據(jù)中心——它正在出現(xiàn)在您附近的家用計(jì)算機(jī)上。
3D芯片的三種方法
幾年來(lái),片上系統(tǒng)的開(kāi)發(fā)人員已經(jīng)開(kāi)始將他們?cè)絹?lái)越大的設(shè)計(jì)分解成更小的小芯片,并將它們?cè)谕粋€(gè)封裝內(nèi)鏈接在一起,以有效增加硅面積及其他優(yōu)勢(shì)。在 CPU 中,這些鏈接大多是所謂的 2.5D,其中小芯片彼此并排設(shè)置,并使用短而密集的互連連接。由于大多數(shù)主要制造商已就 2.5D 小芯片到小芯片通信標(biāo)準(zhǔn)達(dá)成一致,這種集成的勢(shì)頭可能只會(huì)增長(zhǎng)。
但是,要像在同一個(gè)芯片上一樣將真正大量的數(shù)據(jù)傳輸出去,您需要更短、更密集的連接,而這只能通過(guò)將一個(gè)芯片堆疊在另一個(gè)芯片上來(lái)實(shí)現(xiàn)。面對(duì)面連接兩個(gè)芯片可能意味著每平方毫米有數(shù)千個(gè)連接。
它需要大量的創(chuàng)新才能使其發(fā)揮作用。工程師必須弄清楚如何防止堆棧中一個(gè)芯片的熱量殺死另一個(gè)芯片,決定哪些功能應(yīng)該去哪里以及應(yīng)該如何制造,防止偶爾出現(xiàn)的壞小芯片導(dǎo)致大量昂貴的啞系統(tǒng),并處理隨之而來(lái)的是一次解決所有這些問(wèn)題的復(fù)雜性。
以下是三個(gè)示例,從相當(dāng)簡(jiǎn)單到令人困惑的復(fù)雜,展示了 3D 堆疊現(xiàn)在的位置:
AMD 的 Zen 3
AMD 的 3D V-Cache 技術(shù)將一個(gè) 64 兆字節(jié)的 SRAM 緩存 [紅色] 和兩個(gè)空白結(jié)構(gòu)小芯片連接到 Zen 3 計(jì)算小芯片上。
長(zhǎng)期以來(lái),PC 都提供了添加更多內(nèi)存的選項(xiàng),從而為超大型應(yīng)用程序和數(shù)據(jù)繁重的工作提供更快的速度。由于 3D 芯片堆疊,AMD 的下一代 CPU 小芯片也提供了該選項(xiàng)。當(dāng)然,這不是售后市場(chǎng)的附加組件,但如果您正在尋找具有更多魅力的計(jì)算機(jī),那么訂購(gòu)具有超大緩存內(nèi)存的處理器可能是您的選擇。
盡管Zen 2和新的Zen 3處理器內(nèi)核都使用相同的臺(tái)積電制造工藝制造——因此具有相同尺寸的晶體管、互連和其他一切——AMD 進(jìn)行了如此多的架構(gòu)改動(dòng),這讓他們即使沒(méi)有額外的高速緩存的前提下,Zen 3也能平均提供 19% 的性能提升。其中一個(gè)架構(gòu)瑰寶是包含一組硅通孔 (TSV),垂直互連直接穿過(guò)大部分硅。TSV 構(gòu)建在 Zen 3 的最高級(jí)別緩存中,即稱(chēng)為 L3 的 SRAM 塊,它位于計(jì)算小芯片的中間,并在其所有八個(gè)內(nèi)核之間共享。
在用于數(shù)據(jù)繁重工作負(fù)載的處理器中,Zen 3 晶圓的背面被減薄,直到 TSV 暴露出來(lái)。然后使用所謂的混合鍵合將一個(gè) 64 兆字節(jié)的 SRAM 小芯片鍵合到那些暴露的 TSV 上——這一過(guò)程類(lèi)似于將銅冷焊在一起。結(jié)果是一組密集的連接可以緊密到 9 微米。最后,為了結(jié)構(gòu)穩(wěn)定性和熱傳導(dǎo),附加空白硅芯片以覆蓋 Zen 3 CPU 芯片的其余部分。
通過(guò)將額外的內(nèi)存設(shè)置在 CPU 芯片旁邊來(lái)添加額外的內(nèi)存不是一種選擇,因?yàn)閿?shù)據(jù)需要很長(zhǎng)時(shí)間才能到達(dá)處理器內(nèi)核。“盡管 L3 [緩存] 大小增加了三倍,但 3D V-Cache 僅增加了四個(gè) [時(shí)鐘] 周期的延遲——這只能通過(guò) 3D 堆疊來(lái)實(shí)現(xiàn),” AMD 高級(jí)設(shè)計(jì)工程師 John Wuu表示。
更大的緩存在高端游戲中占有一席之地。使用臺(tái)式機(jī)銳龍 CPU 和 3D V-Cache 可將 1080p 的游戲速度平均提高 15%。它也適用于更嚴(yán)肅的工作,將困難的半導(dǎo)體設(shè)計(jì)計(jì)算的運(yùn)行時(shí)間縮短了 66%。
Wuu 指出,與縮小邏輯的能力相比,業(yè)界縮小 SRAM 的能力正在放緩。因此,您可以預(yù)期未來(lái)的 SRAM 擴(kuò)展包將繼續(xù)使用更成熟的制造工藝制造,而計(jì)算芯片則被推向摩爾定律的前沿。
Graphcore 的 Bow AI 處理器
Graphcore Bow AI 加速器使用 3D 芯片堆疊將性能提升 40%。
即使堆棧中的一個(gè)芯片上沒(méi)有單個(gè)晶體管,3D 集成也可以加快計(jì)算速度。總部位于英國(guó)的 AI 計(jì)算機(jī)公司Graphcore僅通過(guò)在其 AI 處理器上安裝供電芯片,就大幅提高了其系統(tǒng)性能。添加供電硅意味著名為 Bow 的組合芯片可以運(yùn)行得更快(1.85 GHz 與 1.35 GHz 相比),并且電壓低于其前身。與上一代相比,這意味著計(jì)算機(jī)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的速度提高了 40%,能耗降低了 16%。重要的是,用戶(hù)無(wú)需更改其軟件即可獲得這種改進(jìn)。
電源管理芯片由電容器和硅通孔組合而成。后者只是為處理器芯片提供電力和數(shù)據(jù)。真正與眾不同的是電容器。與 DRAM 中的位存儲(chǔ)組件一樣,這些電容器形成在硅中又深又窄的溝槽中。由于這些電荷儲(chǔ)存器非常靠近處理器的晶體管,因此功率傳輸變得平滑,從而使處理器內(nèi)核能夠在較低電壓下更快地運(yùn)行。如果沒(méi)有供電芯片,處理器必須將其工作電壓提高到高于其標(biāo)稱(chēng)水平才能在 1.85 GHz 下工作,從而消耗更多的功率。使用電源芯片,它也可以達(dá)到該時(shí)鐘頻率并消耗更少的功率。
用于制造BoW的制造工藝是獨(dú)一無(wú)二的,但不太可能保持這種狀態(tài)。大多數(shù) 3D 堆疊是通過(guò)將一個(gè)小芯片粘合到另一個(gè)小芯片上來(lái)完成的,而其中一個(gè)仍然在晶圓上,稱(chēng)為晶圓上芯片 [參見(jiàn)上面的“AMD 的 Zen 3”]。相反,Bow 使用了臺(tái)積電的晶圓對(duì)晶圓,其中一種類(lèi)型的整個(gè)晶圓與另一種類(lèi)型的整個(gè)晶圓鍵合,然后切割成芯片。Graphcore 首席技術(shù)官Simon Knowles表示,這是市場(chǎng)上第一款使用該技術(shù)的芯片,它使兩個(gè)裸片之間的連接密度高于使用晶圓上芯片工藝所能達(dá)到的密度。
盡管供電小芯片沒(méi)有晶體管,但它們可能會(huì)出現(xiàn)。Knowles 說(shuō),僅將這項(xiàng)技術(shù)用于供電“對(duì)我們來(lái)說(shuō)只是第一步”。“在不久的將來(lái),它會(huì)走得更遠(yuǎn)?!?/p>
英特爾的 Ponte Vecchio 超級(jí)計(jì)算機(jī)芯片
英特爾的 Ponte Vecchio 處理器將 47 個(gè)小芯片集成到一個(gè)處理器中。
Aurora 超級(jí)計(jì)算機(jī)旨在成為 美國(guó) 首批突破 exaflop障礙的高性能計(jì)算機(jī) (HPC)之一——每秒進(jìn)行 10 億次高精度浮點(diǎn)計(jì)算。為了讓 Aurora 達(dá)到這些高度,英特爾的 Ponte Vecchio 將 47 塊硅片上的超過(guò) 1000 億個(gè)晶體管封裝到一個(gè)處理器中。英特爾同時(shí)使用 2.5D 和 3D 技術(shù),將 3,100 平方毫米的硅片(幾乎等于四個(gè)Nvidia A100 GPU )壓縮成 2,330 平方毫米的占地面積。
英特爾研究員 Wilfred Gomes告訴參加IEEE 國(guó)際固態(tài)電路會(huì)議的工程師,該處理器將英特爾的 2D 和 3D 小芯片集成技術(shù)推向了極限。
每個(gè) Ponte Vecchio 都是使用英特爾 2.5D 集成技術(shù) Co-EMIB 捆綁在一起的兩個(gè) 鏡像小芯片集。Co-EMIB 在兩個(gè) 3D 小芯片堆棧之間形成高密度互連的橋梁。橋本身是嵌入封裝有機(jī)基板中的一小塊硅。硅上的互連線的密度可以是有機(jī)襯底上的兩倍。
Co-EMIB 管芯還將高帶寬內(nèi)存和 I/O 小芯片連接到“基礎(chǔ)塊”,這是堆疊其余部分的最大小芯片。
基礎(chǔ)tile使用英特爾的 3D 堆疊技術(shù),稱(chēng)為 Foveros,在其上堆疊計(jì)算和緩存小芯片。該技術(shù)在兩個(gè)芯片之間建立了密集的芯片到芯片垂直連接陣列。這些連接可以是 36 微米,除了短銅柱和焊料微凸塊。信號(hào)和電源通過(guò)硅通孔進(jìn)入這個(gè)堆棧 ,相當(dāng)寬的垂直互連直接穿過(guò)大部分硅。
八個(gè)計(jì)算tile、四個(gè)緩存tile和八個(gè)用于從處理器散熱的空白“熱”tile都連接到基礎(chǔ)tile?;A(chǔ)本身提供緩存內(nèi)存和允許任何計(jì)算塊訪問(wèn)任何內(nèi)存的網(wǎng)絡(luò)。
不用說(shuō),這一切都不容易。Gomes 說(shuō),它在良率管理、時(shí)鐘電路、熱調(diào)節(jié)和功率傳輸方面進(jìn)行了創(chuàng)新。例如,英特爾工程師選擇為處理器提供高于正常電壓(1.8 伏)的電壓,以便電流足夠低以簡(jiǎn)化封裝?;A(chǔ)塊中的電路將電壓降低到接近 0.7 V 以用于計(jì)算塊,并且每個(gè)計(jì)算塊必須在基礎(chǔ)塊中有自己的電源域。這種能力的關(guān)鍵是新型高效電感器,稱(chēng)為同軸磁性集成電感器。因?yàn)檫@些都內(nèi)置在封裝基板中,所以在向計(jì)算塊提供電壓之前,電路實(shí)際上在基礎(chǔ)塊和封裝之間來(lái)回蜿蜒。
Gomes 說(shuō),從 2008 年的第一臺(tái) petaflop 超級(jí)計(jì)算機(jī)到今年的 exaflops機(jī)器, 用了整整 14 年。Gomes 告訴工程師,但高級(jí)封裝(如 3D 堆疊)是可以幫助將下一個(gè)千倍計(jì)算改進(jìn)縮短到僅六年的技術(shù)之一。
原文鏈接:
https://spectrum.ieee.org/single-chip-processors-have-reached-their-limits
https://spectrum.ieee.org/amd-3d-stacking-intel-graphcore
-
cpu
+關(guān)注
關(guān)注
68文章
10889瀏覽量
212386 -
晶體管
+關(guān)注
關(guān)注
77文章
9711瀏覽量
138592 -
電源管理芯片
+關(guān)注
關(guān)注
21文章
734瀏覽量
52766
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論