欧美六月七月丁香缴情,国产精品狼色在线观看视色

多芯片模塊（MCM）技術(shù)的應(yīng)用在半導(dǎo)體業(yè)界已經(jīng)不是什么新鮮事了，但隨著Chiplet、2.5D/3D封裝技術(shù)日趨火熱，MCM正在滲透進(jìn)更多的芯片設(shè)計(jì)中，無論是GPU、光模塊還是AI芯片，都在慢慢引入這類封裝技術(shù)。

MCM GPU成為趨勢

以去年AMD發(fā)布的首個(gè)MCM GPU Instinct MI250X為例，這款GPU集成了兩個(gè)GPU Chiplet和128GB的超大HBM2e內(nèi)存，在算力和帶寬上都做到了極致，實(shí)現(xiàn)了383TFLOPS（FP16）和3.2TB/s的可怕成績，無疑是專注AI的各大超算中心夢(mèng)寐以求的加速器了。同樣，英特爾也在其Ponte Vecchio GPU上采用了MCM。

Instinct MI250X GPU / AMD

雖然MCM已經(jīng)由AMD和英特爾兩家GPU廠商開始推進(jìn)了，但目前來看英偉達(dá)的動(dòng)作比較小，雖然有相關(guān)的研究，但還未拿出商用的MCM產(chǎn)品。不過以上都是面向HPC/AI市場的GPU，消費(fèi)級(jí)的GPU是否也會(huì)迎來MCM的GPU呢？據(jù)現(xiàn)在的傳聞，AMD極有可能在下一代RDNA3架構(gòu)的高端GPU中用上MCM。

但消費(fèi)級(jí)應(yīng)用與HPC/AI應(yīng)用又屬于截然不同的場景，后者使用多個(gè)GPU跑負(fù)載是很常見的情況。但消費(fèi)場景中多GPU已經(jīng)相當(dāng)少見了，在兼容性上肯定會(huì)大打折扣，所以邁出這一步很可能會(huì)帶來一定的風(fēng)險(xiǎn)。

IP公司眼中的MCM

MCM不僅為GPU公司帶來了更多設(shè)計(jì)靈活性，也讓一眾IP公司找到了新的商業(yè)模式。比如IP公司Credo就提供混合信號(hào)DSP IP，用于客戶的ASIC設(shè)計(jì)，以Chiplet的形式集成到SoC上，打造更低功耗更高性能的MCM。隨著數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)慢慢趨向于400G以上，芯片連接性的要求也在逐步升高。為此，Credo在去年底推出了全新的3.2Tbps BlueJay重定時(shí)器chiplet，通過64通道56Gbps PAM4 LR的DSP，提供了強(qiáng)大的系統(tǒng)級(jí)連接性。

BlueJay Chiplet / Credo

BlueJay雖然只是以臺(tái)積電28nm工藝打造，但保證了性能和功耗的要求，與其先進(jìn)工藝方案Nutcracker相比也降低了成本。此外，由于BlueJay與主機(jī)端MCM中SoC核心的通信是通過超低功耗的BoW D2D接口實(shí)現(xiàn)的，其接口已經(jīng)針對(duì)臺(tái)積電的CoWoS封裝技術(shù)做了優(yōu)化。這種將SerDes功能從片上（on-die）轉(zhuǎn)向片外（off-chip）的做法，顯著增加了ASIC的可使用面積，設(shè)計(jì)者可以將這一部分多出來的面積用于實(shí)現(xiàn)更高的計(jì)算性能。

AI在MCM上的創(chuàng)新

同樣，AI也在MCM上找到了新的解決方案。我們已經(jīng)看到了大的機(jī)器學(xué)習(xí)模型通過訓(xùn)練大數(shù)據(jù)在多個(gè)領(lǐng)域展示了驚人的成果，比如計(jì)算機(jī)視覺、語音識(shí)別和自然語言處理等。為了減少機(jī)器學(xué)習(xí)加速器的成本，業(yè)界引入了不少設(shè)計(jì)創(chuàng)新，其中之一就是MCM。

Coral TPU / 谷歌

英偉達(dá)的Simba，谷歌的TPU，都用到了MCM的設(shè)計(jì)。谷歌的Coral TPU是一個(gè)用于邊緣端的機(jī)器學(xué)習(xí)推理加速器，在極小的占用面積下可以實(shí)現(xiàn)4 TOPS（INT8）的峰值性能，能效比可達(dá)2 TOPS/W。英偉達(dá)的Simba同樣是一個(gè)用于推理的芯片，但規(guī)模比谷歌的Coral更大，整個(gè)MCM由36個(gè)Chiplet組成，每個(gè)都能實(shí)現(xiàn)4 TOPS的峰值性能，將整個(gè)芯片算力提升至最高128 TOPS，能效比更是高達(dá)6.1 TOPS/W。

一來在設(shè)計(jì)上，設(shè)計(jì)小芯片的難度比一整塊芯片要低，二來小芯片由于面積較小，生產(chǎn)良率也更高。這都證明了這種方案既可以減少設(shè)計(jì)和生產(chǎn)成本，也能達(dá)到與單個(gè)大芯片近似的性能與能效。

但正如我們上文提到的MCM GPU兼容問題一樣，機(jī)器學(xué)習(xí)中MCM也并非毫無痛點(diǎn)。由于MCM中單個(gè)Chiplet的內(nèi)存遠(yuǎn)比單個(gè)大芯片要小，所以大型機(jī)器學(xué)習(xí)模型的訓(xùn)練與推理都需要將矢量計(jì)算的數(shù)據(jù)流圖在Chiplet上進(jìn)行劃分。多芯片進(jìn)行劃分就是為了將運(yùn)算分配給Chiplet，從而將某個(gè)性能指標(biāo)最大化，比如說吞吐量。但與單芯片不一樣，MCM中小芯片的數(shù)量以及神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)量增加，都會(huì)讓搜索空間成指數(shù)級(jí)增長，從而降低效率，更不用說因?yàn)镸CM的硬件特性，可用的劃分方案并不多。所以這種劃分的質(zhì)量，直接影響到了MCM芯片設(shè)計(jì)的優(yōu)化。

為了解決這個(gè)問題，谷歌的研究員們開發(fā)了一種深度強(qiáng)化學(xué)習(xí)的劃分方案，同時(shí)利用一個(gè)約束求解器來專門解決MCM封裝的機(jī)器學(xué)習(xí)模型劃分問題。他們的方案可以通過預(yù)訓(xùn)練來普及到未知的輸入圖，通過對(duì)生產(chǎn)級(jí)BERT模型的硬件評(píng)估，他們得到了超過隨機(jī)搜索和模擬退火等現(xiàn)有方案5%以上的吞吐量。更重要的是，這種方案具備極佳的遷移學(xué)習(xí)性能，使用預(yù)訓(xùn)練的模型可以有效提升樣本效率，將搜索時(shí)間從3個(gè)小時(shí)減少到了9分鐘。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

芯片

芯片

+關(guān)注

關(guān)注
459

文章
52145

瀏覽量
435895
芯片設(shè)計(jì)

芯片設(shè)計(jì)

+關(guān)注

關(guān)注
15

文章
1062

瀏覽量
55455
MCM

MCM

+關(guān)注

關(guān)注
1

文章
68

瀏覽量
22548

搜索歷史

MCM正在潛移默化地改變芯片設(shè)計(jì)

評(píng)論

電子發(fā)燒友