制程微縮帶來(lái)的收益遞減,再加上普遍的連通性和數(shù)據(jù)的指數(shù)級(jí)增長(zhǎng),行業(yè)正在推動(dòng)芯片設(shè)計(jì)方式、預(yù)期功能以及完成速度的廣泛變化。
過(guò)去,性能、功率和成本之間的權(quán)衡主要由大型 OEM 在行業(yè)范圍的擴(kuò)展路線圖范圍內(nèi)定義。芯片制造商設(shè)計(jì)芯片以滿足這些 OEM 提出的狹窄規(guī)格。但隨著摩爾定律的放緩,以及隨著越來(lái)越多的傳感器和電子設(shè)備在各處生成更多數(shù)據(jù),設(shè)計(jì)目標(biāo)和實(shí)現(xiàn)這些目標(biāo)的手段正在發(fā)生變化。一些最大的系統(tǒng)公司已經(jīng)在內(nèi)部進(jìn)行芯片設(shè)計(jì),以專(zhuān)注于特定的數(shù)據(jù)類(lèi)型和用例。與此同時(shí),傳統(tǒng)芯片制造商正在創(chuàng)建靈活的架構(gòu),這些架構(gòu)可以重復(fù)使用并輕松修改以用于更廣泛的應(yīng)用。
在這種新的設(shè)計(jì)方案中,需要處理數(shù)據(jù)的速度和結(jié)果的準(zhǔn)確性可能會(huì)有很大差異。根據(jù)具體情況——例如,它是否將用于安全或任務(wù)關(guān)鍵型應(yīng)用,或者它是否靠近可能產(chǎn)生熱量或噪音的其他組件——架構(gòu)師可以權(quán)衡原始性能、每瓦性能和總擁有成本,包括可靠性和安全性。這反過(guò)來(lái)又決定了封裝的類(lèi)型、內(nèi)存、布局以及需要多少冗余。它還增加了新的關(guān)注點(diǎn),例如跨系統(tǒng)的時(shí)鐘同步、封裝中組件的不同老化率,以及由于行業(yè)對(duì)各個(gè)部分如何組合在一起以及可能出現(xiàn)的問(wèn)題的了解不足而產(chǎn)生的未知數(shù)。
隨著這些設(shè)計(jì)的推出,出現(xiàn)了一些用于定制的創(chuàng)新方法,以及一些一致的主題。
在最近的 Hot Chips 34 大會(huì)上,NVIDIA 高級(jí)首席工程師 Jack Choquette 預(yù)覽了該公司新的 800 億晶體管 GPU 芯片。新架構(gòu)考慮了空間局部性,允許來(lái)自不同位置的數(shù)據(jù)由可用的處理元素處理,以及時(shí)間局部性,其中多個(gè)內(nèi)核可以對(duì)數(shù)據(jù)進(jìn)行操作。目標(biāo)是允許更多的塊對(duì)數(shù)據(jù)片段進(jìn)行同步或異步操作,以提高效率和速度。這與現(xiàn)有方法形成對(duì)比,在現(xiàn)有方法中,所有線程都必須等待其他數(shù)據(jù)在處理開(kāi)始之前到達(dá)。
圖 1:線程塊集群,允許在相鄰的多處理器上共同調(diào)度一些處理。資料來(lái)源:NVIDIA/Hot Chips 34
AMD 高級(jí)研究員 Alan Smith 在會(huì)議上同樣介紹了“workload-optimized compute architecture”。在 AMD 的設(shè)計(jì)中,為數(shù)據(jù)轉(zhuǎn)發(fā)和重用加寬了數(shù)據(jù)路徑。與 NVIDIA 的架構(gòu)一樣,其目標(biāo)是消除數(shù)據(jù)路徑的瓶頸、簡(jiǎn)化操作并提高各種計(jì)算元素的利用率。為了提高性能,AMD 不再需要不斷復(fù)制來(lái)備份內(nèi)存,從而顯著減少了數(shù)據(jù)移動(dòng)。
AMD 的新 Instinct 芯片包括一個(gè)靈活的高速 I/O 和一個(gè)連接各種計(jì)算元件的 2.5D elevated bridge。High-speed bridges則由英特爾首次通過(guò)其嵌入式多芯片互連橋接器 (EMIB) 商業(yè)化推出,用于使兩個(gè)或多個(gè)芯片充當(dāng)一個(gè)芯片。Apple 使用了這種方法,橋接了兩個(gè)基于 Arm 的 M1 SoC 來(lái)創(chuàng)建其 M1 Ultra 芯片。
圖 2:AMD 的帶有扇出橋的多芯片方法。
資料來(lái)源:AMD/熱芯片
所有這些架構(gòu)都比以前的版本更靈活,chiplet/tile 方法為大型芯片制造商提供了一種定制芯片的方式,同時(shí)仍為廣泛的客戶群提供服務(wù)。與此同時(shí),谷歌、Meta 和阿里巴巴等系統(tǒng)公司更進(jìn)一步,從頭開(kāi)始設(shè)計(jì)芯片,專(zhuān)門(mén)針對(duì)其數(shù)據(jù)類(lèi)型和處理目標(biāo)進(jìn)行調(diào)整。
特斯拉的數(shù)據(jù)中心芯片架構(gòu)就是一個(gè)很好的例子?!霸?a target="_blank">人工智能革命的早期階段,計(jì)算需求大致符合摩爾定律,”特斯拉低壓和硅工程副總裁Peter Bannon在最近的臺(tái)積電技術(shù)研討會(huì)上發(fā)表演講時(shí)說(shuō)。“但在過(guò)去五年中,軌跡發(fā)生了明顯變化,計(jì)算需求每三四個(gè)月翻一番,因?yàn)槿藗円呀?jīng)弄清楚如何訓(xùn)練越來(lái)越大的模型,從而繼續(xù)提供越來(lái)越好的結(jié)果?!?/p>
Peter Bannon說(shuō),特斯拉設(shè)計(jì)團(tuán)隊(duì)設(shè)定了擴(kuò)大規(guī)模的目標(biāo),“對(duì)機(jī)器的尺寸沒(méi)有實(shí)際限制”?!爱?dāng)時(shí)的想法是,‘如果機(jī)器對(duì)于特定型號(hào)來(lái)說(shuō)不夠大,我們就會(huì)把機(jī)器做大。’ 我們希望能夠利用多個(gè)級(jí)別的并行性——訓(xùn)練級(jí)別的數(shù)據(jù)和模型級(jí)別的并行性,以及訓(xùn)練卷積和矩陣乘法時(shí)正在執(zhí)行的固有操作中的并行性。我們希望它是一個(gè)完全可編程且靈活的硬件?!?/p>
不同之處
ASIC 一直是定制的,但在每個(gè)新的工藝節(jié)點(diǎn),成本都在上升,以至于只有智能手機(jī)或 PC 等最大量的應(yīng)用程序才足以收回設(shè)計(jì)和制造成本。越來(lái)越多的系統(tǒng)公司通過(guò)使用他們內(nèi)部設(shè)計(jì)的芯片來(lái)吸收不斷上漲的成本,并且他們希望將這些定制架構(gòu)擴(kuò)展到更長(zhǎng)的時(shí)間。
為了從這些設(shè)計(jì)中榨取更高的每瓦性能,他們還在針對(duì)特定軟件功能優(yōu)化芯片,以及軟件如何利用硬件——這是一個(gè)復(fù)雜且經(jīng)常迭代的過(guò)程,需要通過(guò)定期軟件更新進(jìn)行持續(xù)微調(diào)。例如,在數(shù)據(jù)中心的情況下,這些芯片可以提高每瓦性能并降低運(yùn)行溫度,從而降低服務(wù)器機(jī)架供電和冷卻的電力成本。
還有其他考慮因素。其中:預(yù)計(jì)更多設(shè)備將作為多芯片或多設(shè)備系統(tǒng)的一部分,通常包括 AI/ML 的元素。
為了節(jié)省功耗和成本,設(shè)計(jì)團(tuán)隊(duì)根據(jù)應(yīng)用優(yōu)先考慮不同的功能,然后根據(jù)特定的設(shè)計(jì)目標(biāo)將多個(gè)芯片封裝在一起或劃分單個(gè) SoC。
隨著越來(lái)越多的芯片制造商采用小芯片方法,他們需要考慮混合使用關(guān)鍵和非關(guān)鍵數(shù)據(jù)路徑。這涉及從噪聲考慮到封裝中的芯片移位、由于這些封裝中不同材料導(dǎo)致的熱膨脹系數(shù)以及組件本身的工藝變化等方方面面。盡管 Arm、Synopsys(ARC 處理器)等公司以及越來(lái)越多的一些 RISC-V 供應(yīng)商對(duì)他們的 IP 進(jìn)行了徹底的工作,但極端案例和潛在交互的數(shù)量正在增加。
所有這些都使設(shè)計(jì)、驗(yàn)證和調(diào)試過(guò)程變得更加困難,并且如果數(shù)量和對(duì)異常可能出現(xiàn)的位置的了解不足,就會(huì)在制造中產(chǎn)生問(wèn)題。這就解釋了為什么越來(lái)越多的 EDA、IP、測(cè)試/分析和安全公司開(kāi)始提供服務(wù)來(lái)補(bǔ)充內(nèi)部設(shè)計(jì)團(tuán)隊(duì)的工作。
瑞薩電子執(zhí)行副總裁 Sailesh Chittipeddi 表示:“不再需要設(shè)計(jì)一個(gè) CPU 來(lái)為每個(gè)工作負(fù)載執(zhí)行 x、y 和 z 函數(shù),而無(wú)需考慮開(kāi)銷(xiāo)?!薄斑@就是為什么所有這些公司現(xiàn)在都變得更加垂直化。他們正在推動(dòng)他們需要的解決方案。這包括系統(tǒng)級(jí)別的人工智能。它包括電氣和機(jī)械特性之間的相互作用,直至您放置特定連接器的位置。它還推動(dòng)更多 CAD 公司涉足系統(tǒng)級(jí)支持和系統(tǒng)級(jí)設(shè)計(jì)?!?/p>
這種轉(zhuǎn)變正在越來(lái)越多的垂直市場(chǎng)中發(fā)生,從手機(jī)和汽車(chē)到工業(yè)應(yīng)用,隨著芯片制造商希望將其硬件定位于廣泛的新市場(chǎng),它正在推動(dòng)一波遠(yuǎn)低于雷達(dá)的小型收購(gòu)浪潮。例如,瑞薩在 6 月收購(gòu) Reality Analytics 的目的是為各種工業(yè)細(xì)分市場(chǎng)創(chuàng)建 AI 模型。
“這項(xiàng)技術(shù)可用于觀察系統(tǒng)中的振動(dòng)并預(yù)測(cè)特定部件何時(shí)會(huì)發(fā)生故障,”Chittipeddi 說(shuō)?!袄纾绻憧纯床傻V業(yè),如果鉆頭斷裂,可能會(huì)導(dǎo)致嚴(yán)重的問(wèn)題。我們可以將這些模型導(dǎo)入我們的 MCU,用于控制這些系統(tǒng)?!?/p>
誰(shuí)做什么
然而,特定領(lǐng)域的解決方案加大了 EDA 公司的壓力,要求他們找出可以自動(dòng)化的共性。使用在單個(gè)工藝節(jié)點(diǎn)開(kāi)發(fā)的平面芯片要容易得多。但隨著越來(lái)越多的市場(chǎng)實(shí)現(xiàn)數(shù)字化——無(wú)論是汽車(chē)、工業(yè)、軍事/航空、商業(yè)還是消費(fèi)者——他們的目標(biāo)正變得越來(lái)越不同。
隨著在不同工藝節(jié)點(diǎn)開(kāi)發(fā)的小芯片是為定制封裝開(kāi)發(fā)的,這種差異預(yù)計(jì)只會(huì)增加,定制封裝可能基于從扇出支柱到完整 3D-IC 實(shí)現(xiàn)的所有內(nèi)容。在某些情況下,甚至可能有 2.5D 和 3D-IC 的組合,西門(mén)子 EDA 已將其標(biāo)記為 5.5D。
對(duì)于 EDA 和 IP 公司來(lái)說(shuō),好消息是這顯著增加了對(duì)仿真、仿真、原型設(shè)計(jì)和建模的需求。大型系統(tǒng)供應(yīng)商也一直在向 EDA 供應(yīng)商施壓,以使更多系統(tǒng)公司的設(shè)計(jì)流程自動(dòng)化,但沒(méi)有足夠的數(shù)量來(lái)保證這種投資。取而代之的是,系統(tǒng)公司已經(jīng)與 EDA 和 IP 公司聯(lián)系以提供專(zhuān)家服務(wù),從交易關(guān)系轉(zhuǎn)變?yōu)楦钊氲暮献骰锇殛P(guān)系,并讓 EDA 公司更深入地了解各種工具的使用方式以及在哪里使用可以孕育新機(jī)會(huì)的漏洞。
是德科技副總裁兼設(shè)計(jì)與仿真部總經(jīng)理 Niels Faché 表示:“許多新參與者的垂直整合程度更高,因此他們?cè)趦?nèi)部做的更多。”“人們對(duì)系統(tǒng)級(jí)仿真的興趣要大得多,而且公司內(nèi)部和公司之間對(duì)協(xié)作工作流的需求也在不斷增長(zhǎng)。我們還看到更多的設(shè)計(jì)迭代。所以你有一個(gè)開(kāi)發(fā)團(tuán)隊(duì),一個(gè)質(zhì)量團(tuán)隊(duì),并且你不斷地更新設(shè)計(jì)?!?/p>
對(duì)于為 OEM 設(shè)計(jì)芯片的芯片公司來(lái)說(shuō),這只是挑戰(zhàn)的一部分?!叭绻憧匆幌缕?chē)市場(chǎng),就會(huì)發(fā)現(xiàn)設(shè)計(jì)芯片組已經(jīng)不再是按要求設(shè)計(jì)了,”Faché 說(shuō)?!霸诔跏茧A段,芯片公司可能會(huì)使用該軟件構(gòu)建參考設(shè)計(jì),并根據(jù)其使用方式進(jìn)行設(shè)置。然后,OEM 將尋求優(yōu)化。這樣做是將合作推向傳統(tǒng)的食物鏈。例如,如果您正在開(kāi)發(fā)雷達(dá)芯片,那么它不僅僅是一個(gè)雷達(dá)子系統(tǒng)。它是更大技術(shù)堆棧背景下的雷達(dá)?!?/p>
該堆??赡馨?a href="http://www.wenjunhu.com/v/tag/105/" target="_blank">射頻封裝、天線和接收器,而 OEM 使用 EDA 構(gòu)建無(wú)線電。
特定應(yīng)用與通用
設(shè)計(jì)團(tuán)隊(duì)面臨的一個(gè)巨大挑戰(zhàn)是更多的設(shè)計(jì)變得前置。不僅僅是創(chuàng)建芯片架構(gòu),然后在設(shè)計(jì)過(guò)程中解決細(xì)節(jié),更多的問(wèn)題需要在架構(gòu)級(jí)別解決。
Siemens Digital Industries Software執(zhí)行副總裁 Joe Sawicki 表示:“曾經(jīng)有一次芯片公司出貨的芯片耗電量過(guò)多,而 OEM 對(duì)此并不滿意?!薄暗悴粫?huì)知道僅僅運(yùn)行應(yīng)用程序。人工智能使這個(gè)問(wèn)題變得更大,因?yàn)樗粌H僅是軟件的問(wèn)題?,F(xiàn)在,您可以在其上運(yùn)行所有這些推理。如果您不關(guān)心延遲,您可以在云中放置一個(gè)通用芯片,您只需與云通信并取回?cái)?shù)據(jù)即可。但是,如果你有實(shí)時(shí)的東西,它需要立即響應(yīng),你就無(wú)法承受這種延遲并且你想要低功耗。所以,至少對(duì)于加速器,你想要定制設(shè)計(jì)?!?/p>
Synopsys的產(chǎn)品營(yíng)銷(xiāo)經(jīng)理 Gordon Cooper表示同意?!叭绻阍谑褂萌斯ぶ悄?,是 100% 的時(shí)間都在使用它,還是很高興擁有它?如果我只想說(shuō)我的芯片上有人工智能,也許我只需要使用 DSP 來(lái)做人工智能,”他說(shuō)。“有一個(gè)權(quán)衡,這取決于上下文。如果你想要 100% 的時(shí)間完全成熟的 AI,也許你需要添加外部 IP 或額外的 IP?!?/p>
人工智能面臨的一大挑戰(zhàn)是讓設(shè)備保持最新狀態(tài),因?yàn)?a href="http://www.wenjunhu.com/v/tag/2562/" target="_blank">算法會(huì)不斷更新。如果設(shè)計(jì)是一次性的并且所有內(nèi)容都針對(duì)一種或多種算法進(jìn)行了優(yōu)化,這將變得更加困難。因此,雖然架構(gòu)需要在性能方面具有可擴(kuò)展性,但它們也需要隨著時(shí)間的推移以及系統(tǒng)中其他組件的上下文而具有可擴(kuò)展性。
軟件更新會(huì)對(duì)時(shí)鐘造成嚴(yán)重破壞。Movellus首席執(zhí)行官 Mo Faisal在 2022 年人工智能硬件峰會(huì)上的一次演講中表示:“你對(duì)芯片同步質(zhì)量所做的任何事情都會(huì)影響延遲、性能、功耗和上市時(shí)間?!痹絹?lái)越大的芯片 - 標(biāo)線大小的芯片 - 您可以?xún)?yōu)化內(nèi)核并確保它與軟件很好地配合。這是矩陣乘法、圖形計(jì)算,你并行投入的核心越多越好。然而,這些芯片現(xiàn)在正面臨挑戰(zhàn)。以前,這對(duì)英特爾和 AMD 的一兩個(gè)團(tuán)隊(duì)來(lái)說(shuō)是個(gè)問(wèn)題,現(xiàn)在這是每個(gè)人的問(wèn)題。”
保持一切同步正在成為一個(gè)過(guò)程,而不是一個(gè)單一的功能?!澳憧赡苡胁煌墓ぷ髁浚盕aisal說(shuō)?!耙虼?,您可能只想為一個(gè)工作負(fù)載使用 50 個(gè)內(nèi)核,而對(duì)于下一個(gè)工作負(fù)載,您希望使用 500 個(gè)內(nèi)核。但是當(dāng)你打開(kāi)接下來(lái)的 500 個(gè)內(nèi)核時(shí),你最終會(huì)給電網(wǎng)施加壓力并導(dǎo)致下降?!?/p>
同時(shí)開(kāi)關(guān)噪聲也存在問(wèn)題。在過(guò)去,其中一些問(wèn)題可以通過(guò)冗余來(lái)解決。但在先進(jìn)節(jié)點(diǎn)上,該裕量增加了將電子移動(dòng)通過(guò)非常細(xì)的導(dǎo)線所需的時(shí)間和能量,這反過(guò)來(lái)又會(huì)產(chǎn)生電阻并增加熱耗散。因此,每個(gè)新節(jié)點(diǎn)的權(quán)衡變得更加復(fù)雜,并且包中不同組件之間的交互是相加的。
“如果你看一下 5G,這對(duì)汽車(chē)來(lái)說(shuō)意味著與數(shù)據(jù)中心或消費(fèi)者不同的東西,” Cadence產(chǎn)品營(yíng)銷(xiāo)集團(tuán)總監(jiān) Frank Schirrmeister在接受采訪時(shí)說(shuō)?!八鼈兌加胁煌难舆t吞吐量。人工智能/機(jī)器學(xué)習(xí)也是如此。這取決于域。然后,因?yàn)橐磺卸际浅B接的,它不僅在一個(gè)域內(nèi)。所以它本質(zhì)上需要同一芯片的許多變體,這就是異構(gòu)集成變得有趣的地方。SoC 的整體解體派上用場(chǎng)了,因?yàn)槟梢愿鶕?jù) binning 之類(lèi)的內(nèi)容執(zhí)行不同的性能級(jí)別。但它本身不再是一種設(shè)計(jì),因?yàn)槟承┮?guī)則不再適用?!?/p>
結(jié)論
整個(gè)芯片設(shè)計(jì)生態(tài)系統(tǒng)都在不斷變化,并且一直延伸到軟件。過(guò)去,設(shè)計(jì)團(tuán)隊(duì)可以確保以高抽象級(jí)別編寫(xiě)的軟件可以運(yùn)行良好,并且在每個(gè)新節(jié)點(diǎn)的引入都會(huì)有定期的改進(jìn)。但是隨著規(guī)模下降的好處以及隨后需要更快處理的數(shù)據(jù)的增加,現(xiàn)在每個(gè)人都必須更加努力地工作——他們必須與他們?cè)谶^(guò)去的。
至少就功耗和性能而言,最好的前進(jìn)方式是使用定制或半定制架構(gòu)為特定目的設(shè)計(jì)芯片。但這會(huì)產(chǎn)生一系列問(wèn)題,而這些問(wèn)題需要時(shí)間來(lái)解決。用于 2.5D 和 3D 設(shè)計(jì)的工具剛剛開(kāi)始推出,芯片制造商正在整理計(jì)劃,以使它們變得非常具體,或者足夠通用,以便能夠在多個(gè)設(shè)計(jì)中利用其架構(gòu)。無(wú)論哪種方式,每個(gè)學(xué)科的工程師都需要開(kāi)始超越他們的關(guān)注領(lǐng)域,轉(zhuǎn)向芯片系統(tǒng)和系統(tǒng)系統(tǒng)。
未來(lái)是光明的,但也更具挑戰(zhàn)性。
編輯:黃飛
?
評(píng)論
查看更多