亚洲AⅤ优女AV综合久久久,99国际视频在线观看网站免费,九九久RE8在线精品视频

Cerebras以設(shè)計(jì)晶圓級(jí)別的芯片聞名，CS-2由世界最大芯片Cerebras WSE-2處理器提供動(dòng)力（WSE-2將2.6萬(wàn)億個(gè)晶體管和85萬(wàn)個(gè)內(nèi)核裝在一塊餐盤大小的晶圓上）。

在 SC22 上，Cerebras 展示了我們很少看到的東西，即其 CS-2 計(jì)算平臺(tái)的核心，即引擎塊。就此而言，我們不僅僅指的是我們之前多次看到的該公司的巨型 WSE-2 芯片。相反，是圍繞著一個(gè)巨大芯片的東西讓它運(yùn)轉(zhuǎn)起來(lái)。

當(dāng)我們討論 Cerebras 產(chǎn)品時(shí)，我們要么討論兩種觀點(diǎn)中的一種。第一個(gè)是該公司銷售的 CS-2 系統(tǒng)。

我們通常討論 Cerebras 產(chǎn)品的第二種方式是根據(jù)其巨大的芯片或其 Wafer-Scale Engine-2。

盡管如此，從一個(gè)巨大的人工智能芯片到一個(gè)系統(tǒng)并不是一件容易的事。這就是在 SC22 上展示的內(nèi)容。

在展會(huì)上，該公司展示了看起來(lái)像一堆金屬的東西，上面有一些 PCB 伸出來(lái)。該公司稱其為發(fā)動(dòng)機(jī)缸體。在我們之前與 Cerebras 的討論中，這是一項(xiàng)巨大的工程壯舉。弄清楚如何封裝、供電和冷卻這個(gè)巨大的芯片是一項(xiàng)關(guān)鍵的工程挑戰(zhàn)。讓代工廠制造特殊晶圓是一回事。讓晶圓開(kāi)啟而不是過(guò)熱并做有用的工作是另一回事。

當(dāng)我們談?wù)摲?wù)器由于密度而不得不轉(zhuǎn)向液體冷卻時(shí)，我們談?wù)摰氖?2kW/U 服務(wù)器或者可能是帶有 8x 800W 或 8x 1kW 部件的加速器托盤。對(duì)于 WSE/WSE-2，所有的電力和冷卻都需要輸送到一個(gè)大晶圓上，這意味著即使是不同材料的熱膨脹率等因素也很重要。另一個(gè)含義是該組件上的幾乎所有部件都采用液冷方式。

我們的一些讀者可能會(huì)在底板上的配件上看到文字。這是配件上的 Koolance 標(biāo)簽，供有興趣的人使用。）

最上面一排木板非常密集。展位上的 Cerebras 代表告訴我，這些是有意義的電源，因?yàn)槲覀兛吹剿鼈兊?a target="_blank">連接器密度相對(duì)較低。

在 SC22 上展示 CS-2 發(fā)動(dòng)機(jī)缸體的方式對(duì)某些人來(lái)說(shuō)可能看起來(lái)很奇怪。這就是發(fā)動(dòng)機(jī)缸體位于系統(tǒng)后部的方式（CS-2 是“后置發(fā)動(dòng)機(jī)超級(jí)計(jì)算機(jī)”？）：

這個(gè)用整塊晶圓做的芯片，性能超乎想象

Cerebras Systems 及其晶圓級(jí)硬件由于其完全非傳統(tǒng)的制造方法在業(yè)界引起了轟動(dòng)。他們沒(méi)有像 AI 中的所有其他參與者一樣構(gòu)建一個(gè)專用于機(jī)器學(xué)習(xí)的大芯片，而是瞄準(zhǔn)了一個(gè)完全不同的擴(kuò)展途徑。他們奉行將整個(gè)晶圓制成單個(gè)芯片的策略。該硬件已顯示出令人驚訝的多功能性，甚至在其他高性能計(jì)算應(yīng)用程序中也取得了突破性進(jìn)展。

這是由一個(gè)簡(jiǎn)單的觀察結(jié)果驅(qū)動(dòng)的，即摩爾定律已經(jīng)顯著放緩。大幅增加晶體管數(shù)量的唯一途徑是增加每個(gè)芯片中的硅數(shù)量。Cerebras 正在開(kāi)發(fā)他們的第二代產(chǎn)品 Cerebras WSE-2。該芯片的尺寸為 215mm x 215mm。

與可用的最大 GPU Nvidia A100 相比，Cerebras 取得了巨大的優(yōu)勢(shì)，尤其是在將片上 40GB 的內(nèi)存帶寬與 A100 的類似大小的 HBM 內(nèi)存進(jìn)行比較時(shí)。Cerebras 擁有令人難以置信的高結(jié)構(gòu)帶寬，遠(yuǎn)遠(yuǎn)超過(guò) GPU 到 GPU 的互連。

Cerebras 通過(guò)在水冷機(jī)箱中提供它來(lái)馴服他們的 20KW 野獸。作為參考，Nvidia A100 的功率范圍從 250W 到 500W，具體取決于配置。在創(chuàng)建這種冷卻解決方案時(shí)必須特別小心。由于該芯片的尺寸和功耗，諸如硅和其他組件的不同熱膨脹等問(wèn)題成為主要問(wèn)題。

長(zhǎng)期以來(lái)，半導(dǎo)體制造受限于裸片尺寸，一直受到掩模版的限制。掩模版限制為 33×26，這意味著這是 ASML 的光刻浸入式步進(jìn)器可以在晶片上圖案化的最大尺寸。Nvidia 最大的芯片都在 800mm^2 的低范圍內(nèi)，主要是因?yàn)槌竭@個(gè)范圍是不可能的。

Cerebras WSE 實(shí)際上是在掩模版限制范圍內(nèi)的晶圓上的許多芯片。他們沒(méi)有沿著芯片之間的劃線將芯片切割開(kāi)，而是開(kāi)發(fā)了一種跨芯片線的方法。這些導(dǎo)線與實(shí)際芯片分開(kāi)圖案化，并允許芯片相互連接。實(shí)際上，芯片可以擴(kuò)展到超出掩模版的限制。

以經(jīng)典方式構(gòu)建芯片時(shí)，通常會(huì)存在缺陷。因此，必須丟棄來(lái)自每個(gè)晶片的多個(gè)芯片或必須禁用芯片的元件。Nvidia 通常將這種做法用于他們的 GPU。每一代都存在禁用更大比例內(nèi)核的持續(xù)趨勢(shì)，而在當(dāng)前一代 Ampere 中，大約有 12% 的內(nèi)核被禁用。

Cerebras 通過(guò)在每個(gè)標(biāo)線子芯片（reticle sub-chip）上添加 2 行額外的核心來(lái)解決這個(gè)問(wèn)題。這些芯片內(nèi)的互連是 2D 網(wǎng)格，其中每個(gè)核心在垂直和水平方向上連接。它們還為每個(gè)對(duì)角線核心提供額外的互連。這允許對(duì)有缺陷的核心進(jìn)行布線，并且軟件仍然可以識(shí)別 2D 網(wǎng)格。

在這個(gè) 2D 網(wǎng)格中，Cerebras 設(shè)定了幾個(gè)目標(biāo)。他們希望所有內(nèi)存都保留在芯片上，而不必等待片外內(nèi)存緩慢。唯一的外部連接是到主機(jī)系統(tǒng)。每個(gè)內(nèi)核都有細(xì)粒度的并行性（fine grained parallelism ），彼此之間不共享任何內(nèi)容。它們是具有 MIMD 能力的節(jié)能通用內(nèi)核，并擁有自己的本地存儲(chǔ)器。

主要用例是機(jī)器學(xué)習(xí)訓(xùn)練或推理。網(wǎng)絡(luò)層被映射到晶片大小的芯片區(qū)域。每個(gè)矩形塊對(duì)應(yīng)一個(gè)層，有趣的是這被稱為“Colorado”。卷積、矩陣向量和矩陣乘法是在每一層的核心上計(jì)算的。2D 網(wǎng)格處理網(wǎng)絡(luò)每一層內(nèi)和網(wǎng)絡(luò)層之間的核心間通信。

大多數(shù)通信通常在沿芯片的 X 或 Y 方向進(jìn)行，但有些通信需要跨越芯片的大部分。網(wǎng)格可以處理這個(gè)而不會(huì)變得擁擠。這允許網(wǎng)絡(luò)中的層不必是連續(xù)的或彼此直接相鄰。Cerebras 軟件堆棧放置和路由這些層，同時(shí)保持核心和結(jié)構(gòu)的高利用率。該軟件能夠在單個(gè)芯片上僅放置幾層網(wǎng)絡(luò)，或者在芯片上放置整個(gè)網(wǎng)絡(luò)的多個(gè)副本，以實(shí)現(xiàn)數(shù)據(jù)并行。

Cerebras 的客戶擁有實(shí)時(shí)生產(chǎn)的晶圓級(jí)引擎。這些用于許多不同的工作負(fù)載，但最有趣的一種是 CANDLE。WSE 用于精確模擬藥物組合的藥物反應(yīng)及其對(duì)癌癥的影響。然后選擇最有希望的模擬結(jié)果進(jìn)行實(shí)驗(yàn)研究。

目前在這些芯片上運(yùn)行的另一個(gè)用例是內(nèi)部限制融合。它運(yùn)行在一臺(tái)大型超級(jí)計(jì)算機(jī)上，該計(jì)算機(jī)還包含多個(gè)互連的 Cerebras WSE。這種大規(guī)模模擬的組成部分之一涉及原子和亞原子粒子之間的相互作用。該計(jì)算被一個(gè)在 Cerebras 硬件上運(yùn)行的大型預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)所取代。這是一個(gè)僅使用推理的用例。它在模擬的每個(gè)時(shí)間步中都會(huì)被喚起。數(shù)據(jù)從較大的超級(jí)計(jì)算機(jī)流式傳輸?shù)?Cerebras WSE，后者又為這些原子和亞原子交互提供輸出。

Cerebras 硬件也不僅僅用于機(jī)器學(xué)習(xí)。Joule 超級(jí)計(jì)算機(jī)在 3D 網(wǎng)格中運(yùn)行的傳統(tǒng)硬件上運(yùn)行計(jì)算流體動(dòng)力學(xué)。他們以兩種不同的方式遇到了擴(kuò)展問(wèn)題。由于網(wǎng)絡(luò)帶寬的限制，他們無(wú)法通過(guò)核心數(shù)量來(lái)提高性能。此外，由于緩存未命中，內(nèi)核通常會(huì)在表上留下很多性能，從而導(dǎo)致內(nèi)存不足。該內(nèi)存隨后遇到了巨大的帶寬瓶頸。

流體動(dòng)力學(xué)模型的 3D 網(wǎng)格被映射到 WSE 芯片的 2D 網(wǎng)格。鄰居交換、向量 AXPY 和全局向量的點(diǎn)積，這需要局部點(diǎn)積和全局 all-reduce。由于大量的 SRAM 和每個(gè)單獨(dú)內(nèi)核的相對(duì)較高的復(fù)雜性，所有這些操作都可以輕松處理。

有大量的內(nèi)核間通信，但片上內(nèi)部網(wǎng)絡(luò)足夠強(qiáng)大，可以以低延遲處理它們。網(wǎng)絡(luò)通過(guò)沿著稱為“顏色”的虛擬通道而不是預(yù)先確定的地址發(fā)送消息來(lái)實(shí)現(xiàn)這一點(diǎn)。這種基于硬件的通信允許數(shù)據(jù)在整個(gè)芯片上每時(shí)鐘傳輸 1 跳。

Allreduce 可以非?？斓赝瓿?。每個(gè)內(nèi)核將其標(biāo)量發(fā)送到它旁邊的內(nèi)核。當(dāng)它到達(dá)那里時(shí)，標(biāo)量被加在一起并向前發(fā)送。芯片的邊緣向東/西向中心發(fā)送數(shù)據(jù)。一旦它到達(dá)中心，就會(huì)發(fā)生同樣的過(guò)程，但北/南。結(jié)果被合并，然后在核心網(wǎng)格上廣播回來(lái)。只需1微秒，就可以完成這個(gè)allreduce。作為參考，超級(jí)計(jì)算機(jī)中的典型集群從一個(gè)處理器到另一個(gè)相鄰處理器的單個(gè) MPI 通信需要大約這么長(zhǎng)時(shí)間。

無(wú)論引入數(shù)據(jù)的延遲如何，都可以進(jìn)行計(jì)算以實(shí)現(xiàn)全帶寬。路由器具有來(lái)自每個(gè)相鄰核心的 4 個(gè)傳入數(shù)據(jù)集。此外，內(nèi)核可以將其輸出重新路由回，這樣就不需要將其存儲(chǔ)在 SRAM 中。內(nèi)核可以同時(shí)運(yùn)行多個(gè)線程。有一個(gè)主線程被賦予優(yōu)先級(jí)，但是如果它在等待數(shù)據(jù)，其他線程就會(huì)前進(jìn)。通過(guò)使用大量 SRAM 和多線程架構(gòu)保持?jǐn)?shù)據(jù)局部性，利用率保持極高。

對(duì)硬件進(jìn)行低級(jí)優(yōu)化的結(jié)果使計(jì)算流體動(dòng)力學(xué)速度提高了 200 倍。這與同樣高度優(yōu)化的大型超級(jí)計(jì)算機(jī)集群相比。除了速度上的提升，成本，尤其是功耗，也有著巨大的優(yōu)勢(shì)。這種優(yōu)勢(shì)在某種程度上是顯而易見(jiàn)的，因?yàn)閷⒊?jí)計(jì)算機(jī)集群與單個(gè)（盡管是晶圓大?。┬酒M(jìn)行比較。

不幸的是，軟件還沒(méi)有完全符合要求。Beta SDK 將于今年晚些時(shí)候推出，用于編寫自定義內(nèi)核操作。這種語(yǔ)言將完全特定于 WSE 的領(lǐng)域。他們將擁有數(shù)學(xué)函數(shù)和通信庫(kù)，有望在一定程度上減輕負(fù)擔(dān)。除此之外，還有一些功能和工具會(huì)有所幫助，但這將是高技能程序員的任務(wù)。這是唯一可以實(shí)現(xiàn)這種計(jì)算規(guī)模的硬件，因此對(duì)于那些需要這種性能水平的任務(wù)來(lái)說(shuō)，它可能不是進(jìn)入的巨大障礙。

Cerebras 將實(shí)時(shí)計(jì)算流體動(dòng)力學(xué)作為利用 WSE 的下一個(gè)工作負(fù)載。有相當(dāng)大的希望，這將打開(kāi)一個(gè)全新的用例。

我們很高興基于 7nm 的 WSE2 全面推出?？纯?SDK 是否可以允許開(kāi)發(fā)人員生成其他工作負(fù)載，WSE 可以帶來(lái)數(shù)量級(jí)的性能提升，這將是令人興奮的。人工智能是 Cerebras 積極進(jìn)取的領(lǐng)域，但晶圓級(jí)計(jì)算可能會(huì)改變這個(gè)行業(yè)，而不僅僅是機(jī)器學(xué)習(xí)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

芯片

芯片

+關(guān)注

關(guān)注
456

文章
51057

瀏覽量
425658
晶圓

晶圓

+關(guān)注

關(guān)注
52

文章
4950

瀏覽量
128152
人工智能

人工智能

+關(guān)注

關(guān)注
1793

文章
47532

瀏覽量
239305
計(jì)算平臺(tái)

計(jì)算平臺(tái)

+關(guān)注

關(guān)注
0

文章
53

瀏覽量
9674
AI芯片

AI芯片

+關(guān)注

關(guān)注
17

文章
1900

瀏覽量
35134

原文標(biāo)題：Cerebras展示用整塊晶圓做的大芯片

文章出處：【微信號(hào)：TenOne_TSMC，微信公眾號(hào)：芯片半導(dǎo)體】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

從晶圓到芯片：劃片機(jī)在 IC 領(lǐng)域的應(yīng)用

在半導(dǎo)體制造領(lǐng)域，IC芯片的生產(chǎn)是一個(gè)極其復(fù)雜且精密的過(guò)程，劃片機(jī)作為其中關(guān)鍵的一環(huán)，發(fā)揮著不可或缺的作用。從工藝流程來(lái)看，在芯片制造的后端工序中，劃片機(jī)承擔(dān)著將晶圓切割成單個(gè)

發(fā)表于 01-14 19:02 ?46次閱讀

從<b class='flag-5'>晶</b><b class='flag-5'>圓</b>到<b class='flag-5'>芯片</b>：劃片機(jī)在 IC 領(lǐng)域的應(yīng)用

晶圓背面涂敷工藝對(duì)晶圓的影響

一、概述晶圓背面涂敷工藝是在晶圓背面涂覆一層特定的材料，以滿足封裝過(guò)程中的各種需求。這種工藝不僅可以提高芯片的機(jī)械強(qiáng)度，還可以優(yōu)化散熱性能

發(fā)表于 12-19 09:54 ?303次閱讀

<b class='flag-5'>晶</b><b class='flag-5'>圓</b>背面涂敷工藝對(duì)<b class='flag-5'>晶</b><b class='flag-5'>圓</b>的影響

為什么晶圓是圓的？芯片是方的？

晶圓為什么是圓的而不是方的？按理說(shuō)，方型的Die放在圓形的Wafer里總會(huì)不可避免有空間浪費(fèi)，為什么不做成方型的更節(jié)省空間。因?yàn)橹谱鞴に嚊Q定了它是圓形的。提純過(guò)后的高純度多晶硅是在一個(gè)子晶

發(fā)表于 12-16 17:28 ?230次閱讀

什么是晶圓？ #電路知識(shí) #芯片 #芯片晶圓

晶圓

芯佰微電子
發(fā)布于 :2024年12月13日 10:38:31

晶圓劃片為什么用UV膠帶

晶圓經(jīng)過(guò)前道工序后芯片制備完成，還需要經(jīng)過(guò)切割使晶圓上的芯片分離下來(lái)，最后進(jìn)行封裝。不同厚度晶

發(fā)表于 12-10 11:36 ?387次閱讀

晶圓/晶粒/芯片之間的區(qū)別和聯(lián)系

本文主要介紹??????晶圓（wafer）/晶粒（die）/芯片（chip）之間的區(qū)別和聯(lián)系。 ? 晶圓（Wafer）——原材料和生產(chǎn)

發(fā)表于 11-26 11:37 ?728次閱讀

Cerebras提交IPO申請(qǐng)，估值達(dá)41億美元

近日，晶圓級(jí)AI芯片領(lǐng)域的佼佼者Cerebras Systems正式啟動(dòng)了在美國(guó)納斯達(dá)克市場(chǎng)的首次公開(kāi)募股（IPO）程序，股票代碼定為「CBRS」。此次IPO的承銷商包括花旗集團(tuán)、巴克

發(fā)表于 10-09 17:04 ?544次閱讀

碳化硅晶圓和硅晶圓的區(qū)別是什么

以下是關(guān)于碳化硅晶圓和硅晶圓的區(qū)別的分析：材料特性：碳化硅（SiC）是一種寬禁帶半導(dǎo)體材料，具有比硅（Si）更高的熱導(dǎo)率、電子遷移率和擊穿電場(chǎng)。這使得碳化硅

發(fā)表于 08-08 10:13 ?1719次閱讀

AI初出企業(yè)Cerebras已申請(qǐng)IPO！稱發(fā)布的AI芯片比GPU更適合大模型訓(xùn)練

美國(guó)加州，專注于研發(fā)比GPU更適用于訓(xùn)練AI模型的晶圓級(jí)芯片，為復(fù)雜的AI應(yīng)用構(gòu)建計(jì)算機(jī)系統(tǒng)，并與阿布扎比科技集團(tuán)G42等機(jī)構(gòu)合作構(gòu)建超級(jí)計(jì)算機(jī)?；谄渥钚缕炫?b class='flag-5'>芯片構(gòu)建的服務(wù)器可輕松高