日前,在斯坦福大學(xué)舉行的IEEE Hot Chips研討會上,創(chuàng)業(yè)公司Cerebras推出了有史以來最大的芯片。按照他們的說法,這個大致是硅晶片尺寸的系統(tǒng)旨在將AI訓(xùn)練時間從幾個月縮短到幾分鐘。
這是自二十世紀(jì)八十年代Trilogy Systems任務(wù)失敗以來,業(yè)界再一次出現(xiàn)對晶圓級處理器的商業(yè)嘗試。
下面,我們來談一下有關(guān)這個芯片,你必須知道的六點::
數(shù)據(jù)
作為有史以來最大的芯片,Cerebras的Wafer Scale Engine(WSE)自然帶有一堆最高級的。這是當(dāng)中的一部分:
尺寸:46,225平方毫米。這大約是一張信紙大小的紙張的75%,但卻是最大GPU的56倍。
晶體管:1.2萬億。Nvidia的GV100 Volta僅為21億。
處理器核心:400,000。而GV100只有5,660。
內(nèi)存:18千兆字節(jié)的片上SRAM,大約是GV100的3000倍。
內(nèi)存帶寬:每秒9 PB。據(jù)Cerebras稱,這是我們最喜歡的GPU的10,000倍。
你為什么需要這個怪物?
Cerebras在其白皮書中提出了一個非常好的案例,為什么這么大的芯片有意義。
基本上,該公司認(rèn)為,訓(xùn)練深度學(xué)習(xí)系統(tǒng)和其他人工智能系統(tǒng)的需求已經(jīng)失控。該公司表示,訓(xùn)練將出現(xiàn)一種新模式——創(chuàng)建一個這樣的系統(tǒng),那就是一旦經(jīng)過訓(xùn)練,就可以識別人或贏得Go游戲。但這在過去需要花費(fèi)數(shù)周或數(shù)月的時間,并耗費(fèi)數(shù)十萬美元的計算時間。這個成本意味著實驗的空間很小,這會扼殺新的想法和創(chuàng)新。
這家公司的答案是,全世界需要更多,更便宜的訓(xùn)練計算資源。而訓(xùn)練也需要幾分鐘而不是幾個月,為此,您需要更多內(nèi)核,更多靠近這些內(nèi)核的內(nèi)存,以及內(nèi)核之間的低延遲,高帶寬連接。
這些目標(biāo)將對AI行業(yè)中的每個人造成影響。但是Cerebras也承認(rèn),這個想法推向了它的邏輯極端。一塊大芯片為處理器內(nèi)核和需要依賴它的內(nèi)存提供了更多的硅片面積。只有當(dāng)數(shù)據(jù)永遠(yuǎn)不必離開芯片上的短而密集的互連時,才能實現(xiàn)高帶寬,低延遲的連接。因此這也是他們打造這樣一個大芯片的原因。
在這400,000個內(nèi)核中有什么?
根據(jù)該公司的說法,WSE的內(nèi)核專門用于人工智能,但仍然具有可編程性,那就意味著該芯片并不會僅僅被限定在AI當(dāng)中。這就是他們所謂的稀疏線性代數(shù)(Sparse Linear Algebra:SLA)核心。這些處理單元專門用于“人工智能”工作的“張量”操作,但它們還包括一項減少工作的功能,特別是對于深度學(xué)習(xí)網(wǎng)絡(luò)。據(jù)該公司稱,深度學(xué)習(xí)訓(xùn)練集中所有數(shù)據(jù)的50%至98%為zero。因此,非零數(shù)據(jù)“Sparse ”。
SLA核心通過簡單地不將任何東西乘以零來減少工作量。內(nèi)核具有內(nèi)置的數(shù)據(jù)流元素,可以根據(jù)數(shù)據(jù)觸發(fā)計算操作,因此當(dāng)數(shù)據(jù)遇到零時,不會浪費(fèi)時間。
他們是怎么做到的?
Cerebras龐大的單芯片背后的基本理念已經(jīng)存在了幾十年,但它也是不切實際的。
早在20世紀(jì)80年代,并行計算的先驅(qū) Gene Amdahl就制定了加速大型機(jī)計算的計劃——硅片大小的處理器。換句話說,就是將大部分?jǐn)?shù)據(jù)保留在處理器本身而不是將其通過電路板推送到存儲器和其他芯片。這樣的計算將更快且更節(jié)能。
借助從風(fēng)險投資家手上拿到的2.3億美金,Amdahl創(chuàng)立了Trilogy Systems,并實現(xiàn)了他的愿望。但我們不得不承認(rèn),“晶圓級整合”的第一次商業(yè)嘗試是一場災(zāi)難,據(jù)當(dāng)時報道,它成功地將動詞“to crater”引入金融新聞詞典。
最基本的問題是芯片越大,良率越差。從邏輯上講,這應(yīng)該意味著晶圓級芯片將無利可圖,因為您的產(chǎn)品總會存在缺陷。Cerebras的解決方案是添加一定量的冗余。據(jù)EE Times稱,Swarm通信網(wǎng)絡(luò)具有冗余鏈路,讓產(chǎn)品工作時可以繞過受損核心。據(jù)透露,當(dāng)中大約有1%的核心是備用的。
Cerebras還必須解決一些關(guān)鍵的制造限制問題。例如,芯片工具設(shè)計用于將其特征定義圖案投射到相對較小的矩形上,并在晶圓上完美地反復(fù)進(jìn)行。由于在晶片上的不同位置鑄造不同圖案的成本和難度,僅此一點就會使許多系統(tǒng)不能構(gòu)建在單個晶片上。
但WSE就像一個典型的晶圓,完全由相同的芯片組成,就像你通常制造的一樣。最大的不同之處在于他們與臺積電合作開發(fā)了一種方法,用于在芯片之間的空間建立連接,這個區(qū)域稱為scribe lines。而這個空間通常留空,因為芯片沿著那些線切割。
根據(jù)Tech Crunch的說法,Cerebras還必須發(fā)明一種方法,為芯片提供15千瓦的電源和冷卻系統(tǒng),并創(chuàng)造新的連接器,以便在加熱時處理它擴(kuò)展的方式。
這是制作晶圓級計算機(jī)的唯一方法嗎?
當(dāng)然不是。例如,加利福尼亞大學(xué)洛杉磯分校和 Illinois Urbana-Champaign的團(tuán)隊正在研究一種類似的系統(tǒng),該系統(tǒng)也構(gòu)建了裸處理器并進(jìn)行了測試,并將它們安裝在已經(jīng)圖案化所需的密集互連網(wǎng)絡(luò)的硅片上。這種稱為硅互連結(jié)構(gòu)的概念允許這些小芯片緊密相連(相隔100微米),這就使得芯片間通信接近單個芯片的特性。
“這是我們一直在進(jìn)行驗證的研究”,伊利諾伊大學(xué)的 Rakesh Kumar說。
Kumar認(rèn)為硅互連結(jié)構(gòu)方法與Cerebras的單片晶圓級方案相比具有一些優(yōu)勢。首先,它允許設(shè)計師混合和匹配技術(shù),并為每個技術(shù)使用最佳制造工藝。單片方法意味著為最關(guān)鍵的子系統(tǒng)邏輯選擇最佳的制程,并將其用于存儲器和其他原件,即使不適合它們。
Kumar建議,在這種方法中,Cerebras可以限制它可以放在處理器上的內(nèi)存量?!八麄冊诰A上有18千兆位的SRAM。也許這對今天的某些型號來說已經(jīng)足夠了,但明天和后天的型號呢?“
什么時候出來?
據(jù)“財富”雜志報道,Cerebras9月份將會向客戶發(fā)貨首批系統(tǒng)。據(jù)EE Times稱,部分系統(tǒng)已經(jīng)收到原型。該公司計劃在11月的超級計算大會上公布完整系統(tǒng)的結(jié)果。
-
處理器
+關(guān)注
關(guān)注
68文章
19313瀏覽量
230057 -
芯片
+關(guān)注
關(guān)注
456文章
50889瀏覽量
424246 -
晶體管
+關(guān)注
關(guān)注
77文章
9701瀏覽量
138352
原文標(biāo)題:對于這顆有史以來最大的芯片,這六點你需要知道!
文章出處:【微信號:icbank,微信公眾號:icbank】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論