導語:在國產(chǎn)GPU突圍的道路上,部分廠商已經(jīng)走出了自己的路。但鑒于硬件、生態(tài)等各方面的差距,這樣必定是一條充滿荊棘的長路。
最近,風頭正盛的英偉達在算力領(lǐng)域又下一城。
在最新的最新MLPerf訓練基準測試中,英偉達的H100僅用11分鐘就訓練完了GPT-3。
并且還在所有的八項測試中都創(chuàng)下了新紀錄。
可以說,這是一款專為AI、HPC和數(shù)據(jù)分析而設計的“性能怪獸”。
憑借著4nm制程、800億個晶體管、18432個CUDA核心,以及專用的Transformer引擎,H100將大模型訓練速度提高了6倍。
同時,H100還支持NVLink Switch系統(tǒng),可以實現(xiàn)單節(jié)點內(nèi)和節(jié)點間的全方位GPU通信,從而支持百億億級(Exascale)的工作負載。
這也是其能在MLPerf 8項基準測試中橫掃其他競爭者的重要原因。
在算力愈發(fā)重要的AIGC時代,任何能提高模型訓練、機器學習的硬件技術(shù),都成了各大AI企業(yè)垂涎欲滴的產(chǎn)物。
然而,目前在GPU領(lǐng)域,大部分國內(nèi)企業(yè),仍然只能仰賴英偉達一家的技術(shù)。
在國內(nèi)算力愈發(fā)捉襟見肘,以及國際風云變幻的敏感時刻,國內(nèi)的GPU廠商,能否奮力追趕,解決這一“卡脖子”難題,以至于成為下一個“英偉達”呢?
種子選手的秘密
在目前國內(nèi)一票GPU的“種子選手”中,一家名叫壁仞科技的企業(yè)引起了人們的注意。
原因很簡單,那就是其產(chǎn)品BR100不僅創(chuàng)下了全球算力紀錄,并且宣稱其峰值算力達到了英偉達A100的3倍,甚至還能對標沒發(fā)售的H100。
然而,稍微了解過國內(nèi)芯片行業(yè)的人都知道,在芯片領(lǐng)域,國內(nèi)的炒作太多了,徒有其表的例子也太多了。
那么,做出這個“媲美英偉達”GPU的企業(yè),究竟是什么來頭?其自主研發(fā)的BR100,是否真的像其宣傳的那樣出色?
要回答這個問題,我們不妨先看看壁仞科技的創(chuàng)始班底,技術(shù)背景究竟如何。
作為一家通用智能芯片設計研發(fā)商的壁仞科技,成立于2019年,團隊由國內(nèi)外芯片和云計算領(lǐng)域的專家和研發(fā)人員組成。
其創(chuàng)始人張旭博士,不僅擁有清華大學和斯坦福大學的博士學位,還曾是英偉達的高級架構(gòu)師,負責Volta架構(gòu)的設計和開發(fā)。
除此之外, 團隊其他成員的技術(shù)身份,也頗為亮眼。
李新榮,聯(lián)席CEO,曾任AMD全球副總裁、中國研發(fā)中心總經(jīng)理,負責AMD大中華區(qū)的研發(fā)建設和管理工作。
洪洲,CTO,曾在NVIDIA、S3、華為等工作操刀GPU工程項目,擁有超過30年的GPU領(lǐng)域經(jīng)驗。
焦國方,軟件生態(tài)環(huán)境主要負責人,曾在高通領(lǐng)導和產(chǎn)品研發(fā)了5代Adreno移動GPU系統(tǒng)架構(gòu)。
這樣的團隊背景,決定了壁仞科技的技術(shù)底色。
依據(jù)之前在英偉達、AMD、高通、商湯科技等知名企業(yè)的研發(fā)經(jīng)驗和技術(shù)積累,壁仞科技研發(fā)了自主原創(chuàng)的芯片架構(gòu)——壁立仞。
壁立仞架構(gòu)基于SIMT(單指令多線程)模型,針對AI場景進行了專用的優(yōu)化和定制。
其最大的特點,就是可以將多個小芯片拼成一個大芯片,每個小芯片只做一部分功能,然后通過高速互連組合成一個大芯片。
這樣可以提高芯片的良率和可靠性,同時降低成本和功耗,實現(xiàn)更強大的算力和擴展性。
這就是壁仞科技所謂的Chiplet的設計理念。
這種技術(shù)的難點在于如何保證芯片之間的高速通信和協(xié)作,同時避免信號干擾和功耗過高。
因此,如何設計合適的芯片分割和組合方案,使得每個芯片都能發(fā)揮最大的效能,同時減少電磁干擾和熱耗散,就成了Chiplet能否成功的關(guān)鍵。
對此,壁仞科技使用了兩種關(guān)鍵的技術(shù)2.5DCoWoS和BLink,來攻克這一難關(guān)。
簡單地說,2.5D CoWoS技術(shù)是一種把多個芯片堆疊在一起的技術(shù),它利用了一個硅基板作為中介層,縮短了芯片之間的距離,從而提高了信號的傳輸速度和質(zhì)量。
而BLink則在中介層上,建立了一個專用的接口,它可以讓多個芯片之間直接傳輸數(shù)據(jù),而不需要經(jīng)過其他的電路或芯片,從而減少了延遲和功耗。
然而,盡管2.5D CoWoS、BLink這些技術(shù),讓壁仞科技打造出了算力更強的BR100,但這些技術(shù),目前在國際上并不罕見,其他GPU廠商也有過類似的設計。
例如,Nvidia的A100和H100 GPU都采用了CoWoS技術(shù),把GPU芯片和HBM內(nèi)存堆疊在一起,提高了內(nèi)存帶寬和計算性能。而Nvidia還開發(fā)了自己的NVLink接口,類似于BLink接口,可以讓多個GPU之間高速互聯(lián)。
此外,AMD也有自己的Infinity Fabric接口,可以實現(xiàn)類似的功能。
那既然這是一種“大家都能用”的技術(shù),那壁仞科技怎么就做到讓BR100算力達到A100三倍的呢?而英偉達真就會坐視著自己被超越了?
其實,這樣的結(jié)果,是二者在不同數(shù)據(jù)格式下的表現(xiàn)所致。
具體來說,BR100的巨大算力,更多是在矩陣FP32數(shù)據(jù)格式下的表現(xiàn)。
一般來說,數(shù)據(jù)格式占用的位數(shù)越多,它的范圍和精度就越高,但是也會消耗更多的空間和電力。
而矩陣FP32其實就是一種特殊的FP32數(shù)據(jù)格式,它只用了19位來存儲一個浮點數(shù),這樣做的目的是為了讓矩陣FP32能夠兼容Tensor Core這種專門用于加速矩陣乘法的硬件單元。
矩陣乘法是深度學習中最常見和最重要的計算操作之一,所以使用矩陣FP32可以大幅提升深度學習的性能。
但是,矩陣FP32也有一個缺點,就是它的精度比向量FP32低,也就是說它能表示的浮點數(shù)的范圍和細節(jié)程度比向量FP32小。
這樣就會導致一些誤差和損失,在某些情況下可能會影響模型的質(zhì)量和效果。
因此,矩陣FP32和英偉達A100的向量FP32并不等價,因為矩陣FP32只適用于矩陣乘法這種特定的計算操作,并不能代表GPU的整體性能。
生態(tài)之痛
除了技術(shù)方面的較量外,軟件生態(tài)上的壁壘,也是國產(chǎn)GPU無法忽視的一道屏障。
從某種程度上說,這樣的壁壘比某些具體技術(shù)的難點,更難以攻克。
在GPU領(lǐng)域,業(yè)界流傳著一種說法:“CUDA是Nvidia最深的護城河”。
這是因為,早在十幾年前,在業(yè)內(nèi)大部分人都認為GPU只能處理圖形相關(guān)的計算時,英偉達就已經(jīng)意識到了GPU在AI領(lǐng)域的潛力和價值,并開始了相應的布局,在2006年推出了通用并行計算架構(gòu)CUDA。
在CUDA問世前,人們在進行各種計算任務時,用的都是CPU,而非GPU。
然而,CPU雖然具有很強的“通用性”,可以處理各種計算,但是它的速度不夠快,而且核心數(shù)量有限。
而相較之下,只能處理圖形計算的GPU,不僅速度很快快,而且有很多很多的核心。
通過CUDA,在進行AI計算時,人們可以將神經(jīng)元之間的計算分配到GPU的不同核心上,并行地進行運算。這樣就大大提高了神經(jīng)網(wǎng)絡的訓練和推理的速度、效果。
英偉達看到了CUDA的巨大潛力,于是不斷地完善和優(yōu)化CUDA的技術(shù)和生態(tài)。
例如讓CUDA支持C、C++、Fortran、Python等多種編程語言,或是提供了針對不同領(lǐng)域和應用優(yōu)化的庫和工具,比如圖像處理庫、深度學習庫、自動駕駛庫等等。
這樣的優(yōu)化,為開發(fā)者提供了極大的便利,使其不用再學習新的編程語言,或是從頭開始編寫代碼。
于是,越來越多的人用慣了,用舒服了,CUDA的生態(tài)就這么被搭建起來了。
誠然,在CUDA構(gòu)建自身生態(tài)壁壘的過程中,也不是沒有遇到過競爭者,但最后這些對手都一一成為了“陪跑者”。
例如,蘋果公司和Khronos Group在2009年推出的OpenCL,也有過想成為行業(yè)標準的想法,讓人們可以用不同廠商的CPU、GPU、來做異構(gòu)計算。
然而,OpenCL沒有CUDA那么高效和靈活,需要更多的編程技巧和優(yōu)化工作,這就加大了開發(fā)者的負擔。
而英偉達的老對手AMD,也想要提供一個通用并行計算平臺,并推出了相應的產(chǎn)品ROCm,它跟CUDA的架構(gòu)非常類似,甚至有一個工具叫hipify,可以把CUDA代碼轉(zhuǎn)換成ROCm代碼。
但是ROCm只能用在AMD的GPU上,而且只支持幾款顯卡。
于是,綜合對比下來,更多的開發(fā)者還是選擇了“通用性”、“易用性”都更勝一籌的CUDA。
如今,在軟件生態(tài)方面,壁仞科技也推出了自主研發(fā)的BIRENSUPA軟件平臺,試圖通過“無縫運行”的方式,讓開發(fā)者無需修改代碼,就可以在BR100系列產(chǎn)品上運行原本基于CUDA的應用。
這樣,習慣了使用CUDA的用戶,如果轉(zhuǎn)而使用BR100系列產(chǎn)品,可以獲得更高的計算性能和更低的功耗成本。
然而,這樣的思路,卻面臨著幾大挑戰(zhàn),而其中之一,就是BR100系列產(chǎn)品在通用計算生態(tài)上的支持。
BIRENSUPA軟件平臺
因為,壁仞科技為了提高BR100系列產(chǎn)品在AI計算方面的性能和能效,也對流處理器進行了一些優(yōu)化和定制,比如說使用BF16替代FP16作為主要的數(shù)據(jù)格式,以及增加了一些針對AI的硬件指令和功能。
這樣,BR100就可能犧牲了部分通用計算能力,導致其在一些非AI的應用場景和領(lǐng)域上表現(xiàn)不佳或者不兼容。
而這也是為什么,BR100的主要應用場景,大多是復旦大學、清華大學這類高校的人工智能計算和高性能計算項目。
除此之外,BR100系列產(chǎn)品,在算力利用率上也存在著風險。
雖然,BR100的架構(gòu)是通用的,如果如果壁仞科技愿意,也同樣可以將其用于通用類的計算。
但因為BR100的內(nèi)部算力帶寬已經(jīng)明顯超過PCIe和HBM2e的帶寬,所以絕大部分數(shù)據(jù)可能都要在GPU內(nèi)流轉(zhuǎn)。
這就意味著,雖然BR100的算力很強大,它的數(shù)據(jù)來源和輸出通道,都不夠快,不能及時地給它送來或者拿走數(shù)據(jù)。
而如果一個軟件生態(tài)主要支持通用處理, 它的GPU芯片往往就需要有足夠高的外部帶寬,來獲取各種類型的數(shù)據(jù)。
這是因為,不同類型的應用,往往對帶寬的需求和敏感度都不同。一些大型的應用,可能需要更高的帶寬,才能更好地計算。
最后,也是最具風險的一點,就是雖然壁仞科技宣稱,BR100要無縫地支持CUDA生態(tài),但CUDA不是一個開源生態(tài),英偉達在其中埋下了大量專利壁壘。
如果壁仞科技真的打算撬動這塊壁壘,則很可能受到英偉達的在專利上的反擊。
綜上所述,雖然目前在國產(chǎn)GPU突圍的道路上,部分廠商已經(jīng)走出了自己的路,但鑒于硬件、生態(tài)等各方面的差距,這樣的道路,必定是一條充滿荊棘的長路。
審核編輯:劉清
-
gpu
+關(guān)注
關(guān)注
28文章
4762瀏覽量
129145 -
芯片設計
+關(guān)注
關(guān)注
15文章
1024瀏覽量
54946 -
晶體管
+關(guān)注
關(guān)注
77文章
9723瀏覽量
138612 -
HPC
+關(guān)注
關(guān)注
0文章
319瀏覽量
23819 -
英偉達
+關(guān)注
關(guān)注
22文章
3823瀏覽量
91531
原文標題:國產(chǎn)替代狂奔,中國版英偉達何時現(xiàn)身?
文章出處:【微信號:alpworks,微信公眾號:阿爾法工場研究院】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論