久久精品人人做人人看最新章,久久精品一区二区三区资源网,久久久噜噜噜久久久精品

導語：在國產(chǎn)GPU突圍的道路上，部分廠商已經(jīng)走出了自己的路。但鑒于硬件、生態(tài)等各方面的差距，這樣必定是一條充滿荊棘的長路。

最近，風頭正盛的英偉達在算力領(lǐng)域又下一城。

在最新的最新MLPerf訓練基準測試中，英偉達的H100僅用11分鐘就訓練完了GPT-3。

并且還在所有的八項測試中都創(chuàng)下了新紀錄。

可以說，這是一款專為AI、HPC和數(shù)據(jù)分析而設計的“性能怪獸”。

憑借著4nm制程、800億個晶體管、18432個CUDA核心，以及專用的Transformer引擎，H100將大模型訓練速度提高了6倍。

同時，H100還支持NVLink Switch系統(tǒng)，可以實現(xiàn)單節(jié)點內(nèi)和節(jié)點間的全方位GPU通信，從而支持百億億級（Exascale）的工作負載。

這也是其能在MLPerf 8項基準測試中橫掃其他競爭者的重要原因。

在算力愈發(fā)重要的AIGC時代，任何能提高模型訓練、機器學習的硬件技術(shù)，都成了各大AI企業(yè)垂涎欲滴的產(chǎn)物。

然而，目前在GPU領(lǐng)域，大部分國內(nèi)企業(yè)，仍然只能仰賴英偉達一家的技術(shù)。

在國內(nèi)算力愈發(fā)捉襟見肘，以及國際風云變幻的敏感時刻，國內(nèi)的GPU廠商，能否奮力追趕，解決這一“卡脖子”難題，以至于成為下一個“英偉達”呢？

種子選手的秘密

在目前國內(nèi)一票GPU的“種子選手”中，一家名叫壁仞科技的企業(yè)引起了人們的注意。

原因很簡單，那就是其產(chǎn)品BR100不僅創(chuàng)下了全球算力紀錄，并且宣稱其峰值算力達到了英偉達A100的3倍，甚至還能對標沒發(fā)售的H100。

然而，稍微了解過國內(nèi)芯片行業(yè)的人都知道，在芯片領(lǐng)域，國內(nèi)的炒作太多了，徒有其表的例子也太多了。

那么，做出這個“媲美英偉達”GPU的企業(yè)，究竟是什么來頭？其自主研發(fā)的BR100，是否真的像其宣傳的那樣出色？

要回答這個問題，我們不妨先看看壁仞科技的創(chuàng)始班底，技術(shù)背景究竟如何。

作為一家通用智能芯片設計研發(fā)商的壁仞科技，成立于2019年，團隊由國內(nèi)外芯片和云計算領(lǐng)域的專家和研發(fā)人員組成。

其創(chuàng)始人張旭博士，不僅擁有清華大學和斯坦福大學的博士學位，還曾是英偉達的高級架構(gòu)師，負責Volta架構(gòu)的設計和開發(fā)。

除此之外，團隊其他成員的技術(shù)身份，也頗為亮眼。

李新榮，聯(lián)席CEO，曾任AMD全球副總裁、中國研發(fā)中心總經(jīng)理，負責AMD大中華區(qū)的研發(fā)建設和管理工作。

洪洲，CTO，曾在NVIDIA、S3、華為等工作操刀GPU工程項目，擁有超過30年的GPU領(lǐng)域經(jīng)驗。

焦國方，軟件生態(tài)環(huán)境主要負責人，曾在高通領(lǐng)導和產(chǎn)品研發(fā)了5代Adreno移動GPU系統(tǒng)架構(gòu)。

這樣的團隊背景，決定了壁仞科技的技術(shù)底色。

依據(jù)之前在英偉達、AMD、高通、商湯科技等知名企業(yè)的研發(fā)經(jīng)驗和技術(shù)積累，壁仞科技研發(fā)了自主原創(chuàng)的芯片架構(gòu)——壁立仞。

壁立仞架構(gòu)基于SIMT（單指令多線程）模型，針對AI場景進行了專用的優(yōu)化和定制。

其最大的特點，就是可以將多個小芯片拼成一個大芯片，每個小芯片只做一部分功能，然后通過高速互連組合成一個大芯片。

這樣可以提高芯片的良率和可靠性，同時降低成本和功耗，實現(xiàn)更強大的算力和擴展性。

這就是壁仞科技所謂的Chiplet的設計理念。

這種技術(shù)的難點在于如何保證芯片之間的高速通信和協(xié)作，同時避免信號干擾和功耗過高。

因此，如何設計合適的芯片分割和組合方案，使得每個芯片都能發(fā)揮最大的效能，同時減少電磁干擾和熱耗散，就成了Chiplet能否成功的關(guān)鍵。

對此，壁仞科技使用了兩種關(guān)鍵的技術(shù)2.5DCoWoS和BLink，來攻克這一難關(guān)。

簡單地說，2.5D CoWoS技術(shù)是一種把多個芯片堆疊在一起的技術(shù)，它利用了一個硅基板作為中介層，縮短了芯片之間的距離，從而提高了信號的傳輸速度和質(zhì)量。

而BLink則在中介層上，建立了一個專用的接口，它可以讓多個芯片之間直接傳輸數(shù)據(jù)，而不需要經(jīng)過其他的電路或芯片，從而減少了延遲和功耗。

然而，盡管2.5D CoWoS、BLink這些技術(shù)，讓壁仞科技打造出了算力更強的BR100，但這些技術(shù)，目前在國際上并不罕見，其他GPU廠商也有過類似的設計。

例如，Nvidia的A100和H100 GPU都采用了CoWoS技術(shù)，把GPU芯片和HBM內(nèi)存堆疊在一起，提高了內(nèi)存帶寬和計算性能。而Nvidia還開發(fā)了自己的NVLink接口，類似于BLink接口，可以讓多個GPU之間高速互聯(lián)。

此外，AMD也有自己的Infinity Fabric接口，可以實現(xiàn)類似的功能。

那既然這是一種“大家都能用”的技術(shù)，那壁仞科技怎么就做到讓BR100算力達到A100三倍的呢？而英偉達真就會坐視著自己被超越了？

其實，這樣的結(jié)果，是二者在不同數(shù)據(jù)格式下的表現(xiàn)所致。

具體來說，BR100的巨大算力，更多是在矩陣FP32數(shù)據(jù)格式下的表現(xiàn)。

一般來說，數(shù)據(jù)格式占用的位數(shù)越多，它的范圍和精度就越高，但是也會消耗更多的空間和電力。

而矩陣FP32其實就是一種特殊的FP32數(shù)據(jù)格式，它只用了19位來存儲一個浮點數(shù)，這樣做的目的是為了讓矩陣FP32能夠兼容Tensor Core這種專門用于加速矩陣乘法的硬件單元。

矩陣乘法是深度學習中最常見和最重要的計算操作之一，所以使用矩陣FP32可以大幅提升深度學習的性能。

但是，矩陣FP32也有一個缺點，就是它的精度比向量FP32低，也就是說它能表示的浮點數(shù)的范圍和細節(jié)程度比向量FP32小。

這樣就會導致一些誤差和損失，在某些情況下可能會影響模型的質(zhì)量和效果。

因此，矩陣FP32和英偉達A100的向量FP32并不等價，因為矩陣FP32只適用于矩陣乘法這種特定的計算操作，并不能代表GPU的整體性能。

生態(tài)之痛

除了技術(shù)方面的較量外，軟件生態(tài)上的壁壘，也是國產(chǎn)GPU無法忽視的一道屏障。

從某種程度上說，這樣的壁壘比某些具體技術(shù)的難點，更難以攻克。

在GPU領(lǐng)域，業(yè)界流傳著一種說法：“CUDA是Nvidia最深的護城河”。

這是因為，早在十幾年前，在業(yè)內(nèi)大部分人都認為GPU只能處理圖形相關(guān)的計算時，英偉達就已經(jīng)意識到了GPU在AI領(lǐng)域的潛力和價值，并開始了相應的布局，在2006年推出了通用并行計算架構(gòu)CUDA。

在CUDA問世前，人們在進行各種計算任務時，用的都是CPU，而非GPU。

然而，CPU雖然具有很強的“通用性”，可以處理各種計算，但是它的速度不夠快，而且核心數(shù)量有限。

而相較之下，只能處理圖形計算的GPU，不僅速度很快快，而且有很多很多的核心。

通過CUDA，在進行AI計算時，人們可以將神經(jīng)元之間的計算分配到GPU的不同核心上，并行地進行運算。這樣就大大提高了神經(jīng)網(wǎng)絡的訓練和推理的速度、效果。

英偉達看到了CUDA的巨大潛力，于是不斷地完善和優(yōu)化CUDA的技術(shù)和生態(tài)。

例如讓CUDA支持C、C++、Fortran、Python等多種編程語言，或是提供了針對不同領(lǐng)域和應用優(yōu)化的庫和工具，比如圖像處理庫、深度學習庫、自動駕駛庫等等。

這樣的優(yōu)化，為開發(fā)者提供了極大的便利，使其不用再學習新的編程語言，或是從頭開始編寫代碼。

于是，越來越多的人用慣了，用舒服了，CUDA的生態(tài)就這么被搭建起來了。

誠然，在CUDA構(gòu)建自身生態(tài)壁壘的過程中，也不是沒有遇到過競爭者，但最后這些對手都一一成為了“陪跑者”。

例如，蘋果公司和Khronos Group在2009年推出的OpenCL，也有過想成為行業(yè)標準的想法，讓人們可以用不同廠商的CPU、GPU、來做異構(gòu)計算。

然而，OpenCL沒有CUDA那么高效和靈活，需要更多的編程技巧和優(yōu)化工作，這就加大了開發(fā)者的負擔。

而英偉達的老對手AMD，也想要提供一個通用并行計算平臺，并推出了相應的產(chǎn)品ROCm，它跟CUDA的架構(gòu)非常類似，甚至有一個工具叫hipify，可以把CUDA代碼轉(zhuǎn)換成ROCm代碼。

但是ROCm只能用在AMD的GPU上，而且只支持幾款顯卡。

于是，綜合對比下來，更多的開發(fā)者還是選擇了“通用性”、“易用性”都更勝一籌的CUDA。

如今，在軟件生態(tài)方面，壁仞科技也推出了自主研發(fā)的BIRENSUPA軟件平臺，試圖通過“無縫運行”的方式，讓開發(fā)者無需修改代碼，就可以在BR100系列產(chǎn)品上運行原本基于CUDA的應用。

這樣，習慣了使用CUDA的用戶，如果轉(zhuǎn)而使用BR100系列產(chǎn)品，可以獲得更高的計算性能和更低的功耗成本。

然而，這樣的思路，卻面臨著幾大挑戰(zhàn)，而其中之一，就是BR100系列產(chǎn)品在通用計算生態(tài)上的支持。

BIRENSUPA軟件平臺

因為，壁仞科技為了提高BR100系列產(chǎn)品在AI計算方面的性能和能效，也對流處理器進行了一些優(yōu)化和定制，比如說使用BF16替代FP16作為主要的數(shù)據(jù)格式，以及增加了一些針對AI的硬件指令和功能。

這樣，BR100就可能犧牲了部分通用計算能力，導致其在一些非AI的應用場景和領(lǐng)域上表現(xiàn)不佳或者不兼容。

而這也是為什么，BR100的主要應用場景，大多是復旦大學、清華大學這類高校的人工智能計算和高性能計算項目。

除此之外，BR100系列產(chǎn)品，在算力利用率上也存在著風險。

雖然，BR100的架構(gòu)是通用的，如果如果壁仞科技愿意，也同樣可以將其用于通用類的計算。

但因為BR100的內(nèi)部算力帶寬已經(jīng)明顯超過PCIe和HBM2e的帶寬，所以絕大部分數(shù)據(jù)可能都要在GPU內(nèi)流轉(zhuǎn)。

這就意味著，雖然BR100的算力很強大，它的數(shù)據(jù)來源和輸出通道，都不夠快，不能及時地給它送來或者拿走數(shù)據(jù)。

而如果一個軟件生態(tài)主要支持通用處理，它的GPU芯片往往就需要有足夠高的外部帶寬，來獲取各種類型的數(shù)據(jù)。

這是因為，不同類型的應用，往往對帶寬的需求和敏感度都不同。一些大型的應用，可能需要更高的帶寬，才能更好地計算。

最后，也是最具風險的一點，就是雖然壁仞科技宣稱，BR100要無縫地支持CUDA生態(tài)，但CUDA不是一個開源生態(tài)，英偉達在其中埋下了大量專利壁壘。

如果壁仞科技真的打算撬動這塊壁壘，則很可能受到英偉達的在專利上的反擊。

綜上所述，雖然目前在國產(chǎn)GPU突圍的道路上，部分廠商已經(jīng)走出了自己的路，但鑒于硬件、生態(tài)等各方面的差距，這樣的道路，必定是一條充滿荊棘的長路。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4762

瀏覽量
129145
芯片設計

芯片設計

+關(guān)注

關(guān)注
15

文章
1024

瀏覽量
54946
晶體管

晶體管

+關(guān)注

關(guān)注
77

文章
9723

瀏覽量
138612
HPC

HPC

+關(guān)注

關(guān)注
0

文章
319

瀏覽量
23819
英偉達

英偉達

+關(guān)注

關(guān)注
22

文章
3823

瀏覽量
91531

原文標題：國產(chǎn)替代狂奔，中國版英偉達何時現(xiàn)身？

文章出處：【微信號：alpworks，微信公眾號：阿爾法工場研究院】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

英偉達辟謠中國市場斷供消息

近期，有關(guān)NVIDIA(英偉達)對中國市場進行斷供的傳聞在網(wǎng)絡上引起了廣泛關(guān)注。為了澄清這一不實傳聞，英偉達

發(fā)表于 12-13 09:56 ?194次閱讀

加速拋棄英偉達，微軟又發(fā)布一顆芯片 #微軟 #英偉達 #半導體 #芯片 #電路知識

英偉達

jf_15747056

發(fā)布于 :2024年11月21日 17:31:05

英偉達超越蘋果成為市值最高英偉達取代英特爾加入道指

蘋果公司的市值，重新成為全球市值最高的公司。在AI領(lǐng)域，英偉達正瘋狂奔跑，我們看到有外媒報道英偉達正在與馬斯克旗下的人工智能初創(chuàng)公司xAI

發(fā)表于 11-05 15:22 ?421次閱讀

英偉達投資日本AI公司Sakana AI

英偉達現(xiàn)身日本人工智能研發(fā)初創(chuàng)公司Sakana AI的A輪融資名單中；據(jù)悉；Sakana AI的A輪融資而完成超過1億美元，此次融資由New Enterprise Associates、Khosla

發(fā)表于 09-05 15:46 ?676次閱讀

英偉達Blackwell架構(gòu)揭秘：下一個AI計算里程碑？# 英偉達# 英偉達Blackwell

英偉達行業(yè)資訊

jf_02331860

發(fā)布于 :2024年08月26日 10:58:09

成都匯陽投資關(guān)于華為新版芯片或挑戰(zhàn)英偉達，國產(chǎn)算力值得關(guān)注？

、稀缺性和確定性特征，成為了當前中美科技競爭的焦點。為了限制中國的AI產(chǎn)業(yè)，自 2022 年底開始，美國持續(xù)升級半導體出口管制，英偉達的主力芯片很難出口到中國，導致國內(nèi)AI算力環(huán)節(jié)受到

發(fā)表于 08-19 11:44 ?904次閱讀

英偉達TITAN AI顯卡曝光，性能狂超RTX 4090達63%！# 英偉達# 顯卡

顯卡英偉達

jf_02331860

發(fā)布于 :2024年07月24日 17:18:28

英偉達計劃在中國臺灣設立大型設計中心

英偉達公司CEO黃仁勛近日宣布，公司計劃在未來五年內(nèi)于中國臺灣設立一座大型設計中心，并預計至少將雇用1000名工程師。此次擴張不僅彰顯了英偉達

發(fā)表于 06-04 11:24 ?1024次閱讀

英偉達為什么越漲越便宜？英偉達的市盈率一直在下降？

英偉達為什么越漲越便宜？英偉達的市盈率一直在下降？在2023年英偉達的股價漲了兩倍多；龍年開年

發(fā)表于 03-12 18:02 ?1864次閱讀

國內(nèi)誰可以取代英偉達

國內(nèi)有一些公司在某些領(lǐng)域已經(jīng)或正在嘗試替代英偉達，特別是在AI芯片和圖形處理器領(lǐng)域。

發(fā)表于 03-01 16:59 ?8702次閱讀

英偉達再為中國市場特供兩款新型AI芯片樣品

在全球科技舞臺上，英偉達一直以其領(lǐng)先的AI芯片技術(shù)備受矚目。然而，在美國政府的出口限制之下，英偉達為確保在中國市場的地位，不得不推出性能較低

發(fā)表于 02-25 11:21 ?967次閱讀

英偉達開始向中國供應替代品

在美國政府加強出口限制的背景下，英偉達作為美國科技巨頭，正努力調(diào)整其在中國市場的策略以保持領(lǐng)先地位。盡管此前英偉達計劃推出的性能較低、專為

發(fā)表于 02-23 11:10 ?1170次閱讀

英偉達打贏地球保衛(wèi)戰(zhàn)但英偉達透露中國數(shù)據(jù)中心收入下降

英偉達打贏地球保衛(wèi)戰(zhàn)但英偉達透露中國數(shù)據(jù)中心收入下降全球都在關(guān)注的“AI賣鏟人”英偉

發(fā)表于 02-22 19:08 ?2730次閱讀

微軟正開發(fā)英偉達網(wǎng)卡的替代品

微軟公司，全球科技巨頭，正在研發(fā)一種新型網(wǎng)卡，旨在提升其自研人工智能芯片Maia的性能，并減少對英偉達產(chǎn)品的依賴。據(jù)稱，這款新型網(wǎng)卡的設計和功能與英偉達的ConnectX-7網(wǎng)卡相似，被看作是后者的潛在

發(fā)表于 02-21 11:06 ?847次閱讀

消息稱英偉達中國特定AI芯片H20開啟預售

據(jù)報道，英偉達最近推出了專為中國市場設計的AI芯片H20系列，并已經(jīng)開始接受經(jīng)銷商的預購。定價方面，H20系列與國產(chǎn)的華為Ascend 910B相當，

發(fā)表于 02-04 14:31 ?1255次閱讀

搜索歷史

國產(chǎn)替代狂奔，中國版英偉達何時現(xiàn)身？

評論

英偉達辟謠中國市場斷供消息

加速拋棄英偉達，微軟又發(fā)布一顆芯片 #微軟 #英偉達 #半導體 #芯片 #電路知識

英偉達超越蘋果成為市值最高英偉達取代英特爾加入道指

英偉達投資日本AI公司Sakana AI

英偉達Blackwell架構(gòu)揭秘：下一個AI計算里程碑？# 英偉達# 英偉達Blackwell

成都匯陽投資關(guān)于華為新版芯片或挑戰(zhàn)英偉達，國產(chǎn)算力值得關(guān)注？

英偉達TITAN AI顯卡曝光，性能狂超RTX 4090達63%！# 英偉達# 顯卡

英偉達計劃在中國臺灣設立大型設計中心

英偉達為什么越漲越便宜？英偉達的市盈率一直在下降？

國內(nèi)誰可以取代英偉達

英偉達再為中國市場特供兩款新型AI芯片樣品

英偉達開始向中國供應替代品

英偉達打贏地球保衛(wèi)戰(zhàn)但英偉達透露中國數(shù)據(jù)中心收入下降

微軟正開發(fā)英偉達網(wǎng)卡的替代品

消息稱英偉達中國特定AI芯片H20開啟預售

搜索歷史

國產(chǎn)替代狂奔，中國版英偉達何時現(xiàn)身？

評論

國產(chǎn)替代狂奔，中國版英偉達何時現(xiàn)身？