電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)近日,英偉達(dá)高端GPU對中國供應(yīng)受到限制的消息,引起熱議。8月31日,英偉達(dá)發(fā)布公告稱,美國通知公司向中國出口A100和H100芯片將需要新的許可證要求,同時(shí)DGX或任何其他包含A100或H100芯片的產(chǎn)品,以及未來性能高于A100的芯片都將受到新規(guī)管制。
9月1日,英偉達(dá)方面又表示已經(jīng)獲得出口許可。盡管如此,美國這番操作必然引起國內(nèi)相關(guān)企業(yè)的警惕,接下來中國的互聯(lián)網(wǎng)、云服務(wù)廠商可能會(huì)積極自研芯片,或者更多采用國內(nèi)企業(yè)提供的算力芯片,然而目前國內(nèi)的算力芯片能力如何呢?
A100和H100出口限制,對中國有何影響
英偉達(dá)是全球GPU領(lǐng)域的絕對龍頭,A100是其2020年推出的數(shù)據(jù)中心級云端加速芯片,擁有540億晶體管,采用臺(tái)積電7nm工藝制程,支持FP16、FP32和FP64浮點(diǎn)運(yùn)算,為人工智能、數(shù)據(jù)分析和HPC數(shù)據(jù)中心等提供算力。
相比于上一代V100,A100在AI訓(xùn)練和推理、HPC上性能都有很大的改進(jìn)。據(jù)英偉達(dá)在今年8月透露,特斯拉采用了7000塊A100芯片升級了其用來訓(xùn)練自動(dòng)駕駛系統(tǒng)的超算中心。
?
H100是英偉達(dá)今年3月發(fā)布的最新一代數(shù)據(jù)中心GPU,集成800億晶體管,采用臺(tái)積電定制的4nm工藝,預(yù)計(jì)在今年下半年正式發(fā)貨,英偉達(dá)CEO黃仁勛此前表示,這款GPU具有超強(qiáng)的計(jì)算能力,20個(gè)H100 GPU便可承托相當(dāng)于全球互聯(lián)網(wǎng)的流量。相比于A100,H100在FP16、FP32和FP64計(jì)算上比A100快三倍,非常適用于當(dāng)下流行且訓(xùn)練難度高的大模型。
如果A100和H100芯片出口受到限制,對中國有何影響?目前國內(nèi)高端場景基本采用英偉達(dá)的A100,包括OEM廠商浪潮、聯(lián)想等,云服務(wù)公司阿里、騰訊、百度等,對于即將量產(chǎn)的H100,國內(nèi)主流廠商也已經(jīng)預(yù)定,如阿里云、百度云和騰訊云等,而且目前國內(nèi)沒有能夠與其相對標(biāo)的硬件產(chǎn)品,如果限制,這些廠商在一些高端的應(yīng)用上將無法買到可替代產(chǎn)品。
不過有行業(yè)分析師表示,如果出口限制,確實(shí)只是對一些高端廠商的應(yīng)用有影響,而在更普遍的應(yīng)用場景中,英偉達(dá)的產(chǎn)品并不在限制的范圍,而且國內(nèi)也有可替代的產(chǎn)品。
國產(chǎn)算力芯片如何突圍
從長遠(yuǎn)來看,加速算力芯片的發(fā)展是必然的,那么國內(nèi)算力芯片的能力怎樣,如何突圍呢?目前服務(wù)器加速,主要采用的是GPU芯片,占比接近90%,另外則是ASIC、FPGA等。
GPGPU芯片廣泛用于商業(yè)計(jì)算和大數(shù)據(jù)處理,如天氣預(yù)報(bào)、工業(yè)設(shè)計(jì)、基因工程、藥物發(fā)現(xiàn)、金融工程等,在人工智能領(lǐng)域,使用GPGPU在云端運(yùn)行模型訓(xùn)練算法,可以顯著縮短海量訓(xùn)練數(shù)據(jù)的訓(xùn)練時(shí)長,減少能源消耗,從而進(jìn)一步降低人工智能的應(yīng)用成本。
不同應(yīng)用領(lǐng)域,對芯片計(jì)算能力及運(yùn)算精度要求也有所不同,比如用于商業(yè)計(jì)算和大數(shù)據(jù)處理(CAE仿真、物理化學(xué)、石油勘探、生命科學(xué)、氣象環(huán)境等),需要雙精度浮點(diǎn)、單精度浮點(diǎn)、32位整型運(yùn)算;人工智能(模型訓(xùn)練、應(yīng)用推理),要求混合精度浮點(diǎn)、半精度浮點(diǎn)、16位整型、8位整型運(yùn)算。
近幾年國內(nèi)不少企業(yè)在這方面取得進(jìn)展,包括海光信息、壁仞科技、燧原科技、摩爾線程等。
海光信息成立于2014年,不久前在科創(chuàng)板上市,海光信息的產(chǎn)品包括通用處理器(CPU)和協(xié)處理器(DCU),海光DCU屬于GPGPU的一種。
海光DCU 8000系列,典型功耗260-350W,支持INT4、INT8、FP16、FP32、FP64運(yùn)算精度,支持4個(gè)HBM2內(nèi)存通道,最高內(nèi)存帶寬為1TB/s、最大內(nèi)存容量為32GB。海光DCU協(xié)處理器全面兼容ROCm GPU計(jì)算生態(tài),由于ROCm和CUDA在生態(tài)、編程環(huán)境等方面具有高度的相似性,CUDA用戶可以以較低代價(jià)快速遷移至ROCm平臺(tái)。
可以看到,海光DCU是國內(nèi)唯一支持FP64雙精度浮點(diǎn)運(yùn)算的產(chǎn)品,英偉達(dá)的A100、H100都支持FP64,從這一點(diǎn)來看,海光DCU在這方面是比較領(lǐng)先的。
壁仞科技今年8月發(fā)布的首款通用GPU BR100,集成770億晶體管,支持FP16半精度浮點(diǎn)運(yùn)算,在這方面相比英偉達(dá)、海光DCU較弱,不過據(jù)該公司介紹,BR100的16位浮點(diǎn)算力能達(dá)到1000T以上,8位定點(diǎn)算力達(dá)到2000T以上,超過英偉達(dá)的A100。
另外燧原科技此前發(fā)布的第二代人工智能訓(xùn)練產(chǎn)品邃思2.0,支持從FP32、TF32、FP16、BF16 到INT8運(yùn)算,單精度FP32峰值算力40 TFLOPS,單精度張量TF32峰值算力160 TFLOPS。
天數(shù)智芯的BI芯片,集成240億晶體管,采用7納米先進(jìn)制程,支持FP32、FP16、BF16、INT8等多精度數(shù)據(jù)混合訓(xùn)練,單芯算力每秒147T@FP16。
另外值得關(guān)注的還有,寒武紀(jì)2021年11月發(fā)布的第三代云端AI芯片思元370,相比于上一代芯片,思元370全面加強(qiáng)了FP16、BF16以及FP32的浮點(diǎn)算力,在全新MLUarch03架構(gòu)和7nm先進(jìn)工藝加持下,8位定點(diǎn)算力最高為256TOPS。
對比來看,目前國內(nèi)廠商的芯片水平,相比于英偉達(dá)的A100和H100是存在差距的。不過在國內(nèi)市場需求和美國出口限制的背景下,這些芯片廠商具有足夠的技術(shù)和經(jīng)驗(yàn)積累,去實(shí)現(xiàn)進(jìn)一步的突破。
那么國內(nèi)的芯片廠商需要如何突圍呢?難度肯定是大的,燧原科技創(chuàng)始人趙立東在日前世界人工智能大會(huì)的論壇上談到,國際巨頭用幾代人、數(shù)十年的時(shí)間投入積攢下的技術(shù)實(shí)力,我們想靠兩代和幾十名工程師就超越,是不可能的。
要縮短差距,除了資金、人力等的高密集投入外,也需要有更快的更迭,還有就是架構(gòu)創(chuàng)新,趙立東認(rèn)為,唯有架構(gòu)實(shí)現(xiàn)原始創(chuàng)新,才能真正擁抱開放生態(tài),使產(chǎn)業(yè)得到健康發(fā)展。
另外與國外芯片執(zhí)著于先進(jìn)的制程,國內(nèi)不少廠商開始通過更先進(jìn)的封裝工藝、異構(gòu)芯片等來尋求突破。比如寒武紀(jì)思元370采用chiplet技術(shù),在一顆芯片中封裝2顆AI計(jì)算芯粒(MLU-Die),每一個(gè) MLU-Die 具備獨(dú)立的AI計(jì)算單元、內(nèi)存、IO以及 MLU-Fabric控制和接口,通過MLU-Fabric保證兩個(gè)MLU-Die間的高速通訊,可以通過不同MLU-Die組合規(guī)格多樣化的產(chǎn)品,為用戶提供適用不同場景的高性價(jià)比AI芯片,壁仞科技今年8月發(fā)布的GPU BR100GPU芯片也采用了Chiplet技術(shù)。
小結(jié)
整體而言,美國限制英偉達(dá)高端GPU芯片A100和H100的出口,短期來看對中國的影響不是很大,反而對于國內(nèi)算力芯片的發(fā)展或許具有促進(jìn)作用。
從目前國內(nèi)芯片廠商的產(chǎn)品來看,與英偉達(dá)A100和H100存在差距,不過也有海光信息、壁仞科技等在某些方面已經(jīng)取得突破的企業(yè),未來想要超越仍然存在困難,然而卻讓人相信一點(diǎn)點(diǎn)取得突破是有可能的。
9月1日,英偉達(dá)方面又表示已經(jīng)獲得出口許可。盡管如此,美國這番操作必然引起國內(nèi)相關(guān)企業(yè)的警惕,接下來中國的互聯(lián)網(wǎng)、云服務(wù)廠商可能會(huì)積極自研芯片,或者更多采用國內(nèi)企業(yè)提供的算力芯片,然而目前國內(nèi)的算力芯片能力如何呢?
A100和H100出口限制,對中國有何影響
英偉達(dá)是全球GPU領(lǐng)域的絕對龍頭,A100是其2020年推出的數(shù)據(jù)中心級云端加速芯片,擁有540億晶體管,采用臺(tái)積電7nm工藝制程,支持FP16、FP32和FP64浮點(diǎn)運(yùn)算,為人工智能、數(shù)據(jù)分析和HPC數(shù)據(jù)中心等提供算力。
相比于上一代V100,A100在AI訓(xùn)練和推理、HPC上性能都有很大的改進(jìn)。據(jù)英偉達(dá)在今年8月透露,特斯拉采用了7000塊A100芯片升級了其用來訓(xùn)練自動(dòng)駕駛系統(tǒng)的超算中心。
?
H100是英偉達(dá)今年3月發(fā)布的最新一代數(shù)據(jù)中心GPU,集成800億晶體管,采用臺(tái)積電定制的4nm工藝,預(yù)計(jì)在今年下半年正式發(fā)貨,英偉達(dá)CEO黃仁勛此前表示,這款GPU具有超強(qiáng)的計(jì)算能力,20個(gè)H100 GPU便可承托相當(dāng)于全球互聯(lián)網(wǎng)的流量。相比于A100,H100在FP16、FP32和FP64計(jì)算上比A100快三倍,非常適用于當(dāng)下流行且訓(xùn)練難度高的大模型。
如果A100和H100芯片出口受到限制,對中國有何影響?目前國內(nèi)高端場景基本采用英偉達(dá)的A100,包括OEM廠商浪潮、聯(lián)想等,云服務(wù)公司阿里、騰訊、百度等,對于即將量產(chǎn)的H100,國內(nèi)主流廠商也已經(jīng)預(yù)定,如阿里云、百度云和騰訊云等,而且目前國內(nèi)沒有能夠與其相對標(biāo)的硬件產(chǎn)品,如果限制,這些廠商在一些高端的應(yīng)用上將無法買到可替代產(chǎn)品。
不過有行業(yè)分析師表示,如果出口限制,確實(shí)只是對一些高端廠商的應(yīng)用有影響,而在更普遍的應(yīng)用場景中,英偉達(dá)的產(chǎn)品并不在限制的范圍,而且國內(nèi)也有可替代的產(chǎn)品。
國產(chǎn)算力芯片如何突圍
從長遠(yuǎn)來看,加速算力芯片的發(fā)展是必然的,那么國內(nèi)算力芯片的能力怎樣,如何突圍呢?目前服務(wù)器加速,主要采用的是GPU芯片,占比接近90%,另外則是ASIC、FPGA等。
GPGPU芯片廣泛用于商業(yè)計(jì)算和大數(shù)據(jù)處理,如天氣預(yù)報(bào)、工業(yè)設(shè)計(jì)、基因工程、藥物發(fā)現(xiàn)、金融工程等,在人工智能領(lǐng)域,使用GPGPU在云端運(yùn)行模型訓(xùn)練算法,可以顯著縮短海量訓(xùn)練數(shù)據(jù)的訓(xùn)練時(shí)長,減少能源消耗,從而進(jìn)一步降低人工智能的應(yīng)用成本。
不同應(yīng)用領(lǐng)域,對芯片計(jì)算能力及運(yùn)算精度要求也有所不同,比如用于商業(yè)計(jì)算和大數(shù)據(jù)處理(CAE仿真、物理化學(xué)、石油勘探、生命科學(xué)、氣象環(huán)境等),需要雙精度浮點(diǎn)、單精度浮點(diǎn)、32位整型運(yùn)算;人工智能(模型訓(xùn)練、應(yīng)用推理),要求混合精度浮點(diǎn)、半精度浮點(diǎn)、16位整型、8位整型運(yùn)算。
近幾年國內(nèi)不少企業(yè)在這方面取得進(jìn)展,包括海光信息、壁仞科技、燧原科技、摩爾線程等。
海光信息成立于2014年,不久前在科創(chuàng)板上市,海光信息的產(chǎn)品包括通用處理器(CPU)和協(xié)處理器(DCU),海光DCU屬于GPGPU的一種。
海光DCU 8000系列,典型功耗260-350W,支持INT4、INT8、FP16、FP32、FP64運(yùn)算精度,支持4個(gè)HBM2內(nèi)存通道,最高內(nèi)存帶寬為1TB/s、最大內(nèi)存容量為32GB。海光DCU協(xié)處理器全面兼容ROCm GPU計(jì)算生態(tài),由于ROCm和CUDA在生態(tài)、編程環(huán)境等方面具有高度的相似性,CUDA用戶可以以較低代價(jià)快速遷移至ROCm平臺(tái)。
可以看到,海光DCU是國內(nèi)唯一支持FP64雙精度浮點(diǎn)運(yùn)算的產(chǎn)品,英偉達(dá)的A100、H100都支持FP64,從這一點(diǎn)來看,海光DCU在這方面是比較領(lǐng)先的。
壁仞科技今年8月發(fā)布的首款通用GPU BR100,集成770億晶體管,支持FP16半精度浮點(diǎn)運(yùn)算,在這方面相比英偉達(dá)、海光DCU較弱,不過據(jù)該公司介紹,BR100的16位浮點(diǎn)算力能達(dá)到1000T以上,8位定點(diǎn)算力達(dá)到2000T以上,超過英偉達(dá)的A100。
另外燧原科技此前發(fā)布的第二代人工智能訓(xùn)練產(chǎn)品邃思2.0,支持從FP32、TF32、FP16、BF16 到INT8運(yùn)算,單精度FP32峰值算力40 TFLOPS,單精度張量TF32峰值算力160 TFLOPS。
天數(shù)智芯的BI芯片,集成240億晶體管,采用7納米先進(jìn)制程,支持FP32、FP16、BF16、INT8等多精度數(shù)據(jù)混合訓(xùn)練,單芯算力每秒147T@FP16。
另外值得關(guān)注的還有,寒武紀(jì)2021年11月發(fā)布的第三代云端AI芯片思元370,相比于上一代芯片,思元370全面加強(qiáng)了FP16、BF16以及FP32的浮點(diǎn)算力,在全新MLUarch03架構(gòu)和7nm先進(jìn)工藝加持下,8位定點(diǎn)算力最高為256TOPS。
對比來看,目前國內(nèi)廠商的芯片水平,相比于英偉達(dá)的A100和H100是存在差距的。不過在國內(nèi)市場需求和美國出口限制的背景下,這些芯片廠商具有足夠的技術(shù)和經(jīng)驗(yàn)積累,去實(shí)現(xiàn)進(jìn)一步的突破。
那么國內(nèi)的芯片廠商需要如何突圍呢?難度肯定是大的,燧原科技創(chuàng)始人趙立東在日前世界人工智能大會(huì)的論壇上談到,國際巨頭用幾代人、數(shù)十年的時(shí)間投入積攢下的技術(shù)實(shí)力,我們想靠兩代和幾十名工程師就超越,是不可能的。
要縮短差距,除了資金、人力等的高密集投入外,也需要有更快的更迭,還有就是架構(gòu)創(chuàng)新,趙立東認(rèn)為,唯有架構(gòu)實(shí)現(xiàn)原始創(chuàng)新,才能真正擁抱開放生態(tài),使產(chǎn)業(yè)得到健康發(fā)展。
另外與國外芯片執(zhí)著于先進(jìn)的制程,國內(nèi)不少廠商開始通過更先進(jìn)的封裝工藝、異構(gòu)芯片等來尋求突破。比如寒武紀(jì)思元370采用chiplet技術(shù),在一顆芯片中封裝2顆AI計(jì)算芯粒(MLU-Die),每一個(gè) MLU-Die 具備獨(dú)立的AI計(jì)算單元、內(nèi)存、IO以及 MLU-Fabric控制和接口,通過MLU-Fabric保證兩個(gè)MLU-Die間的高速通訊,可以通過不同MLU-Die組合規(guī)格多樣化的產(chǎn)品,為用戶提供適用不同場景的高性價(jià)比AI芯片,壁仞科技今年8月發(fā)布的GPU BR100GPU芯片也采用了Chiplet技術(shù)。
小結(jié)
整體而言,美國限制英偉達(dá)高端GPU芯片A100和H100的出口,短期來看對中國的影響不是很大,反而對于國內(nèi)算力芯片的發(fā)展或許具有促進(jìn)作用。
從目前國內(nèi)芯片廠商的產(chǎn)品來看,與英偉達(dá)A100和H100存在差距,不過也有海光信息、壁仞科技等在某些方面已經(jīng)取得突破的企業(yè),未來想要超越仍然存在困難,然而卻讓人相信一點(diǎn)點(diǎn)取得突破是有可能的。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報(bào)投訴
-
芯片
+關(guān)注
關(guān)注
456文章
50919瀏覽量
424582 -
gpu
+關(guān)注
關(guān)注
28文章
4749瀏覽量
129034
發(fā)布評論請先 登錄
相關(guān)推薦
《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變
在數(shù)據(jù)挖掘工作中,我經(jīng)常需要處理海量數(shù)據(jù)的深度學(xué)習(xí)任務(wù),這讓我對GPU架構(gòu)和張量運(yùn)算充滿好奇。閱讀《算力芯片》第7-9章,讓我對這些關(guān)鍵技術(shù)有了全新認(rèn)識(shí)。
發(fā)表于 11-24 17:12
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--了解算力芯片GPU
著色器(Pixel shader)是圖形流水線中算力相當(dāng)強(qiáng)大的功能單元,因?yàn)樗梢詾槊總€(gè)片段執(zhí)行復(fù)雜的計(jì)算,從而為最終渲染的圖像添加細(xì)節(jié)和視覺效果。
DirectX API推動(dòng) GPU 演進(jìn)
發(fā)表于 11-03 12:55
【一文看懂】大白話解釋“GPU與GPU算力”
隨著大模型的興起,“GPU算力”這個(gè)詞正頻繁出現(xiàn)在人工智能、游戲、圖形設(shè)計(jì)等工作場景中,什么是GPU,它與CPU的區(qū)別是什么?以及到底什么是GPU
存算一體架構(gòu)創(chuàng)新助力國產(chǎn)大算力AI芯片騰飛
在灣芯展SEMiBAY2024《AI芯片與高性能計(jì)算(HPC)應(yīng)用論壇》上,億鑄科技高級副總裁徐芳發(fā)表了題為《存算一體架構(gòu)創(chuàng)新助力國產(chǎn)大算力
GPU算力租用平臺(tái)是什么
GPU算力租用平臺(tái)是一種基于云計(jì)算的服務(wù)模式,它允許用戶通過互聯(lián)網(wǎng)按需租用高性能GPU資源,而無需自行購買、部署和維護(hù)這些硬件。
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--全書概覽
、GPU、NPU,給我們剖析了算力芯片的微架構(gòu)。書中有對芯片方案商處理器的講解,理論聯(lián)系實(shí)際,使讀者能更好理解
發(fā)表于 10-15 22:08
名單公布!【書籍評測活動(dòng)NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析
這個(gè)想法被否決了,因?yàn)橥度胼^大、難以落地,且客戶對算力的認(rèn)同遠(yuǎn)不及今天這種高度。
這幾年間其實(shí)我們聯(lián)系甚少,但是作者一直沒有脫離對芯片的應(yīng)用和關(guān)注。特別是目睹GPU從消費(fèi)電子轉(zhuǎn)向
發(fā)表于 09-02 10:09
算力服務(wù)器為什么選擇GPU
隨著人工智能技術(shù)的快速普及,算力需求日益增長。智算中心的服務(wù)器作為支撐大規(guī)模數(shù)據(jù)處理和計(jì)算的核心設(shè)備,其性能優(yōu)化顯得尤為關(guān)鍵。而GPU服務(wù)器也進(jìn)入了大眾的視野,成為高性能計(jì)算的首選。那
商湯科技采購40000顆英偉達(dá)芯片,縮小中美算力差距
徐冰認(rèn)為,國產(chǎn)芯片崛起以及算力商品化帶來的投資價(jià)值,使中美算力差距有望逐步縮小。只要中國持續(xù)在
揭秘芯片算力:為何它如此關(guān)鍵?
在數(shù)字化時(shí)代,芯片作為電子設(shè)備的核心組件,其性能直接關(guān)系到設(shè)備的運(yùn)行速度和處理能力。而芯片的算力,即其計(jì)算
青云科技聯(lián)手摩爾線程,構(gòu)建國產(chǎn)算力繁榮生態(tài)
隨著大數(shù)據(jù)模型與各行業(yè)深度整合,以GPU為代表的智能算力需求持續(xù)攀升。同時(shí),政府出臺(tái)多項(xiàng)扶持政策,積極推行“人工智能+”戰(zhàn)略,激勵(lì)A(yù)I芯片行業(yè)創(chuàng)新發(fā)展,以更好地賦能各行各業(yè)。
高算力芯片:未來科技的加速器?
在數(shù)字化時(shí)代,芯片作為電子設(shè)備的核心組件,其性能直接關(guān)系到設(shè)備的運(yùn)行速度和處理能力。而芯片的算力,即其計(jì)算
Sora算力需求引發(fā)業(yè)界對集結(jié)國內(nèi)AI企業(yè)算力的探討
據(jù)周鴻祎觀察,Sora視頻分析所需算力恐遠(yuǎn)超千億規(guī)模模型。因而,考慮到如今國內(nèi)芯片供應(yīng)受限,算力問題至關(guān)重要。事實(shí)上,Meta已有約50萬臺(tái)
評論