突如其來的新冠肺炎大流行打亂了眾多公司的產(chǎn)品發(fā)布計(jì)劃,比如本該在今年3月英偉達(dá)(NVIDIA)GTC 2020上發(fā)布的安培(Ampere)架構(gòu)曝光多次卻一直未發(fā)布。今天,英偉達(dá)CEO黃仁勛發(fā)布了英偉達(dá)新一代GPU架構(gòu)安培,并帶來了基于安培架構(gòu)GPU A100的DGX-A100 AI系統(tǒng)和面向邊緣AI計(jì)算的EGX A100。
有意思的是,受疫情影響,已經(jīng)在家工作四十五天的黃仁勛是在家里的廚房提前錄制了演講視頻,用三個(gè)視頻完成了2020 GTC的主題演講和新品發(fā)布。
此次GTC 2020最重磅的產(chǎn)品自然是安培架構(gòu)GPU A100,這是目前全球最大的7nm芯片,面積高達(dá)826平方毫米,集成了540億個(gè)晶體管。相比Volta架構(gòu)實(shí)現(xiàn)了高達(dá)20倍的性能提升,并且可以同時(shí)滿足AI訓(xùn)練和推理的需求。
由8個(gè)安培A100 GPU打造的NVIDIA DGX A100 AI系統(tǒng)單節(jié)點(diǎn)性能達(dá)到了創(chuàng)紀(jì)錄的5 petaflops。
第八代安培GPU架構(gòu)性能提升高達(dá)20倍
安培是英偉達(dá)繼2018發(fā)布的Turing(圖靈)架構(gòu)之后的最新一代GPU架構(gòu),也是英偉達(dá)推出的第八代GPU架構(gòu)。黃仁勛說:“Ampere架構(gòu)的突破性設(shè)計(jì)為英偉達(dá)第八代GPU提供了迄今為止最大的性能飛躍,集AI訓(xùn)練和推理于一身,并且其性能相比于前代產(chǎn)品提升了高達(dá)20倍。這是有史以來首次,可以在一個(gè)平臺(tái)上實(shí)現(xiàn)對(duì)橫向擴(kuò)展以及縱向擴(kuò)展的負(fù)載的加速。A100將在提高吞吐量的同時(shí),降低數(shù)據(jù)中心的成本?!?/p>
據(jù)悉,第八代安培架構(gòu)GPU采用的是臺(tái)積電7nm工藝,使用的是最新的3D封裝技術(shù),集成540億個(gè)晶體管也讓安培架構(gòu)GPU A100成為了全球最大的7nm芯片。除此之外,A100還有另外四大關(guān)鍵特性:
具有TF32的第三代 Tensor Core核心,英偉達(dá)廣泛采用的 Tensor Core核心現(xiàn)在已變得更加靈活、快速且易于使用。
多實(shí)例GPU-MG,一種全新技術(shù)功能,可將單個(gè)A100GPU分割為多達(dá)七個(gè)獨(dú)立的GPU,為不同規(guī)模的工作提供不同的計(jì)算力,以此實(shí)現(xiàn)最佳利用率和投資回報(bào)率的最大化。
第三代 NVIDIA NVLInk,使GPU之間的高速聯(lián)接增加至原來的兩倍,實(shí)現(xiàn)服務(wù)器的高效性能擴(kuò)展。
結(jié)構(gòu)化稀疏,這種全新效率技術(shù)利用AI數(shù)學(xué)固有的稀疏性,使性能提升了一倍。
對(duì)于具有TF32的第三代Tensor Core核心,黃仁勛解釋,其功能經(jīng)過擴(kuò)展后加入了專為AI開發(fā)的全新TF32,它能在無需更改任何代碼的情況下,使FP32精度下的AI性能提高多達(dá)20倍。此外,TensorCore核心現(xiàn)在支持FP64精度,相比于前代,其為HPC應(yīng)用所提供的計(jì)算力比之前提高了多達(dá)2.5倍。
20倍的提升之所以是對(duì)比2017年發(fā)布的Volta架構(gòu)而不是2018年發(fā)布的圖靈架構(gòu),雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))認(rèn)為主要是因?yàn)榇饲坝ミ_(dá)發(fā)布的兩代AI系統(tǒng)DGX-1和DGX-2都是基于Volta架構(gòu)GPU Tesla V100,今天推出的基于安培架構(gòu)的DGXA100是最新第三代AI系統(tǒng),把兩者進(jìn)行對(duì)比更有意義。
憑借這些新功能,英偉達(dá)A100能夠成為了AI訓(xùn)練和推理以及科學(xué)模擬、對(duì)話式AI、推薦系統(tǒng)、基因組學(xué)、高性能數(shù)據(jù)分析、地震建模和金融預(yù)測(cè)等各種高要求工作負(fù)載的理想選擇。
不過,雷鋒網(wǎng)認(rèn)為,靈活性是性能之外A100更重要的競爭力所在,這個(gè)靈活性包括三個(gè)層面,第一個(gè)層面是A100采用的彈性計(jì)算技術(shù)能夠?yàn)槊宽?xiàng)工作分配適量的計(jì)算能力,多實(shí)例GPU技術(shù)可將每個(gè)A100 GPU分割為多達(dá)七個(gè)獨(dú)立實(shí)例來執(zhí)行推理任務(wù)。
第二個(gè)層面,第三代NVLink互聯(lián)技術(shù)能夠?qū)⒍鄠€(gè)A100 GPU合并成一個(gè)巨大的GPU來執(zhí)行更大規(guī)模的訓(xùn)練任務(wù)。
最后一個(gè)也是最重要的,安培架構(gòu)的A100既可以做訓(xùn)練也可以做推理。英偉達(dá)給出的數(shù)據(jù)顯示,A100對(duì)比前代Telsa V100,進(jìn)行BERT模型訓(xùn)練性能提升了6倍,BERT模型推理性能提升了7倍。
2017年發(fā)布Volta架構(gòu)的時(shí)候,黃仁勛就說:“從 Volta 開始,英偉達(dá) GPU 將對(duì)訓(xùn)練、推理兼顧,可謂是革命性的突破?!比旰螅诤艽蟪潭壬蟽冬F(xiàn)了自己所說的,而這也能夠繼續(xù)保持英偉達(dá)在AI市場的領(lǐng)導(dǎo)力。
要把這個(gè)問題說清楚就得從最新推出的DGX A100說起。
DGX A100單節(jié)點(diǎn)性能達(dá)創(chuàng)紀(jì)錄的5 Petaflops
黃仁勛表示,“AI已經(jīng)被應(yīng)用到云計(jì)算、汽車、零售、醫(yī)療等眾多領(lǐng)域,AI算法也正變得越來越復(fù)雜和多樣。ResNet模型的算力需求從2016年到現(xiàn)在已經(jīng)增加了3000倍,我們需要更好的解決方案?!?/p>
為此,英偉達(dá)推出了第三代AI系統(tǒng)DGX A100,高達(dá)5 Petaflops(每秒一千萬億(10的15次方)次浮點(diǎn)運(yùn)算)的Al性能刷新的全球最高激勵(lì),并且首次將整個(gè)數(shù)據(jù)中心的性能和功能集成到一個(gè)靈活的平臺(tái)中。
DGXA100系統(tǒng)集成了8個(gè)A100 Tensor Core GPU, 具有320GB內(nèi)存用以訓(xùn)練最大型的AI數(shù)據(jù)集,以及速度可達(dá)200Gbps MeLLanox HDR互連。
另外,利用A100的多實(shí)例GPU功能,每臺(tái)DGXA100系統(tǒng)能夠被分割為多達(dá)56個(gè)實(shí)例,用于加速多個(gè)小型工作負(fù)載的處理速度。憑借這些功能,企業(yè)可在一個(gè)完全集成的軟件定義平臺(tái)上根據(jù)自己的需求優(yōu)化計(jì)算力和資源,加快數(shù)據(jù)分析、訓(xùn)練和推理等各種工作負(fù)載的速度。
總結(jié)起來,DGX A100有6大技術(shù)特性:
8 個(gè) NVIDIA A100 TensorCore GPU, Al 性能達(dá) 5PetafLops, GPU 內(nèi)存共 320GB ,有著每秒 12.4TB的帶寬。
6 個(gè)采用第三代NVIDIA NVLink技術(shù)的NVIDIA NVSwitch互聯(lián)結(jié)構(gòu),4.8TB每秒的雙向帶寬
9個(gè) MeLLanox ConnectX-6 HDR 200Gb/s網(wǎng)絡(luò)接口,提供總計(jì)每秒3.6TB的雙向帶寬。 MeLLanox網(wǎng)絡(luò)計(jì)算和網(wǎng)絡(luò)加速引擎,例如RDMA、GPUDirect,以 及SHARP技術(shù),實(shí)現(xiàn)最高性能和可擴(kuò)展性。
15TB Gen4 NVMe 內(nèi)存,速度比 Gen3 NVMe SSDs 快 2 倍。
NVIDIA DGX軟件堆棧,其中包括專為AI和數(shù)據(jù)科學(xué)工作負(fù)載而優(yōu)化的軟件,能夠?qū)崿F(xiàn)性 能的最大化,使企業(yè)能夠更快獲得AI基礎(chǔ)架構(gòu)投資回報(bào)。
DGX A100系統(tǒng)的起售價(jià)為19.9萬美元,英偉達(dá)已經(jīng)開始銷售DGXA100。19.9萬美元看起來十分昂貴,但其實(shí)可以為云服務(wù)提供商降低成本和功耗,這是云服務(wù)提供商的痛點(diǎn)。
黃仁勛說,通過一個(gè)價(jià)值100萬美元由5個(gè)DGX A100系統(tǒng)組成的機(jī)架,可以取代當(dāng)下價(jià)值1100萬美元,由50個(gè)DGX-1和600個(gè)CPU組成的25個(gè)機(jī)架AI訓(xùn)練和推理的數(shù)據(jù)中心。并且,功耗也可以由630kW大幅降低至28kW。
也就是說,5個(gè)DGXA100組成的系統(tǒng),實(shí)現(xiàn)相同的性能,耗電量為現(xiàn)有數(shù)據(jù)中心系統(tǒng)的1/20,空間為1/25,成本為1/10。
據(jù)悉,DGXA100的首批訂單將送往美國能源部的阿貢國家實(shí)驗(yàn)室(Argonne National Laboratory),該實(shí)驗(yàn)室將運(yùn)用該集群的Al和計(jì)算力來更好地研究和應(yīng)對(duì)新冠肺炎。
更厲害的是,英偉達(dá)還展示了新一代DGXSuper POD,這個(gè)集群由140臺(tái) DGXA100系統(tǒng)組成,AI算力高達(dá)700 Petaflops,利用 MeLLanox HDR 200Gbps InfiniBand 互連技術(shù),NVIDIA 將 140 臺(tái) DGX A100 系統(tǒng)結(jié)合在一起,構(gòu)建了 DGXSuper POD AI超級(jí)計(jì)算機(jī),用于內(nèi)部對(duì)話式AI、基因組學(xué)和自動(dòng) 駕駛等領(lǐng)域的研究。
黃仁勛稱,DGXSuper POD集群是全球速度最快的AI超級(jí)計(jì)算機(jī)之一,其性能相當(dāng)于此前數(shù)千臺(tái)服務(wù)器的性能。憑借DGXA100的企業(yè)就緒型架構(gòu)和性能,NVIDIA得以在不到一個(gè)月的時(shí)間內(nèi)構(gòu)建了該系統(tǒng),而以往交付具備這樣能力的超級(jí)計(jì)算機(jī)需要花費(fèi)數(shù)月甚至數(shù)年的時(shí)間來計(jì)劃和采購專用的組件。
另外,為幫助客戶構(gòu)建他們自己的由A100提供算力的數(shù)據(jù)中心,英偉達(dá)發(fā)布了全新DGX Super POD參考架構(gòu)。還推出了 NVIDIA DGXpert計(jì)劃 , 幫助DGX客戶與英偉達(dá)的Al專家建立聯(lián)系。同時(shí),英偉達(dá)還推出DGX-Ready軟件計(jì)劃,幫助用戶在AI工作流程中充分利用各種經(jīng)過認(rèn)證的企業(yè)級(jí)軟件。
更高性價(jià)比,更具靈活性的DGXA100對(duì)于全球的云服務(wù)提供商以及研究機(jī)構(gòu)顯然都很有吸引力,同樣基于A100的EGXA100也同樣如此。
兩款邊緣AI平臺(tái)擴(kuò)大生態(tài)系統(tǒng)
面向邊緣AI市場,英偉達(dá)此次GTC 2020推出了兩款計(jì)算平臺(tái),分別是適用于較大型商業(yè)通用服務(wù)器上的EGX A100和適用于微型邊緣服務(wù)器的微型EGX Jetson Xavier NX 。
黃仁勛介紹說,EGXA100聚合加速器和EGX Jetson Xavier NX微型邊緣服務(wù)器分別被設(shè)計(jì)用于滿足不同尺寸、成本和性能需求。例如搭載了EGX A100的服務(wù)器可以管理機(jī)場中的數(shù)百臺(tái)攝像頭,而 EGX Jetson Xavier NX則可用于管理便利店中的少量攝像頭。而云原生技術(shù)支持能夠確保整個(gè)EGX產(chǎn)品家族都可以使用同一經(jīng)過優(yōu)化的AI軟件輕松構(gòu)建和部署AI應(yīng)用。
其中,EGXA100是基于安培架構(gòu)的A100 GPU,借助英偉達(dá)的MeLLanox ConnectX-6 Dx板載網(wǎng)卡,EGXA100可以每秒接收高達(dá)200 Gb的數(shù)據(jù)并將其直接發(fā)送到GPU內(nèi)存以進(jìn)行AI或 5G信號(hào)處理。
EGXA100作為一個(gè)云原生軟件定義加速器,可以處理對(duì)延遲最敏感的5G應(yīng)用,這為在一個(gè)行動(dòng)點(diǎn)(如:商店、醫(yī)院和工廠車間)做出智能實(shí)時(shí)決策提供了局性能AI和 5G平臺(tái)。
EGX Jetson Xavier NX沒有采用最新GPU,不過英偉達(dá)稱其為全球體積最小、性能最強(qiáng)大的Al超級(jí)計(jì)算機(jī),適用于微型服務(wù)器和邊緣智能物聯(lián)網(wǎng)盒。
據(jù)悉,在EGX Jetson Xavier NX的生態(tài)圈內(nèi),合作伙伴已提供了超過20種解決方案。可以將英偉達(dá)Xavier SoC的性能整合到了一個(gè)信用卡大小的模塊中,運(yùn)行 EGX云原生軟件堆棧的EGX Jetson Xavier NX可以快速處理來自多個(gè)高分辨率傳感器的流式數(shù)據(jù)。
值得一提的是,EGX邊緣AI平臺(tái)的云原生架構(gòu)使其可以運(yùn)行容器化的軟件,英偉達(dá)應(yīng)用框架包括了用于醫(yī)療領(lǐng)域的Clara、用于電信領(lǐng)域的Aerial、用于對(duì)話式AI領(lǐng)域的Jarvis、用于機(jī)器人技術(shù)領(lǐng)域的Isaac, 以及用于零售、智慧城市、交通等領(lǐng)域的Mertopolis。
目前整個(gè)EGX產(chǎn)品家族均支持云原生技術(shù),因此智能機(jī)器制造商和AI應(yīng)用開發(fā)者們可以在嵌入式及邊緣設(shè)備上構(gòu)建和部署針對(duì)機(jī)器人技術(shù)、智慧城市、醫(yī)療、工業(yè)物聯(lián)網(wǎng)等領(lǐng)域的的軟件定義功能。
雷鋒網(wǎng)小結(jié)
三年前的5月,黃仁勛發(fā)布了Volta架構(gòu)的Tesla V100 GPU,并推出了基于它的AI系統(tǒng)DGX-1。今天,由于新冠肺炎疫情的影響,本來計(jì)劃在三月發(fā)布的最新一代安培架構(gòu)推遲到了5月。基于安培架構(gòu)的首款GPU A100是全球最大的7nm芯片,性能相比Volta架構(gòu)提升最高可以達(dá)到20倍,一個(gè)架構(gòu)就可以同時(shí)應(yīng)用于云端和邊緣端。
更為重要的是,基于A100的DGXA100 AI系統(tǒng)能夠幫助云服務(wù)提供商大幅降低數(shù)據(jù)中心的硬件采購成本和電費(fèi)支出(這是數(shù)據(jù)中心的重要支出)。同樣基于A100的EGXA100邊緣計(jì)算平臺(tái)能夠?qū)I應(yīng)用于更多的AI場景以及已經(jīng)開始商用的5G市場。
這種架構(gòu)的靈活性以及產(chǎn)品的靈活組合,能夠讓英偉達(dá)昂貴的GPU有高的性價(jià)比,而安培架構(gòu)更好實(shí)現(xiàn)訓(xùn)練和推理性能的提升,也更有助于英偉達(dá)打造云端和邊緣端一體化的AI產(chǎn)品,保持在AI市場的競爭力。
可以看到,在云端市場英偉達(dá)用安培架構(gòu)GPU同時(shí)滿足訓(xùn)練和推理需求,這將在云端AI推理芯片市場占有優(yōu)勢(shì)的英特爾帶來更大的競爭壓力,而想要挑戰(zhàn)云端芯片市場的AI芯片的初創(chuàng)公司難度也進(jìn)一步升級(jí)。在邊緣市場,英偉達(dá)用高性能、多產(chǎn)品組合去滿足市場豐富的應(yīng)用需求,持續(xù)開拓生態(tài),要將云端的優(yōu)勢(shì)拓展至邊緣端。
這樣看來,已經(jīng)在數(shù)據(jù)中心、汽車、醫(yī)療AI市場都有優(yōu)勢(shì)的英偉達(dá),還正在與開源社區(qū)合作為Apache Spark 3.0帶來端到端的GPU加速,正進(jìn)一步向AI市場發(fā)起了全面的攻勢(shì)。這是否意味著英偉達(dá)離AI產(chǎn)品收入高于游戲顯卡收入的時(shí)代也不遠(yuǎn)了?
責(zé)任編輯:gt
-
gpu
+關(guān)注
關(guān)注
28文章
4740瀏覽量
128953 -
AI
+關(guān)注
關(guān)注
87文章
30898瀏覽量
269129 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3776瀏覽量
91114
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論