3 月 28 日(北京時(shí)間),NVIDIA 在美國(guó)圣何塞召開(kāi)了 GTC 2018(GPU Technology Conference 2018)大會(huì),并發(fā)布了 Quadro 系列和 DGX 系列的兩款新品。
Quadro GV 100 是 NVIDIA 「專(zhuān)業(yè)圖形顯卡」系列的最新成員,公司 CEO 黃仁勛稱(chēng)其為「世界上體積最大的 GPU」。
Quadro GV 100 擁有 5120 顆 CUDA 流處理器,640 顆 Tensor 處理器,最高可提供 14.8TFLOPS 的單精度浮點(diǎn)性能, 7.4TFLOPS 雙精度浮點(diǎn)性能;采用 32GB HBM2 顯存,顯存帶寬為 870GB/s;能夠提供 118T 的深度學(xué)習(xí)性能。
接口方面,Quadro GV 100 配備 4 個(gè) Display 1.4 接口,可以對(duì)接最多 4 個(gè) 4096 x 2160 分辨率,120Hz 刷新率的顯示器;或 4 個(gè) 5120 x 2880 分辨率, 60Hz 刷新率的顯示器;或 2 個(gè) 7680 x 4320 分辨率,60Hz 刷新率的顯示器。
DGX-2 是一臺(tái)專(zhuān)門(mén)用于人工智能訓(xùn)練和/或推理任務(wù)的桌面計(jì)算機(jī),是 NVIDIA 的第二代 DGX「小型超級(jí)計(jì)算機(jī)」,采用新的 NVSwitch 技術(shù)并聯(lián) 16 塊 32GB 顯存的 Tesla V100 計(jì)算卡,以及兩枚英特爾 Xeon Platinum 處理器 ,擁有 1.5TB 系統(tǒng)內(nèi)存,與 30TB 的 NVMe SSD 作為存儲(chǔ)空間,顯存容量則為 512GB HBM2,可以提供最高 2petaFLOPS 的浮點(diǎn)性能。
這是它的內(nèi)部結(jié)構(gòu):
你可以看到,在圖中 1 和 2 的位置看起來(lái)是很多塊芯片。其實(shí)他們是英偉達(dá)的 Tesla V100 Volta 架構(gòu) GPGPU,單枚算力達(dá)到雙精度 7.8 TFLOPS(萬(wàn)億次浮點(diǎn)計(jì)算)、單精度 15.7TFLOPS、深度學(xué)習(xí) 125TFLOPS。
而DGX-2 單機(jī)箱安裝了 16 枚 V100,總體性能達(dá)到了驚人的 2PFLOPS——業(yè)界第一臺(tái)超過(guò)千萬(wàn)億次浮點(diǎn)計(jì)算能力的單機(jī)箱計(jì)算機(jī)——稱(chēng)它為超算或許并不浮夸。
但 DGX-2 的算力并非靠堆疊出來(lái),如果它們之間不能實(shí)現(xiàn)高帶寬的數(shù)據(jù)互通則無(wú)意義。
時(shí)間倒回兩年前,英偉達(dá)有意在深度學(xué)習(xí)的設(shè)備市場(chǎng)上對(duì)英特爾發(fā)起直接挑戰(zhàn),推出了 Pascal 架構(gòu)的 P100 GPGPU。在當(dāng)時(shí),主流服務(wù)器 PCIe 總線(xiàn)接口的帶寬和時(shí)延,已經(jīng)無(wú)法滿(mǎn)足英偉達(dá)的需求。于是它們開(kāi)發(fā)出了一個(gè)新的設(shè)備內(nèi)互聯(lián)標(biāo)準(zhǔn),叫做 NVLink,使得帶寬達(dá)到了 300 GB/s。一個(gè) 8 枚 GPGPU 的系統(tǒng)里,NVLink 大概長(zhǎng)這樣:
然而 NVLink 的標(biāo)準(zhǔn)拓?fù)浣Y(jié)構(gòu)在理論上最多支持 8 枚 顯卡,仍不足以滿(mǎn)足英偉達(dá)對(duì)于新系統(tǒng)內(nèi)置更多顯卡的需要。于是在 NVLink 的基礎(chǔ)上,英偉達(dá)開(kāi)發(fā)出了一個(gè)名專(zhuān)門(mén)在顯卡之間管理 NVLink 任務(wù)的協(xié)處理器,命名為 NVSwitch。這個(gè)元件在 DGX-2 上,讓 16 枚 GPGPU 中兩兩之間實(shí)現(xiàn) NVLink 互通,總帶寬超過(guò)了 14.4 TB。
這一數(shù)字創(chuàng)造了桌面級(jí)電腦內(nèi)總線(xiàn)接口帶寬的新高,但實(shí)現(xiàn)它的目的并非跑分,而在于 DGX-2 可以 1)更快速地訓(xùn)練一個(gè)高復(fù)雜度的神經(jīng)網(wǎng)絡(luò),或 2)同時(shí)訓(xùn)練大量不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。
N 卡之所以被稱(chēng)為核彈有一種另類(lèi)的解釋方式:它的多核心架構(gòu)在這個(gè)依核心數(shù)量論高下的時(shí)代顯得超凡脫俗——?jiǎng)虞m幾百、上千個(gè) CUDA 核心,令人不明覺(jué)厲。而在 DGX-2 上,16 枚 V100 的 CUDA 核數(shù)達(dá)到了瘋狂的 81,920 核心。這一事實(shí),結(jié)合 NVSwitch 技術(shù)、512GB 現(xiàn)存、30TB NVMe 固態(tài)硬盤(pán)、兩枚至強(qiáng) Platimum CPU 和高達(dá) 1.5TB 的主機(jī)內(nèi)存——
黃仁勛用 GPU 深度學(xué)習(xí)里程碑式的杰作 AlexNet 來(lái)舉例。研究者 Alex Krizhevsk 用了 6 天,在英偉達(dá) GPU 上訓(xùn)練 AlexNet,這個(gè)研究首次利用梯度下降法和卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算機(jī)圖像識(shí)別,顯著優(yōu)于此前的手調(diào)參數(shù)法,拿下了 ImageNet 圖像識(shí)別競(jìng)賽冠軍。AlexNet 讓 Alex 世界聞名,這 6 天可以說(shuō)值了。
然而,“同樣的 8 層卷積神經(jīng)網(wǎng)絡(luò),我用 DGX-2 跑了一下,只用 18 分鐘就達(dá)到了同樣的結(jié)果,”黃仁勛說(shuō),“五年,500倍的進(jìn)步?!?/p>
這說(shuō)明了很多東西。其中有一條:在這五年里,英偉達(dá)的技術(shù)進(jìn)步節(jié)奏已經(jīng)無(wú)法用摩爾定律來(lái)描述了。
Nvidia DGX-2 可提供 10 倍于上一代 Nvidia DGX-1 的深度學(xué)習(xí)性能,整體功耗為為 10KW,重 350 磅,售價(jià)僅為 39.9 萬(wàn)美元(約合 250 萬(wàn)人民幣)。
除了上述兩款重磅產(chǎn)品外,在今天的GTC 2018上,黃仁勛還宣布了英偉達(dá)的以下進(jìn)展:
1、推出光線(xiàn)追蹤RTX技術(shù)(ray-tracing),能夠提供電影級(jí)畫(huà)質(zhì)的實(shí)時(shí)渲染,渲染出逼真的反射、折射和陰影畫(huà)面。這一技術(shù)由英偉達(dá)在前不久的GDC全球游戲開(kāi)發(fā)者大會(huì)上展示過(guò);
2、推出了第一款專(zhuān)用于醫(yī)療圖像處理的超級(jí)電腦Clara;
3、推出新版機(jī)器學(xué)習(xí)應(yīng)用平臺(tái)TensorRT 4,支持INT8與FP16精度,并與谷歌合作,將其整合進(jìn)AI開(kāi)源框架谷歌TensorFlow 1.7中;
4、宣布打造下一代名為DRIVE Orin的自動(dòng)駕駛芯片,但除了名字外沒(méi)有透露更多信息;
5、正式推出3D仿真自動(dòng)駕駛測(cè)試平臺(tái)DRIVE Constellation,這一測(cè)試平臺(tái)英偉達(dá)在CES上展示過(guò),能夠幫助自動(dòng)駕駛系統(tǒng)提升“姿勢(shì)水平”;
6、推出ISAAC機(jī)器人仿真訓(xùn)練平臺(tái)SDK,將訓(xùn)練機(jī)器人的技術(shù)開(kāi)放出去;
此外英偉達(dá)還宣布將把它的開(kāi)源深度學(xué)習(xí)架構(gòu)(NVDLA)帶到ARM即將推出的項(xiàng)目 Trillium 平臺(tái)上,NVDLA將幫助開(kāi)發(fā)人員加速推理過(guò)程。英偉達(dá)通常依賴(lài)于自己的封閉平臺(tái),不過(guò),要想在移動(dòng)物聯(lián)網(wǎng)設(shè)備方面發(fā)揮影響,英偉達(dá)有必要和在該領(lǐng)域占主導(dǎo)地位的ARM合作。
黃仁勛演講內(nèi)容:
重現(xiàn)照相質(zhì)量的3D世界一直以來(lái)是3D圖學(xué)的終極目標(biāo),真實(shí)世界中光線(xiàn)來(lái)自四面八方,為了要重現(xiàn)真實(shí)世界,就必須把各個(gè)光線(xiàn)的來(lái)源綜合計(jì)算,復(fù)雜度極高,傳統(tǒng)GPU可能一秒只能計(jì)算一格畫(huà)面,但我們今天利用新技術(shù),可以達(dá)到每秒60張畫(huà)面,這是非常不可思議的突破。
我們過(guò)去利用了許多不同的圖學(xué)技巧,不論是要降低計(jì)算負(fù)擔(dān),或者是加速執(zhí)行,但仍然很難真實(shí)重現(xiàn)照片畫(huà)質(zhì)。
圖丨黃仁勛演講現(xiàn)場(chǎng)(圖片來(lái)源:DT君)
但決定畫(huà)面真實(shí)與否的最終條件,往往是畫(huà)面中的小細(xì)節(jié),比如說(shuō)光線(xiàn)和物件之間的折射、散射、漫射、透射與反射等等,通過(guò)光線(xiàn)追蹤技術(shù),我們可以把真實(shí)世界的畫(huà)面成像原理搬到3D圖學(xué)當(dāng)中,并且利用我們的GPU技術(shù)架構(gòu)來(lái)完成。
要考慮到不同的物件會(huì)吸收光線(xiàn)、折射光線(xiàn)的程度不同,比如說(shuō)玻璃、塑膠,甚至我們的皮膚,都會(huì)一定程度的吸收光線(xiàn),因此我們利用了subsurface scattering來(lái)達(dá)到這樣的效果,這在一般計(jì)算機(jī)圖學(xué)中是非常難以達(dá)到的效果,但通過(guò)光線(xiàn)追蹤技術(shù),我們可以輕易的達(dá)到。
黃仁勛用一段星際大戰(zhàn)影片來(lái)展示光線(xiàn)追蹤的效果,其效果幾乎和真實(shí)的電影畫(huà)面毫無(wú)差異,用肉眼幾乎看不出來(lái)是計(jì)算機(jī)計(jì)算的影片。尤其是在帝國(guó)士兵身上的鎧甲效果,反射光源后,和周?chē)h(huán)境進(jìn)行多次折射和反射,以及光線(xiàn)的吸收,最終形成非常真實(shí)的畫(huà)面,幾乎和電影畫(huà)面沒(méi)有差別。
圖丨黃仁勛用星際大戰(zhàn)影片來(lái)展示光線(xiàn)追蹤的效果(來(lái)源:DT君)
這樣的畫(huà)面是在DGX超級(jí)計(jì)算平臺(tái),通過(guò)2塊Volta繪圖卡達(dá)成。這是世界首次以實(shí)時(shí)呈現(xiàn)光線(xiàn)追蹤的效果。
在電影產(chǎn)業(yè)中,其實(shí)相關(guān)與光線(xiàn)處理相關(guān)的圖學(xué)技術(shù)都被使用,當(dāng)你看到廣告、影片中,很多憑空創(chuàng)造出來(lái)的產(chǎn)物,基本上都是利用GPU創(chuàng)造出來(lái)的,而GPU每年都創(chuàng)造了超過(guò)10億張這些數(shù)字創(chuàng)作。通過(guò)GPU計(jì)算,我們讓產(chǎn)生這些圖像的成本和需要的時(shí)間降到最低,我們可以說(shuō),用越多GPU,你越省錢(qián)!
圖丨The more GPU you buy,the more you save
如今,通過(guò)使用 Quadro GV100,我們可以在單一機(jī)架中取代傳統(tǒng)龐大耗電的render farm,目前主要電影創(chuàng)作者都逐漸往這個(gè)方向前進(jìn),比如說(shuō) Pixar,就利用了這樣的架構(gòu)來(lái)產(chǎn)生他們的電影畫(huà)面。
而考慮到世界上有多少電影工作室正在從事電影相關(guān)創(chuàng)作,我們可以考慮一下這個(gè)市場(chǎng)規(guī)模會(huì)有多大,牽涉到多大的金額,天文數(shù)字。
GPU推動(dòng)了AI產(chǎn)業(yè)的發(fā)展,但AI產(chǎn)業(yè)也同時(shí)推動(dòng)了GPU的進(jìn)步,不只是GPU架構(gòu)本身,還有相對(duì)應(yīng)的開(kāi)發(fā)環(huán)境與軟件生態(tài),考慮到目前AI生態(tài)越來(lái)越蓬勃發(fā)展,我們可以說(shuō)現(xiàn)時(shí)是個(gè)最佳的時(shí)間點(diǎn),是讓產(chǎn)業(yè)改頭換面,前進(jìn)到AI的領(lǐng)域中。
圖丨各種各樣的AI Network正在涌現(xiàn)
而為了滿(mǎn)足這些開(kāi)發(fā)者的需求,超過(guò)800萬(wàn)個(gè)開(kāi)發(fā)者下載了我們的CUDA工具,他們創(chuàng)造出來(lái)的計(jì)算效能超過(guò)370PETAFLOPS。
這些高性能計(jì)算很大程度都是要用來(lái)改變世界,包括研究疾病、醫(yī)療、氣候變遷,甚至了解HIV的結(jié)構(gòu)。
我們拿2013年的GPU架構(gòu)和今年推出的最新產(chǎn)品相比,我們的GPU每隔五年就達(dá)到10倍的效能成長(zhǎng),傳統(tǒng)半導(dǎo)體有摩爾定律,但是在CUDA GPU中,我們創(chuàng)造了不同的定律,不只是硬件本身,我們也針對(duì)算法不斷的改善,總和以上的努力,我們才能達(dá)到這樣的成就。
傳統(tǒng)服務(wù)器的龐大、耗電,通過(guò)我們的GPU有了根本性的改變,我們可以說(shuō),你們?cè)谟?jì)算領(lǐng)域用了越多的GPU,其實(shí)就是越省錢(qián)!
在醫(yī)療圖像方面,很多疾病是越早偵測(cè)就越有機(jī)會(huì)治愈,但如何偵測(cè)疾病,視覺(jué)化的身體掃描技術(shù),包括超音波、斷層掃描等,如果能夠利用3D技術(shù)重建掃描結(jié)果,我們可以看到更真實(shí)的結(jié)果,而不是能依靠不明顯的陰影來(lái)判斷病征。
圖丨英偉達(dá)在醫(yī)療上的合作伙伴
通過(guò)遠(yuǎn)端與醫(yī)療圖像設(shè)備連線(xiàn),這些設(shè)備產(chǎn)生的圖形實(shí)時(shí)反饋到我們的CUDA服務(wù)器中,并實(shí)時(shí)產(chǎn)生這些清晰的動(dòng)態(tài)圖像,通過(guò)深度學(xué)習(xí),我們可以輕易判讀這些掃描的結(jié)果,并還原到我們?nèi)庋劭梢院?jiǎn)單判讀的3D立體型態(tài)。通過(guò)把這些服務(wù)器虛擬化,利用AI來(lái)后處理這些醫(yī)學(xué)圖像,我們可以創(chuàng)造出更容易判讀,且更不容易誤判的醫(yī)療圖像。
深度學(xué)習(xí)可以說(shuō)重新塑造了我們現(xiàn)在的AI應(yīng)用,從過(guò)去厚重、龐大、笨拙的印象,變呈現(xiàn)在輕巧、快速、聰明的結(jié)果。從芯片設(shè)計(jì)者,到互聯(lián)架構(gòu),到軟件設(shè)計(jì)者,再到OEM廠(chǎng)商等,不論你在供應(yīng)鏈中的哪個(gè)環(huán)節(jié),我們都可以全力支持。
客戶(hù)想要達(dá)成不同的計(jì)算目標(biāo),不論是購(gòu)買(mǎi)成品,或者是自行架設(shè),我們都能滿(mǎn)足客戶(hù)的需求。
近十年從機(jī)器學(xué)習(xí)到深度學(xué)習(xí),從最早的模型,衍生出無(wú)數(shù)種不同的神經(jīng)網(wǎng)絡(luò)、模型,隨著應(yīng)用的增加,也越來(lái)越復(fù)雜。
當(dāng)然,為了要應(yīng)付這些復(fù)雜的神經(jīng)網(wǎng)絡(luò)計(jì)算,現(xiàn)有的小型GPU其實(shí)很難以負(fù)擔(dān),但我們從不同的方向去思考,如果把個(gè)別的GPU通過(guò)高效能的互聯(lián)結(jié)構(gòu)結(jié)合起來(lái),形成一個(gè)巨大的GPU,這個(gè)GPU上面可以創(chuàng)造出過(guò)去不可能達(dá)成的計(jì)算成果。
圖丨用NVSwitch互聯(lián)16個(gè)GPU的DXG2 server
我們通過(guò)NVSwitch達(dá)成了這個(gè)目的,通過(guò)這個(gè)互聯(lián)架構(gòu),我們?cè)贒XG-2 server中互聯(lián)了16顆GPU,形成一個(gè)龐大的GPU架構(gòu),通過(guò)最新的NVLink,技術(shù),GPU和GPU之間可以用比PCIE快20倍的效率互相溝通。這個(gè)互聯(lián)結(jié)構(gòu)不是網(wǎng)絡(luò)狀結(jié)構(gòu),而是速度更快的交換器結(jié)構(gòu),通過(guò)這樣的互聯(lián)設(shè)計(jì),我們?cè)趩我唤Y(jié)構(gòu)中實(shí)現(xiàn)了2PETAFLOP的驚人效能。而且只需要2000W的功耗。其功耗性能比可說(shuō)遠(yuǎn)遠(yuǎn)超出目前的超級(jí)計(jì)算機(jī)。
圖丨黃仁勛和世界上最大的GPU合影
現(xiàn)在新的AI芯片把云計(jì)算、深度學(xué)習(xí)看得太簡(jiǎn)單,要考慮的因素太多,包括延遲、學(xué)習(xí)速率以及準(zhǔn)確度等等,并不是在機(jī)架中塞進(jìn)幾個(gè)ASIC芯片就能夠輕易解決的工作。我們要把盡可能快速的產(chǎn)生模型,盡可能讓模型更小,盡可能確保正確的結(jié)果輸出,背后的最大功臣就是開(kāi)發(fā)工具。繼去年針對(duì)推理大幅進(jìn)化的TensorRT3之后,我們現(xiàn)在推出了最新的TensorRT 4,支持更多主流框架,也更能把不同的神經(jīng)網(wǎng)絡(luò)部署到云服務(wù)器當(dāng)中。這個(gè)版本我們又更加強(qiáng)化了推理性能。
通過(guò)TensorRT、NCCL和cuDNN,以及面向機(jī)器人的全新Isaac軟件開(kāi)發(fā)套件,基于GPU的計(jì)算生態(tài)也更加完整。此外,通過(guò)與領(lǐng)先云服務(wù)提供商的密切合作,各大主流深度學(xué)習(xí)框架都在持續(xù)優(yōu)化,以充分利用NVIDIA的GPU計(jì)算平臺(tái)。
NVIDIA新推出的DGX-2系統(tǒng)通過(guò)借鑒NVIDIA為所有層級(jí)的計(jì)算堆棧開(kāi)發(fā)的各種業(yè)界領(lǐng)先的技術(shù)優(yōu)勢(shì),實(shí)現(xiàn)了每秒2千萬(wàn)億次浮點(diǎn)運(yùn)算的里程碑式突破。
圖丨黃仁勛演講
DGX-2是首款采用NVSwitch的系統(tǒng),其中采用的16個(gè)GPU均共享統(tǒng)一的內(nèi)存空間。這讓開(kāi)發(fā)者獲得了相應(yīng)的深度學(xué)習(xí)訓(xùn)練能力,以處理最大規(guī)模的數(shù)據(jù)集和最復(fù)雜的深度學(xué)習(xí)模型。
DGX-2能夠在不到兩天的時(shí)間內(nèi)完成對(duì)FAIRSeq的訓(xùn)練,F(xiàn)AIRSeq是一種采用最新技術(shù)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型,其性能相較于去年9月份推出的基于Volta架構(gòu)的DGX-1提高了10倍。
我們?cè)诖艘惨纪瞥鯠RIVE Constellation計(jì)算平臺(tái)。該平臺(tái)基于兩個(gè)不同的服務(wù)器,第一臺(tái)服務(wù)器運(yùn)行DRIVE Sim軟件來(lái)模擬自動(dòng)駕駛汽車(chē)的傳感器,例如攝像頭、LiDAR和雷達(dá),第二臺(tái)則包括英偉達(dá)強(qiáng)大的Drive Pegasus自駕車(chē)AI計(jì)算機(jī),運(yùn)行完整的自駕車(chē)軟件堆棧和處理過(guò)程,就像駕駛汽車(chē)的傳感器一樣。
通過(guò)虛擬仿真,人們可以通過(guò)測(cè)試數(shù)十億英里的自定義場(chǎng)景和罕見(jiàn)的場(chǎng)景案例來(lái)增強(qiáng)算法的穩(wěn)健性,最終所花的時(shí)間和成本只是在真實(shí)物理道路上需要的一小部分。
-
芯片
+關(guān)注
關(guān)注
456文章
51057瀏覽量
425661 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4777瀏覽量
100973 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5059瀏覽量
103413
原文標(biāo)題:剛剛Nvidia發(fā)布僅售250萬(wàn)元的超級(jí)怪獸DGX-2|附黃仁勛演講實(shí)錄
文章出處:【微信號(hào):eetop-1,微信公眾號(hào):EETOP】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論