6月22日,2020國際超算大會(ISC2020)期間,最新的TOP500超級計算機榜單發(fā)布。這份榜單展現(xiàn)了全球現(xiàn)代科學計算的整體情況,而引人注意的是,排名前十的超級計算機中有8臺采用了NVIDIA的技術;TOP500榜單的所有系統(tǒng)中,有三分之二的系統(tǒng)(333套)由NVIDIA助力。
而不僅是當前產品和技術層面的大范圍覆蓋,NVIDIA正在推動數(shù)據(jù)分析、模擬、可視化、邊緣串流、AI、云技術在現(xiàn)代科學計算中的應用,來應對當今和未來的挑戰(zhàn)。
英偉達超算江湖地位再度刷新
Top500榜單每年更新兩次,這份最新的榜單顯示,全球排名前十的超級計算機中有8臺采用了NVIDIA GPU、InfiniBand網絡技術,或同時采用了兩種技術。其中包括美國、歐洲和中國最強大的超級計算機系統(tǒng)。在TOP500榜單的所有系統(tǒng)中,有三分之二的系統(tǒng)(333套)采用了NVIDIA(包括收購的Mellanox)為其賦力。而在2017年6月發(fā)布的榜單上,采用兩家公司的系統(tǒng)占比總和還不到一半(203套)。
如今,榜單上有將近四分之三(74%)的全新InfiniBand系統(tǒng)采用了NVIDIA Mellanox HDR 200G InfiniBand,這也展現(xiàn)了這一智能高速數(shù)據(jù)互連技術的迅速普及。自2019年11月以來,榜單上使用HDR InfiniBand的TOP500系統(tǒng)數(shù)量幾乎增加了一倍。共有141臺超級計算機使用了InfiniBand,自2019年6月以來增長了12%。
在TOP500超級計算機中,有305套系統(tǒng)使用了NVIDIA Mellanox InfiniBand和Ethernet網絡(占61%),包括所有141套InfiniBand系統(tǒng)和164套(占63%)使用Ethernet的系統(tǒng)。
越來越多TOP500系統(tǒng)正在采用NVIDIA GPU、Mellanox網絡技術,
或同時采用了這兩種技術。
或同時采用了這兩種技術。
TOP500榜單前25的超級計算機中有20臺系統(tǒng)都選擇采用NVIDIA GPU,為什么?能效是主要原因。如下圖所示,使用NVIDIA GPU的系統(tǒng),與不使用NVIDIA GPU的系統(tǒng)相比,能效(以gigaflops/watt為單位)平均高出2.8倍。
4周構建頂級超級計算機,每秒百億億次的AI算力!
TOP500和Green500榜單進行排名的主要參考依據(jù)之一就是LinPack BenchMark性能基準。在計算系統(tǒng)中,每瓦性能(GFloat/watts)是衡量特定計算機體系結構或計算機硬件能效的量度。從字面上來說,它衡量計算機可以為每瓦功耗消耗的計算速率。要指出的是,相比TOP500,Green500更加重視超算的能耗問題,而不僅僅追求運算速度。NVIDIA內部研究集群的新成員Selene,能夠充分證明NVIDIA GPU的能效表現(xiàn)。在Linpack基準測試中,Selene以27.5petaflops的性能表現(xiàn),在最新Green500榜單中排名第二,在整個TOP500榜單中排名第七。
Selene的功耗為20.5 gigaflops/watt,與Green500榜單上的第一名相差甚微,不過,排名第一的系統(tǒng)體積更小,其性能表現(xiàn)僅排在第394位。
這也意味著,Selene是排名前100系統(tǒng)中唯一突破20 gigaflops/watt能效表現(xiàn)大關的系統(tǒng),同時也是全球性能排名第二的工業(yè)超級計算機,僅次于意大利能源巨頭Eni S.p.A.的No. 6 系統(tǒng)(同樣使用了NVIDIA GPU)。
在能效方面,相比于未使用NVIDIA GPU的其它TOP500系統(tǒng)的平均能效表現(xiàn),Selene的能效高出了6.8倍。
據(jù)NVIDIA加速計算產品管理總監(jiān)Paresh Kharya介紹,除了能效表現(xiàn),Selene另一個了不起的地方在于,它是一個只用了不到4周的時間就構建完成的系統(tǒng),由14套分別配置有20臺DGX A100系統(tǒng)的模塊相連接,Selene具有:280臺DGX A100系統(tǒng)、2240顆NVIDIA A100 GPU、494臺NVIDIA Mellanox Quantum 200G InfiniBand交換機、56 TB/s的網絡架構、7PB的高性能全閃存。
Selene最重要的性能規(guī)格之一是可以提供超過1 exaflops的AI性能。此外,在TPCx-BB關鍵數(shù)據(jù)分析基準測試中,僅使用了16臺DGX A100系統(tǒng)就創(chuàng)造了新紀錄,性能表現(xiàn)高出其他系統(tǒng)20倍。
如今,AI和分析已成為科學計算中的新需求,因此這些結果也顯得格外重要。在全球各地,研究者正在使用深度學習和數(shù)據(jù)分析預測各種最具潛力的領域,并進而開展實驗。這一方法能夠幫助研究者減少成本高昂且費時的實驗量,從而加快取得科學成果的速度。
A100按下HPC和AI融合的快進鍵
在把GPU做“大”這件事上,A100就像是一個大型核反應堆。從2016年的P100,到2020年的A100,性能提升9倍之多。黃仁勛上個月從家中烤箱中端出的“世界上最大的顯卡”DGX A100就是其杰作之一,而最新發(fā)布的Selene更是進一步論證了它的“恐怖”之處。根據(jù)今年GTC上黃仁勛的發(fā)布,A100 Tensor Core的一大創(chuàng)新之處就是引入了TensorFloat-32(TF32)來加速FP32運算,TF32結合了FP32的動態(tài)范圍和FP16的精度。據(jù)稱在HPC的線性動力學場景中可以獲得4倍的性能提升,并在單精度訓練中達到5倍的性能。總之,第三代Tensor Core核心可以為傳統(tǒng)的64位數(shù)學模擬及精度較低的AI工作提供加速。
HPC和AI的融合,就像被NVIDIA按下快進鍵,AI、數(shù)據(jù)科學和科學計算交融的新時代在風馳電掣般趕來。
目前,全球頂尖供應商預計將發(fā)布超過50款內置A100的服務器,其中包括:華碩、Atos、思科、Dell Technologies、富士通、技嘉科技、HPE、浪潮、聯(lián)想、One Stop Systems、Quanta/QCT和Supermicro。
這些服務器的上市時間各不相同,預計今年夏天將有30款系統(tǒng)上市,到年底將再有20多款系統(tǒng)上市。
據(jù)了解,目前并未出現(xiàn)在此次TOP500榜單中的6臺在建系統(tǒng),也都采用了A100 GPU。
軟硬件結合樹立大數(shù)據(jù)分析新標桿
如今領先的企業(yè)機構都在使用AI獲得生產力和先進洞見。TPCx-BB是用于實際ETL(提取、轉換、加載)和機器學習工作流程的企業(yè)大數(shù)據(jù)基準測試。該基準測試的30個查詢項目包含多種大數(shù)據(jù)分析用例,例如庫存管理、價格分析、銷售分析、推薦系統(tǒng)、客戶細分和情緒分析。
過去,這項基準測試一直只在CPU系統(tǒng)上運行。分布式計算系統(tǒng)雖然在穩(wěn)步改進,但是運行如此大的數(shù)據(jù)工作負載仍會遇到瓶頸。NVIDIA通過RAPIDS軟件生態(tài)系統(tǒng)和DGX A100系統(tǒng),以19.5倍TPCx-BB性能打破紀錄,樹立了大數(shù)據(jù)分析的新標桿。
在這一基準測試中,采用RAPIDS開源數(shù)據(jù)科學軟件庫套件,并使用由16臺NVIDIA DGX A100系統(tǒng)組成的集群,NVIDIA用時14.5分鐘就完成了基準測試,而此前在CPU系統(tǒng)上運行的記錄是4.7小時。該DGX A100集群系統(tǒng)共配置了128塊NVIDIA A100 GPU,并配有NVIDIA Mellanox網絡功能。這一軟硬結合的系統(tǒng)可加速計算、通信、網絡和存儲基礎設施。
30個TPCx BB基準測試查詢結果
RAPIDS在16臺DGX A100系統(tǒng)上運行,為每個10TB測試查詢提供上述相對性能提升。與傳統(tǒng)上使用CPU的方案相比,RAPIDS和DGX A100系統(tǒng)的成本是其1/7,功耗是其1/3。
此外,NVIDIA通過與開源社區(qū)合作,為Apache Spark 3.0帶來端到端的GPU加速,能夠為關鍵且耗時的機器學習處理流程前端提供支持。
AI模型訓練將能夠在相同的 Spark集群上進行處理,而不是將工作負載作為單獨的流程在單獨的基礎架構上運行。這樣就可以對整個數(shù)據(jù)科學的處理流程進行高性能數(shù)據(jù)分析,對從數(shù)據(jù)湖到模型訓練所涉及的數(shù)十、乃至數(shù)千TB的數(shù)據(jù)進行加速,而且無需對已被應用于本地和云端 Spark 應用程序的現(xiàn)有代碼進行修改。
收購Mellanox所獲增益大舉浮現(xiàn)
NVIDIA在超算這一尖端領域攻城掠地的大舉擴張,也與Mellanox的貢獻密不可分,這也再次驗證了這筆收購的戰(zhàn)略眼光。其產品線與NVIDIA極具互補性,通過Mellanox的InfiniBand、以太網等技術,NVIDIA擁有了更強的網絡服務和云端能力,形成了更為強大的整體解決方案能力。此次TOP500的榜單顯示,InfiniBand為排名前10的超級計算機中的7臺提速,其中包括中國、歐洲和美國性能最強大的系統(tǒng)。
據(jù)了解,InfiniBand的設計基于四項基本原則:可以運行所有網絡引擎的智能端點設計;為擴展設計的軟件定義交換網絡;可以對網絡進行一站式控制和操作的集中式管理;以及確保正向和反向兼容并支持開源技術和開放API的標準技術。
正是這些基本原則幫助InfiniBand實現(xiàn)了高網絡性能、低延遲和高速信息收發(fā)。作為目前市面上唯一的200Gb/s高速互連產品,InfiniBand通過端對端自適應路由、擁塞控制和服務質量實現(xiàn)高網絡效率。
除了高質量、高效的網絡,數(shù)據(jù)中心的停機所帶來的成本損失也不容忽略。根據(jù)ITIC的研究,停機1小時所造成的成本損失通常在30萬美元以上。為了盡可能避免超算數(shù)據(jù)中心停機所帶來的損失,NVIDIA推出了最新的UFM Cyber-AI平臺。據(jù)了解,UFM平臺產品系列已管理InfiniBand系統(tǒng)近十年,此次擴展將使用AI通過實時和歷史遙測及工作負載數(shù)據(jù),來學習數(shù)據(jù)中心的運行節(jié)奏和網絡工作負載模式。從而根據(jù)這一基準,追蹤系統(tǒng)的運行狀況和網絡修改并檢測性能下降、使用情況和配置文件更改。
據(jù)NVIDIA Mellanox網絡事業(yè)部高級營銷副總裁Gilad Shainer介紹,該平臺能夠確定數(shù)據(jù)中心的獨特生命體征,并通過它們識別性能下降、組件故障和異常使用方式,從而使系統(tǒng)管理員快速檢測和響應潛在的安全威脅并解決即將發(fā)生的故障。
InfiniBand已成為氣候研究和天氣預報應用的實際標準。全球許多氣象服務機構都已選擇了NVIDIA Mellanox InfiniBand網絡,來加速其超級計算平臺,例如西班牙氣象局、中國氣象局、芬蘭氣象局、NASA和荷蘭皇家氣象局。
北京市氣象臺選擇了200 Gigabit HDR InfiniBand互連技術,來加速超級計算平臺。該平臺將被用于增強天氣預報、改進氣候和環(huán)境研究,并將被用于2022年北京冬季奧運會的天氣預報。
由于氣象和氣候模型都是計算和數(shù)據(jù)密集型模型,預測質量通常取決于模型的復雜性和高分辨率,其中分辨率取決于超級計算機的性能,而超級計算機的性能又取決于互連技術是否能夠在各計算資源之間快速、有效并且以可擴展的方式移動數(shù)據(jù)。
天氣預報,正在成為被超算改變的一個新領域。而NVIDIA A100 GPU和Mellanox HDR InfiniBand網絡技術所掀起的超算風暴,絕不僅止于此。
加速計算正在被重新定義
由于疫情的原因,今年的超算大會對于COVID-19相關技術和方案也給予了更多的重視。NVIDIA科學計算平臺所發(fā)揮的作用,也使加速計算的未來呈現(xiàn)出了更多的可能性。從數(shù)據(jù)分析到模擬和可視化再到AI與邊緣處理,其平臺為各個領域的方法提供加速。
AI、數(shù)據(jù)分析和邊緣串流正在重新定義科學計算。隨著向深度學習和分析的擴展,科學家們也在運用云計算服務,甚至運用來自于網絡邊緣的遠程儀器的流式數(shù)據(jù),這些要素共同構成了NVIDIA所加速的科學計算支柱。
除了前文著墨較多的一些進展之外,幾個前沿的案例很值得關注和思考:
模擬方面,在抗擊新冠病毒的過程中,橡樹嶺國家實驗室(Oak Ridge National Laboratory)的研究者使用Summit超級計算機的內置GPU運行AutoDock,在24小時內模擬了20億種化合物。
科學邊緣串流方面,歐洲核子研究所(CERN)最近宣布,NVIDIA GPU將使其大型強子對撞機內粒子碰撞事件產生的數(shù)據(jù)量減少500倍。
可視化方面,NVIDIA的IndeX和Magnum IO軟件幫助增強火星登陸者號的可視化功能,這是全球規(guī)模最大的交互式實時立體可視化項目。
NVIDIA方面表示,最新的TOP500榜單以另一種方式說明了NVIDIA為實現(xiàn)AI和HPC民主化所付出的努力。而不論是研究者還是企業(yè),都迫切需要從云到網絡邊緣的AI和分析加速。
為科學計算提供端對端的工作流程,采取完整的創(chuàng)新策略來加速所有關鍵應用領域,這是NVIDIA在加速計算領域的兩大成功秘笈。
本文由電子發(fā)燒友網原創(chuàng),未經授權禁止轉載。如需轉載,請?zhí)砑游?a target="_blank">信號elecfans999.
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
NVIDIA
+關注
關注
14文章
4986瀏覽量
103046 -
gpu
+關注
關注
28文章
4739瀏覽量
128941 -
InfiniBand
+關注
關注
1文章
29瀏覽量
9197 -
Mellanox
+關注
關注
0文章
15瀏覽量
9375
發(fā)布評論請先 登錄
相關推薦
TOP500第二臺E級超算出現(xiàn),AMD要在HPC上逆襲英特爾?
電子發(fā)燒友網報道(文/周凱揚)在今年的ISC2024上,新一期的TOP500全球超算榜單發(fā)布。除了瑞典超級計算機Alps空降第六之外,此次
NVIDIA加速全球大多數(shù)超級計算機推動科技進步
HPCwire 讀者和編輯選擇獎。 自 2006 年發(fā)布 CUDA 以來,NVIDIA 不斷推動 AI 和加速計算的進步,最新發(fā)布的全球最強超級計算機 TOP500 榜單突顯了該公司在超
英偉達市值躍升全球第二
近日,全球科技領域的競爭格局再度發(fā)生變動。據(jù)最新數(shù)據(jù)顯示,英偉達公司的市值在周一成功超越微軟,躍居全球第二大公司,僅次于蘋果公司。
AI芯片巨頭英偉達漲超4% 英偉達市值暴增7500億
行業(yè)股票開始反彈,那么英偉達公司的股票將是個不錯的選擇。還有瑞穗證券(Mizuho)也認為英偉達公司的股價仍有很大的上漲空間。 ? ? ?美東時間周一,
“全球新股王”誕生!英偉達市值超微軟、蘋果
黃仁勛套現(xiàn)2億元。人工智能的市場潛力再次引發(fā)了投資者的極大興趣。6月18日美股收盤,英偉達市值達到3.34萬億美元,超越微軟,首次成為全球最高市值股票。5月底,英偉
英偉達從三星挖走超500名半導體人才
近日,科技界傳來了一則引人關注的消息:圖形處理巨頭英偉達成功從韓國半導體巨頭三星電子“挖角”,吸引了超過500名半導體領域的優(yōu)秀人才加入其團隊。這一舉動不僅凸顯了英偉
臺積電未確定是否采購阿斯麥高數(shù)值孔徑極紫外光刻機
盡管High NA EUV光刻機有望使芯片設計尺寸縮減達三分之二,但芯片制造商需要權衡利弊,考慮其高昂的成本及ASML老款設備的可靠性問題。
最新Top500超算榜單公布:Frontier再奪魁首,Aurora破百億大關
此次Top500排行榜中只有一個顯著變動:瑞士國家超級計算機中心的Alps超算憑借270 PFlop/s的Rmax LINPACK FP64算力排名上升至第六,超過了IBM POWER
臺積電前4月營收增26.2%,預計二季度營收再增三分之一
自3月份以來,臺積電收入增長加快至34.3%,預計第二季度營收將再增長約三分之一,這主要得益于人工智能半導體的旺盛需求。全球智能手機行業(yè)在今年前三個月實現(xiàn)恢復性增長
5G和Wi-Fi 6E/7是如何結合在一起的?
互聯(lián)設備的激增是前所未有的。根據(jù)思科年度互聯(lián)網報告(2018-2023 年),到 2023 年底,全球三分之二的人口使用互聯(lián)網連接,近一半的互聯(lián)網設備使用某種形式的移動網絡進行通信。
埃尼集團宣布啟動HPC6超級計算機項目,預計最高算力達600 PFlop/s?
據(jù)了解,Eni 是全球知名石油巨頭之一,同時也是意大利規(guī)模最大的三家企業(yè)之一,其股權結構中有約三分之一來自意大利政府。其目前已有兩臺超級計算機榮登 Top500
微軟Teams 2.0版本升級受挫,三分之二用戶拒絕遷移
早在一年前,微軟便邀請了部分用戶試用Teams 2.0。微軟官方當時承諾,新版的安裝速度會提速三倍,啟動時間縮短兩倍,1.7倍的時間縮短將使在聊天室或頻道間自由切換更加便捷;連入會議的速度預期也可提升兩倍;
評論