2020年4月,以近70億美元被英偉達(dá)最終收購的以色列頂級(jí)數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)公司Mellanox,在長達(dá)半年多的“沉默”后,在11月迎來了兩件足以引起業(yè)內(nèi)轟動(dòng)的大事。首先,陪Mellanox走了21年,并一手促成這筆交易的創(chuàng)始人兼首席執(zhí)行官Eyal Waldman宣布離職,并留下了一句頗為瀟灑的話:
“在達(dá)成這筆交易時(shí),我就知道我要離開了。你知道我用幾十年創(chuàng)建一家公司并做出所有決策,不是用來做第二名的?!?/p>
其次,就在今天,Mellanox作為英偉達(dá)GPU家族的一部分,被英偉達(dá)融入了新的網(wǎng)絡(luò)連接架構(gòu)產(chǎn)品——NVIDIA Mellanox 400G InfiniBand。
此后,它將以“GPU伴侶”的身份,率先打入數(shù)據(jù)中心市場的最精銳部隊(duì)——超級(jí)計(jì)算機(jī)市場。
NVIDIA Mellanox 400G InfiniBand產(chǎn)品的架構(gòu)組成。簡單來說,就是一個(gè)用以連接其他服務(wù)器與英偉達(dá)產(chǎn)品的組件
英偉達(dá)在今天的全球超級(jí)計(jì)算大會(huì)上,再次刷新了自己最強(qiáng)大GPU產(chǎn)品線——企業(yè)級(jí)加速器A100的 性能紀(jì)錄。
新一代的A100 GPU將高帶寬內(nèi)存提升至80GB,比上一代擴(kuò)大一倍。這意味著,每秒超過2TB的內(nèi)存帶寬,會(huì)讓數(shù)據(jù)在內(nèi)存與GPU之間流通得更加迅速,以便“承受”研究人員建立更大規(guī)模人工智能模型和數(shù)據(jù)集帶來的壓力。
“現(xiàn)在要在AI和高性能計(jì)算(HPC)的研究成果上繼續(xù)突破上限,科學(xué)家們必須要構(gòu)建更大更復(fù)雜的模型,那么便需要比以往更大的內(nèi)存容量與更高的帶寬?!?英偉達(dá)應(yīng)用深度學(xué)習(xí)研究副總裁Bryan Catanzaro指出。
英偉達(dá)在英國劍橋的超算中心部署了由若干塊A10080GB組成的DGX系統(tǒng)
實(shí)際上,除了改變芯片產(chǎn)品的架構(gòu),把成百上千塊芯片用最高效的形式“連”起來,當(dāng)然也能解決科學(xué)家們每秒/百億億次的超大計(jì)算需求,而收購的Mellanox的用意便在于此。
如果你見過位于無錫的中國超級(jí)計(jì)算機(jī)“太湖之光”,就會(huì)發(fā)現(xiàn)“這臺(tái)計(jì)算機(jī)”其實(shí)是一個(gè)由成百上千臺(tái)黑色機(jī)柜組成的計(jì)算機(jī)集群,可以填滿一間約1000平米的屋子。
它既可以被稱為“高性能計(jì)算機(jī)群”,也可以被看做是一個(gè)不小規(guī)模的數(shù)據(jù)中心。
當(dāng)然,這些黑色機(jī)柜的性能,要比普通服務(wù)器強(qiáng)大太多,由4萬多塊不同種類的國產(chǎn)芯片組成,僅集成它們就是一項(xiàng)極為艱巨的任務(wù),用時(shí)兩年,總投入超過了18億人民幣。
位于無錫超算中心的太湖之光
而NVIDIA Mellanox 400G InfiniBand的作用,便是將超級(jí)計(jì)算機(jī)中上萬塊CPU、GPU以及其他種類芯片“連接”在一起。在發(fā)揮性能最大化的同時(shí),每塊芯片的數(shù)據(jù)傳輸效率也不能有太多損耗。
“之前CPU與GPU之間的互聯(lián),都是通過英偉達(dá)的NVlinks(一種總線及其通信協(xié)議),但這個(gè)東西互聯(lián)的效率沒有特別好,不能簡單擴(kuò)展到上千塊芯片互聯(lián)的超算場景。”參與研發(fā)過TPU,芯英科技聯(lián)合創(chuàng)始人楊龔軼凡告訴虎嗅,Mellanox擅長的便是此前英偉達(dá)最大的短板之一,
“一臺(tái)超級(jí)計(jì)算機(jī),各品牌芯片之間的高效配合,極為重要。之前英偉達(dá)的NVlinks只能和IBM的CPU互聯(lián)。而收購Mellanox后,英偉達(dá)增強(qiáng)了用芯片構(gòu)建超算系統(tǒng)的可擴(kuò)展性,可以讓GPU與其他品牌和種類的芯片進(jìn)行連接?!?/p>
換句話說,英偉達(dá)找到了“讓自己產(chǎn)品輕松插進(jìn)包括英特爾在內(nèi),所有服務(wù)器芯片接口”的方法。
超算市場,不可忽視的芯片掘金地
英偉達(dá)的這次全系列產(chǎn)品,無一例外面向的都是“燒錢魔窟”——超級(jí)計(jì)算機(jī)市場。
舉個(gè)例子,在2020年6月頒布的全球超級(jí)計(jì)算機(jī)Top500榜單上,排名第二的美國橡樹嶺國家實(shí)驗(yàn)室超級(jí)計(jì)算機(jī)Summit,在每個(gè)節(jié)點(diǎn)配備了2個(gè)IBM的 Power9 CPU和 6個(gè)英偉達(dá)的Tesla V100。這樣的節(jié)點(diǎn)有4356個(gè),總耗資2億美元。
而在2019年3月,美國能源部阿貢實(shí)驗(yàn)室公開宣布,將耗資5億美元搭建新一代超級(jí)計(jì)算機(jī) Aurora 。這臺(tái)將在2021年實(shí)現(xiàn)交付的超級(jí)計(jì)算機(jī),并非追求一味追求計(jì)算速度,而是需要針對人工智能等新技術(shù)應(yīng)用采用新的設(shè)計(jì)思路。
那么這筆巨額政府合同的主要受益者是誰?外界猜測是美國最大的CPU生產(chǎn)商英特爾與著名超算系統(tǒng)集成商Cray。
但不可忽視的是,隨著超算系統(tǒng)被用在人工智能研究領(lǐng)域的次數(shù)越來越多,額外裝載的加速芯片GPU,逐漸成為搭建超級(jí)計(jì)算機(jī)的必選品。
因此,英偉達(dá)也在全球許多超算項(xiàng)目中獲得了頗為豐厚的收益,包括美國技術(shù)最強(qiáng)大的國家實(shí)驗(yàn)室——橡樹嶺實(shí)驗(yàn)室、阿貢實(shí)驗(yàn)室,都是英偉達(dá)最好性能產(chǎn)品的首批嘗鮮者。
美國迄今最強(qiáng)的超級(jí)計(jì)算機(jī)Summit(巔峰),在最新的Top500榜單中排名第2。
超級(jí)計(jì)算機(jī)之間的競爭,從來都被看作是國家之間技術(shù)實(shí)力的競爭。
盡管這是一個(gè)狹隘的衡量標(biāo)準(zhǔn),但這些超級(jí)計(jì)算機(jī)群的確在很多軍事與科學(xué)任務(wù)中發(fā)揮著極為重要的作用,譬如武器設(shè)計(jì)與密碼破譯,再譬如模擬氣候變化,研究與診斷新冠病毒。
很多前所未有的材料與化學(xué)實(shí)驗(yàn),不太可能在云端執(zhí)行,因此部署高性能服務(wù)器便顯得格外重要。
“沒有人愿意燒很多錢去做一些幾十年沒成果的新技術(shù)研究,但是這些研究卻很有必要,那么這些新技術(shù)的運(yùn)算就需要超級(jí)計(jì)算機(jī)來支持?!币晃粯I(yè)內(nèi)人士告訴虎嗅。
而這場競爭中,中國與美國理所當(dāng)然是最為強(qiáng)勁的參賽選手,也是最愿意砸錢做超算系統(tǒng)的兩個(gè)科技大國。
2020年6月,盡管Top500的榜首之位,被日本神戶理研計(jì)算中心耗資10億美元的超算系統(tǒng)Fugaku奪走,但在這500個(gè)超級(jí)計(jì)算機(jī)中,中國擁有其中226個(gè)系統(tǒng),而美國則占據(jù)114個(gè)。
2020年6月最新榜單的前10名。在2016年~2017年蟬聯(lián)4次冠軍的中國超級(jí)計(jì)算機(jī)太湖之光位于第四名,天河二號(hào)第五名。
因此,如果按照每臺(tái)超級(jí)計(jì)算機(jī)單價(jià)上億美元來計(jì)算,這是一個(gè)令人垂涎的市場。而政府一次又一次創(chuàng)下記錄的巨額訂單,對商業(yè)公司產(chǎn)生著越來越大的吸引力;
此外,毫無疑問,由于超級(jí)計(jì)算機(jī)運(yùn)行的都是難度最高的技術(shù)研發(fā)任務(wù),它們的存在,是未來技術(shù)下沉到工業(yè)和消費(fèi)級(jí)市場的源動(dòng)力。
國家之間的超級(jí)計(jì)算機(jī)之戰(zhàn)從幾十年前就已打響。一開始,大多數(shù)超級(jí)計(jì)算機(jī)使用的微處理器都是從英特爾和AMD的PC芯片演變而來,然而,就是在過去5年里,數(shù)據(jù)量開始如爆炸般增長,新技術(shù)應(yīng)用層出不窮,因此最強(qiáng)大的超級(jí)計(jì)算機(jī)已經(jīng)開始加大專業(yè)芯片的使用力度,而英偉達(dá),便是最大的受益者之一。
從圖中可以看出,2020年~2025年產(chǎn)生的數(shù)據(jù)量,是2010~2020年數(shù)據(jù)量的三倍。圖片來自英偉達(dá)。
不過有意思的是,日本Fugaku打敗中國和美國最強(qiáng)計(jì)算機(jī)的“源動(dòng)力”,竟然是富士通的48核 A64FX SoC,這應(yīng)該是榜單上第一個(gè)由ARM處理器提供動(dòng)力的超算系統(tǒng)(雖然不想把英偉達(dá)和ARM的收購聯(lián)系起來,但這好歹是個(gè)開始)。
“未來超算市場,目前現(xiàn)在的共識(shí)是HPC+AI。也就是說,未來AI是超算的典型應(yīng)用,而且量級(jí)很大。所以英偉達(dá),想要作為未來霸主,保持在這個(gè)市場的領(lǐng)先地位。當(dāng)然,高性能計(jì)算市場,一切都沒那么容易?!?br /> 責(zé)編AJX
-
芯片
+關(guān)注
關(guān)注
455文章
50818瀏覽量
423727 -
NVIDIA
+關(guān)注
關(guān)注
14文章
4989瀏覽量
103076 -
超級(jí)計(jì)算機(jī)
+關(guān)注
關(guān)注
2文章
462瀏覽量
41948
發(fā)布評論請先 登錄
相關(guān)推薦
評論