高性能計算機(HPC,High Performance Computer,又稱超級計算機)是國之重器。從核爆炸模擬、油藏模擬,到極端天氣預報等,高性能計算都守護著國家安全和安寧。因此,高性能計算也成為衡量國家之間綜合實力的基準之一,被視為國家實力的象征。
2020 年以來,十四五和新基建驅(qū)動我國高性能計算中心建設進入高速增長期,多地地方政府和企事業(yè)單位都在積極建設和籌建高性能計算中心。
1、被忽視的國之重器:高性能計算那些事兒
2、高性能計算:不斷取得新進展,國產(chǎn)替代未來可期
想象一下,新藥的研制時間從數(shù)年縮短至數(shù)天。高性能計算機 (HPC) 通過模擬、建模和分析,可以輕松解決這類以及更多其他科學難題。高性能計算系統(tǒng)幫助人們解決世界上最棘手的難題,引領(lǐng)人類走向“第四次工業(yè)革命”。高性能計算系統(tǒng)現(xiàn)已廣泛用于:
尋找全新的藥物化合物并測試已知藥物組合,從而更好地治療不同種類的癌癥和其他疾病
模擬分子動力學以開發(fā)新材料,如防彈纖維織物
提前預測重大天氣變化,使受影響的地區(qū)做好準備
超級計算機代表著高性能計算系統(tǒng)最尖端的水平。隨著處理能力的不斷演進,超級計算機的認定標準也會不斷提升。單個超級計算集群可能包含數(shù)萬個處理器,使用全球最昂貴且最強大的系統(tǒng),成本高達 1 億美元。
高性能計算的工作原理
在高性能計算中,處理信息的兩種主要方式為:
串行處理,由中央處理器 (CPU) 完成。每個 CPU 核心通常每次只能處理一個任務。CPU 對于運行各種功能而言至關(guān)重要,如操作系統(tǒng)和基本應用程序(如文字處理、辦公生產(chǎn)力工具等)。
并行處理,可利用多個 CPU 或圖形處理器 (GPU) 完成。GPU 最初是專為圖形處理而設計的。它可在數(shù)據(jù)矩陣(如屏幕像素)中同時執(zhí)行多種算術(shù)運算。同時在多個數(shù)據(jù)平面上工作的能力使 GPU 非常適合在機器學習 (ML) 應用任務中進行并行處理,如識別視頻中的物體。
突破超級計算的極限需要不同的系統(tǒng)架構(gòu)。大多數(shù)高性能計算系統(tǒng)通過超高帶寬將多個處理器和內(nèi)存模塊互連并聚合,從而實現(xiàn)并行處理。一些高性能計算系統(tǒng)將 CPU 和 GPU 結(jié)合在一起,被稱為異構(gòu)計算。
計算機計算能力的度量單位被稱為“FLOPS”(每秒浮點運算次數(shù))。截至 2019 年初,現(xiàn)有的高端超級計算機可以執(zhí)行 143.5 千萬億次 FLOPS (143 × 1015)。此類超級計算機被稱為千萬億次級,可以執(zhí)行超過千萬億次 FLOPS。相比之下,高端游戲臺式機的速度要慢 1,000,000 倍以上,可執(zhí)行約 200 千兆次 FLOPS (1 × 109)。超級計算在處理和吞吐量方面的重大突破很快將會實現(xiàn)超級計算的下一個重大級別——百億億次級,該級別的速度比千萬億次級約快 1,000 倍。這意味著百億億次級超級計算機每秒將能夠執(zhí)行 1018(或者 10 億 x 10 億)次運算。
“FLOPS”是對理論處理速度的描述,實現(xiàn)該速度需要連續(xù)向處理器傳輸數(shù)據(jù)。因此,系統(tǒng)設計必須考慮到數(shù)據(jù)吞吐量這一因素。系統(tǒng)內(nèi)存以及處理節(jié)點之間的互連會影響數(shù)據(jù)傳輸?shù)教幚砥鞯乃俣取?/p>
為了實現(xiàn)1百億億次級 FLOPS 的下一級超級計算機處理性能,大概需要 5,000,000 個臺式機。*假定每個臺式機具備 200 千兆次 FLOPS 的能力。
術(shù)語知識
高性能計算 (HPC):一個廣義上的強大計算系統(tǒng),其范圍涵蓋簡單計算機(如 1 個 CPU + 8 個 GPU),乃至世界一流的超級計算機
超級計算機:最先進的高性能計算機,以不斷提高的性能標準為依據(jù)
異構(gòu)計算:優(yōu)化串行 (CPU) 和并行 (GPU) 處理能力的高性能計算架構(gòu)
內(nèi)存:在高性能計算系統(tǒng)中為實現(xiàn)快速訪問而存儲數(shù)據(jù)的地方
互連:可令處理節(jié)點互相通信的系統(tǒng)層;在超級計算機中存在多個級別的互連
千萬億次級:為達到每秒執(zhí)行千萬億次 (1015) 運算而設計的超級計算機
百億億次級:為達到每秒執(zhí)行百億億次 (1018) 運算而設計的超級計算機
高性能計算是什么?
高性能計算是指將多個計算節(jié)點組織起來,通過網(wǎng)絡連接在一起,進行協(xié)同工作,組成一臺性能更強大的計算機,通常指具有極快運算速度、極大存儲容量、極高通信帶寬的一類計算機。高性能計算能夠讓整個計算機集群為同一個任務工作,以更快的速度來解決一個復雜問題。一臺高性能計算上往往執(zhí)行一個任務(或者有限的幾個任務)。全部的計算機資源都被傾注到同一個任務中。為了解決同一個問題,集群的不同計算機之間要有非常好的溝通能力。
高性能計算機是計算機和網(wǎng)絡的結(jié)合。假設說互聯(lián)網(wǎng)從外部將分立的計算機連接在一起,那么集群則是將網(wǎng)絡內(nèi)部化,讓網(wǎng)絡成為系統(tǒng)內(nèi)部不同計算機的溝通橋梁。首先創(chuàng)造性發(fā)明集群的是有“高性能計算之父”之稱的 Seymour Cray。在 1960 年代,可以進行高性能運算的僅僅是經(jīng)過特別設計的、昂貴的大型機。這些大型機需要復雜的回路以實現(xiàn)高運算頻率,所以其設計和生產(chǎn)周期都非常長。Seymour Cray 提出并行是提高計算機性能的有效方式。1964 年,Seymour Cray 研制的 CDC 6600 問世,他將多個普通的處理器連接起來,并使得這些處理器協(xié)同工作。政府和科研部門開始采購這樣的新型的高性能計算機,以代替原有的大型機。高性能計算機為登月計劃等大型科研項目做出了不可磨滅的貢獻,開啟了高性能計算技術(shù)和產(chǎn)業(yè)多年的持續(xù)發(fā)展與繁榮。
高性能計算近 60 年的演變路線可簡單地分為 2 個階段:Cray 時代和多計算機時代。
(1)Cray 時代。從 20 世紀 60—90 年代初期的 30 年被稱為“Cray 時代”,以單一內(nèi)存向量機的技術(shù)革新為主導,Cray 定義和引領(lǐng)了前 30 年的高性能計算市場。第一個30 年研制以“頂天”為主,僅服務于國家戰(zhàn)略部門。
(2)多計算機時代。從 20 世紀 90年代迄今的后 30 年被稱為“多計算機時代”,由于微處理器的出現(xiàn),以及大量工業(yè)標準硬件的普及,以大規(guī)?;ミB多個通用乃至商用的計算部件的可擴展系統(tǒng)結(jié)構(gòu)的技術(shù)創(chuàng)新主導了迄今為止的高性能計算發(fā)展。后 30 年的高性能計算機在滿足國家戰(zhàn)略應用對性能巔峰需求的同時,“立地”成為發(fā)展的主要目標,市場驅(qū)動、高性能計算應用普及成為第二階段的顯著特點。
高性能計算為什么重要?
高性能計算是計算機科學與工程的“皇冠”。高性能計算是計算機技術(shù)的源頭之一?;ヂ?lián)網(wǎng)產(chǎn)業(yè)依賴的數(shù)據(jù)中心的核心技術(shù),諸如 Hadoop 等并行編程工具和 RDMA 等遠程通信技術(shù)大多脫胎于此。因此,高性能計算機被視為計算機科學與工程的“皇冠”。各國均頻繁從國家層面啟動研制計劃。在中國多次上榜全球高性能計算 TOP500 后,美國自2015 年起將多所中國高性能計算相關(guān)機構(gòu)或企業(yè)列入實體清單,包括國防科大、無錫江南計算技術(shù)研究所、曙光、申威等。而我國高性能計算整體實力和美國相比仍然有較大差距。因此,發(fā)展自主可控的高性能計算至關(guān)重要。
高性能計算的核心能力是 64 位雙精度浮點運算能力。高性能計算是一種通用算力,其設計目標是提供完備、復雜的計算能力,在高精度計算能力更強。業(yè)界廣泛用于衡量高性能計算性能的 Linpack 測試,測試的是高性能計算的“雙精度浮點運算能力”,即 64位浮點數(shù)字的計算(FP64),這是一種高精度的數(shù)值計算。在以二進制所表示數(shù)字精度中,還有單精度(32 位,F(xiàn)P32)、半精度(16 位,F(xiàn)P16)以及整數(shù)類型(如 INT8、INT4)等。數(shù)字位數(shù)越高,意味著人們可以在更大范圍內(nèi)的數(shù)值內(nèi)體現(xiàn)兩個數(shù)值的變化,從而實現(xiàn)更精確計算。
高性能計算在底層芯片性能要求上高于普通的數(shù)據(jù)中心和智算中心。算力中心有多種,大致可分為數(shù)據(jù)中心、高性能計算中心、智算中心等,而它們都可以用云的形式來提供服務。以實現(xiàn)人工智能需求為例,推理、訓練和模擬為 AI 的三類主要任務。在此維度上,芯片的應用上限由其底層構(gòu)造所決定,即使采用軟件優(yōu)化也無法再提升。從芯片層面來看,如果底層芯片采用的是 CPU+專用 AI 芯片,那么其只能完成 AI 推理和訓練任務,而無法完成模擬。因為 AI 芯片無法實現(xiàn)雙精度浮點運算,雙精度浮點運算大量涉及線性代數(shù)方程求解,而自然界的很多問題,包括科學問題、社會問題等,最后都可轉(zhuǎn)化為線性代數(shù)方程求解問題。
高性能計算的體系結(jié)構(gòu)設計和軟件同樣重要。芯片是高性能計算的重要組成部分,但不是高性能計算技術(shù)的全部。高性能計算不是簡單的 CPU 堆砌,體系結(jié)構(gòu)設計、高速互聯(lián)網(wǎng)絡、并行文件系統(tǒng)、儲存列陣等方面如果有所欠缺,即使堆再多的 CPU,高性能計算性能也無法提高。隨著計算能力的增強、應用課題規(guī)模和復雜度的增加,高性能計算機對并行文件系統(tǒng)等性能要求越來越高。高性能計算的技術(shù)溢出效益非常明顯。由于服務器可以平滑地采用高性能計算的互聯(lián)技術(shù)、CPU 技術(shù)、操作系統(tǒng)技術(shù)和并行軟件設計等技術(shù),在高性能計算方面的積累能夠自然地溢出到服務器產(chǎn)業(yè)。
高性能計算主要應用于哪些場景?
高性能計算適用于需要并行運算的任務,應用場景持續(xù)拓展。高性能計算主要應用場景分為兩類,一類是飛行器設計、核模擬實驗、星云模擬、解密碼等數(shù)值模擬場景,一類是大數(shù)據(jù)分析、統(tǒng)計和人工智能等數(shù)據(jù)分析場景。由于飛行器等工程設計中很多情況無法實測,只能進行計算模擬,因此美國對出口高性能計算十分謹慎。高性能計算應用正在從過去的高精尖向更廣更寬的方向發(fā)展。隨著高性能計算的發(fā)展,尤其是使用成本的不斷下降,其應用領(lǐng)域也從具有國家戰(zhàn)略意義的核武器研制、信息安全、石油勘探等科學計算領(lǐng)域向更廣泛的國民經(jīng)濟主戰(zhàn)場快速擴張,比如制藥、基因測序、動漫渲染、數(shù)據(jù)挖掘、金融分析以及互聯(lián)網(wǎng)服務等等。
從 2021 年 11 月中國高性能計算機 TOP100中的行業(yè)應用領(lǐng)域 Linpack 性能份額來看,算力服務、高性能計算中心、人工智能、科學計算等領(lǐng)域是高性能計算的主要用戶,互聯(lián)網(wǎng)大數(shù)據(jù)特別是 AI 領(lǐng)域增長強勁。
高性能計算的市場空間有多大?
十四五和新基建驅(qū)動高性能計算進入快速增長期。2021 年 3 月,我國“十四五規(guī)劃”中明確提出,要“加快構(gòu)建全國一體化大數(shù)據(jù)中心體系,強化算力統(tǒng)籌智能調(diào)度,建設若干國家樞紐節(jié)點和大數(shù)據(jù)中心集群,建設 E 級和 10E 級超級計算中心。”根據(jù)規(guī)劃,合肥、蘭州、廈門、太原等地多地都將陸續(xù)建立高性能計算中心。
2022 年中國整體高性能計算市場規(guī)模將超 400 億元。除政府規(guī)劃外,阿里、騰訊等多家互聯(lián)網(wǎng)巨頭均積極布局高性能計算建設。以騰訊為例,其于 2020 年 6 月正式開工的長三角人工智能高性能計算中心投資超 450 億元,建成后將承擔各種大規(guī)模 AI 算法計算、機器學習、圖像處理、科學計算和工程計算任務。此外,金融機構(gòu)、運營商等均在積極部署自己的高性能計算。根據(jù)觀研天下預測,2022 年中國高性能計算行業(yè)總體市場規(guī)模將超 400 億元,2021-2025 年 CAGR 為 13%左右。
高性能計算市場競爭格局穩(wěn)定
聯(lián)想、曙光、浪潮市占率分列前三。從中國高性能計算 TOP100 中主要公司系統(tǒng)個數(shù)統(tǒng)計來看,2002 年之前,TOP100 主要是國外的 HP、IBM 為主,后期以中國的聯(lián)想、曙光和浪潮為主。中科曙光在 1998 年完成 863 項目“曙光 2000”可擴展機群體系結(jié)構(gòu)的超級服務器,2001 年完成“曙光 3000”超級服務器后,從 2005 年開始,市場競爭開始有突出表現(xiàn),曙光 2010-2019 年連續(xù) 10 年按裝機臺數(shù)市場份額第一,2019 年占到接近 40%。浪潮在 2012 年完成“863 計劃”容錯服務器項目后,2014 年開始有明顯起色。聯(lián)想公司通過 2014 年對 IBM 公司 X86 HPC 產(chǎn)品線的并購,市場份額異軍突起,到 2021年已實現(xiàn) TOP100 裝機臺數(shù)份額第一。而聯(lián)想、浪潮、曙光中,只有曙光擁有從芯片等硬件到軟件系統(tǒng)的國產(chǎn)自主知識產(chǎn)權(quán)。
“東數(shù)西算”工程落地有望進一步促進西部地區(qū)發(fā)展高性能計算中心。2022 年 2月,國家發(fā)改委批復同意在京津冀、長三角、粵港澳大灣區(qū)、成渝、內(nèi)蒙古、貴州、甘肅、寧夏等 8 地啟動建設國家算力樞紐節(jié)點,并規(guī)劃了 10 個國家數(shù)據(jù)中心集群。至此,全國一體化大數(shù)據(jù)中心體系完成總體布局設計,代表著“東數(shù)西算”工程正式全面啟動。西部有風力發(fā)電、光伏發(fā)電,能源豐富,而且年平均氣溫比較低,十分適合計算中心的生存,而高性能計算業(yè)務對實時通訊的需求不高,未來高性能計算中心有望成為優(yōu)化算力布局的重要載體。
審核編輯:湯梓紅
-
cpu
+關(guān)注
關(guān)注
68文章
10901瀏覽量
212759 -
計算機
+關(guān)注
關(guān)注
19文章
7534瀏覽量
88501 -
HPC
+關(guān)注
關(guān)注
0文章
323瀏覽量
23829 -
高性能計算
+關(guān)注
關(guān)注
0文章
83瀏覽量
13424
原文標題:被忽視的國之重器:高性能計算那些事兒
文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論