GPU | COMPUTEX| 算力| GPU服務(wù)器
英偉達 | GH200| 一體化算力算網(wǎng)調(diào)度平臺
近年來,人工智能硬件、軟件算法以及應(yīng)用場景的豐富度不斷增加,算法模型參數(shù)也不斷增加,這帶動了對數(shù)據(jù)中心并行計算算力的需求。因此,AI、高性能計算、圖形渲染、大模型訓(xùn)練、AIGC、ChatGPT等推動GPU大算力并行計算芯片的需求。
2023年6月5日,由工業(yè)和信息化部主辦,中國信息通信研究院(以下簡稱“中國信通院”)等承辦的“算力創(chuàng)新發(fā)展高峰論壇”在京順利召開。工業(yè)和信息化部信息通信發(fā)展司副司長趙策,中國信通院副院長王志勤等領(lǐng)導(dǎo)出席會議并致辭。會上,中國信通院聯(lián)合中國電信共同發(fā)布我國首個實現(xiàn)多元異構(gòu)算力調(diào)度的全國性平臺——“全國一體化算力算網(wǎng)調(diào)度平臺(1.0版)”
該平臺匯聚通用算力、智能算力、高性能算力、邊緣算力等多元算力資源,針對通用、智算、超算等不同客戶的不同需求,設(shè)計異構(gòu)資源池調(diào)度引擎,實現(xiàn)不同廠商的異構(gòu)資源池的算力動態(tài)感知與作業(yè)智能分發(fā)調(diào)度。特別在AI訓(xùn)練作業(yè)調(diào)度流程中,作業(yè)可在智算資源池上進行訓(xùn)練推理,在通用算力資源池部署,從而實現(xiàn)跨資源池/跨架構(gòu)/跨廠商的異構(gòu)算力資源調(diào)度,目前已接入天翼云、華為云、阿里云等。
算力是 AI 芯片底層土壤,未來算力需求將呈爆發(fā)式增長。根據(jù) IDC 數(shù)據(jù),未來 5 年我國智能算力規(guī)模 CAGR 將達 52.3%。AI 芯片中,GPU 占據(jù)主要市場規(guī)模。根據(jù) IDC 數(shù)據(jù),2022 年國內(nèi)人工智能芯片市場中,GPU 芯片所占市場份額達 89.0%。
研發(fā)實力是一家芯片設(shè)計公司的核心競爭力,英偉達從發(fā)展初期就重視研發(fā)生產(chǎn)力,以高投入換取高回報不斷提升產(chǎn)品競爭力。2005 年,AMD 的研發(fā)費用為 11 億美元,是英偉達的 3.2 倍左右。而到了 2022 年,英偉達的研發(fā)費用達到 73.4 億美元,是 AMD 的 1.47 倍。
國產(chǎn)廠商加速布局,看好 AI 發(fā)展推動國產(chǎn)替代進程提速。在 ChatGPT 等概念影響下, AIGC 關(guān)注度火熱。未來 AI 應(yīng)用的落地離不開龐大算力的支撐,也將推動算力產(chǎn)業(yè)鏈快速增長。據(jù) IDC數(shù)據(jù)顯示,2021 年中國 AI 投資規(guī)模超 100 億美元,2026 年將有望達到 267 億美元,全球占比約 8.9%,排名第二,其中 AI 底層硬件市場占比將超過 AI 總投資規(guī)模的半數(shù)。
AI、高性能計算、圖形渲染推動GPU芯片需求
隨著人工智能、高性能計算、大規(guī)模圖形渲染等應(yīng)用場景的不斷拓展和豐富,市場對大算力并行計算芯片的需求快速增長。截止目前,全球數(shù)據(jù)中心領(lǐng)域邏輯芯片市場規(guī)模已經(jīng)超過400億美元。同時,近期市場對國產(chǎn)GPU領(lǐng)域的關(guān)注度提升?;谟ミ_的歷史復(fù)盤,可以看出英偉達在圖形渲染和數(shù)據(jù)中心領(lǐng)域保持較高的市場占有率,并實現(xiàn)產(chǎn)業(yè)引領(lǐng)。
一、AI 訓(xùn)練推理、復(fù)雜科學(xué)計算、大規(guī)模圖形渲染等,持續(xù)推動并行計算芯片需求
由于GPU(圖形處理器)是由成百上千個陣列排布的運算單元ALU組成,使得GPU更適用于大規(guī)模并發(fā)運算,其在圖形處理、計算加速等領(lǐng)域有著廣泛的運用。由于GPU加速器強大的并行處理能力,超算中心工作人員可以更好地設(shè)計深度網(wǎng)絡(luò)結(jié)構(gòu),使得其在超算領(lǐng)域和數(shù)據(jù)中心領(lǐng)域更具經(jīng)濟效益,導(dǎo)致GPU在AI訓(xùn)練和推理、科學(xué)計算等領(lǐng)域有著廣泛的應(yīng)用。
在典型AI模型卷積網(wǎng)絡(luò)中,大量數(shù)據(jù)以圖片形式導(dǎo)入,在進行運算過程中,數(shù)據(jù)均為矩陣形式,而矩陣運算通常適合并行,因此AI算法的特性,使得GPU的運算速度明顯大于CPU??茖W(xué)計算將物理、化學(xué)、生物、航空航天等領(lǐng)域的問題轉(zhuǎn)化為數(shù)學(xué)模型,通過計算和求解模型用于實際產(chǎn)業(yè)。從計算數(shù)據(jù)來看,由于科學(xué)計算中所用數(shù)據(jù)多數(shù)以矩陣為形式,同時由于科學(xué)計算對誤差有強制要求,因此在運算中需要在并行運算基礎(chǔ)上保證一定的精度。
而現(xiàn)代GPU在并行和矩陣運算的基礎(chǔ)上,已經(jīng)能夠滿足科學(xué)計算所需的精度要求。近些年來,隨著人工智能軟件算法的發(fā)展,復(fù)雜科學(xué)計算的進步,以及圖形渲染功能的增加,帶動底層芯片并行計算能力需求的快速提升。以全球AI芯片領(lǐng)軍者英偉達的發(fā)展?fàn)顩r來看,公司AI芯片算力由2012年的4Tops提升至2021年的1248Tops,9年時間提升了約315倍。
英偉達單芯片推理性能(Int8 Tops)
二、AI 框架、并行計算框架等引入豐富,不斷推動針對并行計算芯片軟件開發(fā)門檻降低
隨著AI框架和并行計算框架的引入和豐富,針對并行計算芯片軟件開發(fā)門檻不斷降低。從人工智能軟件算法框架的發(fā)展歷史來看,2015年谷歌宣布開源TensorFlow,2019年P(guān)FN宣布將研究方向由Chainer轉(zhuǎn)向PyTorch。
目前,AI框架形成了TensorFlow和PyTorch雙寡頭壟斷的競爭格局。其中,谷歌開源TensorFlow項目,在很大程度上降低了人工智能的開發(fā)門檻和難度。TensorFlow主要用于處理機器學(xué)習(xí)中的計算機視覺、推薦系統(tǒng)和自然語言處理(NLP)的模型訓(xùn)練和推理,涉及模型隱藏層相對較多,模型量相對較大,基本上均需要CUDA的加速處理。隨著TensorFlow的開源,涉及到的開發(fā)者快速增加,CUDA軟件下載量也呈現(xiàn)陡增趨勢。據(jù)英偉達在2021GTC大會上宣布,截至2020年底,CUDA累計下載量超過2000萬次,其中2020年下載量超過600萬次。涉及到的開發(fā)人員約230萬人(2020年新增超過60萬人)。
人工智能框架發(fā)展史
三、算法豐富、算法復(fù)雜度提升等,亦成為市場需求的重要驅(qū)動力
近年來,隨著人工智能芯片的不斷發(fā)展,算法的豐富和復(fù)雜度的提升成為市場需求的重要驅(qū)動力。從Alexnet、ResNet到BERT網(wǎng)絡(luò)模型,參數(shù)量已經(jīng)超過了3億規(guī)模,而GPT-3模型更是超過了百億規(guī)模,Switch Transformer的問世更是一舉突破了萬億規(guī)模。此外,英偉達在2020年發(fā)布的Megatron-LM模型,參數(shù)量達到了83億,相比2018年震驚世界的BERT模型又提升了5倍。這種模型體積幾何倍數(shù)的增長也帶來了更多數(shù)據(jù)中心側(cè)的需求,只有依靠上千塊GPU并行運算才能在以天為單位的訓(xùn)練時長中完成對Transformer模型的訓(xùn)練。
深度學(xué)習(xí)初期模型越來越大
英偉達布局算力的成功之道
目前,全球GPU市場競爭格局主要由英偉達、AMD、英特爾等幾家巨頭廠商主導(dǎo)。英偉達是GPU市場的領(lǐng)導(dǎo)者,其市場份額在游戲領(lǐng)域高達80%以上,數(shù)據(jù)中心和人工智能領(lǐng)域也占據(jù)著重要地位。AMD是英偉達的主要競爭對手,其市場份額在游戲領(lǐng)域約為20%。英特爾則主要競爭于集成顯卡和移動設(shè)備領(lǐng)域。這里以英偉達為例為大家展開詳細(xì)介紹。
GPU 逐步成為全球大算力并行計算領(lǐng)域的主導(dǎo)者,這得益于 GPU 本身的優(yōu)異特性以及英偉達等企業(yè)在芯片架構(gòu)、軟件生態(tài)等層面的不斷努力,疊加 AI、高性能計算、大規(guī)模圖形渲染等應(yīng)用場景的快速崛起。在產(chǎn)品端,GPU 廠商亦結(jié)合下游的應(yīng)用場景,在一個大的體系結(jié)構(gòu)下,針對計算單元、緩存、總線帶寬等技術(shù)點的優(yōu)化和組合。目前最主流的應(yīng)用場景產(chǎn)品是用于游戲等場景中圖形渲染的顯卡,以及用于數(shù)據(jù)中心 AI、高性能計算等場景的 GPGPU(通用計算 GPU)。
英偉達逐漸發(fā)展成為一家全球領(lǐng)先的高性能計算、AI 和游戲平臺解決方案提供商?;谔幚砥鳌⒒ミB、軟件、算法、系統(tǒng)和服務(wù)構(gòu)建而成的計算平臺,英偉達形成了數(shù)據(jù)中心、游戲、專業(yè)可視化、汽車四大類業(yè)務(wù)。
其中,數(shù)據(jù)中心業(yè)務(wù)主要指 NVIDIA 計算平臺,覆蓋超大規(guī)模、云、企業(yè)、公共部門和邊緣數(shù)據(jù)中心,聚焦于加速最具計算密集型的工作負(fù)載(如人工智能、數(shù)據(jù)分析、圖形和科學(xué)計算等)。游戲業(yè)務(wù)利用 GPU 和復(fù)雜的軟件來增強游戲體驗,使圖形更加流暢、高質(zhì)量。專業(yè)可視化業(yè)務(wù)主要通過 GPU 計算平臺提高視覺設(shè)計領(lǐng)域的生產(chǎn)效率,主要包括設(shè)計和制造(包括計算機輔助設(shè)計、建筑設(shè)計、消費品制造、醫(yī)療儀器和航空航天)以及數(shù)字內(nèi)容創(chuàng)作(包括專業(yè)視頻編輯和后期制作、電影特效以及廣播電視圖形)兩大應(yīng)用場景。汽車業(yè)務(wù)主要包括自動駕駛、AI 駕駛艙、電動車計算平臺和信息娛樂平臺解決方案。公司推出的 DRIVE Hyperion 是一個完整的自動駕駛市場端到端解決方案,包含高性能、能效高的 DRIVE AGX 計算硬件、支持全自動駕駛能力的參考傳感器組以及開放的模塊化 DRIVE 軟件平臺,可在車輛內(nèi)運行完整的感知、融合、規(guī)劃和控制堆棧。
英偉達業(yè)務(wù)架構(gòu)
一、快速崛起的數(shù)據(jù)中心業(yè)務(wù)
英偉達數(shù)據(jù)中心業(yè)務(wù)的核心是 NVIDIA 加速計算平臺,該平臺的建立始于 2006 年通用并行計算架構(gòu) CUDA 以及 2007 年 Tesla GPU 的推出。CUDA 提供并行計算平臺和編程模型,使得 GPU 的并行計算能力能夠被應(yīng)用于商業(yè)、工業(yè)以及科學(xué)方面的復(fù)雜計算問題,加速計算任務(wù)的執(zhí)行速度。
Tesla GPU 是專門為科學(xué)計算、工程計算、數(shù)據(jù)分析等計算密集型應(yīng)用設(shè)計的高性能計算 CPU,通過與 CUDA 能力的結(jié)合,可被廣泛應(yīng)用于藥物研發(fā)、醫(yī)學(xué)成像和天氣建模等領(lǐng)域,并在后續(xù)年份持續(xù)為全球超算中心提供基于 GPU 的算力支撐。受到多方面因素共同推動,英偉達數(shù)據(jù)中心業(yè)務(wù)快速增長,在整體收入中的占比持續(xù)提升,并于 2023 財年(對應(yīng) 2022 自然年)占比達到 56%。我們認(rèn)為英偉達數(shù)據(jù)中心業(yè)務(wù)崛起受到的推動因素有:深度學(xué)習(xí)開啟新一輪 AI 技術(shù)蓬勃發(fā)展;數(shù)據(jù)量增加激發(fā)大規(guī)模數(shù)據(jù)處理和分析的需求;復(fù)雜計算任務(wù)需求增加;云計算技術(shù)的發(fā)展提升算力使用的便捷性。
英偉達 2014-2023 財年收入結(jié)構(gòu)拆分
英偉達在數(shù)據(jù)業(yè)務(wù)上的成功,不僅僅依靠于 GPU 的銷售和使用。GPU 是 NVIDIA 加速計算平臺的基礎(chǔ),能夠高效完成以神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推斷為代表的并行工作負(fù)載任務(wù)。但是,英偉達數(shù)據(jù)中心的核心業(yè)務(wù)壁壘是端到端的硬件+軟件集成方案,構(gòu)成從實施開發(fā)到部署的全鏈路基礎(chǔ)設(shè)施支撐。從幾個維度拆解來看:
1、硬件
硬件部分由三個部分組成,包括 GPU(Hopper GPU)、DPU(BlueField DPU)和CPU(Grace CPU)。這些架構(gòu)涵蓋了性能、安全性和網(wǎng)絡(luò)等領(lǐng)域的前沿技術(shù)。CPU和DPU可以與GPU架構(gòu)緊密融合,對網(wǎng)絡(luò)、存儲和安全服務(wù)進行加速,提供高性能、高能效和高可靠性的加速計算解決方案。
英偉達加速系統(tǒng)與傳統(tǒng)加速系統(tǒng)對比
2、軟件
擁有龐大的軟件體系,包括CUDA并行編程模型、CUDA-X應(yīng)用加速庫集合、應(yīng)用程序接口(API)、軟件開發(fā)工具包(SDK)和工具,以及特定領(lǐng)域的應(yīng)用框架。這些框架包括對話式AI框架NVIDIA Riva、推薦系統(tǒng)框架NVIDIA Merlin、計算機視覺NVIDIA Metropolis等。這些軟件工具和框架可以幫助用戶更高效地利用英偉達的加速計算平臺,提升數(shù)據(jù)處理和分析的能力。
3、場景
適用于多種工作負(fù)載需求,包括分析、訓(xùn)練、推理、高性能計算、渲染和虛擬化等領(lǐng)域。這一平臺的多樣性和靈活性,可以為用戶提供更加全面和高效的數(shù)據(jù)處理和分析能力。
4、NGC
NVIDIA GPU Cloud(NGC)提供一系列完全托管的云服務(wù),將硬件、軟件以及不同場景的工作負(fù)載需求進行融合,是數(shù)據(jù)中心業(yè)務(wù)的理想終極形態(tài)。NGC的服務(wù)包括用于NLU和語音AI解決方案的NeMo LLM、BioNemo和Riva Studio。AI從業(yè)者可以利用NVIDIA Base Command進行模型訓(xùn)練,利用NVIDIA Fleet Command進行模型管理,并利用NGC專用注冊表安全共享專有AI軟件。此外,NGC還擁有一個GPU優(yōu)化的AI軟件、SDK和Jupyter Notebook的目錄,可幫助加速AI工作流,并通過NVIDIA AI Enterprise提供支持。
英偉達數(shù)據(jù)中心業(yè)務(wù)版圖
二、NVIDIA DGX GH200
DGX計算機系列采用英偉達自主研發(fā)的GPU加速技術(shù),配備高性能的CPU、GPU、內(nèi)存和存儲系統(tǒng),能夠快速處理大規(guī)模的數(shù)據(jù)和復(fù)雜的深度學(xué)習(xí)算法。此外,DGX計算機還配備了英偉達的深度學(xué)習(xí)軟件堆棧,包括CUDA、cuDNN和TensorRT等,可幫助用戶更輕松地構(gòu)建、訓(xùn)練和部署深度學(xué)習(xí)模型。
GH200是英偉達在 COMPUTEX 2023展會上推出的最新超級計算機,最多可以放置256個GPU,適用于超大型AI模型的部署。相比之前的DGX服務(wù)器,GH200提供線性拓展方式和更高的GPU共享內(nèi)存編程模型,可通過NVLink高速訪問144TB內(nèi)存,是上一代DGX的500倍。其架構(gòu)提供的NVLink帶寬是上一代的48倍,使得千億或萬億參數(shù)以上的大模型能夠在一臺DGX內(nèi)放置,進一步提高模型效率和多模態(tài)模型的開發(fā)進程。
GPU的統(tǒng)一內(nèi)存編程模型一直是復(fù)雜加速計算應(yīng)用取得突破的基石。NVIDIA Grace Hopper Superchip與NVLink開關(guān)系統(tǒng)配對,在NVIDIA DGX GH200系統(tǒng)中整合了256個GPU,通過NVLink高速訪問144TB內(nèi)存。與單個NVIDIA DGX A100 320 GB系統(tǒng)相比,NVIDIA DGX GH200為GPU共享內(nèi)存編程模型提供了近500倍的內(nèi)存,是突破GPU通過NVLink訪問內(nèi)存的100TB障礙的第一臺超級計算機。NVIDIA Base Command的快速部署和簡化系統(tǒng)管理使用戶能夠更快地進行加速計算。
NVIDIA DGX GH200系統(tǒng)采用了NVIDIA Grace Hopper Superchip和NVLink Switch System作為其構(gòu)建塊。NVIDIA Grace Hopper Superchip將CPU和GPU結(jié)合在一起,使用NVIDIA NVLink-C2C技術(shù)提供一致性內(nèi)存模型,并提供高帶寬和無縫的多GPU系統(tǒng)。每個Grace Hopper超級芯片都擁有480GB的LPDDR5 CPU內(nèi)存和96GB的快速HBM3,提供比PCIe Gen5多7倍的帶寬,與NVLink-C2C互連。
NVLink開關(guān)系統(tǒng)使用第四代NVLink技術(shù),將NVLink連接擴展到超級芯片,以創(chuàng)建一個兩級、無阻塞、NVLink結(jié)構(gòu),可完全連接256個Grace Hopper超級芯片。這種結(jié)構(gòu)提供900GBps的內(nèi)存訪問速度,托管Grace Hopper Superchips的計算底板使用定制線束連接到第一層NVLink結(jié)構(gòu),并由LinkX電纜擴展第二層NVLink結(jié)構(gòu)的連接性。
在DGX GH200系統(tǒng)中,GPU線程可以使用NVLink頁表來訪問來自其他Grace Hopper超級芯片的內(nèi)存,并通過NVIDIA Magnum IO加速庫來優(yōu)化GPU通信以提高效率。該系統(tǒng)擁有128 TBps的對分帶寬和230.4 TFLOPS的NVIDIA SHARP網(wǎng)內(nèi)計算,可加速AI常用的集體運算,并將NVLink網(wǎng)絡(luò)系統(tǒng)的實際帶寬提高一倍。每個Grace Hopper Superchip都配備一個NVIDIA ConnectX-7網(wǎng)絡(luò)適配器和一個NVIDIA BlueField-3 NIC,以擴展到超過256個GPU,可以互連多個DGX GH200系統(tǒng),并利用BlueField-3 DPU的功能將任何企業(yè)計算環(huán)境轉(zhuǎn)變?yōu)榘踩壹铀俚奶摂M私有云。
對于受GPU內(nèi)存大小瓶頸的AI和HPC應(yīng)用程序,GPU內(nèi)存的代際飛躍可以顯著提高性能。對于許多主流AI和HPC工作負(fù)載,單個NVIDIA DGX H100的聚合GPU內(nèi)存可以完全支持。對于其他工作負(fù)載,例如具有TB級嵌入式表的深度學(xué)習(xí)推薦模型(DLRM)、TB級圖形神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型或大型數(shù)據(jù)分析工作負(fù)載,使用DGX GH200可實現(xiàn)4至7倍的加速。這表明DGX GH200是更高級的AI和HPC模型的更好解決方案,這些模型需要海量內(nèi)存來進行GPU共享內(nèi)存編程。
DGX GH200是專為最嚴(yán)苛的工作負(fù)載而設(shè)計的系統(tǒng),每個組件都經(jīng)過精心挑選,以最大限度地減少瓶頸,同時最大限度地提高關(guān)鍵工作負(fù)載的網(wǎng)絡(luò)性能,并充分利用所有擴展硬件功能。這使得該系統(tǒng)具有高度的線性可擴展性和海量共享內(nèi)存空間的高利用率。
為了充分利用這個先進的系統(tǒng),NVIDIA還構(gòu)建了一個極高速的存儲結(jié)構(gòu),以峰值容量運行并處理各種數(shù)據(jù)類型(文本、表格數(shù)據(jù)、音頻和視頻),并且表現(xiàn)穩(wěn)定且并行。
DGX GH200附帶NVIDIA Base Command,其中包括針對AI工作負(fù)載優(yōu)化的操作系統(tǒng)、集群管理器、加速計算的庫、存儲和網(wǎng)絡(luò)基礎(chǔ)設(shè)施,這些都針對DGX GH200系統(tǒng)架構(gòu)進行了優(yōu)化。此外,DGX GH200還包括NVIDIA AI Enterprise,提供一套經(jīng)過優(yōu)化的軟件和框架,可簡化AI開發(fā)和部署。這種全堆棧解決方案使客戶能夠?qū)W⒂趧?chuàng)新,而不必?fù)?dān)心管理其IT基礎(chǔ)架構(gòu)。
三、大模型時代涌現(xiàn)的算力需求
自ChatGPT發(fā)布以來,越來越多的科技公司投入大模型研發(fā),帶動AI服務(wù)器出貨量和價格的量價齊升。根據(jù)TrendForce,2022年高端GPGPU服務(wù)器出貨量有望增長9%左右,2023年人工智能服務(wù)器出貨量有望增長15.4%,2023年至2027年人工智能服務(wù)器出貨量復(fù)合年增長率為12.2%。同時,據(jù)IDC在5月17日發(fā)布的數(shù)據(jù),A100 GPU市場單價已達15萬元,兩個月前為10萬元,漲幅50%;A800價格漲幅相對更小,價格在9.5萬元左右,上月價格為8.9萬元左右??紤]到目前全球GPU產(chǎn)能有限,市場GPU供應(yīng)持續(xù)緊缺,IDC預(yù)計未來AI服務(wù)器價格仍將保持上漲趨勢。
2023-2027 年 AI 服務(wù)器出貨量增速預(yù)測(截至 2023 年 4 月)
大模型對于算力的需求體現(xiàn)在模型訓(xùn)練和推理應(yīng)用兩個階段。模型訓(xùn)練階段的總計算量取決于模型的規(guī)模(參數(shù)數(shù)量)、訓(xùn)練數(shù)據(jù)集的大小、訓(xùn)練輪次、批次大小,而單一GPU的運算能力以及訓(xùn)練時間決定了訓(xùn)練階段對于GPU(或AI服務(wù)器)的需求量;推理應(yīng)用階段的總計算量取決于模型規(guī)模(參數(shù)數(shù)量)、輸入文本長度(問題長度)、輸出文本長度(回復(fù)長度)、模型的計算復(fù)雜性(取決于模型維度和模型層數(shù)),而在同一時間的用戶訪問量以及單一GPU的運算能力決定了推理階段對于GPU(或AI服務(wù)器)的需求量。具體而言:
根據(jù)OpenAI的論文《Scaling Laws for Neural Language Models》(2020年發(fā)表),訓(xùn)練階段算力需求為3×前向傳遞操作數(shù)×模型參數(shù)數(shù)量×訓(xùn)練集規(guī)模。同時,我們可得到訓(xùn)練所需GPU數(shù)量為總算力需求/(每個GPU每秒運算能力×訓(xùn)練時間×有效算力比率)。以GPT-3模型為例,GPT-3模型參數(shù)量為1750億個,訓(xùn)練集約為3000億tokens,對應(yīng)訓(xùn)練階段總算力需求為:GPT-3總算力需求=6×1.75×1011×3×1011=3.15×1023 FLOPS=3.15×108 PFLOPS。若假設(shè)全部采用英偉達A100 GPU進行運算,每張GPU運算能力為624 TFLOPS(即0.624 PFLOPS,對應(yīng)FP16稀疏運算),訓(xùn)練時間為20天(1.73×106秒),有效算力比率為30%,對應(yīng)所需GPU數(shù)量為:GPT-3訓(xùn)練所需A100 GPU數(shù)量(20天)=3.15×108 PFLOPS/(0.624 PFLOPS/s×1.73×106 s×30%)=973個GPU=122臺DGX-3。若我們假設(shè)訓(xùn)練20個對標(biāo)GPT-3參數(shù)量和訓(xùn)練集規(guī)模的大模型,則需要近2萬個A100 GPU或2432臺DGX-3。參考IDC最新公布的A100 GPU單價,僅GPU采購對應(yīng)的市場空間約為29億元;若全部采用DGX-3進行訓(xùn)練,則對應(yīng)市場空間可達到48.6億元。
推理階段算力需求同樣根據(jù)OpenAI論文,推理階段單次訪問算力需求為2×模型參數(shù)數(shù)量×訓(xùn)練及規(guī)模。從而我們可以得到推理應(yīng)用所需GPU數(shù)量=訪問量×單次訪問算力需求/(每個GPU每日運算能力×有效算力比率)。同樣以GPT-3模型為例,參考天翼智庫的測算,我們假設(shè)每次訪問發(fā)生10輪對話,每輪對話產(chǎn)生500個tokens(約350個單詞),則對應(yīng)單次訪問推理的算力需求為:單次訪問算力需求=2×1.75×1011×500×10=1.75×1015 FLOPS=1.75 PFLOPS。我們同樣假設(shè)全部采用英偉達A100 GPU進行運算,參考2023年4月ChatGPT的訪問量17.6億次,對應(yīng)日均訪問量約0.6億次,則為了支撐每日的訪問量推理所需GPU數(shù)量為:GPT-3每日推理所需A100 GPU數(shù)量=0.59×108×1.75 PFLOPS/(0.624 PFLOPS/s×8.64×104 s×30%)=6384個GPU=798臺DGX-3。由以上計算結(jié)果可知推理階段對于算力的需求遠(yuǎn)超訓(xùn)練階段對于的算力需求。若我們假設(shè)每日需應(yīng)對2億次訪問量,則需要約2.2萬個A100 GPU或2720臺DGX-3。
研究英偉達的快速發(fā)展給我國帶來什么借鑒意義
一、深耕GPU算力領(lǐng)域,研發(fā)為導(dǎo)向不斷提升產(chǎn)品競爭力
1、采用主流 API,借助微軟推廣產(chǎn)品
NVIDIA公司自創(chuàng)立之初便以市場需求為導(dǎo)向,通過匹配主流API并不斷更新技術(shù),逐漸降低產(chǎn)品價格以滿足消費者需求,從而占領(lǐng)市場。在設(shè)計NV2及后續(xù)產(chǎn)品時,NVIDIA公司都采用微軟推出的DirectX作為API,得益于微軟Windows系列操作系統(tǒng)在市場上占有大量份額,同時對DirectX和OpenGL進行加速優(yōu)化,使得NVIDIA公司的產(chǎn)品得到了廣泛的歡迎。
1998 年操作系統(tǒng)占比
2、壓縮開發(fā)周期領(lǐng)先市場,為下游廠商提供更好的產(chǎn)品
英偉達公司抓住了從2D到3D的轉(zhuǎn)型趨勢,通過成熟的研發(fā)體系,以快速的速度甩開了2D圖形廠商。該公司圖形業(yè)務(wù)的快速產(chǎn)品周期得益于其獨特的運營模式。一般圖形市場產(chǎn)品有兩個開發(fā)周期:6-9個月和12-18個月,而英偉達公司則采用了“三團隊-兩季度”的運營模式,即三個并行開發(fā)團隊分別專注于三個獨立的分階段產(chǎn)品開發(fā),分別在第一年秋季、第二年春季和第二年秋季推出新產(chǎn)品,每6個月推出一次新產(chǎn)品,與圖形市場產(chǎn)品周期一致,領(lǐng)先市場1-2個研發(fā)周期。此外,為解決芯片硬件開發(fā)比軟件開發(fā)慢的問題,英偉達公司大力投資了仿真技術(shù),從而提升了效率。
3、在產(chǎn)品布局多元化初期,用產(chǎn)品交叉服務(wù)市場
盡管英偉達在手機芯片市場開拓中遭遇失敗,但并未停止Tegra處理器的研發(fā),而是改變了產(chǎn)品定位,將Tegra處理器應(yīng)用于智能汽車、智慧城市和云端服務(wù)。因此,英偉達初步確立了“兩產(chǎn)品條線-四市場”的商業(yè)模式,其中兩個產(chǎn)品條線分別為傳統(tǒng)產(chǎn)品GPU和Tegra處理器,而四個市場則分別為游戲、企業(yè)級、移動端和云端。
英偉達商業(yè)布局
4、英偉達的商業(yè)模式戰(zhàn)略很好的應(yīng)對了圖像處理器市場的發(fā)展趨勢
英偉達的商業(yè)模式戰(zhàn)略很好地應(yīng)對了圖像處理器市場的發(fā)展趨勢。當(dāng)時的圖像處理器市場產(chǎn)品細(xì)化,主要分布在游戲玩家、企業(yè)級、平板電腦和移動端用戶,不同客戶的需求差異化明顯,針對不同下游英偉達推出了對應(yīng)的產(chǎn)品方案。
1)游戲市場
針對玩家希望能夠在不同平臺無縫進行游戲體驗的需求,英偉達推出了端到端的服務(wù),使游戲能夠在云端運行,不需要玩家擁有高性能的電腦,大大提高了玩家碎片時間的利用率和娛樂的靈活性。
2)企業(yè)級
英偉達為汽車、電影、天然氣等行業(yè)提供可視化解決方案,目的是提高行業(yè)生產(chǎn)力。英偉達面向企業(yè)市場的產(chǎn)品包括用于工作站的Quadro,用于高性能計算服務(wù)器的Tesla和用于企業(yè)VDI應(yīng)用程序的GRID。
3)移動端
英偉達將移動端擴展到移動智能設(shè)備市場,比如智能汽車、智能家居行業(yè)。英偉達的移動戰(zhàn)略轉(zhuǎn)變?yōu)閷egra應(yīng)用到需要視覺設(shè)計的設(shè)備中。
4)云端服務(wù)
英偉達將GPU的應(yīng)用從PC端拓展到服務(wù)器和數(shù)據(jù)中心,使得更多的用戶可以使用。英偉達開發(fā)的GRID使Adobe Photoshop遠(yuǎn)程運行,并與應(yīng)用程序交互。
2016-2025 年自動駕駛規(guī)模(十億美元)
5、研發(fā)投入帶給英偉達高回報,在主流游戲和顯卡天梯測評上,AMD 落后于英偉達
英偉達在2018年推出的Titan RTX和RTX 2080 Ti全面超過當(dāng)時的Radeon VII,其采取的策略是推出比AMD稍高的性能和價格。即使技術(shù)比AMD領(lǐng)先,也會等到AMD推出更高性能的產(chǎn)品之后,才會推出,以此來獲得比AMD更高的收益。
6、專利數(shù)量方面英偉達逐步反超 AMD
AMD此前在專利數(shù)量上一直多于英偉達,但申請的數(shù)量呈現(xiàn)下降趨勢。英偉達在2011年之后申請專利數(shù)量開始爆發(fā),主要因其在2007年之后開始研發(fā)移動端GPU和深度學(xué)習(xí)領(lǐng)域,最終給GPU市場帶來了新的框架和更高性能的芯片。
二、CUDA 自成體系:從單一產(chǎn)業(yè)到生態(tài)鏈,構(gòu)建強護城河
1、CUDA 助力英偉達成長為 AI 產(chǎn)業(yè)龍頭,構(gòu)建強大生態(tài)護城河壁壘
CUDA是英偉達基于其生產(chǎn)的GPU的一個并行計算平臺和編程模型,目的是便于更多的技術(shù)人員參與開發(fā)。開發(fā)人員可以通過C/C++、Fortran等高級語言來調(diào)用CUDA的API,來進行并行編程,達到高性能計算目的。CUDA平臺的出現(xiàn)使得利用GPU來訓(xùn)練神經(jīng)網(wǎng)絡(luò)等高算力模型的難度大大降低,將GPU的應(yīng)用從3D游戲和圖像處理拓展到科學(xué)計算、大數(shù)據(jù)處理、機器學(xué)習(xí)等領(lǐng)域。這種生態(tài)系統(tǒng)的建立讓很多開發(fā)者依賴于CUDA,進一步增加了英偉達的競爭優(yōu)勢。
CUDA 加速計算解決方案
2、CUDA 的低成本和兼容性成為其最重要的吸引點之一
英偉達的CUDA是一個免費、強大的并行計算平臺和編程模型。安裝過程簡單且明確,讓開發(fā)者能夠輕松快速地啟動并行編程。CUDA對新手極其友好,特別是對C語言、C++和Fortran的開發(fā)者。同時為支持其他編程語言,如Java、Python等,CUDA還提供第三方包裝器進行擴展。為廣大開發(fā)者提供了極大的便利和高效的編程體驗。操作系統(tǒng)方面,CUDA在多種操作系統(tǒng)上也都有良好的兼容性,包括Windows、Linux和macOS。
3、CUDA 有著豐富的社區(qū)資源和代碼庫,為編程提供良好的支持
英偉達的CUDA享有強大的社區(qū)資源,這個社區(qū)由專業(yè)的開發(fā)者和領(lǐng)域?qū)<医M成,他們通過分享經(jīng)驗和解答疑難問題,為CUDA的學(xué)習(xí)和應(yīng)用提供了豐富的支持。另外,CUDA的代碼庫資源涵蓋各種計算應(yīng)用,具有極高的參考價值,為開發(fā)者在并行計算領(lǐng)域的創(chuàng)新和實踐提供了寶貴的資源。這兩大特點共同推動了CUDA在并行計算領(lǐng)域的領(lǐng)先地位。
CUDA 11.0 主要特點
4、CUDA 借助燕尾服效應(yīng),搭配 GeForce 覆蓋多元市場
CUDA技術(shù)最初是為了配合GeForce系列芯片而推出的,利用GeForce在游戲市場的廣泛覆蓋率,作為一個技術(shù)杠桿,推動CUDA的普及和發(fā)展。作為一項可以幫助GeForce拓展新的市場的重要技術(shù),CUDA極大地提高了視頻和圖像應(yīng)用(如CyberLink、Motion DSP和Nero)的性能,實現(xiàn)了多倍的效率提升。
5、創(chuàng)業(yè)公司的大量采用使得 CUDA 應(yīng)用場景進一步得到拓展,游戲不再是唯一應(yīng)用領(lǐng)域
隨著時間的推移,超過一百家創(chuàng)業(yè)公司開始利用CUDA的強大計算能力,使其應(yīng)用領(lǐng)域得以擴展,不再局限于游戲方面。在視頻編碼領(lǐng)域,英偉達與Elemental公司合作,利用并行計算技術(shù)加速了高清視頻的壓縮、上傳和存儲速度。這一成功的合作不僅體現(xiàn)了CUDA在各種場景下的適用性,也進一步推動了CUDA技術(shù)的發(fā)展。當(dāng)Elemental公司后被亞馬遜收購,其基于CUDA的視頻處理技術(shù)也成為AWS的服務(wù)組成部分,這一過程也讓CUDA的使用場景得到了進一步的豐富和拓寬。
6、CUDA 形成完整生態(tài)鏈,通過大學(xué)普及學(xué)習(xí)以推廣 CUDA
英偉達將 CUDA 引入了大學(xué)的課堂中,從源頭上擴大了 CUDA 的使用范圍和受眾 群體。早在 2010 年,已經(jīng)有關(guān)于 CUDA 數(shù)千篇論文,超過 350 所大學(xué) 進行 CUDA 教學(xué)課程。在此基礎(chǔ)之上,英偉達建立了 CUDA 認(rèn)證計劃、 研究中心、教學(xué)中心,不斷完善 CUDA 的生態(tài)鏈。從結(jié)果看:2008 年 僅有 100 所大學(xué)教學(xué) CUDA 課程,在 2010 年英偉達全球建立了 20 個 CUDA 研發(fā)中心后,2015 年已有 800 所大學(xué)開放 CUDA 課程。
大學(xué)教授 CUDA 數(shù)量(所)
7、對比 OpenCL,CUDA 是英偉達 GPU 編程的更優(yōu)解
雖然OpenCL具有更廣泛的兼容性,但CUDA與英偉達的GPU硬件緊密結(jié)合,可以更有效地利用其性能。此外,CUDA的編程模型更加簡潔易用,提供完整的開發(fā)工具鏈,并且擁有豐富的社區(qū)資源和多樣的代碼庫,使得在科學(xué)計算、深度學(xué)習(xí)等領(lǐng)域的應(yīng)用更加方便。因此,對于英偉達GPU的開發(fā)者來說,CUDA通常是更好的選擇。
CUDA 成為英偉達生態(tài)基礎(chǔ)
8、對比 ADM 的 CTM 編程模型,CUDA 擁有更廣泛的應(yīng)用和更高的操作性
操作性方面,CTM更接近硬件,因此開發(fā)者需要具備更深入的硬件知識才能進行開發(fā)。但這也意味著CTM可以提供更精細(xì)的控制和優(yōu)化。相比之下,CUDA提供了一套完整的開發(fā)工具鏈,包括編譯器、調(diào)試器和性能分析工具,以及豐富的庫函數(shù),為開發(fā)者提供了極大的便利。在應(yīng)用方面,CUDA已經(jīng)在各種領(lǐng)域廣泛應(yīng)用,尤其是在科學(xué)計算和深度學(xué)習(xí)等領(lǐng)域,CUDA擁有大量的優(yōu)化庫和開發(fā)工具。而CTM的應(yīng)用相對較少,但由于其提供了對硬件的低級別控制,因此在一些特定的應(yīng)用場景中具有優(yōu)勢。
GPU 編程平臺發(fā)展歷史
9、對比微軟的 DirectCompute, CUDA 勝在配套設(shè)施的支持
與DirectCompute相比,CUDA具有豐富的功能庫、完善的開發(fā)工具和廣泛的應(yīng)用支持,尤其在科學(xué)計算和深度學(xué)習(xí)領(lǐng)域具有明顯優(yōu)勢。CUDA在英偉達GPU上的性能優(yōu)化也更為出色。而DirectCompute作為跨平臺工具,其優(yōu)勢在于與DirectX的兼容性以及對多種硬件的支持。但從英偉達GPU的應(yīng)用廣泛度來看,使用CUDA才是開發(fā)者的首選??偟膩碚f,雖然DirectCompute的通用性更強,但英偉達的CUDA在功能、性能和應(yīng)用范圍上提供了更強大的支持,對于使用英偉達硬件的開發(fā)者來說是更優(yōu)的選擇。
三、抓住人工智能發(fā)展浪潮,順利轉(zhuǎn)型切入算力芯片領(lǐng)域
IDC的測算顯示,全球數(shù)據(jù)總量每年將以50%的增速不斷增長。到2025年,數(shù)據(jù)量將增加至334ZB,到2035年則將達到19267ZB。隨著5G技術(shù)的落地,應(yīng)用方案將變得更加具象化,未來數(shù)據(jù)總量和數(shù)據(jù)分析需求將持續(xù)增加。數(shù)據(jù)增長的主要來源包括IoT、移動互聯(lián)網(wǎng)、智慧城市和自動駕駛等領(lǐng)域。大數(shù)據(jù)的應(yīng)用將從商業(yè)分析向工業(yè)、交通、政府管理、醫(yī)療、教育等行業(yè)滲透,并成為產(chǎn)業(yè)供應(yīng)鏈中不可或缺的重要組成部分。
全球數(shù)據(jù)總量(ZB)
據(jù)目前的測算,智能駕駛將是對算力要求最高的應(yīng)用領(lǐng)域。一方面,汽車駕駛對于安全可靠性要求極高;另一方面,L5級別的自動駕駛汽車將搭載32個傳感器,據(jù)麥肯錫估算,一輛自動駕駛汽車的數(shù)據(jù)量將達到4TB/h,而Intel測算出的一天數(shù)據(jù)量將達到4000GB。然而,英偉達的Xavier目前只有1.3TFlops的處理能力,無法滿足處理L5級別數(shù)據(jù)的要求。智能駕駛和ADAS市場在未來的10年內(nèi)有望保持高速增長,因此智能駕駛以及ADAS領(lǐng)域存在著巨大的算力缺口。
智能駕駛層級越高所需傳感器越多
根據(jù)Tractica的數(shù)據(jù),2018年全球AI硬件市場的收入為196億美元,其中GPU的收入占36.2%,即71億美元。預(yù)計到2025年,全球AI硬件市場的收入將達到2349億美元,其中GPU的收入占23.2%,即545億美元。盡管GPU市場占比會出現(xiàn)下滑,但全球AI硬件市場仍在不斷上升,為GPU市場帶來更多的增長空間。
2018-2025 年 AI 硬件市場收入(十億美元)
由于摩爾定律的放緩,CPU的應(yīng)用性能增幅已經(jīng)開始下降。然而,人工智能的到來并沒有因此而停止。登納德定律通過縮小晶體管的尺寸和電壓,讓設(shè)計師在保持功率密度的同時提高晶體管的密度和速度。但是,由于物理條件的限制,CPU架構(gòu)師需要增加大量電路和能量,才能獲得有限的指令級并行性(ILP)。因此,在后摩爾定律時代,CPU晶體管需要消耗更多的性能,才能實現(xiàn)應(yīng)用性能的小幅提高。最近幾年,CPU的性能增長速度僅為每年10%,而過去是每年50%。
GPU 打破摩爾定律
英偉達作為全球GPU市場的領(lǐng)導(dǎo)者,憑借其創(chuàng)新力和高市場份額,在行業(yè)中擁有龍頭地位。其持續(xù)的技術(shù)創(chuàng)新和強大的研發(fā)實力,尤其是CUDA并行計算平臺的推出,進一步鞏固了其在市場中的優(yōu)越地位。英偉達的GPU已成為人工智能和機器學(xué)習(xí)加速應(yīng)用的首選解決方案,廣泛應(yīng)用于各個領(lǐng)域,從游戲和專業(yè)視覺應(yīng)用到數(shù)據(jù)中心和自動駕駛汽車。英偉達成功的經(jīng)驗在于持續(xù)深耕GPU高性能計算潛力,構(gòu)建強大的軟件護城河壁壘,加大研發(fā)投入,實施創(chuàng)新技術(shù),不斷更新GPU架構(gòu),拓展業(yè)務(wù)范圍,擴大GPU市場,提高營收和利潤率,達成產(chǎn)業(yè)鏈的良性循環(huán)。
國內(nèi)算力公司梳理
全球 AI 芯片市場被英偉達壟斷,然而國產(chǎn) AI 算力芯片正起星星之火。目前,國內(nèi)已涌現(xiàn)出了如寒武紀(jì)、海光信息等優(yōu)質(zhì)的 AI 算力芯片上市公司,非上市 AI 算力芯片公司如藍海大腦、沐曦、天數(shù)智芯、壁仞科技等亦在產(chǎn)品端有持續(xù)突破。
一、龍芯中科:國產(chǎn) CPU 設(shè)計標(biāo)桿,自主研發(fā) GPGPU
公司主要從事處理器(CPU)及配套芯片的研制、銷售及服務(wù),主要產(chǎn)品包括龍芯1號、龍芯2號、龍芯3號三大系列處理器芯片及橋片等配套芯片。這些系列產(chǎn)品已在電子政務(wù)、能源、交通、金融、電信、教育等行業(yè)領(lǐng)域廣泛應(yīng)用。龍芯通過自主指令系統(tǒng)構(gòu)建獨立于Wintel和AA體系的開放信息技術(shù)體系的CPU,不斷推出基于LoongArch架構(gòu)的芯片,成功建立了自己的指令系統(tǒng)架構(gòu)LoongArch。在2021年和2022年,公司相繼推出了多款基于LA架構(gòu)的芯片產(chǎn)品,目前已擁有9顆基于LA架構(gòu)的芯片產(chǎn)品。
龍架構(gòu)
龍芯中科堅持自主研發(fā)指令系統(tǒng)、IP核等核心技術(shù),掌握指令系統(tǒng)、處理器核微結(jié)構(gòu)、GPU以及各種接口IP等芯片核心技術(shù),在關(guān)鍵技術(shù)上進行自主研發(fā),已取得專利400余項。GPU產(chǎn)品進展順利,正研制新一代圖形及計算加速GPGPU核。據(jù)公司在2022年半年度業(yè)績交流會信息,第一代GPU核(LG100)已經(jīng)集成在7A2000中,新一代GPGPU核(LG200)的研制也取得了積極進展。目前,公司正在啟動第二代龍芯圖形處理器架構(gòu)LG200系列圖形處理器核的研制。龍芯中科在核心技術(shù)自主研發(fā)方面取得了顯著成果,為公司未來的發(fā)展奠定了堅實的基礎(chǔ)。
二、海光信息:國產(chǎn)高端處理器龍頭,CPU+DCU 雙輪驅(qū)動
公司主營產(chǎn)品為海光通用處理器(CPU)和海光協(xié)處理器(DCU)。海光CPU分為7000、5000、3000三個系列,可應(yīng)用于高端服務(wù)器、中低端服務(wù)器和邊緣計算服務(wù)器。海光DCU是基于GPGPU架構(gòu)設(shè)計的協(xié)處理器,以8000系列為主,適用于服務(wù)器集群或數(shù)據(jù)中心。該產(chǎn)品全面兼容ROCm GPU計算生態(tài),能夠適配國際主流商業(yè)計算軟件,解決了產(chǎn)品推廣過程中的軟件生態(tài)兼容性問題。
海光產(chǎn)品持續(xù)迭代,CPU方面海光一號和海光二號已實現(xiàn)量產(chǎn),海光三號已正式發(fā)布,海光四號進入研發(fā)階段。雖然海光CPU性能在國內(nèi)處于領(lǐng)先地位,但在高端產(chǎn)品性能上與國際廠商有所差距,接近Intel中端產(chǎn)品水平。DCU方面,深算一號已實現(xiàn)商業(yè)化應(yīng)用,深算二號已于2020年1月啟動研發(fā),在典型應(yīng)用場景下指標(biāo)達到國際上同類型高端產(chǎn)品水平。高研發(fā)力度成為海光產(chǎn)品快速迭代的基石,從2019到2021年,海光信息的研發(fā)投入增長83.3%,擁有千人級高端處理器研發(fā)團隊,且90.2%的員工是研發(fā)人員。公司已取得多項處理器核心技術(shù)突破,擁有179項專利、154項軟件著作權(quán)和81項集成電路布圖設(shè)計專有權(quán),構(gòu)建了全面的知識產(chǎn)權(quán)布局,CPU與DPU的持續(xù)迭代使性能比肩國際主流廠商。
海光 CPU 與 Intel 產(chǎn)品性能對比
三、寒武紀(jì):國產(chǎn) AI 芯片領(lǐng)先者
寒武紀(jì)是一家專注于人工智能芯片產(chǎn)品研發(fā)與技術(shù)創(chuàng)新的獨角獸公司,成立于2016年。公司的產(chǎn)品廣泛應(yīng)用于消費電子、數(shù)據(jù)中心、云計算等多個場景。為了支持人工智能的各種應(yīng)用場景,公司推出了面向云端、邊緣端和終端的三個系列不同品類的通用型智能芯片與處理器產(chǎn)品,包括終端智能處理器IP、云端智能芯片及加速卡、邊緣智能芯片及加速卡。寒武紀(jì)的產(chǎn)品線豐富,應(yīng)用場景廣泛,能夠滿足在云、邊、端各個尺度的人工智能計算需求。
在2022年3月,公司推出了新的訓(xùn)練加速卡MLU370-X8,該加速卡配備了雙芯片四核思元370,并整合了寒武紀(jì)MLU-Link多核互聯(lián)技術(shù),主要針對訓(xùn)練任務(wù)。在廣泛應(yīng)用于各個領(lǐng)域的YOLOv3、Transformer等訓(xùn)練任務(wù)中,8卡計算系統(tǒng)的并行性能平均超過了350WRTXGPU的155%。
高性能通用圖形處理器芯片及系統(tǒng)研發(fā)項目情況及進程安排
藍海大腦高性能計算機是一款功能強大的GPU服務(wù)器,它具備開放融合、超能運算、高效運維、液冷設(shè)計等多項特點。在開放融合方面,該計算機系統(tǒng)融合了計算、網(wǎng)絡(luò)、存儲、GPU、虛擬化等多種技術(shù),支持主流虛擬化平臺,同時也支持在線壓縮、重復(fù)數(shù)據(jù)自動刪除、數(shù)據(jù)保護、容災(zāi)備份以及雙活等功能。
在超能運算方面,該計算機系統(tǒng)支持主流GPU顯卡虛擬化,支持2、8、16塊全高全長卡,提高計算性能和圖像渲染能力,同時也可以快速實現(xiàn)系統(tǒng)擴展,支持大規(guī)模并發(fā)運行。在高效運維方面,該計算機系統(tǒng)提供一站式部署,開箱即用,同時也具備強大的數(shù)據(jù)、網(wǎng)絡(luò)、虛擬化及管理安全保障。
此外,該計算機系統(tǒng)還采用了液冷設(shè)計,可以連續(xù)安靜熱轉(zhuǎn)換,停機時間少,所有顯卡不會因過熱而縮短跳動周期,顯著減少體積和熱量的產(chǎn)生,液冷系統(tǒng)密度更高、更節(jié)能、防噪音效果更好。此外,該計算機系統(tǒng)還支持2顆英特爾? 至強? 可擴展處理器家族CPU,提供16-56物理核心龍芯、飛騰、申威(可選)、英偉達A100、H100、A6000等多種顯卡多種選擇,可為用戶提供更加靈活、高效的計算服務(wù)。
總結(jié)
總之,隨著人工智能技術(shù)的不斷發(fā)展,對高性能計算的需求也在不斷增長。英偉達作為計算機芯片制造商之一,通過技術(shù)進步和產(chǎn)品創(chuàng)新不斷提高自身競爭力。未來,國產(chǎn)AI供應(yīng)商也有望在產(chǎn)業(yè)創(chuàng)新趨勢和國產(chǎn)替代背景下進入快速增長通道??梢灶A(yù)見的是,算力產(chǎn)業(yè)鏈將會快速增長,為人工智能應(yīng)用的落地提供強大的支撐。
審核編輯黃宇
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5063瀏覽量
103430 -
AI
+關(guān)注
關(guān)注
87文章
31335瀏覽量
269717 -
英偉達
+關(guān)注
關(guān)注
22文章
3824瀏覽量
91573 -
算力
+關(guān)注
關(guān)注
1文章
1008瀏覽量
14887
發(fā)布評論請先 登錄
相關(guān)推薦
評論