?本文來自“人工智能點(diǎn)燃算力需求,AI服務(wù)器迎來機(jī)遇”,Open AI的大型語言生成模型ChatGPT火熱,它能勝任刷高情商對話、生成代碼、構(gòu)思劇本和小說等多個(gè)場景,將人機(jī)對話推向新的高度。全球各大科技企業(yè)都在積極擁抱AIGC,不斷推出相關(guān)技術(shù)、平臺(tái)和應(yīng)用。
目前,AIGC產(chǎn)業(yè)生態(tài)體系的雛形已現(xiàn),呈現(xiàn)為上中下三層架構(gòu):①第一層為上游基礎(chǔ)層,也就是由預(yù)訓(xùn)練模型為基礎(chǔ)搭建的AIGC技術(shù)基礎(chǔ)設(shè)施層。②第二層為中間層,即垂直化、場景化、個(gè)性化的模型和應(yīng)用工具。③第三層為應(yīng)用層,即面向C端用戶的文字、圖片、音視頻等內(nèi)容生成服務(wù)。
根據(jù)IDC發(fā)布的《2022年第四季度中國服務(wù)器市場跟蹤報(bào)告Prelim》,浪潮份額國內(nèi)領(lǐng)先,新華三次之,超聚變排行第三,中興通訊進(jìn)入前五。
2、服務(wù)器基本整體構(gòu)成
服務(wù)器主要硬件包括處理器、內(nèi)存、芯片組、I/O (RAID卡、網(wǎng)卡、HBA卡) 、硬盤、機(jī)箱 (電源、風(fēng)扇)。以一臺(tái)普通的服務(wù)器生產(chǎn)成本為例,CPU及芯片組大致占比50% 左右,內(nèi)存大致占比 15% 左右,外部存儲(chǔ)大致占比10%左右,其他硬件占比25%左右。
服務(wù)器的邏輯架構(gòu)和普通計(jì)算機(jī)類似。但是由于需要提供高性能計(jì)算,因此在處理能力、穩(wěn)定性、可靠性、安全性、可擴(kuò)展性、可管理性等方面要求較高。
邏輯架構(gòu)中,最重要的部分是CPU和內(nèi)存。CPU對數(shù)據(jù)進(jìn)行邏輯運(yùn)算,內(nèi)存進(jìn)行數(shù)據(jù)存儲(chǔ)管理。
服務(wù)器的固件主要包括BIOS或UEFI、BMC、CMOS,OS包括32位和64位。
3、大模型參數(shù)量持續(xù)提升
GPT模型對比BERT模型、T5模型的參數(shù)量有明顯提升。GPT-3是目前最大的知名語言模型之一,包含了1750億(175B)個(gè)參數(shù)。在GPT-3發(fā)布之前,最大的語言模型是微軟的Turing NLG模型,大小為170億(17B)個(gè)參數(shù)。訓(xùn)練數(shù)據(jù)量不斷加大,對于算力資源需求提升。
回顧GPT的發(fā)展,GPT家族與BERT模型都是知名的NLP模型,都基于Transformer技術(shù)。GPT,是一種生成式的預(yù)訓(xùn)練模型,由OpenAI團(tuán)隊(duì)最早發(fā)布于2018年,GPT-1只有12個(gè)Transformer層,而到了GPT-3,則增加到96層。其中,GPT-1使用無監(jiān)督預(yù)訓(xùn)練與有監(jiān)督微調(diào)相結(jié)合的方式,GPT-2與GPT-3則都是純無監(jiān)督預(yù)訓(xùn)練的方式,GPT-3相比GPT-2的進(jìn)化主要是數(shù)據(jù)量、參數(shù)量的數(shù)量級(jí)提升。
4、未來異構(gòu)計(jì)算或成為主流
異構(gòu)計(jì)算(Heterogeneous Computing)是指使用不同類型指令集和體系架構(gòu)的計(jì)算單元組成系統(tǒng)的計(jì)算方式,目前主要包括GPU云服務(wù)器、FPGA云服務(wù)器和彈性加速計(jì)算實(shí)例EAIS等。讓最適合的專用硬件去服務(wù)最適合的業(yè)務(wù)場景。
在CPU+GPU的異構(gòu)計(jì)算架構(gòu)中,GPU與CPU通過PCle總線連接協(xié)同工作,CPU所在位置稱為主機(jī)端 (host),而GPU所在位置稱為設(shè)備端(device)。基于CPU+GPU的異構(gòu)計(jì)算平臺(tái)可以優(yōu)勢互補(bǔ),CPU負(fù)責(zé)處理邏輯復(fù)雜的串行程序,而GPU重點(diǎn)處理數(shù)據(jù)密集型的并行計(jì)算程序,從而發(fā)揮最大功效。
越來越多的AI計(jì)算都采用異構(gòu)計(jì)算來實(shí)現(xiàn)性能加速。
阿里第一代計(jì)算型GPU實(shí)例,2017年對外發(fā)布GN4,搭載Nvidia M40加速器.,在萬兆網(wǎng)絡(luò)下面向人工智能深度學(xué)習(xí)場景,相比同時(shí)代的CPU服務(wù)器性能有近7倍的提升。
5、為什么GPU適用于AI
CPU 適用于一系列廣泛的工作負(fù)載,特別是那些對于延遲和單位內(nèi)核性能要求較高的工作負(fù)載。作為強(qiáng)大的執(zhí)行引擎,CPU 將它數(shù)量相對較少的內(nèi)核集中用于處理單個(gè)任務(wù),并快速將其完成。這使它尤其適合用于處理從串行計(jì)算到數(shù)據(jù)庫運(yùn)行等類型的工作。
GPU 最初是作為專門用于加速特定 3D 渲染任務(wù)的 ASIC 開發(fā)而成的。隨著時(shí)間的推移,這些功能固定的引擎變得更加可編程化、更加靈活。盡管圖形處理和當(dāng)下視覺效果越來越真實(shí)的頂級(jí)游戲仍是 GPU 的主要功能,但同時(shí),它也已經(jīng)演化為用途更普遍的并行處理器,能夠處理越來越多的應(yīng)用程序。
訓(xùn)練和推理過程所處理的數(shù)據(jù)量不同。
在AI實(shí)現(xiàn)的過程中,訓(xùn)練(Training)和推理(Inference)是必不可少的,其中的區(qū)別在于:
訓(xùn)練過程:又稱學(xué)習(xí)過程,是指通過大數(shù)據(jù)訓(xùn)練出一個(gè)復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,通過大量數(shù)據(jù)的訓(xùn)練確定網(wǎng)絡(luò)中權(quán)重和偏置的值,使其能夠適應(yīng)特定的功能。
推理過程:又稱判斷過程,是指利用訓(xùn)練好的模型,使用新數(shù)據(jù)推理出各種結(jié)論。
簡單理解,我們學(xué)習(xí)知識(shí)的過程類似于訓(xùn)練,為了掌握大量的知識(shí),必須讀大量的書、專心聽老師講解,課后還要做大量的習(xí)題鞏固自己對知識(shí)的理解,并通過考試來驗(yàn)證學(xué)習(xí)的結(jié)果。分?jǐn)?shù)不同就是學(xué)習(xí)效果的差別,如果考試沒通過則需要繼續(xù)重新學(xué)習(xí),不斷提升對知識(shí)的掌握程度。而推理,則是應(yīng)用所學(xué)的知識(shí)進(jìn)行判斷,比如診斷病人時(shí)候應(yīng)用所學(xué)習(xí)的醫(yī)學(xué)知識(shí)進(jìn)行判斷,做“推理”從而判斷出病因。
訓(xùn)練需要密集的計(jì)算,通過神經(jīng)網(wǎng)絡(luò)算出結(jié)果后,如果發(fā)現(xiàn)錯(cuò)誤或未達(dá)到預(yù)期,這時(shí)這個(gè)錯(cuò)誤會(huì)通過網(wǎng)絡(luò)層反向傳播回來,該網(wǎng)絡(luò)需要嘗試做出新的推測,在每一次嘗試中,它都要調(diào)整大量的參數(shù),還必須兼顧其它屬性。再次做出推測后再次校驗(yàn),通過一次又一次循環(huán)往返,直到其得到“最優(yōu)”的權(quán)重配置,達(dá)成預(yù)期的正確答案。如今,神經(jīng)網(wǎng)絡(luò)復(fù)雜度越來越高,一個(gè)網(wǎng)絡(luò)的參數(shù)可以達(dá)到百萬級(jí)以上,因此每一次調(diào)整都需要進(jìn)行大量的計(jì)算。吳恩達(dá)(曾在谷歌和百度任職)舉例“訓(xùn)練一個(gè)百度的漢語語音識(shí)別模型不僅需要4TB的訓(xùn)練數(shù)據(jù),而且在整個(gè)訓(xùn)練周期中還需要20 exaflops(百億億次浮點(diǎn)運(yùn)算)的算力”,訓(xùn)練是一個(gè)消耗巨量算力的怪獸。
推理是利用訓(xùn)練好的模型,使用新數(shù)據(jù)推理出各種結(jié)論,它是借助神經(jīng)網(wǎng)絡(luò)模型進(jìn)行運(yùn)算,利用輸入的新數(shù)據(jù)“一次性”獲得正確結(jié)論的過程,他不需要和訓(xùn)練一樣需要循環(huán)往復(fù)的調(diào)整參數(shù),因此對算力的需求也會(huì)低很多。
推理常用:NVIDIA T4 GPU 為不同的云端工作負(fù)載提供加速,其中包括高性能計(jì)算、深度學(xué)習(xí)訓(xùn)練和推理、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析和圖形學(xué)。引入革命性的 Turing Tensor Core 技術(shù),使用多精度計(jì)算應(yīng)對不同的工作負(fù)載。從 FP32 到 FP16,再到 INT8 和 INT4 的精度,T4 的性能比 CPU 高出 40 倍,實(shí)現(xiàn)了性能的重大突破。
訓(xùn)練:A100和H100。對于具有龐大數(shù)據(jù)表的超大型模型,A10080GB 可為每個(gè)節(jié)點(diǎn)提供高達(dá) 1.3TB 的統(tǒng)一顯存,而且吞吐量比A100 40GB 多高達(dá) 3 倍。在 BERT 等先進(jìn)的對話式 AI 模型上,A100 可將推理吞吐量提升到高達(dá) CPU 的 249 倍。
6、推算ChatGPT帶來的服務(wù)器需求增量
H100性能更強(qiáng),與上一代產(chǎn)品相比,H100 的綜合技術(shù)創(chuàng)新可以將大型語言模型的速度提高 30 倍。根據(jù)Nvidia測試結(jié)果,H100針對大型模型提供高達(dá) 9 倍的 AI 訓(xùn)練速度,超大模型的 AI 推理性能提升高達(dá) 30 倍。
在數(shù)據(jù)中心級(jí)部署 H100 GPU 可提供出色的性能,并使所有研究人員均能輕松使用新一代百億億次級(jí) (Exascale)高性能計(jì)算 (HPC) 和萬億參數(shù)的 AI。
H100 還采用 DPX 指令,其性能比 NVIDIA A100 Tensor Core GPU 高 7 倍,在動(dòng)態(tài)編程算法(例如,用于DNA 序列比對 Smith-Waterman)上比僅使用傳統(tǒng)雙路 CPU 的服務(wù)器快 40 倍。
假設(shè)應(yīng)用H100服務(wù)器進(jìn)行訓(xùn)練,該服務(wù)器AI算力性能為32 PFLOPS,最大功率為10.2 kw,則我們測算訓(xùn)練階段需要服務(wù)器數(shù)量=訓(xùn)練階段算力需求÷服務(wù)器AI算力性能=4.625×107臺(tái)(同時(shí)工作1秒),即535臺(tái)服務(wù)器工作1日。
根據(jù)天翼智庫,GPT-3模型參數(shù)約1750億個(gè),預(yù)訓(xùn)練數(shù)據(jù)量為45 TB,折合成訓(xùn)練集約為3000億tokens。按照有效算力比率21.3%來計(jì)算,訓(xùn)練階段實(shí)際算力需求為1.48×109 PFLOPS。
對AI服務(wù)器訓(xùn)練階段需求進(jìn)行敏感性分析,兩個(gè)變化參數(shù):①同時(shí)并行訓(xùn)練的大模型數(shù)量、②單個(gè)模型要求訓(xùn)練完成的時(shí)間。
按照A100服務(wù)器5 PFLOPs,H100服務(wù)器32 PFLOPs來進(jìn)行計(jì)算。
若不同廠商需要訓(xùn)練10個(gè)大模型,1天內(nèi)完成,則需要A100服務(wù)器34233臺(tái),需要H100服務(wù)器5349臺(tái)。
此外,若后續(xù)GPT模型參數(shù)迭代向上提升(GPT-4參數(shù)量可能對比GPT-3倍數(shù)級(jí)增長),則我們測算所需AI服務(wù)器數(shù)量進(jìn)一步增長。
7、AI服務(wù)器市場規(guī)模預(yù)計(jì)將高速增長
AI服務(wù)器作為算力基礎(chǔ)設(shè)備,其需求有望受益于AI時(shí)代下對于算力不斷提升的需求而快速增長。
根據(jù)TrendForce,截至2022年為止,預(yù)估搭載GPGPU(General Purpose GPU)的AI服務(wù)器年出貨量占整體服務(wù)器比重近1%,預(yù)估在ChatBot相關(guān)應(yīng)用加持下,有望再度推動(dòng)AI相關(guān)領(lǐng)域的發(fā)展,預(yù)估出貨量年成長可達(dá)8%;2022~2026年復(fù)合成長率將達(dá)10.8%。
AI服務(wù)器是異構(gòu)服務(wù)器,可以根據(jù)應(yīng)用范圍采用不同的組合方式,如CPU + GPU、CPU + TPU、CPU +其他加速卡等。IDC預(yù)計(jì),中國AI服務(wù)器2021年的市場規(guī)模為57億美元,同比增長61.6%,到2025年市場規(guī)模將增長到109億美元,CAGR為17.5%。
8、AI服務(wù)器構(gòu)成及形態(tài)
以浪潮NF5688M6 服務(wù)器為例,其采用NVSwitch實(shí)現(xiàn)GPU跨節(jié)點(diǎn)P2P高速通信互聯(lián)。整機(jī)8 顆 NVIDIAAmpere架構(gòu) GPU,通過NVSwitch實(shí)現(xiàn)GPU跨節(jié)點(diǎn)P2P高速通信互聯(lián)。配置 2顆第三代Intel Xeon 可擴(kuò)展處理器(Ice Lake),支持8塊2.5英寸NVMe SSD orSATA/SAS SSD以及板載2塊 SATA M.2,可選配1張PCIe 4.0 x16 OCP 3.0網(wǎng)卡,速率支持10G/25G/100G;可支持10個(gè)PCIe 4.0 x16插槽, 2個(gè)PCIe 4.0 x16插槽(PCIe 4.0 x8速率), 1個(gè)OCP3.0插槽;支持32條DDR4RDIMM/LRDIMM內(nèi)存,速率最高支持3200MT/s,物理結(jié)構(gòu)還包括6塊3000W 80Plus鉑金電源、N+1冗余熱插拔風(fēng)扇、機(jī)箱等。
目前按照GPU數(shù)量的不同,有4顆GPU(浪潮NF5448A6)、8顆GPU(Nvidia A100 640GB)以及16顆GPU(NVIDIA DGX-2)的AI服務(wù)器。
9、AI服務(wù)器產(chǎn)業(yè)鏈
AI服務(wù)器核心組件包括GPU(圖形處理器)、DRAM(動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)、SSD(固態(tài)硬盤)和RAID卡、CPU(中央處理器)、網(wǎng)卡、PCB、高速互聯(lián)芯片(板內(nèi))和散熱模組等。
CPU主要供貨廠商為Intel、GPU目前領(lǐng)先廠商為國際巨頭英偉達(dá),以及國內(nèi)廠商如寒武紀(jì)、海光信息等。
內(nèi)存主要為三星、美光、海力士等廠商,國內(nèi)包括兆易創(chuàng)新等。
SSD廠商包括三星、美光、海力士等,以及國內(nèi)江波龍等廠商。
PCB廠商海外主要包括金像電子,國內(nèi)包括滬電股份、鵬鼎控股等。
主板廠商包括工業(yè)富聯(lián),服務(wù)器品牌廠商包括浪潮信息、紫光股份、中科曙光、中興通訊等。
10、AI服務(wù)器競爭格局
IDC發(fā)布了《2022年第四季度中國服務(wù)器市場跟蹤報(bào)告Prelim》。從報(bào)告可以看到,前兩名浪潮與新華三的變化較小,第三名為超聚變,從3.2%份額一躍而至10.1%,增幅遠(yuǎn)超其他服務(wù)器廠商。Top8服務(wù)器廠商中,浪潮、戴爾、聯(lián)想均出現(xiàn)顯著下滑,超聚變和中興則取得明顯增長。其中,浪潮份額從30.8%下降至28.1%;新華三份額從17.5%下降至17.2%;中興通訊(000063)從3.1%提升至5.3%,位居國內(nèi)第5。聯(lián)想降幅最為明顯,從7.5%下降至4.9%。
據(jù)TrendForce集邦咨詢統(tǒng)計(jì),2022年AI服務(wù)器采購占比以北美四大云端業(yè)者Google、AWS、Meta、Microsoft合計(jì)占66.2%為最,而中國近年來隨著國產(chǎn)化力道加劇,AI建設(shè)浪潮隨之增溫,以ByteDance的采購力道最為顯著,年采購占比達(dá)6.2%,其次緊接在后的則是Tencent、Alibaba與Baidu,分別約為2.3%、1.5%與1.5%。
國內(nèi)AI服務(wù)器競爭廠商包括:浪潮信息、新華三、超聚變、中興通訊等。
服務(wù)器主要廠商包括:工業(yè)富聯(lián)、浪潮信息、超聚變、紫光股份(新華三)、中興通訊、中科曙光。
AI服務(wù)器目前領(lǐng)先廠商為工業(yè)富聯(lián)和浪潮信息,浪潮信息在阿里、騰訊、百度AI服務(wù)器占比高達(dá)90%。
紫光股份在 GPU 服務(wù)器市場處于領(lǐng)先地位,有各種類型的 GPU 服務(wù)器滿足各種 AI 場景應(yīng)用。特別針對 GPT 場景而優(yōu)化的 GPU 服務(wù)器已經(jīng)完成開發(fā),并取得 31 個(gè)世界領(lǐng)先的測試指標(biāo),該新一代系列 GPU 服務(wù)器將在今年二季度全面上市。
中興通訊近年服務(wù)器發(fā)展較快,年初推出AI服務(wù)器G5服務(wù)器,此外在布局新一代AI加速芯片、模型輕量化技術(shù),大幅降低大模型推理成本。
審核編輯:黃飛
評論
查看更多