導(dǎo)語(yǔ):可以確定的是,隨著科技的進(jìn)步,中國(guó)GPU算力行業(yè)一定要、也一定會(huì)擺脫被“卡脖子”的問(wèn)題,讓中國(guó)的AI企業(yè)用上中國(guó)的GPU,打贏這場(chǎng)算力之戰(zhàn)。
近日,英偉達(dá)(NASDAQ:NVDA)在美國(guó)加州總部舉辦了面向軟件開(kāi)發(fā)者的年度技術(shù)峰會(huì)GTC。在會(huì)上,英偉達(dá)創(chuàng)始人黃仁勛披露了最新人工智能相關(guān)的軟硬件技術(shù),并在演說(shuō)中將“AI的iPhone時(shí)刻”這句話(huà)重復(fù)強(qiáng)調(diào)了三遍。
事實(shí)上,英偉達(dá)與AI可謂是緣分不淺,截至目前,英偉達(dá)的GPU芯片正在為全球絕大多數(shù)的人工智能系統(tǒng)提供最基礎(chǔ)的算力支持,而ChatGPT母公司OpenAI,便是憑借著10000片英偉達(dá)的GPU芯片,成功訓(xùn)練出了GPT-3大語(yǔ)言模型,震驚了全世界。
那么,提供了全球高端人工智能大半算力的英偉達(dá)CEO黃仁勛,為何在此次大會(huì)中將ChatGPT帶來(lái)的變化稱(chēng)為“人工智能的iPhone時(shí)刻”?在“人工智能的iPhone時(shí)刻”背后,又是哪些基礎(chǔ)硬件設(shè)施與相關(guān)的企業(yè)支撐著AI行業(yè)不斷前行呢?
本文將以英偉達(dá)發(fā)布會(huì)為切入點(diǎn),介紹國(guó)內(nèi)GPU行業(yè)相關(guān)企業(yè)的發(fā)展現(xiàn)狀,進(jìn)而講述為何算力缺乏的原因,以期為讀者展現(xiàn)GPU行業(yè)的現(xiàn)狀與未來(lái)發(fā)展。
火種初現(xiàn)的中國(guó)廠商
作為全球算力硬件當(dāng)之無(wú)愧的龍頭公司,英偉達(dá)每年的GTC大會(huì)都吸引著眾多尖端科技工作者的目光,尤其是在2023這個(gè)ChatGPT的出圈元年,作為人工智能硬件的主要提供商,英偉達(dá)GTC的曝光量更是得到了顯著的增加。
而在此次大會(huì)中,英偉達(dá)展示了其針對(duì)訓(xùn)練、推理、云服務(wù)等多維度的ChatGPT領(lǐng)域布局。
在AI訓(xùn)練領(lǐng)域,英偉達(dá)助力算力持續(xù)提升,賦能大模型突破。
基于GPU并行計(jì)算的特性以及英偉達(dá)在AI領(lǐng)域的前瞻布局,英偉達(dá)在AI訓(xùn)練領(lǐng)域擁有絕對(duì)優(yōu)勢(shì),同時(shí)十分重視人工智能賽道,不斷提升其人工智能硬件的計(jì)算能力。
并且,隨著GPT大模型對(duì)于算力需求的提升,全球科技巨頭均已開(kāi)始或即將搭載英偉達(dá)的H100產(chǎn)品:Meta已在內(nèi)部為團(tuán)隊(duì)部署了基于H100的Grand Teton AI超級(jí)計(jì)算機(jī);OpenAI將在其Azure超級(jí)計(jì)算機(jī)上使用H100來(lái)為其持續(xù)的AI研究提供動(dòng)力。
而在此次GTC 2023上,基于Hopper架構(gòu)及其內(nèi)置Transformer Engine,英偉達(dá)H100針對(duì)生成式AI、大型語(yǔ)言模型(LLM)和推薦系統(tǒng)的開(kāi)發(fā)、訓(xùn)練和部署都進(jìn)行了優(yōu)化,利用FP8精度在LLM上提供較上一代A100更快的訓(xùn)練及推理速度,助力簡(jiǎn)化AI開(kāi)發(fā)。
圖源:英偉達(dá)公司官網(wǎng),中金公司研究部
而在AI推理領(lǐng)域,AI視頻、圖像生成、大型語(yǔ)言模型部署及推薦系統(tǒng)也在加速部署。
在今年的GTC 2023中,英偉達(dá)推出了全新的GPU推理平臺(tái):基于加速AI視頻、圖像生成、大型語(yǔ)言模型部署和推薦系統(tǒng),形成了4種配置、1個(gè)體系架構(gòu)和1個(gè)軟件棧的產(chǎn)品體系。
其中H100 NVL GPU受到了市場(chǎng)較為廣泛的關(guān)注:英偉達(dá)在GTC 2023公開(kāi)表示,該產(chǎn)品將配備雙GPU NVLink,或?qū)?shí)現(xiàn)比現(xiàn)用A100快10倍的速度,可處理?yè)碛?750億參數(shù)的GPT-3大模型,并支持商用PCIe服務(wù)器擴(kuò)展,適用于訓(xùn)練大型語(yǔ)言模型。
黃仁勛稱(chēng),相較于目前唯一可以實(shí)時(shí)處理ChatGPT的HGX A100,一臺(tái)搭載四對(duì)H100和雙NVLink的標(biāo)準(zhǔn)服務(wù)器能將速度提升10倍,并且還可以將大語(yǔ)言模型的處理成本降低一個(gè)數(shù)量級(jí)。黃仁勛也將NVIDIA DGX H100稱(chēng)作全球客戶(hù)構(gòu)建AI基礎(chǔ)設(shè)施的藍(lán)圖。
黃仁勛也表示,ChatGPT僅僅是人工智能第一個(gè)出圈的應(yīng)用,也只是一個(gè)起點(diǎn)。在人工智能浪潮來(lái)臨之時(shí),全球范圍內(nèi)必將出現(xiàn)一批進(jìn)軍人工智能大模型硬件的企業(yè)。但英偉達(dá)在短期內(nèi)擁有絕對(duì)的技術(shù)優(yōu)勢(shì),未來(lái)也將持續(xù)發(fā)力。
毫無(wú)疑問(wèn),英偉達(dá)發(fā)布的最新硬件對(duì)于人工智能企業(yè)來(lái)說(shuō),是解決算力問(wèn)題的最大福音,但對(duì)于中國(guó)企業(yè)來(lái)說(shuō),這卻并非是一則喜訊。
2022年8月,美國(guó)監(jiān)管機(jī)構(gòu)以國(guó)家安全為由,對(duì)NVIDIA A100、H100兩款GPU實(shí)施禁令,不得銷(xiāo)售給中國(guó)企業(yè),意在通過(guò)“卡脖子”的方法來(lái)降低國(guó)內(nèi)AI模型的傳輸速度,拖延中國(guó)人工智能發(fā)展。
從長(zhǎng)遠(yuǎn)來(lái)看,未來(lái)大模型的研發(fā)和部署是必然趨勢(shì),而每個(gè)大模型訓(xùn)練和部署的背后,都有幾萬(wàn)個(gè) GPU 芯片在支持。因此,未來(lái)隨著這方面的研發(fā)和應(yīng)用的普及,通用 GPU 市場(chǎng)需求將會(huì)迎來(lái)爆發(fā)式增長(zhǎng)。
而中國(guó)能獲得的最佳替代品,則是英偉達(dá)專(zhuān)供中國(guó)的A800芯片,也是A100的“閹割版”,其傳輸速度只有A100的70%,而在H100大規(guī)模供貨后,中美AI公司的差距則將進(jìn)一步拉大。
高性能的GPU,已經(jīng)成為了限制中國(guó)AI行業(yè)發(fā)展的最直接因素之一。
但也正是在算力需求激增、硬件供給被切斷、難以真正“市場(chǎng)化”的背景下,國(guó)內(nèi)才涌現(xiàn)了一批GPU的“火種”企業(yè)。
這些新興的企業(yè)中,核心團(tuán)隊(duì)基本都是業(yè)內(nèi)頂尖專(zhuān)家,許多技術(shù)專(zhuān)家來(lái)自英偉達(dá)、AMD 等國(guó)際龍頭企業(yè)。初創(chuàng)企業(yè)們接連完成新融資,并陸續(xù)推出新品加速商業(yè)化。
首先,是借軍工信息化之風(fēng)邁向全面國(guó)產(chǎn)替代的GPU企業(yè)——景嘉微(SZ:300474)。
景嘉微的技術(shù)核心團(tuán)隊(duì)來(lái)自于國(guó)防科技大學(xué),公司業(yè)務(wù)也是依靠軍工業(yè)務(wù)圖形顯控模塊芯片起家,持續(xù)投入研發(fā)布局全自主研發(fā)GPU芯片的圖形顯控傳統(tǒng)業(yè)務(wù)。
在后續(xù)的發(fā)展中,伴隨著國(guó)家專(zhuān)項(xiàng)基金的支持與企業(yè)芯片研發(fā)的推進(jìn),公司的GPU芯片業(yè)務(wù)逐漸“開(kāi)枝散葉”,滲透入了民用市場(chǎng),在“8+N”個(gè)行業(yè)中進(jìn)行著快速的發(fā)展。
截止目前,公司是國(guó)內(nèi)首家成功研制國(guó)產(chǎn)GPU芯片并實(shí)現(xiàn)大規(guī)模工程應(yīng)用的企業(yè),也是國(guó)內(nèi)唯一具備完全自主研發(fā)GPU能力并產(chǎn)業(yè)化的上市公司,目前已擁有267項(xiàng)專(zhuān)利,在圖形顯控領(lǐng)域走在行業(yè)前列。
而公司的產(chǎn)品,也正在從“能用”邁向“好用”的階段。
根據(jù)景嘉微2021年公告,公司研發(fā)的JM9系列圖形處理芯片將支持OpenGL 4.0、HDMI 2.0等接口,以及H.265/4K 60-fps 視頻解碼。
其核心頻率至少為1.5GHz,配備8GB顯存,浮點(diǎn)性能約 1.5 TFlops,與英偉達(dá)GeForce GTX 1050 相近。
資料來(lái)源:中關(guān)村在線(xiàn),芯參數(shù),Nvidia 官網(wǎng),公司公告,太平洋證券研究院
而在與公司的交流中,相關(guān)人員表示,之前的7系列分為多個(gè)版本,根據(jù)客戶(hù)的需求、價(jià)格和價(jià)位承受能力來(lái)配合出貨,所以取得了較大的成功。而9系目前還在談價(jià)的過(guò)程中,也相信9系列會(huì)促使全球顯卡價(jià)格的下行。
并且對(duì)方還表示,公司對(duì)標(biāo)的是海外競(jìng)爭(zhēng)對(duì)手幾年前的產(chǎn)品,而當(dāng)利潤(rùn)低于一定程度后,海外的公司會(huì)主動(dòng)放棄市場(chǎng)。公司也會(huì)從相對(duì)的低端做起,隨著技術(shù)的進(jìn)步,逐漸追趕英特爾、AMD的步伐。
盡管目前景嘉微的產(chǎn)品與國(guó)際尖端GPU存在著極大的差距,但作為一顆由中國(guó)企業(yè)完全獨(dú)立研發(fā)、采用正向設(shè)計(jì)、具有自主知識(shí)產(chǎn)權(quán)的GPU,已經(jīng)邁出了國(guó)產(chǎn)自主道路上的一大步,成為中國(guó)算力的“希望之火”。
接著,是依靠CPU、DCU雙輪驅(qū)動(dòng),深度受益國(guó)產(chǎn)化替代的企業(yè)——海光信息(SH:688041)。
海光信息成立于2014年,主營(yíng)業(yè)務(wù)為研發(fā)、設(shè)計(jì)和銷(xiāo)售應(yīng)用于服務(wù)器、工作站等計(jì)算、存儲(chǔ)設(shè)備中的高端處理器,目前擁有海光通用處理器(CPU)和海光協(xié)處理器(DCU)兩條產(chǎn)品線(xiàn)。
而其中,DCU作為專(zhuān)注通用計(jì)算、單純提供人工智能算力的產(chǎn)品,成為了企業(yè)新的業(yè)績(jī)?cè)鲩L(zhǎng)極。
海光信息于2018年切入DCU領(lǐng)域,堅(jiān)持自主研發(fā),目前已經(jīng)成功掌握高端協(xié)處理器微結(jié)構(gòu)設(shè)計(jì)等核心技術(shù),并以此為基礎(chǔ)推出了性能優(yōu)異的DCU產(chǎn)品,具備強(qiáng)大的計(jì)算能力和高速并行數(shù)據(jù)處理能力,性能基本能與國(guó)際同類(lèi)型主流產(chǎn)品同臺(tái)競(jìng)技。
選取公司深算一號(hào)產(chǎn)品和國(guó)際領(lǐng)先的GPU廠商英偉達(dá)的高端GPU產(chǎn)品(A100)及AMD高端GPU產(chǎn)品(MI100)進(jìn)行對(duì)比,在典型應(yīng)用場(chǎng)景下,海光信息深算一號(hào)單顆芯片的指標(biāo)基本達(dá)到國(guó)際上同類(lèi)型高端產(chǎn)品的水平。
對(duì)標(biāo)目前國(guó)際主流人工智能企業(yè)都在使用的NVIDIA A100產(chǎn)品,海光DCU單芯片產(chǎn)品基本能達(dá)到其70%的性能水平,同時(shí),公司DCU產(chǎn)品的片間互聯(lián)性能還有較大的提升空間。
資料來(lái)源:公司招股說(shuō)明書(shū)、平安證券研究所
而在硬件之外,海光信息也為打破CUDA生態(tài)專(zhuān)門(mén)制作了軟件配置:海光 DCU 協(xié)處理器全面兼容 ROCm GPU計(jì)算生態(tài),由于ROCm與CUDA的高度相似性,CUDA用戶(hù)可以以較低代價(jià)快速遷移至 ROCm平臺(tái)。
因此,海光DCU協(xié)處理器能夠較好地適配、適應(yīng)國(guó)際主流商業(yè)計(jì)算軟件和人工智能軟件,軟硬件生態(tài)豐富。
此外,海光還積極參與開(kāi)源軟件項(xiàng)目,加快了DCU產(chǎn)品的推廣速度,并成功實(shí)現(xiàn)了與GPGPU主流開(kāi)發(fā)平臺(tái)的兼容。
近些年來(lái),在國(guó)內(nèi)諸多創(chuàng)企的努力下,GPU硬件的突破捷報(bào)頻傳,但目前我國(guó)CPU廠商距離英偉達(dá)等國(guó)際頭部廠商的距離仍然還有很遠(yuǎn)。
所以對(duì)于中國(guó)GPU企業(yè)來(lái)說(shuō),做好國(guó)產(chǎn)的Plan B,再謀求發(fā)展,或許才是正確的方向。
但可以確定的是,隨著科技的進(jìn)步,中國(guó)GPU算力行業(yè)一定要、也一定會(huì)擺脫被“卡脖子”的問(wèn)題,讓中國(guó)的AI企業(yè)用上中國(guó)的GPU,打贏這場(chǎng)算力之戰(zhàn)。
算力,為何如此緊缺?
上文談到了英偉達(dá)的算力“肌肉”展示與國(guó)產(chǎn)CPU的奮起直追,那么,當(dāng)前人工智能企業(yè)的算力需求究竟幾何?為何“AI芯片”第一股英偉達(dá),能在短短不到四個(gè)月的時(shí)間內(nèi),股價(jià)暴漲83%?
從算力需求端來(lái)看,人工智能模型的參數(shù)量隨換代呈現(xiàn)著指數(shù)型增長(zhǎng)的態(tài)勢(shì)。
以GPT-3.5為例,作為一種大型語(yǔ)言模型,有著海量的參數(shù)。即使OpenAI目前沒(méi)有公布ChatGPT所使用的 GPT-3.5 的相關(guān)數(shù)據(jù),但由圖可得,隨著新模型的推出,參數(shù)量需求呈現(xiàn)翻倍式增長(zhǎng)。
資料來(lái)源:OpenAI 官網(wǎng),安信證券研究中心
而在參數(shù)量的增加之外,ChatGPT的下一代GPT-4還可以通過(guò)多模態(tài)來(lái)拓展應(yīng)用場(chǎng)景。
GPT-4作為一個(gè)多模態(tài)大模型(接受圖像和文本輸入,生成文本),相比GPT-3.5可以更準(zhǔn)確地解決難題,具有更廣泛的常識(shí)和解決問(wèn)題的能力,文本處理能力更是達(dá)到了ChatGPT上限的8倍。
數(shù)據(jù)來(lái)源:OpenAI《GPT-4 Technical Report》,廣發(fā)證券發(fā)展研究中心
不過(guò),伴隨著人工智能的成熟而增長(zhǎng)的,自然是其背后的算力需求:OpenAI預(yù)計(jì),人工智能科學(xué)研究要想取得突破,所需要消耗的計(jì)算資源每3~4個(gè)月就要翻一倍,所以出現(xiàn)了算力需求爆炸式增加的情況。
而在人工智能企業(yè)需求大幅增長(zhǎng)的情況下,算力的供給卻逐步放慢了腳步。
在半導(dǎo)體行業(yè)中,一直有著這樣一種說(shuō)法:“當(dāng)價(jià)格不變時(shí),集成電路上可容納的元器件的數(shù)目,約每隔18-24個(gè)月便會(huì)增加一倍,性能也將提升一倍。換言之,每一美元所能買(mǎi)到的電腦性能,將每隔18-24個(gè)月翻一倍以上。這一定律揭示了信息技術(shù)進(jìn)步的速度?!?/p>
這就是我們所熟知的摩爾定律,實(shí)際上,大家身邊最直觀的感受便是每大概兩年左右,你的電腦或手機(jī)就要面臨淘汰的境地了,尤其是當(dāng)今的智能手機(jī),基本主流配置的手機(jī),2年就得準(zhǔn)備換新了。
但是,伴隨著半導(dǎo)體制程的持續(xù)演進(jìn),短溝道效應(yīng)以及量子隧穿效應(yīng)帶來(lái)的漏電、發(fā)熱等問(wèn)題愈發(fā)嚴(yán)重,追求經(jīng)濟(jì)效能的摩爾定律已經(jīng)日趨放緩,甚至接近失效。
也就是說(shuō),哪怕在需求不變的情況下,算力基礎(chǔ)設(shè)施就已經(jīng)該走上增加數(shù)量的賽道了,更何況算力需求正在以指數(shù)爆炸的速度增長(zhǎng)。
因此, AI 模型訓(xùn)練算力需求增長(zhǎng)與摩爾定律出現(xiàn)了極不匹配的現(xiàn)象,這勢(shì)必推動(dòng)對(duì)算力基礎(chǔ)設(shè)施需求的快速增長(zhǎng),而這,也是英偉達(dá)等眾多GPU硬件企業(yè)被資金追捧的根本原因——他們手中握著開(kāi)啟AI時(shí)代的金鑰匙。
小結(jié)
或許正如黃仁勛所說(shuō),“人工智能的iPhone時(shí)刻”已經(jīng)來(lái)臨,走向下一個(gè)時(shí)代的路,早就擺在了世人面前。
但是眾多最尖端的人工智能企業(yè),還在為AI時(shí)代的“入場(chǎng)券”而發(fā)愁犯難,高昂的算力價(jià)格、永遠(yuǎn)缺貨的高端GPU,成為了企業(yè)最大的軟肋。
由此可見(jiàn),對(duì)于未來(lái)的數(shù)字經(jīng)濟(jì)而言,算力等基礎(chǔ)設(shè)施的舞臺(tái)將會(huì)成為AI企業(yè)們甚至國(guó)家之間的第一個(gè)角力場(chǎng)。正如全球著名投資機(jī)構(gòu)a16z評(píng)價(jià)ChatGPT時(shí)所說(shuō),“基礎(chǔ)設(shè)施服務(wù)商可能才是最大贏家,獲得最多的財(cái)富?!?/p>
包括AI在內(nèi)的新技術(shù)在取得突破后,要想走入“尋常百姓家”,實(shí)現(xiàn)大規(guī)模的部署和應(yīng)用,算力的安全、高速、高可靠、高性能等能力缺一不可。甚至可以說(shuō),算力的增強(qiáng)真正驅(qū)動(dòng)了數(shù)字經(jīng)濟(jì)的增長(zhǎng)。
而對(duì)于中國(guó)企業(yè)來(lái)說(shuō),短期的封鎖或許是困境,但從另外一個(gè)角度來(lái)想也未必不是機(jī)遇,以景嘉微、海光信息為代表的的中國(guó)高算企業(yè),也必將在層層封鎖中殺出,以卓越的產(chǎn)品,推動(dòng)中國(guó)滾滾的數(shù)字化大潮!
審核編輯 :李倩
-
gpu
+關(guān)注
關(guān)注
28文章
4740瀏覽量
128953 -
人工智能
+關(guān)注
關(guān)注
1791文章
47282瀏覽量
238533 -
算力
+關(guān)注
關(guān)注
1文章
977瀏覽量
14823 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1561瀏覽量
7683
原文標(biāo)題:火種初現(xiàn)的國(guó)產(chǎn)GPU,誰(shuí)能突破算力封鎖?
文章出處:【微信號(hào):alpworks,微信公眾號(hào):阿爾法工場(chǎng)研究院】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論