前言: 鑒于ChatGPT的廣泛應(yīng)用,引發(fā)了AI算力需求的迅猛增長(zhǎng),使得英偉達(dá)的AI芯片供不應(yīng)求,出現(xiàn)大規(guī)模短缺。如今,英偉達(dá)似乎在面對(duì)更多挑戰(zhàn)。
比英偉達(dá)GPU快10倍的LPU
近兩天,一家名為Groq的美國(guó)人工智能公司受到了廣泛關(guān)注,其主要原因在于其自主研發(fā)的LPU芯片在人工智能推理技術(shù)上取得了突破。
通過優(yōu)化架構(gòu)和減少內(nèi)存瓶頸,Groq的LPU芯片在大模型處理方面展現(xiàn)出高效率和低延遲的特點(diǎn),速度遠(yuǎn)超英偉達(dá)GPU,每秒生成速度接近500 tokens,而GPT-4僅40 tokens。
因此,Groq LPU被譽(yù)為[史上最快的大模型技術(shù)]。
Groq LPU的工作原理與英偉達(dá)的GPU不同,它采用了名為時(shí)序指令集計(jì)算機(jī)(Temporal Instruction Set Computer)架構(gòu),使用存儲(chǔ)器為靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM),其速度比GPU所用的高帶寬存儲(chǔ)器(HBM)快約20倍。
據(jù)Groq在2024年1月的第一個(gè)公開基準(zhǔn)測(cè)試,由Groq LPU驅(qū)動(dòng)的Meta Llama 2-70B模型,推理性能比其他頂級(jí)云計(jì)算供應(yīng)商快18倍。
artificialanalysis.ai給出的測(cè)評(píng)結(jié)果也顯示,Groq的吞吐量速度稱得上是[遙遙領(lǐng)先]。
總結(jié)起來,Groq的架構(gòu)建立在小內(nèi)存,大算力上,因此有限的被處理的內(nèi)容對(duì)應(yīng)著極高的算力,導(dǎo)致其速度非??臁?/p>
有分析人士稱,在A100和H100相對(duì)緊缺的時(shí)代,LPU或許會(huì)成為大模型開發(fā)商的新選擇。
Grop部署起來甚至比英偉達(dá)要貴
當(dāng)初Groq以其閃電般的速度令A(yù)I行業(yè)為之震撼。
然而,在震撼之余,許多業(yè)界人士核算后發(fā)現(xiàn),這種速度背后的代價(jià)可能過于高昂。
Groq的LPU芯片摒棄了HBM,僅依賴SRAM進(jìn)行計(jì)算。
盡管這種方式確實(shí)帶來了令人矚目的計(jì)算速度,但其成本效益問題卻備受質(zhì)疑。
值得關(guān)注的是,盡管Groq在速度上表現(xiàn)出色,但其背后的成本卻相當(dāng)高昂。
若以未來三年運(yùn)行成本計(jì)算,Groq的硬件采購(gòu)成本高達(dá)1144萬美元,而運(yùn)營(yíng)成本至少為76.2萬美元。
據(jù)此估算,在同等吞吐量下,Groq的硬件成本約為H100的40倍,能耗成本則是10倍。
若考慮運(yùn)營(yíng)三年,Groq硬件的購(gòu)買成本為114.4萬美元,運(yùn)營(yíng)成本為76.2萬。
另一方面,對(duì)于一個(gè)8卡的H100盒子,硬件購(gòu)買成本為30萬美元,運(yùn)營(yíng)成本約為7.2萬或稍低。
由于Groq內(nèi)存容量相對(duì)較?。?30MB),在運(yùn)行Llama-270b模型時(shí),需配備305張Groq卡才能滿足需求,而使用H100僅需8張卡。
因此,從當(dāng)前價(jià)格來看,在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。
換言之,Groq的高速性能是建立在有限的單卡吞吐能力基礎(chǔ)之上的。
為實(shí)現(xiàn)與H100相同的吞吐量,Groq需采用更多張顯卡。
在此背景下,[速度]成為了Groq的一把雙刃劍。
Groq喊話[三年內(nèi)趕超英偉達(dá)]
近期,一位自稱為Groq員工的用戶在與網(wǎng)絡(luò)用戶互動(dòng)時(shí)表示,Groq致力于成為最快速的大規(guī)模模型硬件,并誓言在三年內(nèi)超越英偉達(dá)。
然而,截至2月20日美股收盤,英偉達(dá)股價(jià)單日跌幅達(dá)4.35%,創(chuàng)下去年10月以來最大單日跌幅,市值一夜之間縮水780億美元(約合5600億元人民幣)。
盡管Groq速度迅猛,但價(jià)格較高,目前尚不能與英偉達(dá)抗衡。SRAM技術(shù)面積大、功耗高,早已以IP內(nèi)核形式集成至系統(tǒng)級(jí)芯片(SoC),而非單獨(dú)應(yīng)用,其未來發(fā)展?jié)摿h(yuǎn)不及HBM(高帶寬內(nèi)存)。
在單位容量?jī)r(jià)格、性能及功耗方面,英偉達(dá)GPU所采用的HBM技術(shù)均優(yōu)于SRAM。
從技術(shù)和性能角度看,Groq目前尚無法撼動(dòng)英偉達(dá)的地位。
原因在于,英偉達(dá)GPU產(chǎn)品具有通用性,而Groq產(chǎn)品為ASIC(專用集成電路),并非通用產(chǎn)品,而是定制產(chǎn)品。
換言之,任何人工智能算法均可使用英偉達(dá)的H200,但僅Mixtral和Llama2能采用Groq的LPU。
欲使用Groq產(chǎn)品,大模型公司需先明確需求、指定規(guī)格,然后進(jìn)行功能驗(yàn)證,最終生產(chǎn)出的產(chǎn)品方可投入使用。
英偉達(dá)財(cái)報(bào)再次印證了其在人工智能浪潮中成為最大贏家的地位。
英偉達(dá)于北京時(shí)間2月22日發(fā)布截至2024年1月28日的四季度業(yè)績(jī)報(bào)告。
報(bào)告顯示,公司季度營(yíng)收創(chuàng)紀(jì)錄達(dá)到221億美元,遠(yuǎn)超英偉達(dá)自身及華爾街預(yù)期,同比增長(zhǎng)265%。
全年?duì)I收同樣創(chuàng)下新高,達(dá)到609億美元,同比增長(zhǎng)126%。
英偉達(dá)預(yù)計(jì)本季度營(yíng)收將進(jìn)一步攀升至240億美元。財(cái)報(bào)發(fā)布后,其股價(jià)盤后一度漲超10%。
結(jié)尾:
Groq架構(gòu)的特點(diǎn)是小內(nèi)存和大算力,適合頻繁數(shù)據(jù)搬運(yùn)的場(chǎng)景,速度快但單卡吞吐能力有限,需要更多卡來保證同等吞吐量,速度既是優(yōu)勢(shì)也是劣勢(shì)。
此外,由于GPU的生態(tài)極為發(fā)達(dá),其中英偉達(dá)的GPU不僅性能強(qiáng)大,在性能卓越的同時(shí),還聚集了大量用戶和豐富的生態(tài)環(huán)境。
相比之下,Groq 目前僅能為少數(shù)大型模型提供服務(wù),想要在低延遲領(lǐng)域建立持續(xù)優(yōu)勢(shì),需要拓寬服務(wù)范圍并進(jìn)一步減少總體成本。
審核編輯:劉清
-
存儲(chǔ)器
+關(guān)注
關(guān)注
38文章
7578瀏覽量
165367 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3894瀏覽量
92628 -
HBM
+關(guān)注
關(guān)注
1文章
398瀏覽量
14968 -
GPU芯片
+關(guān)注
關(guān)注
1文章
304瀏覽量
6033 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1580瀏覽量
8403
原文標(biāo)題:熱點(diǎn)丨“網(wǎng)紅”芯片Groq讓英偉達(dá)蒸發(fā)5600億
文章出處:【微信號(hào):World_2078,微信公眾號(hào):AI芯天下】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
英偉達(dá)市值一夜蒸發(fā)近2萬億 英偉達(dá)股價(jià)下跌超8%
突發(fā)!英偉達(dá)H20芯片在華訂單大增,買家曝光
剛剛!英偉達(dá)最新回應(yīng)!

評(píng)論