云提供商正在組建 GPU 大軍,以?xún)?chǔ)備更多的 AI 火力。在與微軟爭(zhēng)奪 AI 霸權(quán)的斗爭(zhēng)中,谷歌開(kāi)始投入更多資源以進(jìn)行反攻。在微軟將 OpenAI 的技術(shù)應(yīng)用于 Bing 搜索和辦公應(yīng)用程序之后,谷歌加速了其 AI 開(kāi)發(fā)。
在前段時(shí)間舉辦的谷歌年度I/O 開(kāi)發(fā)者大會(huì)上,谷歌宣布了一款 AI 超級(jí)計(jì)算機(jī)“A3 ”,這臺(tái)超級(jí)計(jì)算機(jī)擁有大約 26000 個(gè)英偉達(dá) H100 Hopper GPU。
*世界上最快的超級(jí)計(jì)算機(jī)Frontier擁有 37000 個(gè) AMD Instinct 250X GPU。
谷歌表示A3是專(zhuān)為訓(xùn)練和運(yùn)行現(xiàn)時(shí)的生成式AI和大語(yǔ)言模型而打造的,可提供26 exaFlops的AI性能。
A3 是第一個(gè)使用谷歌與英特爾聯(lián)合定制設(shè)計(jì)的 200 Gbps IPU的 GPU 實(shí)例,它可以讓GPU和GPU之間的數(shù)據(jù)繞過(guò)CPU,并可在其他虛擬機(jī)網(wǎng)絡(luò)和數(shù)據(jù)流的接口上傳輸。與A2 VM 相比,這可實(shí)現(xiàn)高達(dá) 10 倍的網(wǎng)絡(luò)帶寬,同時(shí)具有低尾延遲和高帶寬穩(wěn)定性。
谷歌的Jupiter數(shù)據(jù)中心網(wǎng)絡(luò)結(jié)構(gòu)能讓數(shù)以萬(wàn)計(jì)的GPU高度互連,而且能夠按需調(diào)整網(wǎng)絡(luò)拓?fù)洌@有利于成本的降低。
A3 超級(jí)計(jì)算機(jī)的規(guī)模提供高達(dá) 26 exaFlops 的 AI 性能,這大大減少了訓(xùn)練大型 ML 模型的時(shí)間和成本。
A3 GPU VM 專(zhuān)門(mén)為當(dāng)今的 ML 工作負(fù)載提供最高性能的訓(xùn)練,配備現(xiàn)代 CPU、改進(jìn)的主機(jī)內(nèi)存、下一代英偉達(dá) GPU 和主要網(wǎng)絡(luò)升級(jí)。以下是 A3 的主要特點(diǎn):
8 個(gè) H100 GPU,利用英偉達(dá)的 Hopper 架構(gòu),提供 3 倍的計(jì)算吞吐量
通過(guò)英偉達(dá) NVSwitch 和 NVLink 4.0,A3 的 8 個(gè) GPU 之間的對(duì)分帶寬為 3.6 TB/s
第 4 代英特爾至強(qiáng)可擴(kuò)展處理器
2TB 主機(jī)內(nèi)存,通過(guò) 4800 MHz DDR5 DIMM
由支持硬件的 IPU、專(zhuān)門(mén)的服務(wù)器間 GPU 通信堆棧和 NCCL 優(yōu)化提供支持的網(wǎng)絡(luò)帶寬增加 10 倍
GPU 的數(shù)量已經(jīng)成為云提供商推廣其 AI 計(jì)算服務(wù)的重要名片。
微軟與OpenAI合作開(kāi)發(fā)的Azure AI超級(jí)計(jì)算機(jī)擁有285000 個(gè)CPU內(nèi)核和10000 個(gè) GPU。Oracle 的云服務(wù)提供512 個(gè) GPU 集群的訪問(wèn),并且正在開(kāi)發(fā)新技術(shù)以提高 GPU 通信的速度。
此外,許多云提供商都在部署 H100 GPU。英偉達(dá) H100 上的訓(xùn)練模型比上一代 A100 GPU 更快、更便宜。AI服務(wù)公司 MosaicML 進(jìn)行的一項(xiàng)研究發(fā)現(xiàn),H100 在其 70 億參數(shù)的 MosaicGPT 大型語(yǔ)言模型上比 A100 的成本效益高 30%,速度快 3 倍。
英偉達(dá)在 3 月份推出了自己的 DGX 云服務(wù),與租用上一代 A100 GPU 相比,該服務(wù)價(jià)格昂貴。
|搭載8顆H100 Hopper GPU的英偉達(dá)DGX H100系統(tǒng)底板
谷歌一直在大力宣傳其TPU v4 AI芯片,這些芯片被用于運(yùn)行帶有 LLM 的內(nèi)部AI應(yīng)用程序,例如谷歌的 Bard 產(chǎn)品。(點(diǎn)擊閱讀:對(duì)打英偉達(dá)A100,谷歌公布TPU v4技術(shù)細(xì)節(jié))
|谷歌TPU v4
谷歌表示,A3 超算是對(duì)現(xiàn)有配備英偉達(dá)A100 GPU的A2虛擬機(jī)提供的計(jì)算資源的重大升級(jí)。谷歌正在將所有分布在不同地理位置的 A3 計(jì)算實(shí)例匯集到一臺(tái)超級(jí)計(jì)算機(jī)中。
相比A2,谷歌的 A3 超級(jí)計(jì)算機(jī)用途廣泛,可以針對(duì)廣泛的 AI 應(yīng)用程序和 LLM 進(jìn)行調(diào)整?!拌b于這些工作負(fù)載的高要求,一刀切的方法是不夠的,需要專(zhuān)為 AI 構(gòu)建的基礎(chǔ)設(shè)施?!笨蛻艨梢酝ㄟ^(guò) A3 虛擬機(jī)運(yùn)行 AI 應(yīng)用程序,并通過(guò) Vertex AI、Google Kubernetes Engine 和 Google Compute Engine 服務(wù)使用谷歌的 AI 開(kāi)發(fā)和管理服務(wù)。
此外,I/O 開(kāi)發(fā)者大會(huì)上,谷歌還發(fā)布了最新大語(yǔ)言模型PaLM 2。2022 年4月谷歌推出擁有5400 億參數(shù)的大型語(yǔ)言模型PaLM。最新PaLM 2 基于Pathways 架構(gòu),使用TPU v4 芯片和JAX 框架訓(xùn)練,在代碼和數(shù)學(xué),分類(lèi)和問(wèn)答,翻譯和多語(yǔ)言能力以及自然語(yǔ)言生成高級(jí)任務(wù)方面都比前一代PaLM 表現(xiàn)得更好,在推理和數(shù)學(xué)領(lǐng)域與GPT-4 相當(dāng)。PaLM 2與A3 超級(jí)計(jì)算機(jī)的推出,使谷歌在AI 領(lǐng)域綜合實(shí)力大幅增強(qiáng)。
AI 市場(chǎng)競(jìng)爭(zhēng)激烈,微軟近年來(lái)加大了對(duì)AI 的投資和研發(fā)力度,在深度學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域的技術(shù)已經(jīng)達(dá)到了較高的水平。谷歌也推出了一系列AI 產(chǎn)品和服務(wù),旨在通過(guò)提供全棧式的AI 解決方案來(lái)占據(jù)更加主導(dǎo)的地位。雙方都在不斷加強(qiáng)自己的技術(shù)研發(fā)和產(chǎn)品布局,以期在未來(lái)的市場(chǎng)競(jìng)爭(zhēng)中獲得更多的話語(yǔ)權(quán)。
審核編輯 :李倩
-
gpu
+關(guān)注
關(guān)注
28文章
4742瀏覽量
128973 -
超級(jí)計(jì)算機(jī)
+關(guān)注
關(guān)注
2文章
462瀏覽量
41949 -
AI
+關(guān)注
關(guān)注
87文章
30947瀏覽量
269217 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3778瀏覽量
91158
原文標(biāo)題:擁有 26000 個(gè) GPU的“A3”超級(jí)計(jì)算機(jī),能為谷歌贏下AI反攻戰(zhàn)嗎?
文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論