0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

擁有26000個(gè)GPU的“A3”超級(jí)計(jì)算機(jī),能為谷歌贏下AI反攻戰(zhàn)嗎?

SDNLAB ? 來(lái)源:SDNLAB ? 2023-05-19 16:47 ? 次閱讀

云提供商正在組建 GPU 大軍,以?xún)?chǔ)備更多的 AI 火力。在與微軟爭(zhēng)奪 AI 霸權(quán)的斗爭(zhēng)中,谷歌開(kāi)始投入更多資源以進(jìn)行反攻。在微軟將 OpenAI 的技術(shù)應(yīng)用于 Bing 搜索和辦公應(yīng)用程序之后,谷歌加速了其 AI 開(kāi)發(fā)。

在前段時(shí)間舉辦的谷歌年度I/O 開(kāi)發(fā)者大會(huì)上,谷歌宣布了一款 AI 超級(jí)計(jì)算機(jī)“A3 ”,這臺(tái)超級(jí)計(jì)算機(jī)擁有大約 26000 個(gè)英偉達(dá) H100 Hopper GPU。

*世界上最快的超級(jí)計(jì)算機(jī)Frontier擁有 37000 個(gè) AMD Instinct 250X GPU。

谷歌表示A3是專(zhuān)為訓(xùn)練和運(yùn)行現(xiàn)時(shí)的生成式AI和大語(yǔ)言模型而打造的,可提供26 exaFlops的AI性能。

A3 是第一個(gè)使用谷歌與英特爾聯(lián)合定制設(shè)計(jì)的 200 Gbps IPU的 GPU 實(shí)例,它可以讓GPU和GPU之間的數(shù)據(jù)繞過(guò)CPU,并可在其他虛擬機(jī)網(wǎng)絡(luò)和數(shù)據(jù)流的接口上傳輸。與A2 VM 相比,這可實(shí)現(xiàn)高達(dá) 10 倍的網(wǎng)絡(luò)帶寬,同時(shí)具有低尾延遲和高帶寬穩(wěn)定性。

谷歌的Jupiter數(shù)據(jù)中心網(wǎng)絡(luò)結(jié)構(gòu)能讓數(shù)以萬(wàn)計(jì)的GPU高度互連,而且能夠按需調(diào)整網(wǎng)絡(luò)拓?fù)洌@有利于成本的降低。

A3 超級(jí)計(jì)算機(jī)的規(guī)模提供高達(dá) 26 exaFlops 的 AI 性能,這大大減少了訓(xùn)練大型 ML 模型的時(shí)間和成本。

A3 GPU VM 專(zhuān)門(mén)為當(dāng)今的 ML 工作負(fù)載提供最高性能的訓(xùn)練,配備現(xiàn)代 CPU、改進(jìn)的主機(jī)內(nèi)存、下一代英偉達(dá) GPU 和主要網(wǎng)絡(luò)升級(jí)。以下是 A3 的主要特點(diǎn):

8 個(gè) H100 GPU,利用英偉達(dá)的 Hopper 架構(gòu),提供 3 倍的計(jì)算吞吐量

通過(guò)英偉達(dá) NVSwitch 和 NVLink 4.0,A3 的 8 個(gè) GPU 之間的對(duì)分帶寬為 3.6 TB/s

第 4 代英特爾至強(qiáng)可擴(kuò)展處理器

2TB 主機(jī)內(nèi)存,通過(guò) 4800 MHz DDR5 DIMM

由支持硬件的 IPU、專(zhuān)門(mén)的服務(wù)器間 GPU 通信堆棧和 NCCL 優(yōu)化提供支持的網(wǎng)絡(luò)帶寬增加 10 倍

GPU 的數(shù)量已經(jīng)成為云提供商推廣其 AI 計(jì)算服務(wù)的重要名片。

微軟與OpenAI合作開(kāi)發(fā)的Azure AI超級(jí)計(jì)算機(jī)擁有285000 個(gè)CPU內(nèi)核和10000 個(gè) GPU。Oracle 的云服務(wù)提供512 個(gè) GPU 集群的訪問(wèn),并且正在開(kāi)發(fā)新技術(shù)以提高 GPU 通信的速度。

此外,許多云提供商都在部署 H100 GPU。英偉達(dá) H100 上的訓(xùn)練模型比上一代 A100 GPU 更快、更便宜。AI服務(wù)公司 MosaicML 進(jìn)行的一項(xiàng)研究發(fā)現(xiàn),H100 在其 70 億參數(shù)的 MosaicGPT 大型語(yǔ)言模型上比 A100 的成本效益高 30%,速度快 3 倍。

英偉達(dá)在 3 月份推出了自己的 DGX 云服務(wù),與租用上一代 A100 GPU 相比,該服務(wù)價(jià)格昂貴。

16a0cbbc-f621-11ed-90ce-dac502259ad0.png

|搭載8顆H100 Hopper GPU的英偉達(dá)DGX H100系統(tǒng)底板

谷歌一直在大力宣傳其TPU v4 AI芯片,這些芯片被用于運(yùn)行帶有 LLM 的內(nèi)部AI應(yīng)用程序,例如谷歌的 Bard 產(chǎn)品。(點(diǎn)擊閱讀:對(duì)打英偉達(dá)A100,谷歌公布TPU v4技術(shù)細(xì)節(jié))

16b8d090-f621-11ed-90ce-dac502259ad0.png

|谷歌TPU v4

谷歌表示,A3 超算是對(duì)現(xiàn)有配備英偉達(dá)A100 GPU的A2虛擬機(jī)提供的計(jì)算資源的重大升級(jí)。谷歌正在將所有分布在不同地理位置的 A3 計(jì)算實(shí)例匯集到一臺(tái)超級(jí)計(jì)算機(jī)中。

相比A2,谷歌的 A3 超級(jí)計(jì)算機(jī)用途廣泛,可以針對(duì)廣泛的 AI 應(yīng)用程序和 LLM 進(jìn)行調(diào)整?!拌b于這些工作負(fù)載的高要求,一刀切的方法是不夠的,需要專(zhuān)為 AI 構(gòu)建的基礎(chǔ)設(shè)施?!笨蛻艨梢酝ㄟ^(guò) A3 虛擬機(jī)運(yùn)行 AI 應(yīng)用程序,并通過(guò) Vertex AI、Google Kubernetes Engine 和 Google Compute Engine 服務(wù)使用谷歌的 AI 開(kāi)發(fā)和管理服務(wù)。

此外,I/O 開(kāi)發(fā)者大會(huì)上,谷歌還發(fā)布了最新大語(yǔ)言模型PaLM 2。2022 年4月谷歌推出擁有5400 億參數(shù)的大型語(yǔ)言模型PaLM。最新PaLM 2 基于Pathways 架構(gòu),使用TPU v4 芯片和JAX 框架訓(xùn)練,在代碼和數(shù)學(xué),分類(lèi)和問(wèn)答,翻譯和多語(yǔ)言能力以及自然語(yǔ)言生成高級(jí)任務(wù)方面都比前一代PaLM 表現(xiàn)得更好,在推理和數(shù)學(xué)領(lǐng)域與GPT-4 相當(dāng)。PaLM 2與A3 超級(jí)計(jì)算機(jī)的推出,使谷歌在AI 領(lǐng)域綜合實(shí)力大幅增強(qiáng)。

AI 市場(chǎng)競(jìng)爭(zhēng)激烈,微軟近年來(lái)加大了對(duì)AI 的投資和研發(fā)力度,在深度學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域的技術(shù)已經(jīng)達(dá)到了較高的水平。谷歌也推出了一系列AI 產(chǎn)品和服務(wù),旨在通過(guò)提供全棧式的AI 解決方案來(lái)占據(jù)更加主導(dǎo)的地位。雙方都在不斷加強(qiáng)自己的技術(shù)研發(fā)和產(chǎn)品布局,以期在未來(lái)的市場(chǎng)競(jìng)爭(zhēng)中獲得更多的話語(yǔ)權(quán)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4742

    瀏覽量

    128973
  • 超級(jí)計(jì)算機(jī)

    關(guān)注

    2

    文章

    462

    瀏覽量

    41949
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30947

    瀏覽量

    269217
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3778

    瀏覽量

    91158

原文標(biāo)題:擁有 26000 個(gè) GPU的“A3”超級(jí)計(jì)算機(jī),能為谷歌贏下AI反攻戰(zhàn)嗎?

文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    云端超級(jí)計(jì)算機(jī)使用教程

    云端超級(jí)計(jì)算機(jī)是一種基于云計(jì)算的高性能計(jì)算服務(wù),它將大量計(jì)算資源和存儲(chǔ)資源集中在一起,通過(guò)網(wǎng)絡(luò)向用戶提供按需的
    的頭像 發(fā)表于 12-17 10:19 ?130次閱讀

    NVIDIA助力xAI打造全球最大AI超級(jí)計(jì)算機(jī)

    NVIDIA 宣布,xAI 位于田納西州孟菲斯市的Colossus 超級(jí)計(jì)算機(jī)集群達(dá)到了 10 萬(wàn)顆 NVIDIA Hopper GPU 的巨大規(guī)模。該集群使用了NVIDIA Spectrum-X
    的頭像 發(fā)表于 10-30 11:38 ?383次閱讀

    NVIDIA 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 AI 超級(jí)計(jì)算機(jī)

    市的 Colossus 超級(jí)計(jì)算機(jī)集群達(dá)到了 10 萬(wàn)顆 NVIDIA? Hopper? GPU 的巨大規(guī)模。該集群使用了 NVIDIA Spectrum-X? 以太網(wǎng)網(wǎng)絡(luò)平臺(tái),該平臺(tái)是專(zhuān)為多租戶
    發(fā)表于 10-30 09:33 ?157次閱讀
    NVIDIA 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 <b class='flag-5'>AI</b> <b class='flag-5'>超級(jí)</b><b class='flag-5'>計(jì)算機(jī)</b>

    丹麥推出首臺(tái)AI超級(jí)計(jì)算機(jī)Gefion

    超級(jí)計(jì)算機(jī)由1528個(gè)英偉達(dá)H100 Tensor Core GPU驅(qū)動(dòng),并采用了英偉達(dá)DGX SuperPOD架構(gòu)設(shè)計(jì)。這些高性能計(jì)算單元
    的頭像 發(fā)表于 10-29 15:13 ?400次閱讀

    NVIDIA助力丹麥發(fā)布首臺(tái)AI超級(jí)計(jì)算機(jī)

    這臺(tái)丹麥最大的超級(jí)計(jì)算機(jī)由該國(guó)政府與丹麥 AI 創(chuàng)新中心共同建設(shè),是一臺(tái) NVIDIA DGX SuperPOD 超級(jí)計(jì)算機(jī)
    的頭像 發(fā)表于 10-27 09:42 ?449次閱讀

    云端超級(jí)計(jì)算機(jī)怎么用

    云端超級(jí)計(jì)算機(jī)是一種基于云計(jì)算的高性能計(jì)算服務(wù),它將大量計(jì)算資源和存儲(chǔ)資源集中在一起,通過(guò)網(wǎng)絡(luò)向用戶提供按需的
    的頭像 發(fā)表于 10-18 10:14 ?161次閱讀

    借助NVIDIA超級(jí)計(jì)算機(jī)加速量子計(jì)算發(fā)展

    科學(xué)期刊《自然》(Nature)本月早些時(shí)候發(fā)表了一項(xiàng)研究,通過(guò)使用 NVIDIA 驅(qū)動(dòng)的超級(jí)計(jì)算機(jī),驗(yàn)證了量子計(jì)算的商業(yè)化途徑。
    的頭像 發(fā)表于 07-25 09:55 ?525次閱讀

    AMD雄心勃勃:計(jì)劃構(gòu)建百萬(wàn)級(jí)GPU超級(jí)計(jì)算機(jī)集群

    在全球科技競(jìng)賽的舞臺(tái)上,AMD近日宣布了一項(xiàng)令人矚目的計(jì)劃——打造一個(gè)包含多達(dá)120萬(wàn)顆GPU超級(jí)計(jì)算機(jī)集群。這一宏大的舉措立即引發(fā)了業(yè)界的廣泛關(guān)注,許多人認(rèn)為,這是AMD為了與英偉
    的頭像 發(fā)表于 06-27 14:37 ?670次閱讀

    NVIDIA和Recursion利用AI超級(jí)計(jì)算機(jī)加快新藥研發(fā)

    BioHive 由 NVIDIA AI 驅(qū)動(dòng),用于加速醫(yī)療領(lǐng)域科學(xué)家的工作。在全球超級(jí)計(jì)算機(jī) TOP500 榜單中,它的排名上升了 100 多位。
    的頭像 發(fā)表于 05-16 09:46 ?1277次閱讀
    NVIDIA和Recursion利用<b class='flag-5'>AI</b><b class='flag-5'>超級(jí)</b><b class='flag-5'>計(jì)算機(jī)</b>加快新藥研發(fā)

    富士通使用富岳超級(jí)計(jì)算機(jī)訓(xùn)練LLM

    盡管富士通的富岳超級(jí)計(jì)算機(jī)不再是超級(jí)計(jì)算機(jī)500強(qiáng)名單中最快的機(jī)器,但它仍然是一個(gè)非常強(qiáng)大的系統(tǒng),A
    的頭像 發(fā)表于 05-13 14:18 ?556次閱讀

    微軟和OpenAI計(jì)劃投資1000億美元建造“星際之門(mén)”AI超級(jí)計(jì)算機(jī)

    微軟和OpenAI計(jì)劃投資1000億美元建造“星際之門(mén)”AI超級(jí)計(jì)算機(jī)這一消息屬實(shí)。
    的頭像 發(fā)表于 04-11 10:14 ?561次閱讀

    諾和諾德基金會(huì)將聯(lián)手英偉達(dá)打造丹麥AI超級(jí)計(jì)算機(jī)

    諾和諾德基金會(huì)攜手英偉達(dá),共同宣布在丹麥打造一臺(tái)領(lǐng)先的AI超級(jí)計(jì)算機(jī)。這臺(tái)超級(jí)計(jì)算機(jī)將致力于推動(dòng)醫(yī)療保健、生命科學(xué)以及綠色轉(zhuǎn)型等領(lǐng)域的科研與
    的頭像 發(fā)表于 03-21 13:43 ?612次閱讀

    NVIDIA 推出 Blackwell 架構(gòu) DGX SuperPOD,適用于萬(wàn)億參數(shù)級(jí)的生成式 AI 超級(jí)計(jì)算

    ——? NVIDIA 于今日發(fā)布新一代 AI 超級(jí)計(jì)算機(jī) —— 搭載 NVIDIA GB200 Grace Blackwell 超級(jí)芯片的 NVIDIA DGX SuperPOD?。
    發(fā)表于 03-19 10:56 ?427次閱讀
    NVIDIA 推出 Blackwell 架構(gòu) DGX SuperPOD,適用于萬(wàn)億參數(shù)級(jí)的生成式 <b class='flag-5'>AI</b> <b class='flag-5'>超級(jí)</b><b class='flag-5'>計(jì)算</b>

    Tesla 計(jì)劃斥資 5 億美元建造一臺(tái)由 NVIDIA 的 AI GPU 提供支持的 Dojo 超級(jí)計(jì)算機(jī)

    ABSTRACT摘要Tesla計(jì)劃斥資5億美元建造一臺(tái)由NVIDIA的AIGPU提供支持的Dojo超級(jí)計(jì)算機(jī),因此該公司正在加大基于AI的開(kāi)發(fā)力度。JAEALOT2024年1月27日Tesla計(jì)劃
    的頭像 發(fā)表于 02-19 12:45 ?570次閱讀
    Tesla 計(jì)劃斥資 5 億美元建造一臺(tái)由 NVIDIA 的 <b class='flag-5'>AI</b> <b class='flag-5'>GPU</b> 提供支持的 Dojo <b class='flag-5'>超級(jí)</b><b class='flag-5'>計(jì)算機(jī)</b>

    特斯拉在布法羅超級(jí)工廠投資5億美元建造Dojo超級(jí)計(jì)算機(jī)

    霍楚爾表示,此次項(xiàng)目投資為5億美元,并將同時(shí)在紐約州立大學(xué)建設(shè)另一臺(tái)獨(dú)立的AI超級(jí)計(jì)算機(jī)。“我很榮幸地告訴大家,特斯拉將在布法羅投資5億美元,用于其新一代超級(jí)
    的頭像 發(fā)表于 01-29 10:58 ?412次閱讀