0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA GPU加速潞晨科技Colossal-AI大模型開發(fā)進程

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達企業(yè)解 ? 2022-10-19 09:39 ? 次閱讀

通過 NVIDIA GPU 加速平臺,Colossal-AI 實現(xiàn)了通過高效多維并行、異構(gòu)內(nèi)存管理、大規(guī)模優(yōu)化庫、自適應任務調(diào)度等方式,更高效快速部署 AI 大模型訓練與推理。

AI 大模型的高門檻成為研發(fā)一大難題

近年來,AI 模型已從 AlexNet、ResNet、AlphaGo 發(fā)展到 BERT、GPT、MoE…隨著深度學習的興起及大模型橫掃各大性能榜單,AI 能力不斷提升的一個顯著特征是模型參數(shù)的爆發(fā)式增長,這也使得訓練模型的成本急劇上升。目前最大的 AI 模型智源悟道 2.0 參數(shù)量達到 1.75 萬億,前沿 AI 模型的大小在短短幾年內(nèi)便已增大萬倍,遠超硬件數(shù)倍的緩慢增長,模型大小也遠超單個 GPU 的容納能力。

由于單臺機器的能力已遠遠無法滿足日益增長的 AI 訓練需求,即便是超級計算機,也面臨著當硬件堆砌到達一定數(shù)量后,效率無法進一步提升的瓶頸,浪費了大量計算資源。而分布式并行也與單機情況差異巨大,通常需要計算機系統(tǒng)和體系結(jié)構(gòu)相關(guān)的專業(yè)人員,這進一步提高了訓練和部署成本。

此外,PyTorch、TensorFlow 等現(xiàn)有深度學習框架也難以有效處理超大模型,通常需要專業(yè)的 AI 系統(tǒng)工程師針對具體模型做適配和優(yōu)化。更重要的是,不是每一個研發(fā)團隊都具備 “鈔” 能力,能夠隨時調(diào)用大規(guī)模 GPU 集群來使用大模型,更不用提僅有一張顯卡的個人開發(fā)者。因此,盡管大模型已經(jīng)吸引了大量關(guān)注,高昂的上手門檻卻令大眾 “望塵莫及”。

NVIDIA GPU 加速

潞晨科技 Colossal-AI 大模型開發(fā)進程

Colossal-AI 基于 NVIDIA GPU A30,為 AI 大模型的普適化做出了一系列貢獻:

1、提升 AI 大規(guī)模并行效率

對于 GPT-3 等超大 AI 模型,僅需一半資源啟動訓練,或通過高效并行加速,降低訓練成本超百萬美元。在訓練 ViT 模型時,可以擴大 14 倍的 batch size,加快 5 倍的訓練速度;對于 GPT-2 模型,我們可以降低 11 倍的內(nèi)存消耗和超線性擴展,訓練加速 3 倍,模型大小可擴展至 24 倍;對于 BERT 模型,可訓練加速可達兩倍以上。

2、擴大硬件 AI 模型容量

在單個 GPU 上對于訓練任務,可提升模型容量十余倍,將 GPU 訓練 GPT-2 和 PaLM 等前沿模型的參數(shù)容量提升數(shù)十倍。

3、豐富 AI 大模型行業(yè)落地

在產(chǎn)品發(fā)布的數(shù)個月內(nèi),潞晨科技已與數(shù)十家行業(yè)標桿企業(yè)建立深度合作,客戶涵蓋中、美、英、新等全球市場,涉及云計算、芯片設(shè)計、生物醫(yī)藥、自動駕駛、智能零售等領(lǐng)域。例如,潞晨方案將 GPU 優(yōu)化和大規(guī)模并行技術(shù)引入 AlphaFold 的訓練和推理,成功將 AlphaFold 總體訓練時間從 11 天減少到 67 小時,且總成本更低,在長序列推理中也實現(xiàn) 9.3 ~ 11.6 倍提升。Colossal-AI 團隊還助力百圖生科開源全球最快的復合物結(jié)構(gòu)預測模型,可同時支持蛋白質(zhì)單體與復合物結(jié)構(gòu)預測,將原有推理速度提升約 11 倍。

目前,在 NVIDIA GPU 出色的 AI 加速性能加持下,Colossal-AI 已成功應用在諸多領(lǐng)域,顯著縮短 AI 大模型開發(fā)和部署流程,降低 AI 大模型落地成本。

NVIDIA GPU 產(chǎn)品助力

潞晨科技 Colossal-AI 大模型落地與推廣

NVIDIA GPU 產(chǎn)品與 Colossal-AI 的合作,極大地提升了 AI 大模型的訓練與推理流程,顯著提升了用戶體驗,為 AI 大模型的落地與推廣做出了重要貢獻。

借助 Colossal-AI 與 NVIDIA GPU 產(chǎn)品,對于企業(yè)用戶,可將現(xiàn)有項目便捷擴展到大規(guī)模計算集群,使用高效并行技術(shù),以低成本快速完成 AI 大模型的開發(fā)部署。對于計算資源有限的普通用戶,也能訓練百億參數(shù)的大模型,相比現(xiàn)有主流方案,可提升參數(shù)容量十余倍,降低了 AI 大模型微調(diào)和推理等下游任務和應用部署的門檻。

潞晨科技致力于將軟件系統(tǒng)設(shè)計與硬件架構(gòu)深度融合,實現(xiàn)一體化、智能化、自動化的人工智能計算服務。NVIDIA 初創(chuàng)加速計劃為我們提供了技術(shù)支持、市場宣傳、業(yè)務對接等一列的支持。潞晨科技也參加了 2022 NVIDIA 初創(chuàng)企業(yè)展示活動,并進入了最終展示,借此獲得了更多生態(tài)關(guān)注。

NVIDIA GPU 產(chǎn)品作為 Colossal-AI 算力基礎(chǔ),本次雙方的深化合作將促進潞晨科技與 NVIDIA 共同探索 GPU 如何更有效地應用在訓練和推理 AI 大模型中,為 GPU 硬件與 Colossal-AI 軟件系統(tǒng)的共同進步打下良好基礎(chǔ)。雙方將共同努力推動 AI 大模型的普世化進程,不斷解放和發(fā)展 AI 生產(chǎn)力。

——潞晨科技創(chuàng)始人尤洋博士

關(guān)于潞晨科技

潞晨科技主營業(yè)務包括分布式軟件系統(tǒng),大規(guī)模人工智能平臺和企業(yè)級云計算解決方案。公司旨在幫助企業(yè)最大化人工智能部署效率的同時最小化部署成本。其核心產(chǎn)品面向大模型時代的通用深度學習系統(tǒng) Colossal-AI,涵蓋高效多維自動并行、異構(gòu)內(nèi)存管理、大規(guī)模優(yōu)化庫、自適應任務調(diào)度等自研技術(shù),可高效快速部署 AI 大模型訓練和推理,兼容低端設(shè)備,顯著縮短 AI 大模型訓練和推理時間、降低訓練和推理成本,減少學習和部署的人力成本。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5160

    瀏覽量

    104886
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4847

    瀏覽量

    129965
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    32905

    瀏覽量

    272526
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2845

    瀏覽量

    3501

原文標題:NVIDIA GPU加速AI落地,潞晨科技Colossal-AI助力大模型普適化

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏

    評論

    相關(guān)推薦

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)

    NVIDIA GTC 推出新一代專業(yè)級 GPUAI 賦能的開發(fā)者工具—同時,ChatRTX 更新現(xiàn)已支持 NVIDIA NIM,RTX
    的頭像 發(fā)表于 03-28 09:59 ?215次閱讀

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    Triton 推理服務器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務軟件,旨在為部署推理 AI 模型AI 工廠
    的頭像 發(fā)表于 03-20 15:03 ?411次閱讀

    極速部署!GpuGeek提供AI開發(fā)者的云端GPU最優(yōu)解

    AI開發(fā)領(lǐng)域,算力部署的效率和資源調(diào)度的靈活性直接影響研發(fā)進程與創(chuàng)新速度。隨著模型復雜度的提升和全球化協(xié)作需求的增長,開發(fā)者對
    的頭像 發(fā)表于 03-17 11:27 ?206次閱讀
    極速部署!GpuGeek提供<b class='flag-5'>AI</b><b class='flag-5'>開發(fā)</b>者的云端<b class='flag-5'>GPU</b>最優(yōu)解

    芯至科技與科技達成戰(zhàn)略合作

    在當前人工智能技術(shù)迅速發(fā)展的背景下,行業(yè)內(nèi)的深度合作已成為推動技術(shù)創(chuàng)新與應用落地的重要力量。近日,芯至科技(上海)有限公司與北京科技有限公司宣布達成戰(zhàn)略合作框架協(xié)議,共同探索人工智能大模型
    的頭像 發(fā)表于 02-12 09:51 ?583次閱讀

    NVIDIA宣布NVIDIA Isaac重要更新

    ,更為全球開發(fā)者提供了更加強大、高效的工具,以加速AI機器人的開發(fā)進程NVIDIA Isaac是一個綜合性的平臺,它集成了
    的頭像 發(fā)表于 01-17 14:45 ?360次閱讀

    NVIDIA發(fā)布Cosmos平臺,加速物理AI開發(fā)

    NVIDIA近日宣布了一項重大創(chuàng)新——推出NVIDIA Cosmos?平臺。該平臺集成了先進的生成式世界基礎(chǔ)模型、高級tokenizer、護欄以及加速視頻處理管線,旨在推動自動駕駛汽車
    的頭像 發(fā)表于 01-13 11:06 ?573次閱讀

    NVIDIA推出加速物理AI開發(fā)的Cosmos世界基礎(chǔ)模型

    經(jīng)數(shù)百萬小時的駕駛和機器人視頻數(shù)據(jù)訓練的先進模型,可用于普及物理 AI 開發(fā),并以開放模型許可形式提供。
    的頭像 發(fā)表于 01-09 11:05 ?427次閱讀

    NVIDIA推出面向RTX AI PC的AI基礎(chǔ)模型

    NVIDIA 今日發(fā)布能在 NVIDIA RTX AI PC 本地運行的基礎(chǔ)模型,為數(shù)字人、內(nèi)容創(chuàng)作、生產(chǎn)力和開發(fā)提供強大助力。
    的頭像 發(fā)表于 01-08 11:01 ?377次閱讀

    NVIDIA和GeForce RTX GPU專為AI時代打造

    NVIDIA 和 GeForce RTX GPU 專為 AI 時代打造。
    的頭像 發(fā)表于 01-06 10:45 ?389次閱讀

    GPU是如何訓練AI模型

    AI模型的訓練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數(shù)等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU
    的頭像 發(fā)表于 12-19 17:54 ?470次閱讀

    《CST Studio Suite 2024 GPU加速計算指南》

    許可證模型加速令牌或SIMULIA統(tǒng)一許可證模型的SimUnit令牌或積分授權(quán)。 4. GPU計算的啟用 - 交互式模擬:通過加速對話框
    發(fā)表于 12-16 14:25

    NVIDIA推出全新生成式AI模型Fugatto

    NVIDIA 開發(fā)了一個全新的生成式 AI 模型。利用輸入的文本和音頻,該模型可以創(chuàng)作出包含任意的音樂、人聲和聲音組合的作品。
    的頭像 發(fā)表于 11-27 11:29 ?592次閱讀

    NVIDIA CorrDiff生成式AI模型能夠精準預測臺風

    NVIDIA GPU 上運行的一個擴散模型向天氣預報工作者展示了加速計算如何實現(xiàn)新的用途并提升能效。
    的頭像 發(fā)表于 09-13 17:13 ?938次閱讀

    NVIDIA RTX AI套件簡化AI驅(qū)動的應用開發(fā)

    NVIDIA 于近日發(fā)布 NVIDIA RTX AI套件,這一工具和 SDK 集合能夠幫助 Windows 應用開發(fā)者定制、優(yōu)化和部署適用于 Windows 應用的
    的頭像 發(fā)表于 09-06 14:45 ?627次閱讀

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫,用于優(yōu)化從 PC 到云端的
    的頭像 發(fā)表于 04-28 10:36 ?746次閱讀

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品