0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AIStaiton,有效提升大模型算力平臺效率

浪潮AIHPC ? 來源:浪潮AIHP ? 2023-06-30 15:06 ? 次閱讀

日前,2023全球人工智能產(chǎn)品應(yīng)用博覽會在蘇州開幕。浪潮信息智能業(yè)務(wù)生產(chǎn)創(chuàng)新平臺AIStation憑借領(lǐng)先的資源調(diào)度與平臺管理能力,有效提升大模型算力平臺使用效率,榮獲智博會核心獎項“產(chǎn)品金獎”。此次獲獎,不僅體現(xiàn)了AIStation在大模型算力與業(yè)務(wù)支撐方面的領(lǐng)先性,也體現(xiàn)了產(chǎn)業(yè)對大模型算力平臺效率的高度關(guān)注。

當前,以大模型為代表的生成式AI技術(shù)正在加速發(fā)展并革新各行業(yè)智能轉(zhuǎn)型路徑。生成式AI創(chuàng)新需要基于海量數(shù)據(jù)集,在擁有成百上千加速卡的AI服務(wù)器集群上對千億級參數(shù)的AI大模型進行分布式訓練。如何發(fā)揮大模型算力平臺效能、抑制性能損耗,以高效完成AI大模型的訓練部署,已成為AIGC時代的新挑戰(zhàn)。

作為專為人工智能開發(fā)和部署提供全流程支持的端到端平臺,AIStation能夠以強大的資源調(diào)度和管理能力助力客戶加速AI大模型開發(fā)與部署,通過對計算資源、數(shù)據(jù)資源、深度學習軟件棧資源進行統(tǒng)一管理,有效提升大模型AI算力集群的使用效率。

一站式管理、毫秒級調(diào)度,集群利用率達70%

大模型訓練需要構(gòu)建包含計算、網(wǎng)絡(luò)、存儲、框架等在內(nèi)的系統(tǒng)性分布式訓練環(huán)境,傳統(tǒng)的分散化管理不僅門檻高、效率低,且缺少針對性優(yōu)化的整體調(diào)度系統(tǒng),導致大模型計算平臺的整體協(xié)同性較差,訓練算力效率低。

針對分布式訓練計算規(guī)模大、系統(tǒng)性強的特點,AIStation實現(xiàn)了異構(gòu)算力集群的統(tǒng)一池化管理,通過自研分布式任務(wù)自適應(yīng)系統(tǒng)將訓練底層的計算、存儲、網(wǎng)絡(luò)環(huán)境自動化配置,并提供自定義修改基本超參數(shù)功能。通過多種資源高效管理和調(diào)度策略,AIStation能實現(xiàn)萬卡集群的毫秒級調(diào)度,提升整體資源利用率到70%以上。

同時,AIStation集成主流的大模型訓練框架,依托容器化技術(shù),能夠?qū)⑦\行環(huán)境、框架適配過程標準化、模塊化,支持秒級構(gòu)建運行環(huán)境,保障AI開發(fā)和AI業(yè)務(wù)的高效運行。

瓶頸優(yōu)化、穩(wěn)健容錯,全流程加速大模型訓練

針對大規(guī)模分布式訓練過程中遇到的算力網(wǎng)絡(luò)搭建、數(shù)據(jù)加速、網(wǎng)絡(luò)通信優(yōu)化等瓶頸,AIStation通過鏡像分發(fā)加速、數(shù)據(jù)緩存加速、網(wǎng)絡(luò)拓撲調(diào)度、資源動態(tài)彈性伸縮等特性,在提高計算資源利用率的同時加速整個訓練過程。其中,AIStation通過數(shù)據(jù)緩存機制可讓模型訓練效率獲得200%-300%的提升,并能夠根據(jù)節(jié)點的數(shù)據(jù)緩存情況自動調(diào)度訓練任務(wù),避免訓練數(shù)據(jù)重復下載,節(jié)省數(shù)據(jù)加載時間,與自研調(diào)度系統(tǒng)配合后,分布式訓練線性加速比能夠高達0.9,有效抑制多節(jié)點協(xié)同的性能損耗。

健壯性與穩(wěn)定性是目前高效完成大模型訓練的強要求。對此,AIStation通過提供全生命周期管理、故障容錯、集群監(jiān)控運維等一體化能力,能夠?qū)崿F(xiàn)訓練異常和故障的全面檢測和自動處理,有效縮短斷點續(xù)訓時間,降低復雜度,以持續(xù)穩(wěn)定的訓練降低大模型訓練成本和周期。

高效調(diào)用,釋放大模型應(yīng)用價值

針對大模型訓練完成后的應(yīng)用部署,AIStation實現(xiàn)訓練和推理的全打通,加快模型應(yīng)用落地。針對大模型實際應(yīng)用中的調(diào)用突發(fā)性,AIStation可根據(jù)推理服務(wù)資源需求的變化及時調(diào)整資源配給,根據(jù)實時業(yè)務(wù)的請求量實現(xiàn)秒級服務(wù)擴縮容,可支持百萬級高并發(fā)的大模型AI推理服務(wù)場景,服務(wù)響應(yīng)平均延遲低于1ms,突發(fā)的訪問高峰的響應(yīng)效率提升50%。

目前,AIStation已經(jīng)在2457億參數(shù)的“源”大模型訓練實踐中得到有效驗證,支撐 “源”大模型的訓練算力效率達44.8%,高于GPT-3的21.3%。同時,某大型商業(yè)銀行基于AIStation打造的并行運算集群,憑借領(lǐng)先的大規(guī)模分布式訓練支撐能力,榮獲2022IDC“未來數(shù)字基礎(chǔ)架構(gòu)領(lǐng)軍者”獎項。未來, AIStation平臺將持續(xù)為各行業(yè)的大模型開發(fā)與部署提供高效的算力平臺管理能力,加速AIGC技術(shù)迭代革新。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1792

    文章

    47514

    瀏覽量

    239246
  • 算力
    +關(guān)注

    關(guān)注

    1

    文章

    1007

    瀏覽量

    14883
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2514

    瀏覽量

    2932

原文標題:【開放試用】AIStaiton,有效提升大模型算力平臺效率

文章出處:【微信號:浪潮AIHPC,微信公眾號:浪潮AIHPC】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    科技云報到:要更要“利”,“精裝”觸發(fā)大模型產(chǎn)業(yè)新變局?

    科技云報到:要更要“利”,“精裝”觸發(fā)大模型產(chǎn)業(yè)新變局?
    的頭像 發(fā)表于 01-16 10:24 ?48次閱讀

    融合 南京信易達發(fā)布全新“智能融合平臺

    1月7日,南京信易達發(fā)布了旗下最新平臺“C-MOM智能融合平臺V3.0”,并更新了全新的
    的頭像 發(fā)表于 01-08 10:56 ?119次閱讀
    超<b class='flag-5'>算</b>智<b class='flag-5'>算</b>融合 南京信易達發(fā)布全新“智能<b class='flag-5'>算</b><b class='flag-5'>力</b>融合<b class='flag-5'>平臺</b>”

    浪潮信息與智源研究院攜手共建大模型多元生態(tài)

    近日,浪潮信息與北京智源人工智能研究院正式簽署戰(zhàn)略合作協(xié)議,雙方將緊密合作,共同構(gòu)建大模型多元開源創(chuàng)新生態(tài)。 此次合作旨在提升模型創(chuàng)新
    的頭像 發(fā)表于 12-31 11:49 ?263次閱讀

    GPU開發(fā)平臺是什么

    隨著AI技術(shù)的廣泛應(yīng)用,需求呈現(xiàn)出爆發(fā)式增長。AI租賃作為一種新興的服務(wù)模式,正逐漸成為企業(yè)獲取
    的頭像 發(fā)表于 10-31 10:31 ?219次閱讀

    本源量子等向北京“金融量子云實驗平臺”提供自主量子

    近日,由本源量子提供自主量子主的“金融量子云實驗平臺”正式上線,該平臺由北京金融科技產(chǎn)業(yè)聯(lián)盟主辦,本源量子公司聯(lián)合共建,云端可提供量子真機
    的頭像 發(fā)表于 10-30 08:05 ?251次閱讀
    本源量子等向北京“金融量子云實驗<b class='flag-5'>平臺</b>”提供自主量子<b class='flag-5'>算</b><b class='flag-5'>力</b>

    GPU租用平臺是什么

    GPU租用平臺是一種基于云計算的服務(wù)模式,它允許用戶通過互聯(lián)網(wǎng)按需租用高性能GPU資源,而無需自行購買、部署和維護這些硬件。
    的頭像 發(fā)表于 10-16 10:15 ?274次閱讀

    【「大模型時代的基礎(chǔ)架構(gòu)」閱讀體驗】+ 未知領(lǐng)域的感受

    國慶前就收到《大模型時代的基礎(chǔ)架構(gòu)》一書,感謝電子發(fā)燒友論壇。歡度國慶之余,今天才靜下心來體驗此書,書不厚,200余頁,彩色圖例,印刷精美! 當初申請此書,主要是看到副標題“大模型
    發(fā)表于 10-08 10:40

    模型時代的需求

    現(xiàn)在AI已進入大模型時代,各企業(yè)都爭相部署大模型,但如何保證大模型,以及相關(guān)的穩(wěn)定性和性能,是一個極為重要的問題,帶著這個極為重要的問
    發(fā)表于 08-20 09:04

    名單公布!【書籍評測活動NO.41】大模型時代的基礎(chǔ)架構(gòu):大模型中心建設(shè)指南

    工作日內(nèi)未聯(lián)系,視為放棄本次試用評測資格! 書籍介紹 大模型是近年來引人注目的熱點之一。大模型蓬勃發(fā)展的基礎(chǔ),是針對其需求設(shè)計的及基礎(chǔ)架構(gòu)。本書針對如何為大
    發(fā)表于 08-16 18:33

    曙光攜手“互聯(lián)公共服務(wù)平臺”提高全國匹配效率

    近日,由中國信息通信研究院開發(fā)的“互聯(lián)公共服務(wù)平臺”在重慶上線。作為該平臺合作方之一,曙光智參與了
    的頭像 發(fā)表于 07-16 15:45 ?712次閱讀

    鯤泰新聞|神州鯤泰創(chuàng)新智之旅北京站開幕,發(fā)布全新智架構(gòu)和液冷整機柜產(chǎn)品應(yīng)對 “多云、異構(gòu)、綠色

    加速平臺HICA以及一體化交付的神州鯤泰全液冷整機柜產(chǎn)品。幫助企業(yè)客戶在整個異構(gòu)智資源池中匹配更優(yōu)組合、
    的頭像 發(fā)表于 05-22 10:56 ?400次閱讀
    鯤泰新聞|神州鯤泰創(chuàng)新智<b class='flag-5'>算</b>之旅北京站開幕,發(fā)布全新智<b class='flag-5'>算</b>架構(gòu)和液冷整機柜產(chǎn)品應(yīng)對 “多云、異構(gòu)、綠色

    潞晨科技Colossal-AI + 浪潮信息AIStation,大模型開發(fā)效率提升10倍

    的潞晨科技Colossal-AI系統(tǒng),用戶可實現(xiàn)在本地平臺一鍵訓練、微調(diào)、推理、部署大模型,將大模型開發(fā)
    的頭像 發(fā)表于 03-01 09:43 ?506次閱讀
    潞晨科技Colossal-AI + 浪潮信息AIStation,大<b class='flag-5'>模型</b>開發(fā)<b class='flag-5'>效率</b><b class='flag-5'>提升</b>10倍

    iBeLink KS MAX 10.5T大領(lǐng)跑KAS新領(lǐng)域

    挖掘機,它可以為用戶提供超高的,低廉的功耗,以及舒適的使用體驗。如果您想要加入Kaspa的挖掘行列,或者想要提升您的挖掘效率和收獲,那么iBeLink ks max 10.5T是您
    發(fā)表于 02-20 16:11

    智能規(guī)模超通用,大模型對智能提出高要求

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)是設(shè)備通過處理數(shù)據(jù),實現(xiàn)特定結(jié)果輸出的計算能力,常用FLOPS作為計量單位。FLOPS是Floating-point Operations Per Second
    的頭像 發(fā)表于 02-06 00:08 ?6450次閱讀

    大茉莉X16-P,5800M大稱王稱霸

    Rykj365
    發(fā)布于 :2024年01月25日 14:54:52