0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

螞蟻集團(tuán)AI研發(fā)部門(mén)開(kāi)源AI Infra技術(shù),助力大模型訓(xùn)練效率提升

CHANBAEK ? 來(lái)源:網(wǎng)絡(luò)整理 ? 2024-02-04 10:01 ? 次閱讀

螞蟻集團(tuán)AI創(chuàng)新研發(fā)部門(mén)NextEvo近日宣布,他們將全面開(kāi)源AI Infra技術(shù),以推動(dòng)AI研發(fā)效率的提升。該技術(shù)框架名為DLRover,目標(biāo)在于實(shí)現(xiàn)大規(guī)模分布式訓(xùn)練的智能化。

DLRover技術(shù)能夠幫助大模型千卡訓(xùn)練實(shí)現(xiàn)高效運(yùn)行,有效時(shí)間占比超過(guò)95%。這意味著在訓(xùn)練過(guò)程中,大部分時(shí)間都能夠得到充分利用,而不是浪費(fèi)在無(wú)謂的操作上。通過(guò)實(shí)現(xiàn)訓(xùn)練時(shí)的“自動(dòng)駕駛”,該技術(shù)能夠顯著提高AI研發(fā)的效率。

為了進(jìn)一步提高大模型訓(xùn)練的效率和穩(wěn)定性,NextEvo團(tuán)隊(duì)還對(duì)DLRover進(jìn)行了持續(xù)的優(yōu)化和完善。最新集成進(jìn)DLRover的是Flash Checkpoint(FCP)方案。在模型訓(xùn)練過(guò)程中,通常需要打Checkpoint以便在中斷時(shí)能夠恢復(fù)到最近的狀態(tài)。然而,常規(guī)的Checkpoint做法存在一些缺點(diǎn),如耗時(shí)長(zhǎng)、高頻打點(diǎn)易降低訓(xùn)練可用時(shí)間、低頻打點(diǎn)恢復(fù)時(shí)丟失過(guò)多等。

針對(duì)這些問(wèn)題,F(xiàn)CP方案進(jìn)行了優(yōu)化。通過(guò)應(yīng)用FCP方案,在千卡千億參數(shù)模型訓(xùn)練中,Checkpoint導(dǎo)致的訓(xùn)練浪費(fèi)時(shí)間降低了約5倍。此外,持久化時(shí)間降低了約70倍,有效訓(xùn)練時(shí)間從90%提升至95%。這一改進(jìn)顯著提高了模型訓(xùn)練的效率和穩(wěn)定性,進(jìn)一步推動(dòng)了AI技術(shù)的發(fā)展。

螞蟻集團(tuán)開(kāi)源DLRover技術(shù)的舉措將為AI研發(fā)領(lǐng)域帶來(lái)積極的影響。通過(guò)分享和交流,這一技術(shù)有望成為推動(dòng)AI領(lǐng)域發(fā)展的重要力量。我們期待看到更多基于DLRover技術(shù)的創(chuàng)新應(yīng)用和突破性成果,為人工智能的發(fā)展做出更大的貢獻(xiàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30887

    瀏覽量

    269060
  • 開(kāi)源
    +關(guān)注

    關(guān)注

    3

    文章

    3348

    瀏覽量

    42496
  • 螞蟻集團(tuán)
    +關(guān)注

    關(guān)注

    0

    文章

    98

    瀏覽量

    3596
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    GPU是如何訓(xùn)練AI模型

    AI模型訓(xùn)練過(guò)程中,大量的計(jì)算工作集中在矩陣乘法、向量加法和激活函數(shù)等運(yùn)算上。這些運(yùn)算正是GPU所擅長(zhǎng)的。接下來(lái),AI部落小編帶您了解GPU是如何
    的頭像 發(fā)表于 12-19 17:54 ?119次閱讀

    開(kāi)源AI模型庫(kù)是干嘛的

    開(kāi)源AI模型庫(kù)是指那些公開(kāi)源代碼、允許自由訪問(wèn)和使用的AI模型集合。這些
    的頭像 發(fā)表于 12-14 10:33 ?174次閱讀

    為什么ai模型訓(xùn)練要用gpu

    GPU憑借其強(qiáng)大的并行處理能力和高效的內(nèi)存系統(tǒng),已成為AI模型訓(xùn)練不可或缺的重要工具。
    的頭像 發(fā)表于 10-24 09:39 ?277次閱讀

    AI模型訓(xùn)練數(shù)據(jù)來(lái)源分析

    AI模型訓(xùn)練數(shù)據(jù)來(lái)源廣泛且多元化,這些數(shù)據(jù)源對(duì)于構(gòu)建和優(yōu)化AI模型至關(guān)重要。以下是對(duì)AI
    的頭像 發(fā)表于 10-23 15:32 ?610次閱讀

    如何訓(xùn)練自己的AI模型

    訓(xùn)練自己的AI模型是一個(gè)復(fù)雜且耗時(shí)的過(guò)程,涉及多個(gè)關(guān)鍵步驟。以下是一個(gè)詳細(xì)的訓(xùn)練流程: 一、明確需求和目標(biāo) 首先,需要明確自己的需求和目標(biāo)。不同的任務(wù)和應(yīng)用領(lǐng)域需要不同類(lèi)型的
    的頭像 發(fā)表于 10-23 15:07 ?1460次閱讀

    ai模型訓(xùn)練需要什么配置

    AI模型訓(xùn)練是一個(gè)復(fù)雜且資源密集的過(guò)程,它依賴(lài)于高性能的硬件配置來(lái)確保訓(xùn)練效率和效果。 一、處理器(CPU) CPU是計(jì)算機(jī)的核心部件,負(fù)
    的頭像 發(fā)表于 10-17 18:10 ?1269次閱讀

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    計(jì)算的結(jié)合 我深刻體會(huì)到高性能計(jì)算(HPC)在AI for Science中的重要性。傳統(tǒng)的科學(xué)計(jì)算往往面臨計(jì)算量大、計(jì)算時(shí)間長(zhǎng)等問(wèn)題,而AI技術(shù)的引入可以顯著提高計(jì)算效率。同時(shí),HP
    發(fā)表于 10-14 09:16

    Mobileye關(guān)閉激光雷達(dá)研發(fā)部門(mén)

    Mobileye Global近期宣布了一項(xiàng)重大戰(zhàn)略調(diào)整,決定終止其內(nèi)部對(duì)下一代調(diào)頻連續(xù)波(FMCW)激光雷達(dá)的研發(fā)項(xiàng)目,該項(xiàng)目原旨在增強(qiáng)自動(dòng)駕駛及高度自動(dòng)駕駛系統(tǒng)的性能。隨著這一決定的實(shí)施,Mobileye的激光雷達(dá)研發(fā)部門(mén)將于2024年底正式關(guān)閉,此舉預(yù)計(jì)將影響約10
    的頭像 發(fā)表于 09-10 15:56 ?362次閱讀

    IBM關(guān)閉中國(guó)研發(fā)部門(mén) 稱(chēng)根據(jù)需要調(diào)整運(yùn)營(yíng)

    強(qiáng)全部名單中排名第71位。 1995年,IBM在中國(guó)成立了中國(guó)研究院,是IBM全球八大研究中心之一。1999年,IBM在中國(guó)成立了中國(guó)軟件開(kāi)發(fā)中心,現(xiàn)在IBM公司將徹底關(guān)閉中國(guó)研發(fā)部門(mén),此次關(guān)閉
    的頭像 發(fā)表于 08-26 15:03 ?580次閱讀

    螞蟻集團(tuán)成立數(shù)字螞力新公司

    螞蟻集團(tuán)近期在北京宣布成立全新子公司“數(shù)字螞力”,標(biāo)志著其在人工智能賦能企業(yè)服務(wù)領(lǐng)域的又一重要布局。數(shù)字螞力作為螞蟻集團(tuán)AI
    的頭像 發(fā)表于 08-14 16:57 ?677次閱讀

    螞蟻集團(tuán)去年研發(fā)投入達(dá)211.9億元

    螞蟻集團(tuán)近日發(fā)布的《2023年可持續(xù)發(fā)展報(bào)告》揭示了其在人工智能領(lǐng)域的堅(jiān)定投入與卓越成就。據(jù)報(bào)告,2023年螞蟻集團(tuán)積極擁抱AI
    的頭像 發(fā)表于 06-13 14:27 ?465次閱讀

    AI+云服務(wù)引領(lǐng)行業(yè)發(fā)展,螞蟻集團(tuán)模型自主研發(fā)取得新突破

    隨著數(shù)字轉(zhuǎn)型的推進(jìn),人工智能(AI)與云服務(wù)的融合正在改變各個(gè)行業(yè)。5月25日,在上海財(cái)經(jīng)大學(xué)滴水湖高級(jí)金融學(xué)院2024年度大會(huì)上,螞蟻集團(tuán)研究院院長(zhǎng)李振華發(fā)表演講
    的頭像 發(fā)表于 05-27 09:22 ?386次閱讀

    螞蟻集團(tuán)推出20億參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense

    近日,螞蟻集團(tuán)聯(lián)合武漢大學(xué)宣布成功研發(fā)出20億參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense。這一創(chuàng)新模型螞蟻
    的頭像 發(fā)表于 03-04 11:22 ?820次閱讀

    潞晨科技Colossal-AI + 浪潮信息AIStation,大模型開(kāi)發(fā)效率提升10倍

    的潞晨科技Colossal-AI系統(tǒng),用戶可實(shí)現(xiàn)在本地算力平臺(tái)一鍵訓(xùn)練、微調(diào)、推理、部署大模型,將大模型開(kāi)發(fā)效率
    的頭像 發(fā)表于 03-01 09:43 ?488次閱讀
    潞晨科技Colossal-<b class='flag-5'>AI</b> + 浪潮信息AIStation,大<b class='flag-5'>模型</b>開(kāi)發(fā)<b class='flag-5'>效率</b><b class='flag-5'>提升</b>10倍

    螞蟻集團(tuán)成立AI研發(fā)與應(yīng)用部門(mén)

    螞蟻集團(tuán)近日宣布成立AI創(chuàng)新研發(fā)與應(yīng)用部門(mén),名為“NextEvo”,由螞蟻
    的頭像 發(fā)表于 01-25 16:43 ?902次閱讀