螞蟻集團(tuán)AI創(chuàng)新研發(fā)部門(mén)NextEvo近日宣布,他們將全面開(kāi)源AI Infra技術(shù),以推動(dòng)AI研發(fā)效率的提升。該技術(shù)框架名為DLRover,目標(biāo)在于實(shí)現(xiàn)大規(guī)模分布式訓(xùn)練的智能化。
DLRover技術(shù)能夠幫助大模型千卡訓(xùn)練實(shí)現(xiàn)高效運(yùn)行,有效時(shí)間占比超過(guò)95%。這意味著在訓(xùn)練過(guò)程中,大部分時(shí)間都能夠得到充分利用,而不是浪費(fèi)在無(wú)謂的操作上。通過(guò)實(shí)現(xiàn)訓(xùn)練時(shí)的“自動(dòng)駕駛”,該技術(shù)能夠顯著提高AI研發(fā)的效率。
為了進(jìn)一步提高大模型訓(xùn)練的效率和穩(wěn)定性,NextEvo團(tuán)隊(duì)還對(duì)DLRover進(jìn)行了持續(xù)的優(yōu)化和完善。最新集成進(jìn)DLRover的是Flash Checkpoint(FCP)方案。在模型訓(xùn)練過(guò)程中,通常需要打Checkpoint以便在中斷時(shí)能夠恢復(fù)到最近的狀態(tài)。然而,常規(guī)的Checkpoint做法存在一些缺點(diǎn),如耗時(shí)長(zhǎng)、高頻打點(diǎn)易降低訓(xùn)練可用時(shí)間、低頻打點(diǎn)恢復(fù)時(shí)丟失過(guò)多等。
針對(duì)這些問(wèn)題,F(xiàn)CP方案進(jìn)行了優(yōu)化。通過(guò)應(yīng)用FCP方案,在千卡千億參數(shù)模型訓(xùn)練中,Checkpoint導(dǎo)致的訓(xùn)練浪費(fèi)時(shí)間降低了約5倍。此外,持久化時(shí)間降低了約70倍,有效訓(xùn)練時(shí)間從90%提升至95%。這一改進(jìn)顯著提高了模型訓(xùn)練的效率和穩(wěn)定性,進(jìn)一步推動(dòng)了AI技術(shù)的發(fā)展。
螞蟻集團(tuán)開(kāi)源DLRover技術(shù)的舉措將為AI研發(fā)領(lǐng)域帶來(lái)積極的影響。通過(guò)分享和交流,這一技術(shù)有望成為推動(dòng)AI領(lǐng)域發(fā)展的重要力量。我們期待看到更多基于DLRover技術(shù)的創(chuàng)新應(yīng)用和突破性成果,為人工智能的發(fā)展做出更大的貢獻(xiàn)。
-
AI
+關(guān)注
關(guān)注
87文章
30887瀏覽量
269060 -
開(kāi)源
+關(guān)注
關(guān)注
3文章
3348瀏覽量
42496 -
螞蟻集團(tuán)
+關(guān)注
關(guān)注
0文章
98瀏覽量
3596
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論