近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓(xùn)練策略和高性能算子庫,這兩大框架在國產(chǎn)全功能GPU上實(shí)現(xiàn)了高效的混合并行訓(xùn)練和推理,顯著提升了訓(xùn)練效率與穩(wěn)定性。摩爾線程是國內(nèi)率先原生支持FP8計(jì)算精度的國產(chǎn)GPU企業(yè),此次開源不僅為AI訓(xùn)練和推理提供了全新的國產(chǎn)化解決方案,更對推動國產(chǎn)GPU在AI大模型領(lǐng)域的應(yīng)用具有重要意義。
▼MT-MegatronLM開源地址:
https://github.com/MooreThreads/MT-MegatronLM
▼MT-TransformerEngine開源地址:
https://github.com/MooreThreads/MT-TransformerEngine
框架介紹
MT-MegatronLM是面向全功能GPU的開源混合并行訓(xùn)練框架,支持dense模型、多模態(tài)模型及MoE(混合專家)模型的高效訓(xùn)練。該框架利用全功能GPU支持FP8混合精度策略、高性能算子庫muDNN與集合通信庫MCCL,可以顯著提升國產(chǎn)全功能GPU集群的算力利用率。
MT-TransformerEngine主要用于Transformer模型的高效訓(xùn)練與推理優(yōu)化,通過算子融合、并行加速策略等技術(shù),充分釋放摩爾線程全功能GPU高密度計(jì)算的潛力和memory bound算子的效率。
技術(shù)突破與優(yōu)勢
兩大框架的技術(shù)突破集中體現(xiàn)在硬件適配與算法創(chuàng)新的深度協(xié)同:
▽混合并行訓(xùn)練:支持Dense、多模態(tài)及MoE模型的混合并行訓(xùn)練,可靈活應(yīng)對不同模型架構(gòu)的復(fù)雜運(yùn)算場景;
▽FP8混合訓(xùn)練策略:結(jié)合摩爾線程GPU原生支持的FP8混合精度訓(xùn)練策略,能夠有效提升訓(xùn)練效率;
▽高性能算子庫:通過高性能算子庫muDNN與通信庫MCCL的深度集成,系統(tǒng)性優(yōu)化了計(jì)算密集型任務(wù)與多卡協(xié)同的通信開銷;同時(shí)結(jié)合摩爾線程開源Simumax庫,可自動進(jìn)行并行策略搜索,并針對不同模型和加速環(huán)境spec最大化并行訓(xùn)練性能;
▽異常訓(xùn)練處理:框架內(nèi)置的rewind異?;謴?fù)機(jī)制,可自動回滾至最近穩(wěn)定節(jié)點(diǎn)繼續(xù)訓(xùn)練,大幅提升大規(guī)模訓(xùn)練的穩(wěn)定性;
▽完整的兼容性:兩個框架兼容GPU主流生態(tài),既保障了現(xiàn)有生態(tài)的平滑遷移,也為開發(fā)者構(gòu)建自有的AI技術(shù)棧提供了底層支撐。
▼摩爾線程Simumax開源地址:
https://github.com/MooreThreads/SimuMax
實(shí)際應(yīng)用效果
在實(shí)際應(yīng)用中,這兩個框架的充分結(jié)合已經(jīng)取得了顯著的成果。這些成果不僅驗(yàn)證了框架的技術(shù)成熟度,也為國產(chǎn)GPU生態(tài)的規(guī)?;瘧?yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。
▽高效訓(xùn)練:在全功能GPU集群上,Llama3 8B模型的訓(xùn)練任務(wù),可以利用FP8在loss幾乎無損的情況下MFU達(dá)到90%以上;(如下圖所示)
圖注:利用摩爾線程FP8混合精度加速技術(shù)在loss無損的情況下得到28%的加速
▽復(fù)現(xiàn)DeepSeek 滿血版訓(xùn)練:摩爾線程已深度集成并開源對DeepSeek并行算法DualPipe的高效支持,MT-DualPipe可以完整接入MT-Megatron框架和MT-TransformerEngine框架,成功實(shí)現(xiàn)DeepSeek V3訓(xùn)練流程的完整復(fù)現(xiàn),支持MLA、MTP及多種專家平衡策略;
▽性能大幅優(yōu)化:通過多種Transformer算子融合技術(shù),顯著提升了內(nèi)存帶寬利用率,有效緩解memory bound瓶頸,進(jìn)一步釋放國產(chǎn)GPU的硬件潛力。
持續(xù)優(yōu)化與生態(tài)共建
為加速國產(chǎn)GPU生態(tài)發(fā)展與建設(shè),摩爾線程將持續(xù)優(yōu)化MT-MegatronLM與MT-TransformerEngine框架,并引入一系列創(chuàng)新功能:
▽Dual Pipe/ZeroBubble并行策略:進(jìn)一步降低氣泡率,提升并行訓(xùn)練效率;
▽多種FP8優(yōu)化策略:獨(dú)創(chuàng)的FP8優(yōu)化策略,提高訓(xùn)練的性能和穩(wěn)定性;
▽異步checkpoint策略:提高訓(xùn)練過程中的容錯能力和效率;
▽優(yōu)化后的重計(jì)算策略:減少計(jì)算和顯存開銷,提高訓(xùn)練速度;
▽容錯訓(xùn)練策略:獨(dú)創(chuàng)的容錯訓(xùn)練算法,增強(qiáng)訓(xùn)練過程中的容錯能力;
▽集成摩爾線程FlashMLA和DeepGemm庫:進(jìn)一步釋放摩爾線程GPU的算力和FP8計(jì)算能力,提升計(jì)算性能和效率。
摩爾線程始終致力于推動開源生態(tài)的發(fā)展,通過技術(shù)開放與生態(tài)共建,加速國產(chǎn)全功能GPU在AI計(jì)算領(lǐng)域的規(guī)模化應(yīng)用,為更多用戶提供更智能、高效的解決方案。
▼ 關(guān)于摩爾線程
摩爾線程成立于2020年10月,以全功能GPU為核心,致力于向全球提供加速計(jì)算的基礎(chǔ)設(shè)施和一站式解決方案,為各行各業(yè)的數(shù)智化轉(zhuǎn)型提供強(qiáng)大的AI計(jì)算支持。
我們的目標(biāo)是成為具備國際競爭力的GPU領(lǐng)軍企業(yè),為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進(jìn)的加速計(jì)算平臺。我們的愿景是為美好世界加速。
-
gpu
+關(guān)注
關(guān)注
28文章
4938瀏覽量
131195 -
AI
+關(guān)注
關(guān)注
88文章
35065瀏覽量
279349 -
開源
+關(guān)注
關(guān)注
3文章
3676瀏覽量
43804 -
摩爾線程
+關(guān)注
關(guān)注
2文章
234瀏覽量
5349
原文標(biāo)題:開源MT-MegatronLM和MT-TransformerEngine|摩爾線程GPU原生FP8計(jì)算助力AI訓(xùn)練
文章出處:【微信號:moorethreads,微信公眾號:摩爾線程】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
摩爾線程與AI算力平臺AutoDL達(dá)成深度合作
摩爾線程發(fā)布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0
摩爾線程GPU成功適配Deepseek-V3-0324大模型

摩爾線程發(fā)布云電腦驅(qū)動MT vGPU 2.7.0
摩爾線程全面支持DeepSeek開源周成果
摩爾線程完成DeepSeek開源庫FlashMLA和DeepGEMM適配
FP8在大模型訓(xùn)練中的應(yīng)用

GPU是如何訓(xùn)練AI大模型的
如何使用FP8新技術(shù)加速大模型訓(xùn)練
FP8數(shù)據(jù)格式在大型模型訓(xùn)練中的應(yīng)用

摩爾線程成立摩爾學(xué)院,賦能GPU開發(fā)者
摩爾線程GPU與超圖軟件大模型適配:共筑國產(chǎn)地理空間AI新生態(tài)
FP8模型訓(xùn)練中Debug優(yōu)化思路

評論