電子發(fā)燒友網(wǎng)報道(文/李彎彎)隨著人工智能技術(shù)的快速發(fā)展,對于計算能力的需求日益增長。特別是在大模型訓(xùn)練方面,對算力的需求更是呈現(xiàn)指數(shù)級增長。傳統(tǒng)的單卡計算已經(jīng)無法滿足大模型訓(xùn)練的需求,因此,采用多卡集群的方式成為了必然的選擇。
2023年底,摩爾線程推出首個全國產(chǎn)千卡千億模型訓(xùn)練平臺“摩爾線程KUAE智算中心”。摩爾線程相關(guān)負責(zé)人此前談到,百卡或更小規(guī)模都是實驗性的,千卡才是大集群的基本單元,只有千卡及以上才能滿足一些基礎(chǔ)模型的算力需求。
國產(chǎn)千卡集群完成大模型訓(xùn)練測試
日前,摩爾線程官方宣布,聯(lián)合羽人科技,已成功實現(xiàn)了夸娥(KUAE)千卡智算集群與羽人系列模型解決方案的訓(xùn)練兼容適配,高效完成了70億參數(shù)羽人大語言模型YuRen-7b的訓(xùn)練測試。
測試結(jié)果顯示,訓(xùn)練效率達到預(yù)期,夸娥千卡智算集群展現(xiàn)出了高度的兼容性和穩(wěn)定性。未來,羽人科技的零代碼訓(xùn)練平臺將遷移到摩爾線程夸娥千卡智算集群。
在今年5月27日,摩爾線程聯(lián)合無問芯穹宣布,雙方在近日正式完成基于國產(chǎn)全功能GPU千卡集群的3B規(guī)模大模型實訓(xùn)。該模型名為“MT-infini-3B”,在摩爾線程夸娥(KUAE)千卡智算集群與無問芯穹AIStudio PaaS平臺上完成了高效穩(wěn)定的訓(xùn)練。
MT-infini-3B模型訓(xùn)練總用時13.2天,經(jīng)過精度調(diào)試,實現(xiàn)全程穩(wěn)定訓(xùn)練不中斷,集群訓(xùn)練穩(wěn)定性達到100%,千卡訓(xùn)練和單機相比擴展效率超過90%。
5月29日,摩爾線程又與國內(nèi)領(lǐng)先的數(shù)據(jù)智能服務(wù)商滴普科技共同宣布,摩爾線程“夸娥”(KUAE)千卡智算集群與滴普企業(yè)大模型Deepexi v1.0已完成訓(xùn)練、推理適配,獲得產(chǎn)品兼容互認證明。
基于摩爾線程夸娥千卡智算集群,滴普科技成功完成了LLaMA2 700億參數(shù)大語言模型的預(yù)訓(xùn)練測試。訓(xùn)練時長共計77小時,全程無故障連續(xù)運行,集群訓(xùn)練穩(wěn)定性達到100%,訓(xùn)練效率和兼容性均達到預(yù)期。
可以看到,摩爾線程全國產(chǎn)夸娥千卡智算集群在大模型訓(xùn)練上展現(xiàn)出足夠的實力。摩爾線程夸娥方案基于全功能MTT S4000 GPU,提供軟硬一體化的全棧解決方案,具備模型覆蓋、推理加速、CUDA兼容、斷點續(xù)訓(xùn)、分布式訓(xùn)練、集群可靠性等8大核心能力。
MTT S4000是摩爾線程推出的大模型智算加速卡,采用第三代MUSA內(nèi)核,單卡支持48GB顯存容量和768GB/s的顯存帶寬,F(xiàn)P16算力為100TFLOPS。借助摩爾線程自研開發(fā)工具,MTT S4000計算卡可以充分利用現(xiàn)有CUDA軟件生態(tài),實現(xiàn)CUDA代碼零成本遷移到MUSA平臺。
大模型訓(xùn)練用千卡集群搭建需要關(guān)注的重點
可以看到,國產(chǎn)千卡集群已經(jīng)取得實質(zhì)性突破,在性能上能夠達到國際先進水平,在應(yīng)用上,已經(jīng)有多個大模型實訓(xùn)案例。同時,國產(chǎn)企業(yè)也在積極構(gòu)建和完善生態(tài)系統(tǒng)。
事實上,用于大模型訓(xùn)練的千卡集群的搭建并不容易,需要注意多方面的事情。如基礎(chǔ)設(shè)施搭建方面,首先要考慮硬件的選擇,需要選擇高性能的GPU或TPU作為核心計算單元,才能夠提供必要的計算能力和加速訓(xùn)練過程。其次是網(wǎng)絡(luò)互聯(lián),構(gòu)建能夠支持萬卡級別高速互聯(lián)的智算集群,才能確保各個計算單元之間的數(shù)據(jù)傳輸效率和穩(wěn)定性。還有分布式存儲,需要配置分布式存儲系統(tǒng),滿足大模型訓(xùn)練過程中大規(guī)模數(shù)據(jù)的存儲和訪問需求。
除了GPU的選擇,網(wǎng)絡(luò)互聯(lián)也是千卡集群建設(shè)需要關(guān)注的重點。大模型訓(xùn)練千卡集群互聯(lián)要求高,這樣能夠確保集群的高效、穩(wěn)定和可靠運行。
具體來看,首先需要高帶寬與與低時延,大規(guī)模GPU集群中,模型訓(xùn)練對卡間互聯(lián)的帶寬和時延提出更高要求,特別是在萬億參數(shù)量模型中,網(wǎng)絡(luò)節(jié)點可能由百卡組建的“超節(jié)點”構(gòu)成,單次通信數(shù)據(jù)量雖小但通信頻繁,因此需要高帶寬支持以實現(xiàn)快速數(shù)據(jù)傳輸。低時延同樣重要,因為在大模型訓(xùn)練中,任何延遲都可能影響訓(xùn)練效率。
其次需要高效互聯(lián)拓撲,隨著智算中心向千卡萬卡級別的全互聯(lián)方向演進,傳統(tǒng)的直連拓撲結(jié)構(gòu)不再適用。集群需要采用更高效、更先進的互聯(lián)拓撲結(jié)構(gòu),如全向智感互聯(lián)(OISA)設(shè)計方案,以突破大規(guī)??ㄩg互聯(lián)的技術(shù)瓶頸。
再者還需要支持大規(guī)模擴展,千卡集群的互聯(lián)方案需要支持從單機多卡到多機多卡、從單卡到千卡集群的無縫擴展。這要求互聯(lián)方案具有良好的可擴展性,能夠隨著集群規(guī)模的增長而靈活調(diào)整。
另外還要考慮穩(wěn)定性和可靠性、安全性、兼容性等。大模型訓(xùn)練千卡集群的互聯(lián)方案有多種,如RDMA(遠程直接內(nèi)存訪問)網(wǎng)絡(luò),RDMA允許計算機之間的內(nèi)存直接訪問,無需操作系統(tǒng)和CPU的干預(yù),從而大大降低了通信延遲,提高了數(shù)據(jù)傳輸速率。在千卡集群中,RDMA網(wǎng)絡(luò)可以確保節(jié)點間的高效數(shù)據(jù)傳輸,支持大規(guī)模的分布式訓(xùn)練任務(wù)。
NVLink高速互聯(lián),NVLink是NVIDIA開發(fā)的一種GPU間高速互聯(lián)技術(shù),專為GPU到GPU的通信而設(shè)計。它提供了比PCIe更高的帶寬和更低的延遲,適用于多GPU系統(tǒng)內(nèi)的數(shù)據(jù)共享和通信。在千卡集群中,可以使用NVLink連接GPU服務(wù)器,實現(xiàn)節(jié)點內(nèi)部GPU間的高效互聯(lián)。
高性能交換機與網(wǎng)絡(luò)拓撲,使用高性能交換機,如InfiniBand交換機或以太網(wǎng)交換機,來構(gòu)建集群的網(wǎng)絡(luò)拓撲。網(wǎng)絡(luò)拓撲設(shè)計需要考慮集群的規(guī)模和通信需求,以確保所有節(jié)點之間的低延遲和高帶寬連接??赡艿木W(wǎng)絡(luò)拓撲包括全連接、部分連接或基于交換機的層次化結(jié)構(gòu)。
還有多路徑數(shù)據(jù)傳輸、全向智感互聯(lián)(OISA)設(shè)計方案等,OISA是一個新興的設(shè)計方案,旨在解決大規(guī)??ㄩg互聯(lián)的技術(shù)瓶頸。OISA通過優(yōu)化網(wǎng)絡(luò)協(xié)議和拓撲結(jié)構(gòu),實現(xiàn)了更高的帶寬、更低的延遲和更好的擴展性。該方案適用于需要高效通信的大規(guī)模GPU集群。
寫在最后
千卡集群主要是用于處理大規(guī)模、高復(fù)雜度的計算任務(wù),特別是在人工智能(AI)、深度學(xué)習(xí)、大模型訓(xùn)練等領(lǐng)域。而此前這種集群的建設(shè)都依賴國外的GPU,而如今,可以看到,全國產(chǎn)的千卡集群正在不斷進步和完善,在當(dāng)下國際GPU產(chǎn)品對中國限售的背景下,這對于國內(nèi)人工智能,尤其是大模型的長遠發(fā)展具有深遠意義。
2023年底,摩爾線程推出首個全國產(chǎn)千卡千億模型訓(xùn)練平臺“摩爾線程KUAE智算中心”。摩爾線程相關(guān)負責(zé)人此前談到,百卡或更小規(guī)模都是實驗性的,千卡才是大集群的基本單元,只有千卡及以上才能滿足一些基礎(chǔ)模型的算力需求。
國產(chǎn)千卡集群完成大模型訓(xùn)練測試
日前,摩爾線程官方宣布,聯(lián)合羽人科技,已成功實現(xiàn)了夸娥(KUAE)千卡智算集群與羽人系列模型解決方案的訓(xùn)練兼容適配,高效完成了70億參數(shù)羽人大語言模型YuRen-7b的訓(xùn)練測試。
測試結(jié)果顯示,訓(xùn)練效率達到預(yù)期,夸娥千卡智算集群展現(xiàn)出了高度的兼容性和穩(wěn)定性。未來,羽人科技的零代碼訓(xùn)練平臺將遷移到摩爾線程夸娥千卡智算集群。
在今年5月27日,摩爾線程聯(lián)合無問芯穹宣布,雙方在近日正式完成基于國產(chǎn)全功能GPU千卡集群的3B規(guī)模大模型實訓(xùn)。該模型名為“MT-infini-3B”,在摩爾線程夸娥(KUAE)千卡智算集群與無問芯穹AIStudio PaaS平臺上完成了高效穩(wěn)定的訓(xùn)練。
MT-infini-3B模型訓(xùn)練總用時13.2天,經(jīng)過精度調(diào)試,實現(xiàn)全程穩(wěn)定訓(xùn)練不中斷,集群訓(xùn)練穩(wěn)定性達到100%,千卡訓(xùn)練和單機相比擴展效率超過90%。
5月29日,摩爾線程又與國內(nèi)領(lǐng)先的數(shù)據(jù)智能服務(wù)商滴普科技共同宣布,摩爾線程“夸娥”(KUAE)千卡智算集群與滴普企業(yè)大模型Deepexi v1.0已完成訓(xùn)練、推理適配,獲得產(chǎn)品兼容互認證明。
基于摩爾線程夸娥千卡智算集群,滴普科技成功完成了LLaMA2 700億參數(shù)大語言模型的預(yù)訓(xùn)練測試。訓(xùn)練時長共計77小時,全程無故障連續(xù)運行,集群訓(xùn)練穩(wěn)定性達到100%,訓(xùn)練效率和兼容性均達到預(yù)期。
可以看到,摩爾線程全國產(chǎn)夸娥千卡智算集群在大模型訓(xùn)練上展現(xiàn)出足夠的實力。摩爾線程夸娥方案基于全功能MTT S4000 GPU,提供軟硬一體化的全棧解決方案,具備模型覆蓋、推理加速、CUDA兼容、斷點續(xù)訓(xùn)、分布式訓(xùn)練、集群可靠性等8大核心能力。
MTT S4000是摩爾線程推出的大模型智算加速卡,采用第三代MUSA內(nèi)核,單卡支持48GB顯存容量和768GB/s的顯存帶寬,F(xiàn)P16算力為100TFLOPS。借助摩爾線程自研開發(fā)工具,MTT S4000計算卡可以充分利用現(xiàn)有CUDA軟件生態(tài),實現(xiàn)CUDA代碼零成本遷移到MUSA平臺。
大模型訓(xùn)練用千卡集群搭建需要關(guān)注的重點
可以看到,國產(chǎn)千卡集群已經(jīng)取得實質(zhì)性突破,在性能上能夠達到國際先進水平,在應(yīng)用上,已經(jīng)有多個大模型實訓(xùn)案例。同時,國產(chǎn)企業(yè)也在積極構(gòu)建和完善生態(tài)系統(tǒng)。
事實上,用于大模型訓(xùn)練的千卡集群的搭建并不容易,需要注意多方面的事情。如基礎(chǔ)設(shè)施搭建方面,首先要考慮硬件的選擇,需要選擇高性能的GPU或TPU作為核心計算單元,才能夠提供必要的計算能力和加速訓(xùn)練過程。其次是網(wǎng)絡(luò)互聯(lián),構(gòu)建能夠支持萬卡級別高速互聯(lián)的智算集群,才能確保各個計算單元之間的數(shù)據(jù)傳輸效率和穩(wěn)定性。還有分布式存儲,需要配置分布式存儲系統(tǒng),滿足大模型訓(xùn)練過程中大規(guī)模數(shù)據(jù)的存儲和訪問需求。
除了GPU的選擇,網(wǎng)絡(luò)互聯(lián)也是千卡集群建設(shè)需要關(guān)注的重點。大模型訓(xùn)練千卡集群互聯(lián)要求高,這樣能夠確保集群的高效、穩(wěn)定和可靠運行。
具體來看,首先需要高帶寬與與低時延,大規(guī)模GPU集群中,模型訓(xùn)練對卡間互聯(lián)的帶寬和時延提出更高要求,特別是在萬億參數(shù)量模型中,網(wǎng)絡(luò)節(jié)點可能由百卡組建的“超節(jié)點”構(gòu)成,單次通信數(shù)據(jù)量雖小但通信頻繁,因此需要高帶寬支持以實現(xiàn)快速數(shù)據(jù)傳輸。低時延同樣重要,因為在大模型訓(xùn)練中,任何延遲都可能影響訓(xùn)練效率。
其次需要高效互聯(lián)拓撲,隨著智算中心向千卡萬卡級別的全互聯(lián)方向演進,傳統(tǒng)的直連拓撲結(jié)構(gòu)不再適用。集群需要采用更高效、更先進的互聯(lián)拓撲結(jié)構(gòu),如全向智感互聯(lián)(OISA)設(shè)計方案,以突破大規(guī)??ㄩg互聯(lián)的技術(shù)瓶頸。
再者還需要支持大規(guī)模擴展,千卡集群的互聯(lián)方案需要支持從單機多卡到多機多卡、從單卡到千卡集群的無縫擴展。這要求互聯(lián)方案具有良好的可擴展性,能夠隨著集群規(guī)模的增長而靈活調(diào)整。
另外還要考慮穩(wěn)定性和可靠性、安全性、兼容性等。大模型訓(xùn)練千卡集群的互聯(lián)方案有多種,如RDMA(遠程直接內(nèi)存訪問)網(wǎng)絡(luò),RDMA允許計算機之間的內(nèi)存直接訪問,無需操作系統(tǒng)和CPU的干預(yù),從而大大降低了通信延遲,提高了數(shù)據(jù)傳輸速率。在千卡集群中,RDMA網(wǎng)絡(luò)可以確保節(jié)點間的高效數(shù)據(jù)傳輸,支持大規(guī)模的分布式訓(xùn)練任務(wù)。
NVLink高速互聯(lián),NVLink是NVIDIA開發(fā)的一種GPU間高速互聯(lián)技術(shù),專為GPU到GPU的通信而設(shè)計。它提供了比PCIe更高的帶寬和更低的延遲,適用于多GPU系統(tǒng)內(nèi)的數(shù)據(jù)共享和通信。在千卡集群中,可以使用NVLink連接GPU服務(wù)器,實現(xiàn)節(jié)點內(nèi)部GPU間的高效互聯(lián)。
高性能交換機與網(wǎng)絡(luò)拓撲,使用高性能交換機,如InfiniBand交換機或以太網(wǎng)交換機,來構(gòu)建集群的網(wǎng)絡(luò)拓撲。網(wǎng)絡(luò)拓撲設(shè)計需要考慮集群的規(guī)模和通信需求,以確保所有節(jié)點之間的低延遲和高帶寬連接??赡艿木W(wǎng)絡(luò)拓撲包括全連接、部分連接或基于交換機的層次化結(jié)構(gòu)。
還有多路徑數(shù)據(jù)傳輸、全向智感互聯(lián)(OISA)設(shè)計方案等,OISA是一個新興的設(shè)計方案,旨在解決大規(guī)??ㄩg互聯(lián)的技術(shù)瓶頸。OISA通過優(yōu)化網(wǎng)絡(luò)協(xié)議和拓撲結(jié)構(gòu),實現(xiàn)了更高的帶寬、更低的延遲和更好的擴展性。該方案適用于需要高效通信的大規(guī)模GPU集群。
寫在最后
千卡集群主要是用于處理大規(guī)模、高復(fù)雜度的計算任務(wù),特別是在人工智能(AI)、深度學(xué)習(xí)、大模型訓(xùn)練等領(lǐng)域。而此前這種集群的建設(shè)都依賴國外的GPU,而如今,可以看到,全國產(chǎn)的千卡集群正在不斷進步和完善,在當(dāng)下國際GPU產(chǎn)品對中國限售的背景下,這對于國內(nèi)人工智能,尤其是大模型的長遠發(fā)展具有深遠意義。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
gpu
+關(guān)注
關(guān)注
28文章
4761瀏覽量
129144 -
AI
+關(guān)注
關(guān)注
87文章
31315瀏覽量
269659 -
大模型
+關(guān)注
關(guān)注
2文章
2516瀏覽量
2936
發(fā)布評論請先 登錄
相關(guān)推薦
國產(chǎn)智算集群黑馬!曦源一號SADA算力集群綜合評測表現(xiàn)優(yōu)異
近日,加佳科技曦源一號SADA算力集群項目一期順利通過工信部中國軟件評測中心權(quán)威評測認證。本次測試涵蓋了項目一期已上線的1024張沐曦高性能GPU加速卡
Meta萬卡GPU集群穩(wěn)定性剖析與最佳實踐
一、背景 本文中我們將具體介紹 Meta 對其萬卡 AI 集群穩(wěn)定性的剖析和刻畫,以及在其中遇到的各種挑戰(zhàn),并在其中補充了一些真實場景中遇到的 Case,便于理解。 對應(yīng)的論文為
deepin社區(qū)與此芯科技完成產(chǎn)品兼容性認證
近日, deepin 23 正式版操作系統(tǒng)與此芯科技首款芯片此芯P1 完成兼容性測試認證。測試結(jié)果表明,雙方產(chǎn)品在兼容性、性能及
性能提升近一倍!壁仞科技攜手無問芯穹,在千卡訓(xùn)練集群等領(lǐng)域取得技術(shù)新突破
隨著智能算力需求的倍增,到2024年,千卡算力集群已成為國內(nèi)大模型訓(xùn)練的必備場景。壁仞科技,作為國內(nèi)少數(shù)擁有原創(chuàng)訓(xùn)推一體架構(gòu)的高端算力芯片廠商之一,與在AI算力市場具有重要影響力的無問
發(fā)表于 11-05 18:45
?811次閱讀
摩爾線程與羽人科技完成大語言模型訓(xùn)練測試
(YuRen-7b)大語言模型的訓(xùn)練測試。測試結(jié)果顯示,訓(xùn)練效率達到預(yù)期,夸娥千卡智算
摩爾線程與智譜AI完成大模型性能測試與適配
近日,摩爾線程與智譜AI在人工智能領(lǐng)域開展了一輪深入的合作,共同對GPU大模型進行了適配及性能測試。此次測試不僅涵蓋了大模型的推理能力,還涉
摩爾線程與師者AI攜手完成70億參數(shù)教育AI大模型訓(xùn)練測試
近日,國內(nèi)知名的GPU制造商摩爾線程與全學(xué)科教育AI大模型“師者AI”聯(lián)合宣布,雙方已成功完成了一項重要的大模型訓(xùn)練
摩爾線程和滴普科技完成大模型訓(xùn)練與推理適配
近日,摩爾線程與滴普科技宣布了一項重要合作成果。摩爾線程的夸娥(KUAE)千卡智算集群與滴普科技的企業(yè)大模型Deepexi已完成訓(xùn)練及推理適
國產(chǎn)GPU可替代!摩爾線程千卡集群點亮新成就
摩爾線程、無問芯穹聯(lián)合宣布,雙方已經(jīng)正式完成MT-infini-3B 3B(30億參數(shù))規(guī)模大模型的實訓(xùn),基于摩爾線程國產(chǎn)全功能GPU MTT S4000組成的
摩爾線程千卡智算集群與滴普企業(yè)大模型已完成訓(xùn)練及推理適配
近日,摩爾線程與國內(nèi)領(lǐng)先的數(shù)據(jù)智能服務(wù)商滴普科技共同宣布,摩爾線程夸娥(KUAE)千卡智算集群與滴普企業(yè)大模型Deepexi已完成訓(xùn)練及推理
摩爾線程、無問芯穹合作完成國產(chǎn)全功能GPU千卡集群
據(jù)介紹,此項訓(xùn)練歷時13.2天,過程穩(wěn)定而有序,集群整體運行穩(wěn)定性達到了100%。相較于單機訓(xùn)練,千卡
摩爾線程與無問芯穹在國產(chǎn)GPU上首次實現(xiàn)大模型實訓(xùn)
近日,摩爾線程與無問芯穹共同宣布,雙方已正式完成基于國產(chǎn)全功能GPU千卡集群的3B規(guī)模大模型實訓(xùn)
摩爾線程與無問芯穹宣布完成基于GPU千卡集群的3B規(guī)模大模型實訓(xùn)
摩爾線程聯(lián)合無問芯穹宣布,雙方已在本周正式完成基于國產(chǎn)全功能GPU千卡集群的3B規(guī)模大模型實訓(xùn)。
摩爾線程助力AI大模型訓(xùn)練與計算升級,共建美好數(shù)字化未來
此外,在中關(guān)村國際技術(shù)交易大會高精尖技術(shù)產(chǎn)品首發(fā)會上,摩爾線程與無問芯穹聯(lián)合宣布,雙方正致力于開發(fā)基于夸娥千卡智算集群的“MT-infini-3B”合作大模型。摩爾線程成為首家接入無問芯穹并進行
潤和軟件與華為昇騰AI完成兼容性測試認證
近日,江蘇潤和軟件股份有限公司(以下簡稱“潤和軟件”)基于大模型的AI智能中樞平臺AIRUNS與華為昇騰通過相互兼容性測試認證。經(jīng)過嚴(yán)格的聯(lián)合測試,潤和軟件AI智能中樞平臺AIRUNS
評論