隨著大模型的興起,為了應對新的AI應用,AI或算力數(shù)據(jù)中心建設如火如荼。
無論是作為聊天機器人,推薦系統(tǒng)還是在各個領域中實現(xiàn)流程自動化,比如無人駕駛、人臉識別;AI技術都有望提升并加速眾多企業(yè)和公共設施的運營,甚至改變?nèi)藗兊纳罘绞健?/p>
然而,AI網(wǎng)絡或算力網(wǎng)絡作為一個概念,常常讓人感到困惑且被誤解,AI和算力需要網(wǎng)絡么?
在本文中,我們將探討關于AI網(wǎng)絡的五個基本要點,以及隨著AI的發(fā)展,網(wǎng)絡所面臨的獨特挑戰(zhàn)。
GPU是AI的核心
簡單來說,AI的核心是圖形處理單元(GPU)或神經(jīng)處理單元(NPU)。
過去,我們通常認為中央處理單元(CPU)是計算機的核心。但GPU的優(yōu)勢在于,它在執(zhí)行數(shù)學計算特別是矩陣計算方面非常出色,從某種角度來說,與人腦神經(jīng)元更接近。
CPU時代的數(shù)據(jù)中心網(wǎng)絡處理的大多是供人閱讀的文字或多媒體,典型的就是網(wǎng)站的瀏覽、文件傳輸以及觀看視頻,數(shù)據(jù)中心往往能夠同時支持數(shù)億人的同時在線及高速的視頻碼流傳輸。
而在構(gòu)建大語言模型或深度學習模型時,需要讓GPU進行“訓練”,這涉及到解決可能包含數(shù)十億參數(shù)的矩陣和梯度運算。GPU的計算非常的快,整個“訓練”過程異常嚴苛,不允許有任何的錯誤發(fā)生,一旦發(fā)生錯誤或延遲,整個“訓練”的周期就會被拉長。這樣的運算量,以及對無損和低延時的要求,對于傳統(tǒng)的數(shù)據(jù)中心而言,突然就變得捉襟見肘了。
AI訓練任務由多GPU協(xié)同完成
大語言模型在訓練的參數(shù)和模型復雜度上有非常明顯的提升,完成這些計算必須讓多達上千個GPU共同處理訓練任務,即便如此,訓練或微調(diào)大模型也可能需要數(shù)周甚至數(shù)月的時間。
一般的多GPU互聯(lián)的架構(gòu)是將一組GPU服務器放置在機架中,并通過機架頂部的交換機相互連接。機架與機架通過CLOS網(wǎng)絡結(jié)構(gòu)將它們?nèi)窟B接起來。隨著解決問題復雜性的提升,對GPU的需求也會增加,有些情況下單個數(shù)據(jù)中心的電力不足以支持的時候,甚至需要跨數(shù)據(jù)中心連接通信來完成更大型的訓練任務。
AI集群是一臺超級計算機
在構(gòu)建AI集群時,不僅僅要將GPU相互連接,更需要把它作為一個系統(tǒng),解決很多錯誤和優(yōu)化的問題。正因為AI集群的規(guī)模不斷的上升,其中任何單點錯誤會導致整體訓練任務的失敗或效率低下,整個系統(tǒng)的組成部件比如模塊、線纜、交換機、網(wǎng)卡、服務器、存儲甚至電源,冷卻系統(tǒng)等,都會影響整個系統(tǒng)的執(zhí)行和維護。AI集群已經(jīng)慢慢由一個組網(wǎng)變成為一臺超級計算機,越來越多的工作將會圍繞在部件之間的協(xié)同而不僅是部件內(nèi)部的單點優(yōu)化展開。
網(wǎng)絡成為了訓練效率的關鍵瓶頸
在去年秋天的開放計算項目(OCP)全球峰會上,Marvell Technology的Loi Nguyen指出,網(wǎng)絡成為了AI部署的新瓶頸。GPU在解決計算問題或處理訓練負載方面非常有效。然而,進行并行計算的GPU在完成本身處理的信息之外需要獲取其他GPU處理完成的信息,彼此之間需要相互通信和同步。
如果一個GPU無法獲取所需信息,或者同步需要較長時間,其他所有GPU都必須等待,直到協(xié)作任務完成。在技術層面上,由網(wǎng)絡擁塞導致的數(shù)據(jù)包延遲或丟失可能會引發(fā)數(shù)據(jù)包重傳,顯著增加任務完成時間(JCT)。
這意味著價值數(shù)百萬甚至數(shù)千萬美元的GPU長時間處于閑置狀態(tài),從而導致AI產(chǎn)品的上市時間延遲并影響公司的財務成果。
測試對于AI網(wǎng)絡至關重要
為了確保AI集群的高效運行,需要網(wǎng)絡對GPU協(xié)同作業(yè)可能存在的擁塞和錯誤有提前的感知以及良好的應對。
這要求對網(wǎng)絡處理AI負載的性能進行詳盡的測試和基準評估。但這并非易事,因為GPU協(xié)同作業(yè)的負載區(qū)別于傳統(tǒng)網(wǎng)絡的流量負載,微突發(fā)、大象流、低熵是比較典型的特征。
因此,在測試AI網(wǎng)絡時,我們會面臨諸多挑戰(zhàn):
? GPU短缺,無法復刻生產(chǎn)網(wǎng)絡環(huán)境或無法長時間復現(xiàn)問題。
?在生產(chǎn)系統(tǒng)上進行測試可能會降低系統(tǒng)的處理能力。
?系統(tǒng)內(nèi)的部件不能提供足夠的日志及調(diào)試能力,無法準確定位問題。
?此外,獲取GPU之間集合通信更細節(jié)的信息,比如 Queue-Pair 的信息是一個挑戰(zhàn)。
為了應對這些挑戰(zhàn),可以首先在實驗室環(huán)境中對建議配置的一個子集或小的組網(wǎng)進行測試,對關鍵參數(shù)進行基準測試,比如任務完成時間(JCT)、AI集群可達到的帶寬,以及這些參數(shù)與網(wǎng)絡利用率和交換機緩存消耗的比較。
這種基準測試有助于找到GPU/工作負載與網(wǎng)絡設計/參數(shù)設置之間的平衡。當計算架構(gòu)師和網(wǎng)絡工程師對結(jié)果滿意時,他們可以將這些設置應用于生產(chǎn)環(huán)境,并測量新的結(jié)果。
結(jié)論
為了充分利用AI算力,必須對AI網(wǎng)絡的設備和基礎設施進行優(yōu)化。
企業(yè)和學術界正在提出更多好的架構(gòu)和算法來優(yōu)化AI系統(tǒng)的各個部件及部件間協(xié)同,以應對未來更多AI應用給大型網(wǎng)絡帶來的挑戰(zhàn)。
測試對AI系統(tǒng)非常關鍵,只有通過確定可重復的測試,行業(yè)才能實現(xiàn)從探索性實驗到可交付的迭代,這會是優(yōu)化AI這臺超級計算機的基礎。
關于是德科技
是德科技(NYSE:KEYS)啟迪并賦能創(chuàng)新者,助力他們將改變世界的技術帶入生活。作為一家標準普爾 500 指數(shù)公司,我們提供先進的設計、仿真和測試解決方案,旨在幫助工程師在整個產(chǎn)品生命周期中更快地完成開發(fā)和部署,同時控制好風險。我們的客戶遍及全球通信、工業(yè)自動化、航空航天與國防、汽車、半導體和通用電子等市場。我們與客戶攜手,加速創(chuàng)新,創(chuàng)造一個安全互聯(lián)的世界。
-
gpu
+關注
關注
28文章
4739瀏覽量
128941 -
網(wǎng)絡
+關注
關注
14文章
7565瀏覽量
88772 -
AI
+關注
關注
87文章
30887瀏覽量
269062 -
是德科技
+關注
關注
20文章
878瀏覽量
81786
原文標題:關于AI網(wǎng)絡你應該知道的五件事
文章出處:【微信號:是德科技KEYSIGHT,微信公眾號:是德科技KEYSIGHT】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論