0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

納多德端到端IB解決方案

維維為 ? 來源:維維為 ? 作者:維維為 ? 2023-04-03 17:33 ? 次閱讀

在 ChatGPT 引爆科技領域之后,人們一直在討論 AI「下一步」的發(fā)展會是什么,很多學者都提到了多模態(tài),我們并沒有等太久。近期,OpenAI 發(fā)布了多模態(tài)預訓練大模型 GPT-4,GPT-4 實現(xiàn)了以下幾個方面的飛躍式提升:強大的識圖能力、文字輸入限制提升至 2.5 萬字、回答準確性顯著提高、能夠生成歌詞、創(chuàng)意文本,實現(xiàn)風格變化。

如此高效的迭代,離不開人工智能大規(guī)模模型訓練,需要大量的計算資源和高速的數(shù)據(jù)傳輸網(wǎng)絡。其中,端到端IB(InfiniBand)網(wǎng)絡是一種高性能計算網(wǎng)絡,特別適合用于高性能計算和人工智能模型訓練。本文將介紹什么是AIGC模型訓練,為什么需要端到端IB網(wǎng)絡以及如何使用ChatGPT模型進行AIGC訓練。

AIGC是什么?

AIGC 即 AI Generated Content,是指人工智能自動生成內容,可用于繪畫、寫作、視頻等多種類型的內容創(chuàng)作。2022年AIGC高速發(fā)展,這其中深度學習模型不斷完善、開源模式的推動、大模型探索商業(yè)化的可能,成為AIGC發(fā)展的“加速度”。以最近爆火的聊天機器人ChatGPT為例,這款機器人既會寫論文,也能創(chuàng)作小說,還可編代碼,上線僅2個月,月活用戶達1億。因為出乎意料的“聰明”,AIGC被認為是“科技行業(yè)的下一個顛覆者”“內容生產(chǎn)力的一次重大革命”。

pYYBAGQqnSOATeN_AAI-B-SAUYo855.png

大型語言模型(LLM)和ChatGPT

大型語言模型(Large Language Model)是一種能夠自動學習并理解自然語言的人工智能技術。它通?;谏疃葘W習算法,通過對大量文本數(shù)據(jù)的學習來獲取語言知識,并能夠自動生成自然語言文本,如對話、文章等。

ChatGPT是一種基于大型語言模型的聊天機器人,它采用了OpenAI開發(fā)的GPT(Generative Pre-trained Transformer)模型,通過對大量文本數(shù)據(jù)的預訓練和微調,能夠生成富有語言表達力的自然語言文本,并實現(xiàn)與用戶的交互。

因此,可以說ChatGPT是一種基于大型語言模型技術的聊天機器人,它利用了大型語言模型的強大語言理解和生成能力,從而能夠在對話中進行自然語言文本的生成和理解。

隨著深度學習技術的發(fā)展,大型語言模型的能力和規(guī)模不斷提升。最初的語言模型(如N-gram模型)只能考慮有限的上下文信息,而現(xiàn)代的大型語言模型(如BERT、GPT-3等)能夠考慮更長的上下文信息,并且具有更強的泛化能力和生成能力。

大型語言模型通常采用深度神經(jīng)網(wǎng)絡進行訓練,如循環(huán)神經(jīng)網(wǎng)絡(RNN)、長短時記憶網(wǎng)絡(LSTM)、門控循環(huán)單元(GRU)和變壓器網(wǎng)絡(Transformer)等。在訓練中,模型利用大規(guī)模的文本數(shù)據(jù)集,采用無監(jiān)督或半監(jiān)督的方式進行訓練。例如,BERT模型通過預測掩碼、下一個句子等任務來訓練,而GPT-3則采用了大規(guī)模的自監(jiān)督學習方式。

大型語言模型在自然語言處理領域有廣泛的應用,例如機器翻譯、自然語言生成、問答系統(tǒng)、文本分類、情感分析等。

當前訓練LLM的瓶頸在哪里?

在訓練大型語言模型時,需要高速、可靠的網(wǎng)絡來傳輸大量的數(shù)據(jù)。例如OpenAI發(fā)布了第一版GPT模型(GPT-1),其模型規(guī)模為1.17億個參數(shù)。之后,OpenAI相繼發(fā)布了GPT-2和GPT-3等更大的模型,分別擁有1.5億和1.75萬億個參數(shù)。如此大的參數(shù)在單機訓練是完全不可能的,需要高度依賴GPU計算集群,目前的瓶頸在于如何解決訓練集群中各節(jié)點之間高效通信的問題。

pYYBAGQqnSiAD04zAAVGuyLWDSU023.png

目前比較常用的GPU通信算法就是Ring-Allreduce。其基本思想就是讓GPU形成一個環(huán),讓數(shù)據(jù)在環(huán)內流動。環(huán)中的GPU都被安排在一個邏輯中,每個GPU有一個左鄰和一個右鄰,它只會向它的右鄰居發(fā)送數(shù)據(jù),并從它的左鄰居接收數(shù)據(jù)。

該算法分兩個步驟進行:首先是scatter-reduce,然后是allgather。在scatter-reduce步驟中,GPU將交換數(shù)據(jù),使每個GPU可得到最終結果的一個塊。在allgather步驟中,GPU將交換這些塊,以便所有GPU得到完整的最終結果。

wKgaomQqnvOAYgBoAAjsdhHIBew206.png

在早期,單機內部沒有NVLink,網(wǎng)絡上沒有RDMA,帶寬相對較低,單機分布式和多機分布式在帶寬上沒太大差別,所以建一個大環(huán)即可。

但是現(xiàn)在我們單機內部有了NVLink,在使用同樣的方法就不合適了。因為網(wǎng)絡的帶寬是遠低于NVLink,如果再用一個大環(huán),那會導致NVLink的高帶寬被嚴重拉低到網(wǎng)絡的水平。其次,現(xiàn)在是具備多網(wǎng)卡的環(huán)境,如果只用一個環(huán)也無法充分利用多網(wǎng)卡優(yōu)勢。

因此,在這樣的場景下建議采用兩級環(huán):首先利用NVLink高帶寬優(yōu)勢在單機內部的GPU之間完成數(shù)據(jù)同步;然后多機之間的GPU利用多網(wǎng)卡建立多個環(huán),對不同分段數(shù)據(jù)進行同步;最后單機內部的GPU再同步一次,最終完成全部GPU的數(shù)據(jù)同步,在這里就不得不提到NCCL。

wKgaomQqnvOAK-GTAAsI5a5bwVo275.png

NVIDIA集體通信庫(NCCL)實現(xiàn)了針對NVIDIA GPU和網(wǎng)絡優(yōu)化的多GPU和多節(jié)點通信原語。

pYYBAGQqnTeASMmYAAJQ08MdpPU452.png

1GPU->multi-GPU multi node

NCCL提供全收集、全減、廣播、減少、減少散射以及點對點發(fā)送和接收等例程,這些例程經(jīng)過優(yōu)化,通過節(jié)點內和NVIDIA Mellanox網(wǎng)絡通過PCIe和NVLink高速互連實現(xiàn)高帶寬和低延遲。

為什么要使用端到端IB網(wǎng)絡?

以太網(wǎng)是一種廣泛使用的網(wǎng)絡協(xié)議,但其傳輸速率和延遲無法滿足大型模型訓練的需求。相比之下,端到端IB(InfiniBand)網(wǎng)絡是一種高性能計算網(wǎng)絡,能夠提供高達 400 Gbps 的傳輸速率和微秒級別的延遲,遠高于以太網(wǎng)的性能。這使得IB網(wǎng)絡成為大型模型訓練的首選網(wǎng)絡技術。

此外,端到端IB網(wǎng)絡還支持數(shù)據(jù)冗余和糾錯機制,能夠保證數(shù)據(jù)傳輸?shù)目煽啃浴_@在大型模型訓練中尤為重要,因為在處理如此多的數(shù)據(jù)時,數(shù)據(jù)傳輸錯誤或數(shù)據(jù)丟失可能會導致訓練過程中斷甚至失敗。

隨著網(wǎng)絡節(jié)點數(shù)目的急劇增加和計算能力不斷上升,高性能計算消除性能瓶頸和改進系統(tǒng)管理變得比以往更加重要。InfiniBand被認為是可以提升當前I/O架構性能瓶頸的一種極具潛力的I/O技術,如圖所示。InfiniBand是一種普及的、低延遲的、高帶寬的互連通信協(xié)議,處理開銷很低,非常適合在單個連接上承載多種流量類型(集群、通信、存儲和管理)。1999年,IBTA (InfiniBand Trade Association)制定了InfiniBand相關標準,在InfiniBand?中規(guī)范定義了用于互連服務器、通信基礎設施設備、存儲和嵌入式系統(tǒng)的輸入/輸出體系結構。InfiniBand是一項成熟的、經(jīng)過現(xiàn)場驗證的技術,被廣泛應用于高性能計算集群中。

wKgZomQqnvOAI2avAAxfOwTHfek946.png

InfiniBand互連架構圖

InfiniBand互聯(lián)協(xié)議中規(guī)定,每個端節(jié)點必須有一個主機通道適配器(HCA)來設置和維護與主機設備的鏈接,交換機包含多個端口,并將數(shù)據(jù)包從一個端口轉發(fā)到另一個端口,完成在子網(wǎng)內傳輸數(shù)據(jù)的功能。子網(wǎng)管理器(Subnet Manager, SM)用于配置其本地子網(wǎng)并確保其持續(xù)運行,借助子網(wǎng)管理器數(shù)據(jù)包(Subnet Manager Packet, SMP)和每個InfiniBand設備上的子網(wǎng)管理代理(Subnet Manager Agent, SMA),子網(wǎng)管理器發(fā)現(xiàn)并初始化網(wǎng)絡,為所有設備分配唯一標識符,確定MTU(Maximum Transmission Unit,最小傳輸單元),并根據(jù)選定的路由算法生成交換機路由表。SM還定期對子網(wǎng)進行光掃描,以檢測任何拓撲變化,并相應地配置網(wǎng)絡。與其他網(wǎng)絡通信協(xié)議相比,InfiniBand網(wǎng)絡提供了更高的帶寬、更低的延遲和更強的可擴展性。此外,由于InfiniBand提供了基于credit的流控制(其中發(fā)送方節(jié)點發(fā)送的數(shù)據(jù)不會超過鏈路另一端的接收緩沖區(qū)公布的credit數(shù)量),傳輸層不需要像TCP窗口算法那樣的丟包機制來確定最佳的正在傳輸?shù)臄?shù)據(jù)包數(shù)量,這使得InfiniBand網(wǎng)絡能夠以極低的延遲和極低的CPU使用率為應用程序提供極高的數(shù)據(jù)傳輸速率。InfiniBand使用RDMA技術(Remote Direct Memory Access,遠程直接內存訪問)將數(shù)據(jù)從通道一端傳輸?shù)搅硪欢?,RDMA是一種通過網(wǎng)絡在應用程序之間直接傳輸數(shù)據(jù)的協(xié)議,無需操作系統(tǒng)的參與,同時消耗雙方極低的CPU資源(零拷貝傳輸),一端的應用程序只需直接從內存中讀取消息,消息就已成功傳輸,減少的CPU開銷增加了網(wǎng)絡快速傳輸數(shù)據(jù)的能力,并允許應用程序更快地接收數(shù)據(jù)。

納多德端到端IB網(wǎng)絡解決方案

納多德基于對高速率網(wǎng)絡發(fā)展趨勢的理解,和豐富的HPC、AI項目實施經(jīng)驗,提供基于NVIDIA Quantum-2交換機、 ConnectX InfiniBand 智能網(wǎng)卡和靈活的400Gb/s InfiniBand端到端解決方案,在降低成本和復雜性的同時在高性能計算 (HPC)、AI 和超大規(guī)模云基礎設施中帶來超強性能。

poYBAGQqnUGAFJnvAAPrEaLr3ew716.png

納多德數(shù)據(jù)中心IB網(wǎng)絡解決方案

交換機

更快的服務器、高性能存儲和日益復雜的計算應用正在將數(shù)據(jù)帶寬要求推向新的高度。NVIDIA Mellanox QM9700 交換機提供具有極低的延遲,NVIDIA Quantum-2 采用第七代 NVIDIA InfiniBand 架構,可為 AI 開發(fā)者和科學研究人員提供超強網(wǎng)絡性能和豐富功能,幫助他們解決充滿挑戰(zhàn)性的問題。NVIDIA Quantum-2 通過軟件定義網(wǎng)絡、網(wǎng)絡計算、性能隔離、高級加速引擎、遠程直接內存訪問 (RDMA) 以及高達 400 Gb/s 的超快的速度,為先進的超級計算數(shù)據(jù)中心提供助力。

智能網(wǎng)卡

納多德在網(wǎng)卡側提供NVIDIA ConnectX SmartNIC智能網(wǎng)卡,NVIDIA ConnectX InfiniBand 智能網(wǎng)卡支持更快的速度和創(chuàng)新的網(wǎng)絡計算技術,實現(xiàn)了超強性能和可擴展性。NVIDIA ConnectX 降低了每次操作的成本,從而可為高性能計算 (HPC)、機器學習、高性能存儲及數(shù)據(jù)庫業(yè)務和低延遲嵌入式等應用提高投資回報率。來自 NVIDIA Quantum-2 InfiniBand 架構的 ConnectX-7 智能網(wǎng)卡(HCA)可提供超高的網(wǎng)絡性能,用于處理極具挑戰(zhàn)性的工作負載。ConnectX-7 支持超低時延、400Gb/s 吞吐量和創(chuàng)新的 NVIDIA 網(wǎng)絡計算加速引擎,實現(xiàn)額外加速,為超級計算機、人工智能和超大規(guī)模云數(shù)據(jù)中心提供所需的高可擴展性和功能豐富的技術。

光模塊

納多德提供靈活的NVIDIA 400Gb/s InfiniBand光連接方案,包括使用單模和多模收發(fā)器、MPO光纖跳線、有源銅纜(ACC)和無源銅纜(DAC),用以滿足搭建各種網(wǎng)絡拓撲的需要。

>配有帶鰭設計的 OSFP 連接器的雙端口收發(fā)器適用于風冷固定配置交換機,而配有扁平式OSFP 連接器的雙端口收發(fā)器則適用于液冷模塊化交換機和 HCA 中。

>在交換機互連上,可選擇采用全新OSFP封裝 2XNDR(800Gbps) 光模塊進行兩臺 QM9700交換機的互連,帶鰭的設計,可以大大提高光模塊散熱性。

>交換機和HCA的互聯(lián)上,交換機端采用OSFP封裝2xNDR(800Gbps)帶鰭光模塊,網(wǎng)卡端采用帶有扁平OSFP 400Gbps光模塊,MPO光纖跳線可提供3-150米,一對二分光器光纖可提供3-50米。

>交換機到HCA的連接也提供DAC(最長1.5米)或者ACC(最長3米)的解決方案,一對二式分接線纜可用于交換機的一個OSFP端口(配備兩個400Gb/s InfiniBand端口)和兩個獨立的400Gb/s HCA。一分四式分接線纜可用于連接交換機的一個OSFP交換機端口和四個200Gb/s HCA。

納多德是光網(wǎng)絡解決方案的領先提供商,是NVIDIA網(wǎng)絡產(chǎn)品的Elite Partner,攜手NVIDIA實現(xiàn)光連接+網(wǎng)絡產(chǎn)品與解決方案的強強聯(lián)合,尤其是在InfiniBand高性能網(wǎng)絡建設與應用加速方面擁有深刻的業(yè)務理解和豐富的項目實施經(jīng)驗,可根據(jù)用戶不同的應用場景,提供最優(yōu)的InfiniBand高性能交換機+智能網(wǎng)卡+AOC/DAC/光模塊產(chǎn)品組合方案,為數(shù)據(jù)中心、高性能計算、邊緣計算、人工智能等應用場景提供更具優(yōu)勢與價值的光網(wǎng)絡產(chǎn)品和整體解決方案,以低成本和出色的性能,大幅提高客戶業(yè)務加速能力。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5047

    瀏覽量

    103347
  • 光模塊
    +關注

    關注

    77

    文章

    1272

    瀏覽量

    59109
  • ChatGPT
    +關注

    關注

    29

    文章

    1564

    瀏覽量

    7859
  • AIGC
    +關注

    關注

    1

    文章

    364

    瀏覽量

    1571
收藏 人收藏

    評論

    相關推薦

    恩智浦完整的Matter解決方案

    恩智浦為打造Matter設備,提供了完整的解決方案,從連接和安全解決方案到處理器和軟件,應有盡有,為Matter標準的規(guī)模化商用提供有
    的頭像 發(fā)表于 08-26 18:04 ?2615次閱讀
    恩智浦完整的Matter<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>解決方案</b>

    華為解決方案

    華為整合了路由器和光傳輸領域的領先優(yōu)勢,推出業(yè)界領先的100G解決方案。100GE線卡和端口率先在長途骨干獲得應用,并逐步延伸至骨干邊緣及城域網(wǎng)絡。
    發(fā)表于 12-09 15:32 ?1941次閱讀

    集成數(shù)據(jù)網(wǎng)絡和段段監(jiān)測解決方案

    EXFO Inc和RAD數(shù)據(jù)通信公司今天宣布推出一種新的集成解決方案,用于數(shù)據(jù)網(wǎng)絡的監(jiān)測。該解決方案可將顯著縮短網(wǎng)絡部署時間——從數(shù)月
    發(fā)表于 05-29 17:06 ?1154次閱讀

    物聯(lián)網(wǎng)解決方案

    英特爾打造核心技術物聯(lián)網(wǎng)解決方案
    發(fā)表于 12-28 18:12 ?0次下載

    Airvana宣布全球首個LTE毫微微蜂窩解決方案

    Technology Americas公司合作,成功演示了全球首個LTE毫微微蜂窩解決方案。現(xiàn)場演示是2011年9月為一家一線移動服務運營商進行的。
    發(fā)表于 12-09 05:43 ?1368次閱讀

    USB Type-C解決方案的應用

    恩智浦的USB Type-C解決方案可輕松集成客戶設計中,且包含AC/DC電源轉換器、PD PHY和CC邏輯控制器、直接充電、信號轉
    的頭像 發(fā)表于 01-08 07:06 ?4663次閱讀
    USB Type-C<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>解決方案</b>的應用

    首個基于APP應用的5G SA切片解決方案成功實現(xiàn)

    近日,中國聯(lián)通攜手中興通訊、騰訊在廣東打造業(yè)內首個基于APP應用級的5G SA網(wǎng)絡切片,構建包含5G SA網(wǎng)絡、切片運營平臺、5G終端和手機APP應用等
    發(fā)表于 08-11 09:58 ?956次閱讀

    中興通訊傳輸解決方案實現(xiàn)承載業(yè)務“光速直達”

      隨著5G新業(yè)務的發(fā)展,接入業(yè)務的帶寬需求飛速增長,中興通訊可以提供的傳輸解決方案,構建一個涵蓋城域接入層、城域匯聚層、城域核心層以及長途干線層的“
    的頭像 發(fā)表于 10-09 14:15 ?2960次閱讀
    中興通訊<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>傳輸<b class='flag-5'>解決方案</b>實現(xiàn)承載業(yè)務“光速直達”

    的IO鏈接解決方案

    的IO鏈接解決方案
    發(fā)表于 05-10 10:43 ?1次下載
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的IO鏈接<b class='flag-5'>解決方案</b>

    松下幫助高校提供解決方案

    在歐洲,頂尖的大學不約而同地選擇了松下專業(yè)技術來幫助他們提供優(yōu)質的學習體驗。松下的技術以其卓越的質量和可靠性而聞名,擁有提供解決方案的能力——從硬、軟件安裝到持續(xù)的運維支持。
    的頭像 發(fā)表于 03-10 16:42 ?1691次閱讀

    是德科技發(fā)布PCIe5.0/6.0測試解決方案

    2022年4月14日,北京――是德科技(NYSE:KEYS)發(fā)布新款的 PCIe5.0/6.0 測試解決方案,使工程師能夠對 PCIe 前沿科技設計進行仿真、研發(fā)、評估、驗證和一
    的頭像 發(fā)表于 04-14 14:39 ?1638次閱讀

    NVMe解決方案簡介

    電子發(fā)燒友網(wǎng)站提供《NVMe解決方案簡介.pdf》資料免費下載
    發(fā)表于 08-17 09:59 ?0次下載
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>NVMe<b class='flag-5'>解決方案</b>簡介

    語音識別技術:的挑戰(zhàn)與解決方案

    探討語音識別技術的挑戰(zhàn)與解決方案。 二、
    的頭像 發(fā)表于 10-18 17:06 ?1046次閱讀

    華為IPv6+解決方案通過信通院IPv6+ 2.0 Advanced測試評估

    近日,華為IPv6+解決方案成功通過中國信息通信研究院(以下簡稱“信通院”)IPv6+ 2.0 Advanced測試評估,獲得業(yè)界首張企業(yè)/行業(yè)網(wǎng)絡
    的頭像 發(fā)表于 05-17 10:00 ?884次閱讀
    華為IPv6+<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>解決方案</b>通過信通院IPv6+ 2.0 Advanced測試評估

    Mobileye自動駕駛解決方案的深度解析

    自動駕駛技術正處于快速發(fā)展之中,各大科技公司和汽車制造商均在爭相布局,試圖在這個新興領域占據(jù)一席之地。Mobileye作為全球自動駕駛技術的領軍企業(yè)之一,憑借其獨特的自動駕駛解決方案
    的頭像 發(fā)表于 10-17 09:35 ?409次閱讀
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛<b class='flag-5'>解決方案</b>的深度解析