免费的又黄又爽又刺激的视频,日本免费一区二区三区最新vr

NVIDIA Megatron 是一個(gè)基于 PyTorch 的框架，用于訓(xùn)練基于 Transformer 架構(gòu)的巨型語(yǔ)言模型。本系列文章將詳細(xì)介紹Megatron的設(shè)計(jì)和實(shí)踐，探索這一框架如何助力大模型的預(yù)訓(xùn)練計(jì)算。上篇主要介紹了大模型訓(xùn)練的發(fā)展趨勢(shì)、NVIDIA Megatron的模型并行設(shè)計(jì)，本篇將承接上篇的內(nèi)容，解析Megatron 在NVIDIA DGX SuperPOD 上的實(shí)踐。

優(yōu)化的分布式集群架構(gòu)：NVIDIA DGX SuperPOD

有了高效的分布式訓(xùn)練框架，自然也需要優(yōu)化的分布式訓(xùn)練集群。

NVIDIA DGX SuperPOD 便是 NVIDIA 推出的一個(gè)分布式集群的參考架構(gòu)，最新一代是基于NVIDIA DGX A100 和NVIDIA HDR 200Gb/s ConnectX-6 HCAs組建，旨在幫助AI 研究人員快速搭建一套強(qiáng)大、靈活、高效的系統(tǒng)，以滿(mǎn)足工業(yè)界日益復(fù)雜、多變的模型對(duì)計(jì)算資源不同程度的需求。尤其對(duì)于超大語(yǔ)言模型預(yù)訓(xùn)練這一復(fù)雜場(chǎng)景，DGX SuperPOD 架構(gòu)尤為重要。

DGX SuperPOD 采用模塊化的設(shè)計(jì)，支持不同規(guī)模大小的設(shè)計(jì)。一個(gè)標(biāo)準(zhǔn)的SuperPOD 由140 臺(tái)DGX A100和三層Infiniband 交換機(jī)通過(guò)胖樹(shù)結(jié)構(gòu)全互聯(lián)起來(lái)。每臺(tái)DGX A100 配有8個(gè)200Gb/s 的高速計(jì)算網(wǎng)，并配有2個(gè)200Gb/s的高速存儲(chǔ)網(wǎng)，采用計(jì)算和存儲(chǔ)網(wǎng)絡(luò)分離的方案。

多個(gè)POD之間可以通過(guò)核心層交換機(jī)直連起來(lái)，可以支持多達(dá)560 臺(tái)DGX A100的互聯(lián)規(guī)模。

更多關(guān)于NVIDIA DGX SuperPOD 架構(gòu)的詳細(xì)設(shè)計(jì)，請(qǐng)參閱下列連接中的白皮書(shū)：https://images.nvidia.com/aem-dam/Solutions/Data-Center/gated-resources/nvidia-dgx-superpod-a100.pdf

NVIDIA Megatron 在 DGX SuperPOD 上的實(shí)踐

基于DGX SuperPOD 的Megatron實(shí)踐在不同大小的模型上，都表現(xiàn)出了很好的計(jì)算效率。

模型從1.7B 到1T ，訓(xùn)練規(guī)模從32 卡到3072 卡。

基于GPT-3 175B 模型的訓(xùn)練，采用如下的配置：

128 臺(tái) DGX A100，總共 1024張 A100

Tensor 并行度：8；Pipeline 并行度：16；數(shù)據(jù)并行度：8

全局Batch size ： 1536；Micro-batch size： 1

在如此大的訓(xùn)練規(guī)模下，GPU 仍可達(dá)到44% 左右的計(jì)算效率，在規(guī)模和效率上，都遠(yuǎn)遠(yuǎn)超過(guò)已有的公開(kāi)結(jié)果。

詳細(xì)內(nèi)容請(qǐng)參考以下鏈接：

Megatron repro： https://github.com/nvidia/megatron-lm

GPT3-175B training scripts： https://github.com/NVIDIA/Megatron-LM/blob/main/examples/pretrain_gpt3_175B.sh

總結(jié)

1. 大模型是大勢(shì)所趨。

2. 大規(guī)模分布式訓(xùn)練是訓(xùn)練大模型的必須。

3. NVIDIA Megatron 是開(kāi)源的、軟硬協(xié)同設(shè)計(jì)的訓(xùn)練框架，專(zhuān)為T(mén)ransformer-based的超大語(yǔ)言模型設(shè)計(jì)。

4. NVIDIA DGX SuperPOD 是開(kāi)放的集群參考設(shè)計(jì)架構(gòu)，專(zhuān)為大規(guī)模分布式訓(xùn)練而準(zhǔn)備。

5. Megatron 優(yōu)化的Tensor模型并行：用于intra-transformer 層，可以高效地執(zhí)行在HGX based的系統(tǒng)上。

6. Megatron優(yōu)化的 Pipeline 模型并行：用于inter-transformer 層，可以有效地利用集群中多網(wǎng)卡的設(shè)計(jì)。

7. 數(shù)據(jù)并行的加持，可以擴(kuò)展到更大規(guī)模、訓(xùn)練更快。

8. GPT-3 175B 的大模型，在1024 張 A100上可達(dá)到44%左右的計(jì)算效率。

9. NVIDIA Megatron 的設(shè)計(jì)和實(shí)踐，已廣泛用于學(xué)術(shù)界和工業(yè)界。

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
7232

瀏覽量
90699
NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5184

瀏覽量
105367
交換機(jī)

交換機(jī)

+關(guān)注

關(guān)注
21

文章
2700

瀏覽量
100948
分布式

分布式

+關(guān)注

關(guān)注
1

文章
969

瀏覽量
75062

原文標(biāo)題：NVIDIA Megatron：超大Transformer語(yǔ)言模型的分布式訓(xùn)練框架 (二)

文章出處：【微信號(hào)：NVIDIA-Enterprise，微信公眾號(hào)：NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

AI原生架構(gòu)升級(jí)：RAKsmart服務(wù)器在超大規(guī)模模型訓(xùn)練中的算力突破

近年來(lái)，隨著千億級(jí)參數(shù)模型的崛起，AI訓(xùn)練對(duì)算力的需求呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。傳統(tǒng)服務(wù)器架構(gòu)在應(yīng)對(duì)分布式訓(xùn)練、高并發(fā)計(jì)算和顯存優(yōu)化等場(chǎng)景時(shí)逐漸顯露瓶頸。而RAKsmart為

發(fā)表于 04-24 09:27 ?81次閱讀

大模型訓(xùn)練框架(五)之Accelerate

Hugging Face 的 Accelerate1是一個(gè)用于簡(jiǎn)化和加速深度學(xué)習(xí)模型訓(xùn)練的庫(kù)，它支持在多種硬件配置上進(jìn)行分布式訓(xùn)練，包括 CPU、GPU、TPU 等。Accelerat

發(fā)表于 01-14 14:24 ?458次閱讀

大語(yǔ)言模型開(kāi)發(fā)框架是什么

大語(yǔ)言模型開(kāi)發(fā)框架是指用于訓(xùn)練、推理和部署大型語(yǔ)言模型的軟件工具和庫(kù)。下面，AI部落小編為您介紹

發(fā)表于 12-06 10:28 ?380次閱讀

分布式通信的原理和實(shí)現(xiàn)高效分布式通信背后的技術(shù)NVLink的演進(jìn)

的大小已經(jīng)超出了單個(gè) GPU 的范圍。所以就需要實(shí)現(xiàn)跨多個(gè) GPU 的模型訓(xùn)練，這種訓(xùn)練方式就涉及到了分布式通信和 NVLink。當(dāng)談及分布式

發(fā)表于 11-18 09:39 ?971次閱讀

【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語(yǔ)法結(jié)構(gòu)的學(xué)習(xí)，還包括對(duì)語(yǔ)言的深層次理解，如文化背景、語(yǔ)境含義和情感色彩等。自監(jiān)督學(xué)習(xí)：模型采用自監(jiān)督學(xué)習(xí)策略，在大量無(wú)標(biāo)簽文本數(shù)據(jù)上學(xué)習(xí)語(yǔ)

發(fā)表于 08-02 11:03

大語(yǔ)言模型的預(yù)訓(xùn)練

能力，逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練，使模型學(xué)習(xí)到

發(fā)表于 07-11 10:11 ?787次閱讀

Transformer語(yǔ)言模型簡(jiǎn)介與實(shí)現(xiàn)過(guò)程

在自然語(yǔ)言處理（NLP）領(lǐng)域，Transformer模型以其卓越的性能和廣泛的應(yīng)用前景，成為了近年來(lái)最引人注目的技術(shù)之一。Transformer模型

發(fā)表于 07-10 11:48 ?2619次閱讀

使用PyTorch搭建Transformer模型

Transformer模型自其問(wèn)世以來(lái)，在自然語(yǔ)言處理（NLP）領(lǐng)域取得了巨大的成功，并成為了許多先進(jìn)模型（如BERT、GPT等）的基礎(chǔ)。本文將深入解讀如何使用PyTorch

發(fā)表于 07-02 11:41 ?2262次閱讀

摩爾線(xiàn)程攜手憨猴集團(tuán)，深化AI算力戰(zhàn)略合作，成功實(shí)現(xiàn)大模型分布式訓(xùn)練

摩爾線(xiàn)程與憨猴科技集團(tuán)日前宣布，采用搭載摩爾線(xiàn)程的夸娥（KUAE）千卡智算集群，已成功完成了多個(gè)大模型的分布式訓(xùn)練，涵蓋7B、34B以及70B三個(gè)不同的計(jì)算規(guī)模等級(jí)。

發(fā)表于 05-17 17:24 ?880次閱讀

大語(yǔ)言模型：原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

解鎖我理解的是基于深度學(xué)習(xí)，需要訓(xùn)練各種數(shù)據(jù)知識(shí)最后生成自己的的語(yǔ)言理解和能力的交互模型。對(duì)于常說(shuō)的RNN是處理短序列的數(shù)據(jù)時(shí)表現(xiàn)出色，耳真正厲害的是Transformer，此

發(fā)表于 05-12 23:57

為大模型專(zhuān)門(mén)優(yōu)化浪潮信息發(fā)布分布式全閃存儲(chǔ)AS13000G7-N系列

北京2024年5月10日?/美通社/ -- 近日，浪潮信息發(fā)布為大模型專(zhuān)門(mén)優(yōu)化的分布式全閃存儲(chǔ)AS13000G7-N系列。該系列依托浪潮信息自研分布式文件系統(tǒng)，搭載新一代數(shù)據(jù)加速引擎

發(fā)表于 05-10 16:37 ?624次閱讀

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

大語(yǔ)言模型的核心特點(diǎn)在于其龐大的參數(shù)量，這賦予了模型強(qiáng)大的學(xué)習(xí)容量，使其無(wú)需依賴(lài)微調(diào)即可適應(yīng)各種下游任務(wù)，而更傾向于培養(yǎng)通用的處理能力。然而，隨著學(xué)習(xí)容量的增加，對(duì)預(yù)訓(xùn)練數(shù)據(jù)的需求也相

發(fā)表于 05-07 17:10

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

語(yǔ)義學(xué)習(xí)的起點(diǎn)是研究如何將詞轉(zhuǎn)化為向量表示，這一直是自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)。詞表示方法主要分為三種：詞的獨(dú)熱表示、詞的分布式表示和基于預(yù)訓(xùn)練的詞嵌入表示。詞的獨(dú)熱表示：構(gòu)建包含所有詞的詞表V，獨(dú)

發(fā)表于 05-05 12:17

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

大語(yǔ)言模型（LLM）是人工智能領(lǐng)域的尖端技術(shù)，憑借龐大的參數(shù)量和卓越的語(yǔ)言理解能力贏(yíng)得了廣泛關(guān)注。它基于深度學(xué)習(xí)，利用神經(jīng)網(wǎng)絡(luò)框架來(lái)理解和生成自然語(yǔ)

發(fā)表于 05-04 23:55

【大語(yǔ)言模型：原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

處理中預(yù)訓(xùn)練架構(gòu)Transformer，以及這些技術(shù)在現(xiàn)實(shí)世界中的如何應(yīng)用。通過(guò)具體案例的分析，作者展示了大語(yǔ)言模型在解決實(shí)際問(wèn)題中的強(qiáng)大能力，同時(shí)也指出了當(dāng)前技術(shù)面臨的挑戰(zhàn)和局限性。

發(fā)表于 04-30 15:35

搜索歷史

探究超大Transformer語(yǔ)言模型的分布式訓(xùn)練框架

評(píng)論

AI原生架構(gòu)升級(jí)：RAKsmart服務(wù)器在超大規(guī)模模型訓(xùn)練中的算力突破

大模型訓(xùn)練框架(五)之Accelerate

大語(yǔ)言模型開(kāi)發(fā)框架是什么

分布式通信的原理和實(shí)現(xiàn)高效分布式通信背后的技術(shù)NVLink的演進(jìn)

【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

大語(yǔ)言模型的預(yù)訓(xùn)練

Transformer語(yǔ)言模型簡(jiǎn)介與實(shí)現(xiàn)過(guò)程

使用PyTorch搭建Transformer模型

摩爾線(xiàn)程攜手憨猴集團(tuán)，深化AI算力戰(zhàn)略合作，成功實(shí)現(xiàn)大模型分布式訓(xùn)練

大語(yǔ)言模型：原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

為大模型專(zhuān)門(mén)優(yōu)化浪潮信息發(fā)布分布式全閃存儲(chǔ)AS13000G7-N系列

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

【大語(yǔ)言模型：原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

電子發(fā)燒友