核心觀點:
機(jī)器學(xué)習(xí)中模型及數(shù)據(jù)規(guī)模增加有利于提高深度神經(jīng)網(wǎng)絡(luò)性能。人工智能致力于研究能夠模擬、延伸和擴(kuò)展人類智能的理論方法及技術(shù),并開發(fā)相關(guān)應(yīng)用系統(tǒng);其最終目標(biāo)是使計算機(jī)能夠模擬人的思維方 式和行為。機(jī)器學(xué)習(xí)是一門專門研究計算機(jī)如何模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為、以獲取新的知識或技能、重新組織已有的知識結(jié)構(gòu)使之不斷改 善自身性能的學(xué)科,廣泛應(yīng)用于數(shù)據(jù)挖掘、計算機(jī)視覺、自然語言處理等領(lǐng)域。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的子集,主要由人工神經(jīng)網(wǎng)絡(luò)組成。與 傳統(tǒng)算法及中小型神經(jīng)網(wǎng)絡(luò)相比,大規(guī)模的神經(jīng)網(wǎng)絡(luò)及海量的數(shù)據(jù)支撐將有效提高深度神經(jīng)網(wǎng)絡(luò)的表現(xiàn)性能。
Transformer模型架構(gòu)是現(xiàn)代大語言模型所采用的基礎(chǔ)架構(gòu)。Transformer模型是一種非串行的神經(jīng)網(wǎng)絡(luò)架構(gòu),最初被用于執(zhí)行基于上下文的機(jī)器翻譯任務(wù)。Transformer模型以Encoder-Decoder架構(gòu)為基 礎(chǔ),能夠并行處理整個文本序列,同時引入“注意機(jī)制”(Attention),使其能夠在文本序列中正向和反向地跟蹤單詞之間的關(guān)系,適合在 大規(guī)模分布式集群中進(jìn)行訓(xùn)練,因此具有能夠并行運算、關(guān)注上下文信息、表達(dá)能力強等優(yōu)勢。
Transformer模型以詞嵌入向量疊加位置編碼 作為輸入,使得輸入序列具有位置上的關(guān)聯(lián)信息。編碼器(Encoder)由Self-Attention(自注意力層)和 Feed Forward Network(前饋網(wǎng) 絡(luò))兩個子層組成,Attention使得模型不僅關(guān)注當(dāng)前位置的詞語,同時能夠關(guān)注上下文的詞語。解碼器(Decoder)通過Encoder-Decoder Attention層,用于解碼時對于輸入端編碼信息的關(guān)注;利用掩碼(Mask)機(jī)制,對序列中每一位置根據(jù)之前位置的輸出結(jié)果循環(huán)解碼得到當(dāng) 前位置的輸出結(jié)果。
GPT是基于Transformer架構(gòu)的大語言模型,近年迭代演進(jìn)迅速。構(gòu)建語言模型是自然語言處理中最基本和最重要的任務(wù)之一。GPT是基于Transformer架構(gòu)衍生出的生成式預(yù)訓(xùn)練的單向語言模型,通過對大 量語料數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí),從而實現(xiàn)文本生成的目的;在結(jié)構(gòu)上僅采用Transformer架構(gòu)的Decoder部分。自2018年6月OpenAI發(fā)布GPT-1模 型以來,GPT模型迭代演進(jìn)迅速。GPT-1核心思想是采用“預(yù)訓(xùn)練+微調(diào)”的半監(jiān)督學(xué)習(xí)方法,服務(wù)于單序列文本的生成式任務(wù);GPT-2在預(yù)訓(xùn) 練階段引入多任務(wù)學(xué)習(xí)機(jī)制,將多樣化的自然語言處理任務(wù)全部轉(zhuǎn)化為語言模型問題;GPT-3大幅增加了模型參數(shù),更能有效利用上下文信息, 性能得到跨越式提高;GPT-3.5引入人類反饋強化學(xué)習(xí)機(jī)制,通過使用人類反饋的數(shù)據(jù)集進(jìn)行監(jiān)督學(xué)習(xí),能夠使得模型輸出與人類意圖一致。
大語言模型的訓(xùn)練及推理應(yīng)用對算力需求帶來急劇提升。以GPT-3為例,GPT-3參數(shù)量達(dá)1750億個,訓(xùn)練樣本token數(shù)達(dá)3000億個??紤]采用精度為32位的單精度浮點數(shù)數(shù)據(jù)來訓(xùn)練模型及進(jìn)行谷歌級訪 問量推理,假設(shè)GPT-3模型每次訓(xùn)練時間要求在30天完成,對應(yīng)GPT-3所需運算次數(shù)為3.15*10^23FLOPs,所需算力為121.528PFLOPS,以A100 PCle芯片為例,訓(xùn)練階段需要新增A100 GPU芯片1558顆,價值量約2337萬美元;對應(yīng)DGX A100服務(wù)器195臺,價值量約3880.5萬美元。假設(shè)推 理階段按谷歌每日搜索量35億次進(jìn)行估計,則每日GPT-3需推理token數(shù)達(dá)7.9萬億個,所需運算次數(shù)為4.76*10^24FLOPs,所需算力為 55EFLOPs,則推理階段需要新增A100 GPU芯片70.6萬顆,價值量約105.95億美元;對應(yīng)DGX A100服務(wù)器8.8萬臺,價值量約175.12億美元。
01、人工智能、機(jī)器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)簡介
機(jī)器學(xué)習(xí)是實現(xiàn)人工智能的途徑之一
人工智能(Artificial Intelligence,AI)是研究、開發(fā)用于模擬、延伸和擴(kuò)展人類智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的 技術(shù)科學(xué)。人工智能的最終目標(biāo)是使計算機(jī)能夠模擬人的思維方式和行為。機(jī)器學(xué)習(xí)(Machine Learning,ML)是實現(xiàn)人工智能的一種途徑,是一門專門研究計算機(jī)如何模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為、以獲取新 的知識或技能、重新組織已有的知識結(jié)構(gòu)使之不斷改善自身性能的學(xué)科。機(jī)器學(xué)習(xí)包括數(shù)據(jù)、模型、算法三要素。從實踐上來看,機(jī)器學(xué)習(xí)是在大數(shù)據(jù)的支撐下,通過各種算法讓機(jī)器對數(shù)據(jù)進(jìn)行深層次的統(tǒng) 計分析以進(jìn)行“自學(xué)”(訓(xùn)練模型),使人工智能系統(tǒng)獲得了歸納推理和決策能力。機(jī)器學(xué)習(xí)作為一套數(shù)據(jù)驅(qū)動方法,已廣泛應(yīng)用于數(shù)據(jù) 挖掘、自然語言處理、機(jī)器視覺、搜索引擎、醫(yī)學(xué)診斷、生物特征識別、DNA序列測序、證券市場分析等領(lǐng)域。
模型及數(shù)據(jù)規(guī)模增加有利于提高深度神經(jīng)網(wǎng)絡(luò)性能
深度學(xué)習(xí)(Deep Learning,DL)是機(jī)器學(xué)習(xí)的子集,由人工神經(jīng)網(wǎng)絡(luò)(ANN)組成。深度學(xué)習(xí)模仿人腦中存在的相似結(jié)構(gòu), 其學(xué)習(xí)是通過相互關(guān)聯(lián)的“神經(jīng)元”的深層的、多層的“網(wǎng)絡(luò)”來進(jìn)行的。典型的神經(jīng)網(wǎng)絡(luò)從結(jié)構(gòu)上可以分為三層:輸入層、隱藏層、輸出層。其中,輸入層(input layer)是指輸入特征向量;隱藏 層(hidden layer)是指抽象的非線性中間層;輸出層(output layer)是指輸出預(yù)測值。深層神經(jīng)網(wǎng)絡(luò)即包含更多隱藏層的神 經(jīng)網(wǎng)絡(luò)。相比于傳統(tǒng)機(jī)器學(xué)習(xí)模型,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)更能在海量數(shù)據(jù)上發(fā)揮作用。若希望獲得更好的性能,不僅需要訓(xùn)練一個規(guī)模 足夠大的神經(jīng)網(wǎng)絡(luò)(即帶有許多隱藏層的神經(jīng)網(wǎng)絡(luò),及許多參數(shù)及相關(guān)性),同時也需要海量的數(shù)據(jù)支撐。數(shù)據(jù)的規(guī)模及神經(jīng)網(wǎng) 絡(luò)的計算性能,需要有強大的算力作為支撐。
CNN和RNN是常見的神經(jīng)網(wǎng)絡(luò)模型
傳統(tǒng)常見的神經(jīng)網(wǎng)絡(luò)模型包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等。其中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)多用于計算機(jī)視覺、自動駕駛、人臉識別、虛擬現(xiàn)實、醫(yī)學(xué)領(lǐng)域、人機(jī)交互、智能安防等圖像應(yīng)用;相比于標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò),CNN能夠 更好地適應(yīng)高緯度的輸入數(shù)據(jù),卷積設(shè)計有效減少了模型的參數(shù)數(shù)量。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)常用于處理序列數(shù)據(jù),獲取數(shù)據(jù)中的時間依賴 性。由于語言都是逐個出現(xiàn)的,同時語言是時序前后相互關(guān)聯(lián)的數(shù)據(jù),因此語言作為最自然表達(dá)出來的 序列數(shù)據(jù),適合應(yīng)用RNN進(jìn)行語音識別、情感分類、機(jī)器翻譯、語言生成、命名實體識別等應(yīng)用。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)曾是自然語言處理的首選解決方案。RNN能夠在處理單詞序列時,將處理第一個詞的結(jié)果反饋到處理下一個詞的層, 使得模型能夠跟蹤整個句子而非單個單詞。但RNN存在缺點:由于這種串行結(jié)構(gòu),RNN無法對于長序列文本進(jìn)行有效處理,甚至可能當(dāng)初始 單詞過遠(yuǎn)時“遺忘”相關(guān)信息。
02、Transformer模型結(jié)構(gòu)分析
Transformer模型以Encoder-Decoder架構(gòu)為基礎(chǔ)
《Attention is all your need》 by OpenAI 。作為與傳統(tǒng)的CNN、RNN不同的深度學(xué)習(xí)模型架構(gòu),Transformer模型最初是被用于基于 上下文的機(jī)器翻譯模型。由于Transformer模型非串行結(jié)構(gòu),能夠并行處理整個序列;同 時引入“注意機(jī)制”(attention),能夠在文本序列中正向和反向地跟蹤單詞之間的關(guān) 系,適合在大規(guī)模分布式集群中進(jìn)行訓(xùn)練。Transformer以Encoder-Decoder架構(gòu)為基礎(chǔ)。其中,編碼組件由多層編碼器(Encoder) 組成。解碼組件也是由相同層數(shù)的解碼器(Decoder)組成。Encoder用于提取源端語言 的語義特征,而用Decoder提取目標(biāo)端語言的語義特征,并生成相對應(yīng)的譯文。Transformer模型具有能夠并行運算、關(guān)注上下文信息、表達(dá)能力強等優(yōu)勢。
Transformer模型結(jié)構(gòu)分析——詞嵌入(Embedding)
詞嵌入是NLP最基礎(chǔ)的概念之一,表示來自詞匯表的單詞或者短語被映射成實數(shù)向量。最早的詞嵌入模型是word2vec等神經(jīng)網(wǎng)絡(luò)模型, 屬于靜態(tài)詞嵌入(不關(guān)注上下文)。例如大模型誕生前常用的RNN模型所用的輸入便是預(yù)訓(xùn)練好的詞嵌入。詞向量能夠?qū)⒄Z義信息與空間 向量關(guān)聯(lián)起來(例如經(jīng)典的詞類比例子:king、queen、man、woman對應(yīng)詞向量的關(guān)系)。詞嵌入產(chǎn)生要素及步驟:Vocabulary:所有的token組成集合。詞向量表:token與詞向量的一一對應(yīng)關(guān)系。詞向量可以由預(yù)訓(xùn)練產(chǎn)生,也可以是模型參數(shù)。查表:輸入的token都對應(yīng)一個固定維度的浮點數(shù)向量(詞嵌入向量)。位置編碼:表示序列中詞的順序,具體方法為為每個輸入的詞添加一個位置向量。根據(jù)位置編碼對應(yīng)計算公式,pos表示位置,i表示維度。位置編碼能夠讓模型學(xué)習(xí)到token之間的相對位置關(guān)系。
Transformer模型結(jié)構(gòu)分析——Encoder
編碼組件可由多層編碼器(Encoder)組成,同樣解碼組件也由相同層數(shù)的解碼器(Decoder)組成。一般來講,對于中間層的輸出向量,底層Encoder輸出的表示淺層含義,頂層Encoder輸出的表示深層含義。每個Encoder由兩個子層組成:Self-Attention層(自注意力層)和 Feed Forward Network(FFN,前饋網(wǎng)絡(luò))組成。對于每一層Encoder,詞嵌入向量輸入會首先進(jìn)入Self-Attention層,Encoder對詞向量進(jìn)行編碼時,會對整句輸入的上下文均進(jìn)行Attention操作,從而關(guān)注 并使用到輸入句子的上下文的信息。Decoder端存在Cross-Attention層(Encoder-Decoder Attention層),用于解碼時對輸入部分的信息進(jìn)行Attention關(guān)注。
經(jīng)過Self-Attention層的輸入進(jìn)入前饋網(wǎng)絡(luò),前饋網(wǎng)絡(luò)一般是全連接層網(wǎng)絡(luò)(并經(jīng)過非線性的激活函數(shù),如ReLU函數(shù))。全連接層是最基本的神經(jīng)網(wǎng)絡(luò),每一個結(jié)點都與上一層的所有結(jié)點相連。ReLU函數(shù):即修正線性單元(Rectified linear unit),又稱線性整流函數(shù),通常指以斜坡函數(shù)及其變種為代表的非線性函數(shù)。激活函數(shù):為使神經(jīng)網(wǎng)絡(luò)具有擬合函數(shù)的能力而引入非線性;如不引入非線性,則無論多少層神經(jīng)網(wǎng)絡(luò)都相當(dāng)于一個線性映射。下一個Encoder的輸入是上一個Encoder的輸出,以此類推。
Transformer模型結(jié)構(gòu)分析——Multi-head Attention
Multi-head Attention即多頭注意力機(jī)制,采用 多組不同的線性變換對Q、K、V矩陣進(jìn)行映射并分別 計算Attention,再將不同的Attention結(jié)果拼接起 來進(jìn)行線性變換。Multi-head Attention本質(zhì)是在參數(shù)總量保持不 變的情況下,將Q、K、V映射到高維空間的不同子空 間進(jìn)行Attention計算,防止過擬合。
03、大規(guī)模語言模型算力需求測算(以GPT-3為例)
BERT和GPT是基于Transformer架構(gòu)的兩種大規(guī)模語言模型
構(gòu)建語言模型(Language Model,LM)是自然語言處理(Natural Language Processing,NLP)中最基本和最 重要的任務(wù)之一,自然語言處理基于Transformer架構(gòu)衍生出了兩種主流大語言模型(Large Language Model, LLM)——BERT和GPT。二者都是無監(jiān)督預(yù)訓(xùn)練的大語言模型。BERT(Bidirectional Encoder Representations from Transformer)能夠生成深度雙向語言表征,是采用帶 有掩碼(mask)的大語言模型,類似于完形填空,根據(jù)上下文預(yù)測空缺處的詞語。結(jié)構(gòu)上,BERT僅采用Transformer 架構(gòu)的Encoder部分。
GPT(Generative Pre-training Transformer)是生成式預(yù)訓(xùn)練的單向語言模型。通過對大量語料數(shù)據(jù)進(jìn)行無 監(jiān)督學(xué)習(xí),從而實現(xiàn)文本生成的目的。結(jié)構(gòu)上,GPT僅采用Transformer架構(gòu)的Decoder部分。自2018年6月起OpenAI發(fā)布GPT-1模型以來,GPT更新?lián)Q代持續(xù)提升模型及參數(shù)規(guī)模。隨著OpenAI于2022年11月30 日發(fā)布ChatGPT引爆AI領(lǐng)域,海內(nèi)外科技公司紛紛宣布發(fā)布大語言模型。用戶爆發(fā)式增長對大語言模型的算力需求帶 來挑戰(zhàn)。
GPT-1:預(yù)訓(xùn)練+微調(diào)的半監(jiān)督學(xué)習(xí)模型
《Improving Language Understanding by Generative Pre-Training》 by OpenAI。GPT-1是生成式預(yù)訓(xùn)練模型,核心思想是“預(yù)訓(xùn)練+微調(diào)”的半監(jiān)督學(xué)習(xí)方法,目標(biāo)是服務(wù)于單序列文本的生成式任務(wù)。生成式:表示模型建模的是一段句子出現(xiàn)的概率,可以分解為基于語言序列前序已出現(xiàn)單詞條件下后一單詞出現(xiàn)的條件概率之乘積。四大常見應(yīng)用:分類、蘊含、相似、選擇,分類:每段文本具有對應(yīng)標(biāo)號,將文本按標(biāo) 號進(jìn)行分類 ,蘊含:給出一段文本和假設(shè),判斷該段文本 中是否蘊含該假設(shè),相似:判斷兩段文本是否相似(用于搜索、 查詢、去重等) ,選擇:對有多個選項的問題進(jìn)行回答。
GPT-2:強調(diào)多任務(wù)的預(yù)訓(xùn)練模型
《Language Models are Unsupervised Multitask Learners》 by OpenAI,預(yù)訓(xùn)練+微調(diào)的范式只能對于特定自然語言處理任務(wù)(例如問答、機(jī)器翻譯、閱讀理解、提取摘要等)使用特定的數(shù)據(jù)集 進(jìn)行有監(jiān)督學(xué)習(xí),單一領(lǐng)域數(shù)據(jù)集缺乏對多種任務(wù)訓(xùn)練的普適性。GPT-2在預(yù)訓(xùn)練階段便引入多任務(wù)學(xué)習(xí)機(jī)制,通過加入各種NLP 任務(wù)所需要的數(shù)據(jù)集,在盡可能多的領(lǐng)域和上下文中收集屬于對 應(yīng)任務(wù)的自然語言。由此得到的GPT-2模型可以以zero-shot的方 式被直接應(yīng)用于下游任務(wù),而無需進(jìn)行有監(jiān)督的精調(diào)。GPT-2將多樣化的的NLP任務(wù)全部轉(zhuǎn)化為語言模型問題。語言提 供了一種靈活的方式來將任務(wù),輸入和輸出全部指定為一段文本。對文本的生成式建模就是對特定任務(wù)進(jìn)行有監(jiān)督學(xué)習(xí)。
GPT-3:能夠舉一反三的大語言模型
《Language Models are Few-Shot Learners》 by OpenAI。相比GPT-2,GPT-3大幅增加了模型參數(shù)。GPT-3是具有1750億個參數(shù)的自回歸語言模型,更能有效利用上下文 信息。對于特定的下游任務(wù),GPT-3無需進(jìn)行任何梯度更新或微調(diào),僅需通過與模型交互并提供少量范例即可。特點:1、模型規(guī)模急劇增加(使得模型性能提升迅猛);2、實現(xiàn)few-shot learning。in-context learning:對模型進(jìn)行引導(dǎo),使其明白應(yīng)輸出什么內(nèi)容。Q:你喜歡吃蘋果嗎?A1:我喜歡吃。A2:蘋果是什么?A3:今天天氣真好。A4:Do you like eating apples? 采用prompt提示語:漢譯英:你喜歡吃蘋果嗎?請回答:你喜歡吃蘋果嗎?
GPT-3模型對GPU與AI服務(wù)器需求展望
根據(jù)結(jié)論,1個參數(shù)量為1750億個的GPT-3模型在訓(xùn)練階段需要新增1558顆A100 GPU芯片,對應(yīng)價值為2337萬美元,需要195臺 DGX A100服務(wù)器;在推理階段需要新增70.6萬顆A100 GPU芯片,對應(yīng)價值為105.95億美元,需要8.8萬臺DGX A100服務(wù)器。考慮 一臺DGX A100服務(wù)器售價19.9萬美元,則在訓(xùn)練階段DGX A100服務(wù)器價值量為3880.5萬美元,推理階段DGX A100服務(wù)器價值量 為175.12億美元。英偉達(dá)(Nvidia)是一家人工智能計算公司,其GPU產(chǎn)品和架構(gòu)為科學(xué)計算、人工智能(AI)、數(shù)據(jù)科學(xué)、自動駕駛汽車 (AV)、機(jī)器人、元宇宙和3D互聯(lián)網(wǎng)應(yīng)用創(chuàng)建平臺。FY23英偉達(dá)收入為269.74億美元。若按上述結(jié)論,GPT-3新增GPU價值達(dá)到英 偉達(dá)公司FY23收入的39.4%。
據(jù)IDC數(shù)據(jù),受益于全球經(jīng)濟(jì)的快速復(fù)蘇,2021年用戶對數(shù)據(jù)中心基礎(chǔ)設(shè)施的投資持續(xù)上漲,全球服務(wù)器市場出貨量為1353.9 萬臺。據(jù)TrendForce數(shù)據(jù),截至2022年底預(yù)計搭載GPGPU(General Purpose GPU)的AI服務(wù)器年出貨量占整體服務(wù)器比例近1%。若采用上述數(shù)據(jù)大致估算,GPT-3新增AI服務(wù)器數(shù)量達(dá)到2021年全球AI服務(wù)器數(shù)量的65.35%。
報告節(jié)選:
審核編輯 :李倩
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4812瀏覽量
103213 -
AI
+關(guān)注
關(guān)注
88文章
34780瀏覽量
277105 -
語言模型
+關(guān)注
關(guān)注
0文章
561瀏覽量
10733 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8499瀏覽量
134330
原文標(biāo)題:AI大語言模型的原理、演進(jìn)及算力測算專題報告
文章出處:【微信號:AIOT大數(shù)據(jù),微信公眾號:AIOT大數(shù)據(jù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
算力網(wǎng)絡(luò)的“神經(jīng)突觸”:AI互聯(lián)技術(shù)如何重構(gòu)分布式訓(xùn)練范式

明晚開播 | 數(shù)據(jù)智能系列講座第6期:大模型革命背后的算力架構(gòu)創(chuàng)新

直播預(yù)約 | 數(shù)據(jù)智能系列講座第6期:大模型革命背后的算力架構(gòu)創(chuàng)新

RAKsmart高性能服務(wù)器集群:驅(qū)動AI大語言模型開發(fā)的算力引擎
DeepSeek推動AI算力需求:800G光模塊的關(guān)鍵作用
存力接棒算力,慧榮科技以主控技術(shù)突破AI存儲極限

中興通訊在AI算力領(lǐng)域的創(chuàng)新實踐與深度思考
AI 算力報告來了!2025中國AI算力市場將達(dá) 259 億美元


科技云報到:要算力更要“算利”,“精裝算力”觸發(fā)大模型產(chǎn)業(yè)新變局?
企業(yè)AI算力租賃模式的好處
企業(yè)AI算力租賃是什么
中國算力大會召開,業(yè)界首個算力高質(zhì)量評估體系發(fā)布

評論