0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大模型的Scaling Law的概念和推導(dǎo)

深度學(xué)習(xí)自然語言處理 ? 來源:知乎 ? 2023-11-29 14:28 ? 次閱讀

作者:nghuyong

在大模型的研發(fā)中,通常會(huì)有下面一些需求:

1.計(jì)劃訓(xùn)練一個(gè)10B的模型,想知道至少需要多大的數(shù)據(jù)?

2.收集到了1T的數(shù)據(jù),想知道能訓(xùn)練一個(gè)多大的模型?

3.老板準(zhǔn)備1個(gè)月后開發(fā)布會(huì),給的資源是100張A100,應(yīng)該用多少數(shù)據(jù)訓(xùn)多大的模型效果最好?

4.老板對(duì)現(xiàn)在10B的模型不滿意,想知道擴(kuò)大到100B模型的效果能提升到多少?

以上這些問題都可以基于Scaling Law的理論進(jìn)行回答。本文是閱讀了一系列 Scaling Law的文章后的整理和思考,包括Scaling Law的概念和推導(dǎo)以及反Scaling Law的場(chǎng)景,不當(dāng)之處,歡迎指正。

核心結(jié)論

大模型的Scaling Law是OpenAI在2020年提出的概念[1],具體如下:

對(duì)于Decoder-only的模型,計(jì)算量(Flops), 模型參數(shù)量, 數(shù)據(jù)大小(token數(shù)),三者滿足:。(推導(dǎo)見本文最后)

模型的最終性能主要與計(jì)算量,模型參數(shù)量和數(shù)據(jù)大小三者相關(guān),而與模型的具體結(jié)構(gòu)(層數(shù)/深度/寬度)基本無關(guān)。

31fcb884-8e70-11ee-939d-92fbcf53809c.png

固定模型的總參數(shù)量,調(diào)整層數(shù)/深度/寬度,不同模型的性能差距很小,大部分在2%以內(nèi)

3.對(duì)于計(jì)算量,模型參數(shù)量和數(shù)據(jù)大小,當(dāng)不受其他兩個(gè)因素制約時(shí),模型性能與每個(gè)因素都呈現(xiàn)冪律關(guān)系

32087e6c-8e70-11ee-939d-92fbcf53809c.png

4. 為了提升模型性能,模型參數(shù)量和數(shù)據(jù)大小需要同步放大,但模型和數(shù)據(jù)分別放大的比例還存在爭(zhēng)議。

5. Scaling Law不僅適用于語言模型,還適用于其他模態(tài)以及跨模態(tài)的任務(wù)[4]:

32100722-8e70-11ee-939d-92fbcf53809c.png

這里橫軸單位為PF-days: 如果每秒鐘可進(jìn)行次運(yùn)算,就是1 peta flops,那么一天的運(yùn)算就是這個(gè)算力消耗被稱為1個(gè)petaflop/s-day。

核心公式

(?)=?∞+(?0?)?

3214b344-8e70-11ee-939d-92fbcf53809c.png

第一項(xiàng)是指無法通過增加模型規(guī)模來減少的損失,可以認(rèn)為是數(shù)據(jù)自身的熵(例如數(shù)據(jù)中的噪音)

第二項(xiàng)是指能通過增加計(jì)算量來減少的損失,可以認(rèn)為是模型擬合的分布與實(shí)際分布之間的差。根據(jù)公式,增大(例如計(jì)算量),模型整體loss下降,模型性能提升;伴隨趨向于無窮大,模型能擬合數(shù)據(jù)的真實(shí)分布,讓第二項(xiàng)逼近0,整體趨向于

大模型中的scaling law

下圖是GPT4報(bào)告[5]中的Scaling Law曲線,計(jì)算量和模型性能滿足冪律關(guān)系

321c9bcc-8e70-11ee-939d-92fbcf53809c.png

橫軸是歸一化之后的計(jì)算量,假設(shè)GPT4的計(jì)算量為1?;?0,000倍小的計(jì)算規(guī)模,就能預(yù)測(cè)最終GPT4的性能。

縱軸是"Bits for words", 這也是交叉熵的一個(gè)單位。在計(jì)算交叉熵時(shí),如果使用以 2 為底的對(duì)數(shù),交叉熵的單位就是 "bits per word",與信息論中的比特(bit)概念相符。所以這個(gè)值越低,說明模型的性能越好。

Baichuan2

下圖是Baichuan2[6]技術(shù)報(bào)告中的Scaling Law曲線?;?0M到3B的模型在1T數(shù)據(jù)上訓(xùn)練的性能,可預(yù)測(cè)出最后7B模型和13B模型在2.6T數(shù)據(jù)上的性能

32344484-8e70-11ee-939d-92fbcf53809c.png

MindLLM

下圖是MindLLM[7]技術(shù)報(bào)告中的Scaling Law曲線。基于10M到500M的模型在10B數(shù)據(jù)上訓(xùn)練的性能,預(yù)測(cè)出最后3B模型在500B數(shù)據(jù)上的性能。

323b3a14-8e70-11ee-939d-92fbcf53809c.png

Scaling Law實(shí)操: 計(jì)算效率最優(yōu)

根據(jù)冪律定律,模型的參數(shù)固定,無限堆數(shù)據(jù)并不能無限提升模型的性能,模型最終性能會(huì)慢慢趨向一個(gè)固定的值

3243b540-8e70-11ee-939d-92fbcf53809c.png

如圖所示,如果模型的參數(shù)量為(圖中紫色的線),在數(shù)量達(dá)到,模型基本收斂。所以在數(shù)據(jù)量達(dá)到后,繼續(xù)增加數(shù)據(jù)產(chǎn)生的計(jì)算量,沒有同樣計(jì)算量下提升模型參數(shù)量帶來的收益大(計(jì)算效率更優(yōu))。根據(jù),可以進(jìn)一步轉(zhuǎn)換成模型參數(shù)與計(jì)算量的關(guān)系,即: 模型參數(shù)為,在計(jì)算量為Flops,即PF-days時(shí)基本收斂。也就是右圖中紫色線的拐點(diǎn)。

按照上面的思路,下面進(jìn)行Scaling Law的實(shí)操。

首先準(zhǔn)備充足的數(shù)據(jù)(例如1T),設(shè)計(jì)不同模型參數(shù)量的小模型(例如0.001B - 1B),獨(dú)立訓(xùn)練每個(gè)模型,每個(gè)模型都訓(xùn)練到基本收斂(假設(shè)數(shù)據(jù)量充足)。根據(jù)訓(xùn)練中不同模型的參數(shù)和數(shù)據(jù)量的組合,收集計(jì)算量與模型性能的關(guān)系。然后可以進(jìn)一步獲得計(jì)算效率最優(yōu)時(shí),即同樣計(jì)算量下性能最好的模型規(guī)模和數(shù)據(jù)大小的組合,模型大小與計(jì)算量的關(guān)系,以及數(shù)據(jù)大小與計(jì)算量的關(guān)系。

325aa9d0-8e70-11ee-939d-92fbcf53809c.png

如圖所示,根據(jù)左圖可以看到計(jì)算量與模型性能呈現(xiàn)冪律關(guān)系(可以認(rèn)為數(shù)據(jù)和模型都不受限制),根據(jù)中圖和右圖,可以發(fā)現(xiàn),,即計(jì)算效率最優(yōu)時(shí),模型的參數(shù)與計(jì)算量的冪次成線性關(guān)系,數(shù)據(jù)量的大小也與計(jì)算量的冪次成線性關(guān)系。

根據(jù),可以推算出,但是,分別是多少存在分歧。

OpenAI[1]認(rèn)為模型規(guī)模更重要,即,而DeepMind在Chinchilla工作[2]和Google在PaLM工作[3]中都驗(yàn)證了,即模型和數(shù)據(jù)同等重要。

所以假定計(jì)算量整體放大10倍,OpenAI認(rèn)為模型參數(shù)更重要,模型應(yīng)放大100.73(5.32)倍,數(shù)據(jù)放大100.27(1.86)倍;后來DeepMind和Google認(rèn)為模型參數(shù)量與數(shù)據(jù)同等重要,兩者都應(yīng)該分別放大100.5(3.16)倍。

326a9e3a-8e70-11ee-939d-92fbcf53809c.png

例如在PaLM的實(shí)驗(yàn)中,計(jì)算量從 放大10倍到, 模型參數(shù)也提升了3.2倍,3.35B->10.7B。具體最好在自己的數(shù)據(jù)上做實(shí)驗(yàn)來獲得你場(chǎng)景下的和

LLaMA: 反Scaling Law的大模型

假設(shè)遵循計(jì)算效率最優(yōu)來研發(fā)LLM,那么根據(jù)Scaling Law,給定模型大小,可以推算出最優(yōu)的計(jì)算量,進(jìn)一步根據(jù)最優(yōu)計(jì)算量就能推算出需要的token數(shù)量,然后訓(xùn)練就行。

但是計(jì)算效率最優(yōu)這個(gè)觀點(diǎn)是針對(duì)訓(xùn)練階段而言的,并不是推理階段,實(shí)際應(yīng)用中推理階段效率更實(shí)用。

Meta在LLaMA[8]的觀點(diǎn)是:給定模型的目標(biāo)性能,并不需要用最優(yōu)的計(jì)算效率在最快時(shí)間訓(xùn)練好模型,而應(yīng)該在更大規(guī)模的數(shù)據(jù)上,訓(xùn)練一個(gè)相對(duì)更小模型,這樣的模型在推理階段的成本更低,盡管訓(xùn)練階段的效率不是最優(yōu)的(同樣的算力其實(shí)能獲得更優(yōu)的模型,但是模型尺寸也會(huì)更大)。根據(jù)Scaling Law,10B模型只需要200B的數(shù)據(jù),但是作者發(fā)現(xiàn)7B的模型性能在1T的數(shù)據(jù)后還能繼續(xù)提升。

32852c32-8e70-11ee-939d-92fbcf53809c.png

所以LLaMA工作的重點(diǎn)是訓(xùn)練一系列語言模型,通過使用更多的數(shù)據(jù),讓模型在有限推理資源下有最佳的性能。

具體而言,確定模型尺寸后,Scaling Law給到的只是最優(yōu)的數(shù)據(jù)量,或者說是一個(gè)至少的數(shù)據(jù)量,實(shí)際在訓(xùn)練中觀察在各個(gè)指標(biāo)上的性能表現(xiàn),只要還在繼續(xù)增長(zhǎng),就可以持續(xù)增加訓(xùn)練數(shù)據(jù)。

32a3707a-8e70-11ee-939d-92fbcf53809c.png

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    354

    瀏覽量

    15402
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1092

    瀏覽量

    6541
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2465

    瀏覽量

    2762

原文標(biāo)題:大模型中的Scaling Law計(jì)算方法

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    FFTC問題求解答?。?!動(dòng)態(tài)scaling

    ).? ????? 1)? You said "the scaling factor should be 1/sqrt(4) = 1/2 when in 256 size"
    發(fā)表于 06-21 13:25

    多電機(jī)數(shù)學(xué)模型推導(dǎo)

    某一單電機(jī)負(fù)載出現(xiàn)波動(dòng),系統(tǒng)會(huì)自動(dòng)調(diào)節(jié),恢復(fù)穩(wěn)態(tài)。想請(qǐng)問,這樣的數(shù)學(xué)模型怎么建網(wǎng)上只能找到單電機(jī)的,他說我自己推導(dǎo)??墒钦娴臎]有頭緒,大家可以給一點(diǎn)引導(dǎo)嗎,謝謝了
    發(fā)表于 09-09 08:48

    如何進(jìn)行電磁波的計(jì)算推導(dǎo)?

    赫茲的實(shí)驗(yàn)中,驗(yàn)證了麥克斯韋預(yù)言的準(zhǔn)確性,電磁波的特性及推導(dǎo)過程有沒有人解析一下?。可漕l電路設(shè)計(jì)時(shí)振幅 、相位的概念和作用是什么?
    發(fā)表于 03-11 08:01

    怎么推導(dǎo)出RO和ROUT?

    RO和ROUT的定義與推導(dǎo)一種使用SPICE運(yùn)放模型和RO的技巧
    發(fā)表于 04-07 06:26

    電動(dòng)助力轉(zhuǎn)向EPS——理論公式推導(dǎo)及simulink模型

    電動(dòng)助力轉(zhuǎn)向EPS(二)——理論公式推導(dǎo)及simulink模型EPSEPS系統(tǒng)建模方向盤動(dòng)態(tài)公式扭矩傳感器模塊電機(jī)模塊齒輪齒條模塊simulink建模方向盤動(dòng)態(tài)模塊扭矩傳感器模型電機(jī)模塊模型
    發(fā)表于 06-29 07:26

    電機(jī)控制系統(tǒng)基于概念的仿真模型

    基本完善了開題時(shí)碩士畢業(yè)論文的電機(jī)控制系統(tǒng)概念,實(shí)現(xiàn)了基于概念的仿真模型。記此文檔以備忘。異步電機(jī)矢量控制系統(tǒng)中電流環(huán)控制器至于什么時(shí)異步電機(jī)矢量控制系統(tǒng),這里就不贅述了??梢詤⒖缄惒畷r(shí)教授的《運(yùn)動(dòng)控制系統(tǒng)》,講的很詳細(xì)。涉及到
    發(fā)表于 09-06 09:26

    信號(hào)功率計(jì)算公式推導(dǎo)步驟

    本文首先介紹了信號(hào)功率的相關(guān)概念,其次闡述了功率信號(hào)特點(diǎn),最后介紹了無線信號(hào)功率計(jì)算公式推導(dǎo)。
    的頭像 發(fā)表于 03-13 11:24 ?17.8w次閱讀
    信號(hào)功率計(jì)算公式<b class='flag-5'>推導(dǎo)</b>步驟

    常用的feature scaling方法都有哪些?

    feature scaling的方法可以分成2類,逐行進(jìn)行和逐列進(jìn)行。逐行是對(duì)每一維特征操作,逐列是對(duì)每個(gè)樣本操作,上圖為逐行操作中特征標(biāo)準(zhǔn)化的示例。
    的頭像 發(fā)表于 08-02 11:45 ?975次閱讀

    EDA探索之MOSFET的微縮- Moore’s Law介紹

    摩爾定律提出的時(shí)候,還處于Happy Scaling Era(EDA探索丨第11期:MOSFET收縮,Happy Scaling Era)。所以除了器件密度的翻倍,大家通常所認(rèn)識(shí)的摩爾定律還隱含著其它的一些含義。
    發(fā)表于 03-29 14:25 ?438次閱讀

    Scaling Law模型設(shè)計(jì)實(shí)操案例

    縱軸是"Bits for words", 這也是交叉熵的一個(gè)單位。在計(jì)算交叉熵時(shí),如果使用以 2 為底的對(duì)數(shù),交叉熵的單位就是 "bits per word",與信息論中的比特(bit)概念相符。所以這個(gè)值越低,說明模型的性能越好。
    的頭像 發(fā)表于 11-22 16:08 ?779次閱讀
    <b class='flag-5'>Scaling</b> <b class='flag-5'>Law</b>大<b class='flag-5'>模型</b>設(shè)計(jì)實(shí)操案例

    電感等效模型阻抗公式推導(dǎo)

    電感等效模型阻抗是電感元件在電磁場(chǎng)中對(duì)電流和電壓的響應(yīng)的量化描述。在電路分析和設(shè)計(jì)中,電感等效模型的阻抗對(duì)于預(yù)測(cè)和優(yōu)化電路的性能至關(guān)重要。以下是電感等效模型阻抗公式的推導(dǎo),以滿足您的要
    的頭像 發(fā)表于 12-15 10:20 ?2317次閱讀

    張宏江深度解析:大模型技術(shù)發(fā)展的八大觀察點(diǎn)

    在大模型的發(fā)展史上,Scaling Law(規(guī)模律)發(fā)揮了核心作用,它是推動(dòng)模型性能持續(xù)提升的主要?jiǎng)恿Α?b class='flag-5'>Scaling
    發(fā)表于 03-14 10:41 ?237次閱讀
    張宏江深度解析:大<b class='flag-5'>模型</b>技術(shù)發(fā)展的八大觀察點(diǎn)

    浪潮信息趙帥:開放計(jì)算創(chuàng)新 應(yīng)對(duì)Scaling Law挑戰(zhàn)

    Scaling Law帶來的AI基礎(chǔ)設(shè)施Scale up和Scale out的挑戰(zhàn),數(shù)據(jù)中心需要以開放創(chuàng)新加速算力系統(tǒng)、管理和基礎(chǔ)設(shè)施的全向Scale進(jìn)程,推動(dòng)AI產(chǎn)業(yè)的創(chuàng)新發(fā)展。 ? 開源開放推動(dòng)人工智能創(chuàng)新與算力生態(tài)的全面發(fā)展 生成式人工智能的飛躍式進(jìn)步正在加速智能時(shí)
    的頭像 發(fā)表于 08-15 16:02 ?292次閱讀
    浪潮信息趙帥:開放計(jì)算創(chuàng)新 應(yīng)對(duì)<b class='flag-5'>Scaling</b> <b class='flag-5'>Law</b>挑戰(zhàn)

    訊飛星火低代碼智能體平臺(tái)全新升級(jí)

    Scaling Law魔法觸達(dá)瓶頸,智能體正在創(chuàng)造下一個(gè)風(fēng)口。
    的頭像 發(fā)表于 11-28 14:42 ?469次閱讀

    復(fù)旦提出大模型推理新思路:Two-Player架構(gòu)打破自我反思瓶頸

    在 AI 領(lǐng)域,近期的新聞焦點(diǎn)無疑是關(guān)于「Scaling Law 是否撞墻?」的辯論。這一曾經(jīng)被視作大模型發(fā)展的第一性原理,如今卻遭遇了挑戰(zhàn)。 ? 在這樣的背景下,研究人員開始意識(shí)到,與其單純堆砌
    的頭像 發(fā)表于 12-06 11:24 ?177次閱讀
    復(fù)旦提出大<b class='flag-5'>模型</b>推理新思路:Two-Player架構(gòu)打破自我反思瓶頸