I欧美日韩精品一区二区在线观看,亚洲AV口工动漫在线观看无码

OpenAI 最近推出了其新的推理模型 o3，該模型在 ARC 數(shù)據(jù)集上大幅超越了之前的最佳性能（SOTA），并在具有挑戰(zhàn)性的 FrontierMath 數(shù)據(jù)集上取得了令人驚嘆的結(jié)果。很明顯，該模型在推理能力方面是一個(gè)重要的進(jìn)步。

然而，最近關(guān)于人工智能進(jìn)展停滯的報(bào)道中包含了一種對(duì)進(jìn)展速度的悲觀(guān)情緒。許多人可能仍然在思考大型語(yǔ)言模型（LLM）擴(kuò)展法則，這些法則預(yù)測(cè)計(jì)算、數(shù)據(jù)和模型大小的增加將導(dǎo)致更好的模型，是否已經(jīng)“遇到了瓶頸”。我們是否達(dá)到了基于變換器的 LLMs 當(dāng)前范式的可擴(kuò)展性極限？

除了首次公開(kāi)發(fā)布的推理模型（OpenAI 的 o1、Google 的 Gemini 2.0 Flash，以及即將在 2025 年發(fā)布的 o3）之外，大多數(shù)模型提供商似乎都在進(jìn)行表面上看似漸進(jìn)式的現(xiàn)有模型改進(jìn)。從這個(gè)意義上說(shuō)，2024 年基本上是一年的發(fā)展鞏固，許多模型在本質(zhì)上已經(jīng)趕上了年初的主流模型 GPT-4。

但這掩蓋了像 GPT-4o、Sonnet 3.5、Llama 3 等“主力”模型（即非推理模型）所取得的實(shí)際進(jìn)展，這些模型在 AI 應(yīng)用中最為頻繁。大型實(shí)驗(yàn)室一直在推出這些模型的新版本，這些新版本在各個(gè)任務(wù)上都推動(dòng)了 SOTA 性能，并且在編程和解決數(shù)學(xué)問(wèn)題等任務(wù)上帶來(lái)了巨大的改進(jìn)。

不可忽視的是，2024 年模型性能的改進(jìn)主要是由訓(xùn)練后和測(cè)試時(shí)計(jì)算的擴(kuò)展所驅(qū)動(dòng)的。在預(yù)訓(xùn)練方面，新聞并不多。這導(dǎo)致了一些猜測(cè)，即（預(yù)訓(xùn)練）擴(kuò)展法則正在崩潰，我們已經(jīng)達(dá)到了當(dāng)前模型、數(shù)據(jù)和計(jì)算所能達(dá)到的極限。

在這篇文章中，將回顧 LLM 擴(kuò)展法則的歷史，并分享對(duì)未來(lái)方向的看法。從外部預(yù)測(cè)大型 AI 實(shí)驗(yàn)室的進(jìn)展是困難的。對(duì) 2025 年 LLM 擴(kuò)展可能如何繼續(xù)的總結(jié)：

預(yù)訓(xùn)練：有限 - 計(jì)算擴(kuò)展正在進(jìn)行中，但我們可能受限于足夠規(guī)模的新高質(zhì)量數(shù)據(jù)；

訓(xùn)練后：更有可能 - 合成數(shù)據(jù)的使用已被證明非常有效，這可能會(huì)繼續(xù)下去；

推理時(shí)：也很有可能 - OpenAI 和 Google/Deepmind 在今年開(kāi)始了這一趨勢(shì)，其他參與者將跟進(jìn)；同時(shí)，注意開(kāi)源復(fù)制；在應(yīng)用層面，我們將看到越來(lái)越多的代理產(chǎn)品。

什么是 LLM 擴(kuò)展法則？

在深入探討之前，什么是 LLM 擴(kuò)展法則？簡(jiǎn)而言之：它們是關(guān)于規(guī)模（以計(jì)算、模型大小和數(shù)據(jù)集大小衡量）與模型性能之間相關(guān)性的經(jīng)驗(yàn)觀(guān)察。

有了這個(gè)背景，讓我們看看我們目前的位置以及我們是如何走到這一步的。

計(jì)算最優(yōu)的預(yù)訓(xùn)練 - Kaplan 和 Chinchilla

最初的擴(kuò)展法則指的是 LLMs 的預(yù)訓(xùn)練階段。Kaplan 擴(kuò)展法則（OpenAI，2020）建議，隨著、預(yù)訓(xùn)練計(jì)算預(yù)算增加，應(yīng)該更多地?cái)U(kuò)展模型大小而不是數(shù)據(jù)。這意味著：給定 10 倍的訓(xùn)練預(yù)算增加，應(yīng)該將模型大小擴(kuò)展 5.5 倍，數(shù)據(jù)擴(kuò)展 1.8 倍。

2020 年由 OpenAI 發(fā)布的 GPT-3，很可能遵循了這些擴(kuò)展法則，并且在給定其大小的情況下，訓(xùn)練數(shù)據(jù)量異常少。也就是說(shuō)，它有 1750 億參數(shù)，但僅在 3000 億token上進(jìn)行了訓(xùn)練，這相當(dāng)于大約 1.7 個(gè)token/參數(shù)。

這些原始擴(kuò)展法則存在一些缺陷，例如沒(méi)有考慮嵌入?yún)?shù)，并且通常使用相對(duì)較小的模型來(lái)估計(jì)擴(kuò)展法則，這并不一定適用于大型模型。Chinchilla 擴(kuò)展法則（Deepmind，2022）糾正了一些這些缺陷，并得出了非常不同的結(jié)論。

特別是，數(shù)據(jù)的重要性比以前認(rèn)為的要大得多，因此模型大小和數(shù)據(jù)應(yīng)該與計(jì)算同等比例地?cái)U(kuò)展。這些新發(fā)現(xiàn)表明，像 GPT-3 和當(dāng)時(shí)發(fā)布的其他模型實(shí)際上是嚴(yán)重欠擬合的。一個(gè)像 GPT-3 這樣的 1750 億參數(shù)的模型應(yīng)該在大約 3.5T token上進(jìn)行訓(xùn)練才能達(dá)到計(jì)算最優(yōu)，這大約是 20 個(gè)token/參數(shù)?；蛘?，通過(guò)反向論證，像 GPT-3 這樣的模型應(yīng)該小 20 倍，即只有 150 億參數(shù)。

Chinchilla 陷阱：優(yōu)化推理

僅僅遵循 Chinchilla 擴(kuò)展法則會(huì)導(dǎo)致“Chinchilla 陷阱”，即你最終會(huì)得到一個(gè)太大、因此在大規(guī)模推理時(shí)運(yùn)行成本過(guò)高的模型。例如，在 Touvron 等人（Meta，2023）的 Llama 1 論文中，指出損失在 Chinchilla 最優(yōu)之后繼續(xù)下降。Llama 1 模型以高達(dá) 142 個(gè)token/參數(shù)的比例進(jìn)行訓(xùn)練，這是最小的（70 億）模型，訓(xùn)練在 1T 標(biāo)記上。這一趨勢(shì)繼續(xù)出現(xiàn)在 Llama 2（Meta，2023）中，token翻倍至 2T，導(dǎo)致高達(dá) 284 個(gè)token/參數(shù)的比例。最后，也在 Llama 3（Meta，2024）中出現(xiàn)，比例高達(dá) 1,875 個(gè)token/參數(shù)（80 億模型在 15T tokne上訓(xùn)練）。訓(xùn)練這些小型模型更長(zhǎng)時(shí)間使它們達(dá)到出人意料地高性能，且在推理時(shí)運(yùn)行成本較低。

這種證據(jù)不僅來(lái)自 Llama 3 模型訓(xùn)練在極高的token參數(shù)比例上，而且來(lái)自文獻(xiàn)。例如，Sardana 等人（MosaicML，2023）估計(jì)了考慮推理時(shí)計(jì)算的擴(kuò)展法則。在他們的實(shí)驗(yàn)中，他們訓(xùn)練了高達(dá) 10,000 個(gè)token/參數(shù) 的模型比例，并發(fā)現(xiàn)損失在 Chinchilla 最優(yōu)之后繼續(xù)下降。這些圖表很好地說(shuō)明了訓(xùn)練小型模型更長(zhǎng)時(shí)間的點(diǎn)，以及如何導(dǎo)致如果預(yù)期有足夠高的推理需求，總成本更低。

Sardana et al. (2023)

測(cè)試時(shí)間計(jì)算擴(kuò)展

不用說(shuō)，隨著數(shù)據(jù)和參數(shù)越來(lái)越多地訓(xùn)練模型，計(jì)算成本越來(lái)越高。在 Llama 3 論文中，旗艦?zāi)Ｐ偷挠?xùn)練使用了 3.8×10^25 FLOPs，這是 Llama 2 的 50 倍。根據(jù) EpochAI，截至 2024 年 12 月，已知的最大訓(xùn)練預(yù)算是在 Gemini Ultra 的情況下，為 5×10^25 FLOPs。計(jì)算量非常大，尤其是如果考慮將其擴(kuò)大幾個(gè)數(shù)量級(jí)的話(huà)。

OpenAI 2024

作為回應(yīng)，2024 年發(fā)布了像 OpenAI 的 o1 和最近的 o3 這樣的模型，這些模型利用測(cè)試時(shí)計(jì)算來(lái)生成預(yù)測(cè)。所以，這些模型不是立即生成答案，而是在測(cè)試時(shí)生成思維鏈，或使用 RL 技術(shù)來(lái)生成更好的答案。通俗地說(shuō)，可以說(shuō)我們給了模型更多時(shí)間來(lái)“思考”再給出答案。這催生了一種完全不同的 LLM 擴(kuò)展法則，即測(cè)試時(shí)計(jì)算。

推薦聽(tīng)聽(tīng) OpenAI 的 Noam Brown 的有趣演講，他談到了他在訓(xùn)練用于玩撲克、國(guó)際象棋、Hex 等游戲的模型時(shí)學(xué)到的經(jīng)驗(yàn)，以及測(cè)試時(shí)計(jì)算如何使 SOTA 性能成為可能，這些性能僅通過(guò)擴(kuò)展訓(xùn)練計(jì)算是無(wú)法實(shí)現(xiàn)的。

例如，如果存在訓(xùn)練和推理時(shí)間計(jì)算之間的權(quán)衡，即可以用 10 倍的訓(xùn)練預(yù)算換取 15 倍的推理時(shí)間計(jì)算增加，那么在訓(xùn)練計(jì)算已經(jīng)非常昂貴而推理計(jì)算非常便宜的情況下，這樣做是有意義的。

Jones (2021)

擴(kuò)展法則是否仍然有效，還是我們已經(jīng)遇到了瓶頸？

這是個(gè)大問(wèn)題，從大型實(shí)驗(yàn)室外部很難回答。讓我們回顧一下他們內(nèi)部的說(shuō)法，同時(shí)要意識(shí)到他們的陳述可能存在一些偏見(jiàn)。

Anthropic 的 Dario Amodei 表示：“我見(jiàn)過(guò)這種情況發(fā)生很多次，真的相信擴(kuò)展可能會(huì)繼續(xù)，而且其中有一些我們還沒(méi)有在理論上解釋清楚的魔力?！?/p>

OpenAI 的 Sam Altman 則表示：“沒(méi)有遇到瓶頸?！?/p>

此外，公司仍在擴(kuò)大他們的數(shù)據(jù)中心，xAI 的 Colossus 集群托管了 10 萬(wàn)個(gè) H100 節(jié)點(diǎn)，并計(jì)劃將其擴(kuò)展到至少 100 萬(wàn)個(gè)。

盡管在擴(kuò)展計(jì)算能力時(shí)存在工程挑戰(zhàn)和能源瓶頸，但這一過(guò)程正在進(jìn)行中。然而，計(jì)算能力只是 LLM 擴(kuò)展法則中的一個(gè)因素，另外兩個(gè)因素是模型大小和數(shù)據(jù)。有了更大的集群，也可以在給定時(shí)間內(nèi)訓(xùn)練更大的模型。不過(guò)，數(shù)據(jù)的擴(kuò)展則是另一回事。

EpochAI 估計(jì)，在索引的網(wǎng)絡(luò)中有 510T 個(gè)token的數(shù)據(jù)可用，而已知的最大數(shù)據(jù)集是大約 18T 個(gè)token（Qwen2.5）?？雌饋?lái)似乎還有很大的空間可以擴(kuò)展數(shù)據(jù)，但其中大部分?jǐn)?shù)據(jù)質(zhì)量較低或重復(fù)。再加上從 1-2 年前開(kāi)始，互聯(lián)網(wǎng)上新增的大量文本是由 LLM 生成的。盡管還有可能的新數(shù)據(jù)源可用，例如轉(zhuǎn)錄互聯(lián)網(wǎng)上的所有視頻，或者使用不在開(kāi)放互聯(lián)網(wǎng)上的文本（例如專(zhuān)有數(shù)據(jù)），但低垂的果實(shí)已經(jīng)被采摘了。

EpochAI

擴(kuò)展的邊際效益遞減實(shí)際上正是冪律關(guān)系所預(yù)期的。也就是說(shuō)，為了獲得第一單位的改進(jìn)，需要 1 單位的數(shù)據(jù)，然后是 10 單位用于下一個(gè)改進(jìn)，接著是 100 單位，以此類(lèi)推。正如 Yann LeCun 所說(shuō)，這適用于所有“長(zhǎng)尾”領(lǐng)域，即隨著數(shù)據(jù)集大小的增加，輸入的多樣性不斷增長(zhǎng)的領(lǐng)域，如對(duì)話(huà)和問(wèn)答。

從擴(kuò)展法則的方程式和圖表來(lái)看，應(yīng)該清楚地認(rèn)識(shí)到這些關(guān)系是有極限的，這一點(diǎn)也得到了 Kaplan 原始論文[3]的認(rèn)可。原因在于自然語(yǔ)言中固有的熵，以及損失無(wú)法降低到零。因此，雖然目前看來(lái)性能似乎只是隨著計(jì)算、數(shù)據(jù)、模型大小的對(duì)數(shù)線(xiàn)性增長(zhǎng)，但最終它必須趨于平穩(wěn)。問(wèn)題不在于是否會(huì)趨于平穩(wěn)，而在于何時(shí)會(huì)發(fā)生。

我們現(xiàn)在已經(jīng)達(dá)到了這個(gè)點(diǎn)了嗎？很難回答，因?yàn)檫@不僅僅是簡(jiǎn)單地將計(jì)算或數(shù)據(jù)再擴(kuò)展一個(gè)數(shù)量級(jí)并看看會(huì)發(fā)生什么。AI 實(shí)驗(yàn)室正在構(gòu)建大型的新集群，這將使他們能夠更長(zhǎng)時(shí)間地訓(xùn)練模型，并觀(guān)察損失是否繼續(xù)以相同的速度減少。據(jù)我們所知，我們還沒(méi)有在 10 萬(wàn)個(gè) H100 節(jié)點(diǎn)上訓(xùn)練這些模型，更不用說(shuō) 100 萬(wàn)個(gè)了，所以很難判斷我們還能將訓(xùn)練損失降低多少。更重要的是，我們只有一個(gè)互聯(lián)網(wǎng)，所以擴(kuò)展數(shù)據(jù)是一個(gè)更困難的問(wèn)題。正如我們從 Kaplan 擴(kuò)展法則中知道的，只有當(dāng)模型不受這些因素之一的限制時(shí)，這些法則才成立。

Ilya Sutskever在NeurIPS 2024

然而，鑒于那些利用測(cè)試時(shí)計(jì)算的模型所表現(xiàn)出的令人印象深刻的表現(xiàn)，以及OpenAI 的 o3 的發(fā)布，很明顯，擴(kuò)展測(cè)試時(shí)計(jì)算是未來(lái)的發(fā)展趨勢(shì)。

如下面的圖表所示，當(dāng)擴(kuò)展測(cè)試時(shí)計(jì)算時(shí)，在具有挑戰(zhàn)性的 Arc 數(shù)據(jù)集上的性能提升是相當(dāng)顯著的。從 o3 low到 o3 high，模型被賦予了 172 倍更多的計(jì)算資源來(lái)生成答案。它平均每道題使用 5700 萬(wàn)個(gè)token，相當(dāng)于 13.8 分鐘的運(yùn)行時(shí)間，而在低計(jì)算設(shè)置中，它每道題僅使用 33 萬(wàn)個(gè)token，即每道題 1.3 分鐘。

根據(jù) Noam Brown 的說(shuō)法，這只是開(kāi)始。明年，我們可能會(huì)讓模型運(yùn)行數(shù)小時(shí)、數(shù)天甚至數(shù)周來(lái)回答真正具有挑戰(zhàn)性的問(wèn)題。

Arc Prize網(wǎng)站

結(jié)論

鑒于目前的發(fā)展勢(shì)頭和硬件部署情況，人們將會(huì)嘗試通過(guò)投入更多的計(jì)算資源來(lái)進(jìn)一步推動(dòng)擴(kuò)展法則。這可能是在訓(xùn)練方面，通過(guò)延長(zhǎng)預(yù)訓(xùn)練時(shí)間或在訓(xùn)練后投入更多資源，但尤其在推理方面，通過(guò)讓模型“思考”更長(zhǎng)時(shí)間后再給出答案。

公眾可能并不總是能夠接觸到最大的模型，這些模型可能性能最佳，但運(yùn)行成本過(guò)高。像 GPT4o 或 Sonnet 3.5 這樣的模型，可能更適合用于推理的小型模型。而擁有 4050 億參數(shù)的 Llama 3 模型，雖然相當(dāng)龐大，但可以作為小型模型的優(yōu)秀教師模型，或者用于生成合成數(shù)據(jù)。

今年的趨勢(shì)，肯定會(huì)延續(xù)到 2025 年（在一年的這個(gè)時(shí)間點(diǎn)上，這是一個(gè)容易做出的預(yù)測(cè)）：

代理（Agents）

測(cè)試時(shí)計(jì)算（Test-time compute）

合成數(shù)據(jù)（Synthetic data）

代理實(shí)際上也是測(cè)試時(shí)計(jì)算的一種方式，但這種方式比大型實(shí)驗(yàn)室更易于公眾和應(yīng)用開(kāi)發(fā)者接觸。盡管如此，大型實(shí)驗(yàn)室也在大力投資代理技術(shù)。

測(cè)試時(shí)計(jì)算是關(guān)鍵。正如我們?cè)?o1 Gemini 2.0 Flash 和 o3 中所看到的，這些將是解決需要更復(fù)雜推理的用例，或者在需要權(quán)衡一些訓(xùn)練計(jì)算以換取更多推理計(jì)算的情況下的解決方案。

至于合成數(shù)據(jù)，它主要用于訓(xùn)練后，但也可以將清理互聯(lián)網(wǎng)視為一種合成數(shù)據(jù)生成的方式。從今年的 LLM 論文中可以看出，合成數(shù)據(jù)對(duì)于 SFT 在數(shù)學(xué)和編程等任務(wù)上的性能提升非常重要。在某些領(lǐng)域，合成數(shù)據(jù)比其他領(lǐng)域更有用，所以不確定它是否真的能夠填補(bǔ)人類(lèi)撰寫(xiě)數(shù)據(jù)缺失的空白。

因此，本文的結(jié)論是，我們可能已經(jīng)達(dá)到了一個(gè)點(diǎn)，即預(yù)訓(xùn)練擴(kuò)展法則并沒(méi)有完全崩潰，但可能正在放緩，這并不令人驚訝。這主要是因?yàn)槲覀円呀?jīng)耗盡了大量高質(zhì)量文本的來(lái)源。

然而，這并不意味著該領(lǐng)域不會(huì)再有任何進(jìn)展，因?yàn)轭A(yù)訓(xùn)練只是拼圖的一部分。正如我們所見(jiàn)，擴(kuò)展測(cè)試時(shí)計(jì)算和使用合成數(shù)據(jù)，很可能是未來(lái)進(jìn)展的主要驅(qū)動(dòng)力。至少到目前為止，我們可能只是處于測(cè)試時(shí)擴(kuò)展法則的早期階段，所以還有很大的改進(jìn)空間。

總之，這是我們看到的 2025 年 LLM 擴(kuò)展最具潛力的方向：

預(yù)訓(xùn)練：有限 - 計(jì)算擴(kuò)展正在進(jìn)行中，但我們可能受限于足夠規(guī)模的新高質(zhì)量數(shù)據(jù)；

訓(xùn)練后：更有可能 - 合成數(shù)據(jù)的使用已被證明非常有效，這可能會(huì)繼續(xù)下去；

參考文獻(xiàn)：

[1] T. Brown et al. Language Models are Few-Shot Learners, 2020.[paper]

[2] J. Hoffmann et al. Training Compute-Optimal Large Language Models, 2022.[paper]

[3] J. Kaplan et al. Scaling Laws for Neural Language Models, 2020.[paper]

[4] H. Touvron et al. LLaMA: Open and Efficient Foundation Language Models, 2023.[paper]

[5] H. Touvron et al. Llama 2: Open Foundation and Fine-Tuned Chat Models, 2023.[paper]

[6] Llama Team, AI @ Meta. The Llama 3 Herd of Models, 2024.[paper]

[7] N. Sardana et al. Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws, 2024.

原文鏈接：https://www.jonvet.com/blog/llm-scaling-in-2025

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴