尝试粗大迎合嗯啊,欧美熟妇XXXXX,中文字幕一区二区二三区四区

大語言模型（LLM）在諸多領(lǐng)域都取得了矚目的成就，然而，也存在兩個(gè)主要的挑戰(zhàn)：

訓(xùn)練成本極高，通常只有少數(shù)幾家大公司才能負(fù)擔(dān)得起。
現(xiàn)行的評估基準(zhǔn)主要依賴知識評估（如MMLU和C-Eval）以及NLP任務(wù)評估，但這種方式存在局限性，并且容易受到數(shù)據(jù)污染的影響。

近期，一支來自中國的研究團(tuán)隊(duì)正是針對這些問題提出了解決方案，他們推出了FLM-101B模型及其配套的訓(xùn)練策略。FLM-101B不僅大幅降低了訓(xùn)練成本，而且其性能表現(xiàn)仍然非常出色，它是目前訓(xùn)練成本最低的100B+ LLM。

下面我們就來深入探討他們是如何實(shí)現(xiàn)這一目標(biāo)的吧！

Paper: FLM-101B: An Open LLM and How to Train It with $100K Budgets
Link: https://arxiv.org/pdf/2309.03852.pdf
Model: https://huggingface.co/CofeAI/FLM-101B

進(jìn)NLP群—>加入NLP交流群

摘要

本篇研究的兩大核心亮點(diǎn)為：

增長策略：該策略賦予了LLM一個(gè)獨(dú)特的訓(xùn)練方式，它可以從較小規(guī)模動(dòng)態(tài)增長到較大規(guī)模，而不僅僅是在一開始就確定其大小。這不僅能夠保持在初期階段已學(xué)到的知識，更重要的是，它大大降低了整體的計(jì)算成本。
IQ評估基準(zhǔn)：該團(tuán)隊(duì)還提出了一個(gè)新的評估標(biāo)準(zhǔn)IQ benchmark，包含了符號映射、規(guī)則理解、模式挖掘和抗干擾能力這四個(gè)關(guān)鍵維度，從多方面對LLM的能力進(jìn)行了全面深入的評估。

增長策略詳解

與獨(dú)立訓(xùn)練不同規(guī)模的模型的常規(guī)做法不同，在FLM-101B的訓(xùn)練過程中該項(xiàng)目團(tuán)隊(duì)按照16B、51B和101B參數(shù)的順序連續(xù)訓(xùn)練了三個(gè)模型，每個(gè)模型都從其較小的前身那里繼承了知識。

下圖揭示了利用增長策略在三種典型場景中實(shí)施LLM訓(xùn)練的計(jì)算成本變化。在這里，我們依據(jù)一個(gè)基本原則：LLM的FLOPs與參數(shù)數(shù)量近似成正比，使我們可以通過觀察模型參數(shù)變化曲線下的面積來估算訓(xùn)練的計(jì)算成本。

圖(a) 一個(gè)標(biāo)準(zhǔn)的訓(xùn)練策略，其中沒有實(shí)施模型的動(dòng)態(tài)增長，從而導(dǎo)致訓(xùn)練計(jì)算成本相對較高。
圖(b) 一個(gè)線性增長策略的應(yīng)用，其結(jié)果是計(jì)算成本得以減少近50%。
圖(c) 一個(gè)適度的增長策略，雖然它未能將成本降低到50%，但仍然實(shí)現(xiàn)了可觀的成本節(jié)約。
圖(d) 一種更為積極的增長策略，它成功地將計(jì)算成本降低了超過50%，揭示了這種策略在減少訓(xùn)練成本方面的巨大潛力。

在LLM增長前后，模型始終給出任意輸入的一致輸出。這個(gè)屬性對于知識繼承和訓(xùn)練穩(wěn)定性都是有利的。為了適應(yīng)多節(jié)點(diǎn)3D并行框架，團(tuán)隊(duì)通過離線擴(kuò)展模型結(jié)構(gòu)，并在下一個(gè)階段開始時(shí)重新加載檢查點(diǎn)來實(shí)現(xiàn)這一點(diǎn)。

增長策略具體設(shè)置

規(guī)劃模型增長是一個(gè)需要權(quán)衡不同大小模型固有優(yōu)缺點(diǎn)的過程：較小的模型在計(jì)算每個(gè)訓(xùn)練步驟時(shí)更快，能夠更快地消耗訓(xùn)練數(shù)據(jù)來獲取更廣泛的常識知識；反之，較大的模型更擅長于減少每步的損失，顯示出對細(xì)微的語言模式有更深的理解，該團(tuán)隊(duì)使用245.37B個(gè)令牌來訓(xùn)練16B模型，39.64B個(gè)令牌來訓(xùn)練51B模型，以及26.54B個(gè)令牌來訓(xùn)練101B模型。不同大小的每天數(shù)十億令牌的使用情況詳見下表。

在這種增長時(shí)間表下，101B模型的總時(shí)間成本是21.54天，這比從頭開始訓(xùn)練一個(gè)101B模型（需要47.64天）節(jié)省了54.8%的時(shí)間，相當(dāng)于2.2倍的加速。

不同階段的性能評估

研究成員對FLM在所有階段（包括16B、51B和101B）的性能進(jìn)行了評估。每個(gè)階段的訓(xùn)練數(shù)據(jù)分別是0.246TB、0.04TB和0.026TB。下表呈現(xiàn)了各階段FLM模型的表現(xiàn)。

結(jié)果顯示，F(xiàn)LM的性能確實(shí)隨著模型大小的增加而提高，這符合預(yù)期。FLM-101B在幾乎所有任務(wù)上都實(shí)現(xiàn)了最佳性能，這意味著模型能夠在每次增長后從先前的階段繼承知識。他們還發(fā)現(xiàn)101B模型在使用較少樣本的情況下比51B模型有更顯著的性能提升。這表明模型在增長后的訓(xùn)練中成功地加入了新的權(quán)重，并在損失較低時(shí)利用了模型大小的優(yōu)勢。有趣的是，ARC和HellaSwag的表現(xiàn)也持續(xù)并顯著增加。因此，可以預(yù)見，隨著處理更多的訓(xùn)練數(shù)據(jù)，F(xiàn)LM-101B在開放LLM上的性能將大大提高，除了在MMLU上，因?yàn)樗c特定的領(lǐng)域有關(guān)。

FLM主要結(jié)構(gòu)和其他技術(shù)細(xì)節(jié)

Backbone

選擇FreeLM作為基礎(chǔ)架構(gòu)主要是為了實(shí)現(xiàn)高效的長序列建模，此中采用了可外推的位置嵌入（xPos）來增強(qiáng)模型的長度外推能力。該技術(shù)受到了RoPE原理的啟發(fā)，并在旋轉(zhuǎn)矩陣中引入了指數(shù)衰減來實(shí)現(xiàn)目標(biāo)。同時(shí)，模型保留了GPT和FreeLM的變換器塊設(shè)計(jì)，并采用了來自GPT-4的分詞器，以支持更大的詞匯量。

預(yù)訓(xùn)練

FLM-101B延續(xù)了FreeLM的訓(xùn)練策略，結(jié)合了受語言信號指導(dǎo)的語言建模目標(biāo)和受教師信號指導(dǎo)的二元分類目標(biāo)。但是當(dāng)模型規(guī)模擴(kuò)大超過16B時(shí)，它開始展示出訓(xùn)練不穩(wěn)定的問題。為了克服這一問題，研究團(tuán)隊(duì)采用了一個(gè)統(tǒng)一的目標(biāo)，它通過使用一種掩碼策略和兩個(gè)專用令牌來同時(shí)處理教師和語言信號。這些令牌協(xié)助將二元分類目標(biāo)轉(zhuǎn)化為一個(gè)語言建模格式。

在大規(guī)模的無監(jiān)督文本語料庫中，該模型遵循GPT系列的訓(xùn)練目標(biāo)，即最大化token預(yù)測的可能性。FLM-101B是一個(gè)英漢雙語模型，它在語言建模中將英語和漢語語料庫按約53.5:46.5的比例混合。在預(yù)訓(xùn)練階段，作者整合了OIG和COIG多任務(wù)教育提示數(shù)據(jù)。

在命題判斷任務(wù)中，原始的FreeLM教師目標(biāo)旨在最小化二元分類的交叉熵。在FLM-101B的訓(xùn)練過程中，這一二元分類已轉(zhuǎn)化為自回歸語言模型形式。具體來說，它利用兩個(gè)emoji和來代替原來的1和0二進(jìn)制標(biāo)簽，通過對命題中的令牌應(yīng)用零掩蔽來計(jì)算損失，并在每個(gè)命題的結(jié)尾預(yù)測這兩個(gè)特殊令牌中的一個(gè)。這種方法成功地統(tǒng)一了教師目標(biāo)和語言建模目標(biāo)。此外，該模型摒棄了FreeLM的迭代訓(xùn)練方法，轉(zhuǎn)而在每批數(shù)據(jù)中完全混合兩種信號的樣本，從而增強(qiáng)了數(shù)據(jù)采樣分布的一致性，并提高了訓(xùn)練的穩(wěn)定性。

需要注意的是，由于計(jì)算資源的限制，教師信號僅應(yīng)用于eFLM-16B版本。

實(shí)驗(yàn)配置

FLM-101B 在 24 個(gè) DGX-A800 GPU (8×80G) 服務(wù)器的集群上進(jìn)行訓(xùn)練，持續(xù)不到 26 天?；谠鲩L策略依次完成了該集群上大小為 16B、51B 和 101B 的模型訓(xùn)練。

數(shù)據(jù)并行和張量模型并行已成為訓(xùn)練十億規(guī)模模型的標(biāo)準(zhǔn)方法。然而，過多的張量并行可能會(huì)加劇GPU通信開銷，影響訓(xùn)練效率。為了解決這個(gè)問題，研究整合了管道模型并行，并采用了3D并行策略來實(shí)現(xiàn)最優(yōu)的吞吐量。此外，通過采用序列并行，沿著序列長度維度切分了輸入到Transformer核心的LayerNorm和Dropout層，從而進(jìn)一步節(jié)省了GPU計(jì)算資源和內(nèi)存利用率。Megetron-LM 4牙杯用來實(shí)現(xiàn)分布式優(yōu)化器來進(jìn)一步減少GPU內(nèi)存消耗，這是一種可以在數(shù)據(jù)并行排名中均勻分配優(yōu)化器狀態(tài)的技術(shù)。

訓(xùn)練的穩(wěn)定性

超過100B參數(shù)的模型在訓(xùn)練過程中通常會(huì)遇到一系列穩(wěn)定性問題，這包括損失發(fā)散、梯度爆炸和數(shù)值的溢出或下溢。這不僅大大增加了尋找合適的超參數(shù)（例如最優(yōu)學(xué)習(xí)率）的難度，還增加了訓(xùn)練過程中需要持續(xù)監(jiān)控和維護(hù)的需求，如問題解決、數(shù)據(jù)調(diào)整和重啟等，使項(xiàng)目預(yù)算變得不可預(yù)測。不過，研究團(tuán)隊(duì)找到了一個(gè)有前途的解決方案來減輕這些問題。

他們基于Tensor Programs理論來預(yù)測損失，該理論揭示了一系列與模型訓(xùn)練動(dòng)態(tài)相關(guān)的通用關(guān)系，尤其是在模型寬度趨向于無限的情況下。這產(chǎn)生了一個(gè)參數(shù)化的映射，可以用于找到小模型及其更大對應(yīng)模型之間某些超參數(shù)的最優(yōu)值，這被稱為μP。這個(gè)理論提供了兩個(gè)重要見解：

“更寬更好”的原則表明，在μP指導(dǎo)下，更寬的模型在處理相同的數(shù)據(jù)時(shí)會(huì)產(chǎn)生比其更窄的版本更低的損失。這意味著如果一個(gè)窄模型可以收斂，那么其更寬的版本也將會(huì)收斂。
他們還指出可以使用小模型的損失來預(yù)測大模型的損失值，這一點(diǎn)在GPT-4技術(shù)報(bào)告中得到了表述，并且在開源社區(qū)也有μScaling項(xiàng)目驗(yàn)證了這一點(diǎn)，它結(jié)合μP和修改后的縮放規(guī)則來實(shí)現(xiàn)損失預(yù)測。

為了實(shí)現(xiàn)訓(xùn)練穩(wěn)定性，研究團(tuán)隊(duì)在FLM-16B訓(xùn)練開始前確定了數(shù)據(jù)分布，然后對三個(gè)超參數(shù)（學(xué)習(xí)率、初始化標(biāo)準(zhǔn)偏差和輸出層的softmax溫度）進(jìn)行了網(wǎng)格搜索。這個(gè)搜索是通過運(yùn)行一個(gè)有40M代理模型完成的，該模型具有較小的隱藏狀態(tài)維度和頭部數(shù)量。網(wǎng)格搜索找到了最優(yōu)的超參數(shù)組合，而這些參數(shù)隨后被應(yīng)用到更大的16B模型上，確保了一個(gè)無不穩(wěn)定的順利訓(xùn)練體驗(yàn)。

借助μP和特定的增長策略，他們成功地避免了在FLM-51B和FLM-101B中的增長后分歧問題，從而實(shí)現(xiàn)了一個(gè)有效且穩(wěn)定的訓(xùn)練過程。

模型初步評估

與開源模型的對比

考慮了ARC-Challenge, HellaSwag, MMLU, and TruthfulQA四個(gè)數(shù)據(jù)集，和目前的開源模型進(jìn)行了對比，性能如下：

在所有基線模型中，F(xiàn)LM-101B的平均得分為43.94，排名最低。然而，深入探究這些任務(wù)的本質(zhì)可以發(fā)現(xiàn)，這并不表明模型的表現(xiàn)較差。

MMLU任務(wù)通常需要特定領(lǐng)域的知識來解答。考慮到FLM-101B的訓(xùn)練數(shù)據(jù)中并沒有特意加入任何教科書或考試題目，所以其取得的分?jǐn)?shù)是合理的。一個(gè)直接證明是，在一個(gè)結(jié)合了FreeLM目標(biāo)并包含這種知識的FLM變體(eFLM-16B，見第4.3節(jié))中，即使是一個(gè)16B的模型也能超越GLM-130B的表現(xiàn)。

TruthfulQA、ARC和HellaSwag更強(qiáng)調(diào)常識和維基級別的知識，它們的表現(xiàn)隨著數(shù)據(jù)量和訓(xùn)練損失的增加而提高。盡管FLM-101B只使用了不到0.16TB的英文數(shù)據(jù)（大約是LLAMA-2的1/10），但它仍然在所有基線中獲得了最高的41.47的準(zhǔn)確度。在ARC和HellaSwag上，F(xiàn)LM-101B與GLM-130B有相似的英文數(shù)據(jù)量（約0.2TB）并且表現(xiàn)相當(dāng)。此外，GLM-130B的訓(xùn)練數(shù)據(jù)包括ARC和Hellaswag。

引入專業(yè)知識后的再評估

研究團(tuán)隊(duì)決定在FLM訓(xùn)練過程中引入專業(yè)知識數(shù)據(jù)來增強(qiáng)其效果，通過將FreeLM目標(biāo)和專業(yè)數(shù)據(jù)相結(jié)合，以加強(qiáng)FLM-16B的效能。這種增強(qiáng)的數(shù)據(jù)源包括部分MMLU輔助訓(xùn)練集，一些與C-Eval測試有相似域和格式的考試題目，以及其他領(lǐng)域的知識數(shù)據(jù)。通過這種方式創(chuàng)建的模型被命名為eFLM-16B。

一個(gè)明顯的發(fā)現(xiàn)是，引入相關(guān)領(lǐng)域的專業(yè)知識數(shù)據(jù)可以顯著提升MMLU和C-Eval的分?jǐn)?shù)。具體來說，在這兩項(xiàng)任務(wù)中，eFLM-16B的表現(xiàn)都超過了GLM-130B，提高了約2個(gè)百分點(diǎn)。

這個(gè)結(jié)果驗(yàn)證了一個(gè)重要的觀點(diǎn)：僅僅依靠數(shù)據(jù)集的分?jǐn)?shù)是不能全面反映語言模型的智能水平的，因?yàn)樘囟ㄓ?xùn)練數(shù)據(jù)的影響可能是巨大的，而不是反映模型的綜合能力。這表明，在評估語言模型的智能時(shí)，不能只依賴于特定的數(shù)據(jù)集得分來判斷，而應(yīng)該考慮一個(gè)更全面的評估方法來確保模型的智能是全面和多元的。

在IQ基準(zhǔn)上的評估

符號映射

最新的研究表明，在處理特定類別的文本分類任務(wù)時(shí)（比如將文檔或情感進(jìn)行分類），現(xiàn)有方法常常難以泛化。這主要是因?yàn)楹芏嗫梢怨_獲取的網(wǎng)站包含了大量用于訓(xùn)練的、帶有標(biāo)簽的原始語言文本數(shù)據(jù)集，如SemEval、IMDB和Yelp 6。這導(dǎo)致了模型傾向于過度擬合標(biāo)簽的語義，而非從全新的上下文中推斷它們的含義。

為了解決這個(gè)問題，研究者將原始類別標(biāo)簽替換為在訓(xùn)練數(shù)據(jù)中不太可能見到的emoji，來測試模型的真正理解能力和泛化能力。這種做法也把評估任務(wù)變得更加側(cè)重于上下文學(xué)習(xí)。下圖是一個(gè)符號映射的例子。

研究者還開創(chuàng)了一種新的IQ基準(zhǔn)測試方式。他們利用了已有的基準(zhǔn)數(shù)據(jù)源，例如SuperGLUE和CLUE，并對其中最多300個(gè)樣本的原始類別進(jìn)行了隨機(jī)字符串替換。下圖是模型在該基準(zhǔn)上的評估結(jié)果。

在進(jìn)行BoolQ、WiC和RTE這些任務(wù)測試時(shí)，F(xiàn)LM-101B模型和GPT-3的表現(xiàn)非常相似，并且都比GLM-130B表現(xiàn)更好。尤其是在BoolQ任務(wù)上，它們的表現(xiàn)比GLM-130B高出9個(gè)百分點(diǎn)。但在WSC任務(wù)中，GLM-130B表現(xiàn)最佳，領(lǐng)先其他模型18個(gè)百分點(diǎn)，這歸功于它的雙向結(jié)構(gòu)，這使得它在處理共指解析任務(wù)時(shí)更有優(yōu)勢。值得注意的是，盡管FLM-101B的計(jì)算成本只有GPT-3的1/13，但其表現(xiàn)卻相當(dāng)不錯(cuò)。

在CLUE-IQ基準(zhǔn)測試中，F(xiàn)LM-101B表現(xiàn)最好，得分高達(dá)42.07。它特別在AFQMC、CSL和CLUEWSC2020等任務(wù)上表現(xiàn)出色，這顯示了該模型在處理中文任務(wù)時(shí)具有出色的能力。有意思的是，它在中文的WSC任務(wù)上勝過GLM-130B，但在英文版上卻稍遜一籌。這揭示了中英兩種語言之間存在的巨大差異。綜上所述，F(xiàn)LM-101B不僅在中文IQ測試中表現(xiàn)突出，其成本效益比也相當(dāng)顯著，只需要GLM-130B的大約12%的成本就能實(shí)現(xiàn)更優(yōu)秀的表現(xiàn)。

規(guī)則理解

理解并按照給定規(guī)則執(zhí)行是衡量人類智能的一個(gè)基本方面。為了評估這種理解能力，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)規(guī)則理解評估測試。這個(gè)測試與基于思維鏈的推理測試有所不同；它更側(cè)重于理解簡單規(guī)則并做出正確行動(dòng)，而不是推理能力。例如，“計(jì)數(shù)數(shù)字序列”是規(guī)則理解評估的一個(gè)典型任務(wù)，而在模型實(shí)現(xiàn)這種基本的規(guī)則理解能力之前，它是不能完成基于思維鏈的逐步推理的。

此外，還有一些具體任務(wù)來深入評估這一能力，包括無提示計(jì)數(shù)和字符串替換任務(wù)。在無提示計(jì)數(shù)任務(wù)中構(gòu)建了一個(gè)包含150個(gè)項(xiàng)目的數(shù)據(jù)集，一個(gè)典型的示例是提示從一個(gè)數(shù)到另一個(gè)數(shù)進(jìn)行計(jì)數(shù)，如“從10010數(shù)到10035：10010，10011，10012,...”。

而字符串替換（4次嘗試）任務(wù)則是為了檢驗(yàn)?zāi)Ｐ桶凑杖祟愐鈭D精確編輯文本的能力，它包含300個(gè)項(xiàng)目，每一個(gè)都開始于清晰的指示。例如，“替換單詞”任務(wù)會(huì)要求在下面的句子中用目標(biāo)詞替換指定的詞，而“替換小寫字母”任務(wù)則要求將給定文本中的所有大寫字母修改為小寫。為了保證任務(wù)的多樣性，計(jì)數(shù)范圍和待替換的單詞都是通過均勻分布來確定的。

下表展示了模型在規(guī)則理解任務(wù)上的表現(xiàn)性能。

模式識別

模式識別涉及到在新環(huán)境中歸納和推斷出現(xiàn)的模式。在這個(gè)基準(zhǔn)測試中包含三個(gè)任務(wù)來進(jìn)行評估。

頭尾添加任務(wù)要求在給定的輸入前后添加頭和尾，這兩個(gè)元素（即頭和尾）應(yīng)與給定示例中的元素完全相同。
完全重復(fù)任務(wù)則要求將輸入序列完全重復(fù)一次。
頭部切片任務(wù)，模型需要返回輸入的前一定數(shù)量的字符，這個(gè)數(shù)字可以從前面的示例中推斷出來。

下圖是一個(gè)示例。

在模式挖掘的所有三項(xiàng)任務(wù)中，F(xiàn)LM-101B取得了第二好的表現(xiàn)。與規(guī)則理解評估相似，由于有更多的訓(xùn)練數(shù)據(jù)，GPT-3取得了最好的表現(xiàn)。在頭部切片任務(wù)上，F(xiàn)LM-101B超越了GPT-3和GLM-130B。在另外兩項(xiàng)任務(wù)中，這三個(gè)模型的表現(xiàn)順序相同：GPT-3排在第一，F(xiàn)LM-101B排在第二，GLM-130B排在第三。詳細(xì)來說，F(xiàn)LM-101B相比GLM-130B分別提高了14%和9%。

抗干擾評估

抗干擾能力對于在全新的嘈雜環(huán)境中找到和利用與特定目標(biāo)真正相關(guān)的信息至關(guān)重要。例如，許多LLM會(huì)在接收到嘈雜輸入的提示時(shí)開始胡言亂語。為此，作者在三種任務(wù)類型中進(jìn)行抗干擾評估：

多關(guān)鍵詞檢索是一種謎題，它在大量無關(guān)的文本中隱藏了一些關(guān)鍵詞。如果LLM的抗干擾能力不夠強(qiáng)，它們將輸出錯(cuò)誤甚至無意義的詞。
單一支持事實(shí)跟蹤和雙重支持事實(shí)跟蹤任務(wù)測試模型是否能夠找到隱藏在一系列無關(guān)陳述中的支持事實(shí)鏈來正確回答問題。

下圖顯示了此測試的兩個(gè)典型示例。

在所有baseline中，F(xiàn)LM-101B實(shí)現(xiàn)了第二好的性能89%、59%和32.3%，與GLM-130B相比，其優(yōu)勢約為11%、3%和6%?？紤]到計(jì)算成本，F(xiàn)LM-101B的出眾是顯而易見的。

總結(jié)

該研究開發(fā)了中英雙語的FLM-101B模型，一個(gè)開源的、成本低廉的但功能強(qiáng)大的LLM，它成功地在10萬美元的預(yù)算內(nèi)從零開始訓(xùn)練。

研究團(tuán)隊(duì)利用增長策略來訓(xùn)練模型，以降低初始成本，首先得到一個(gè)知識相對有限的基本模型，然后再逐步擴(kuò)展該模型的知識庫以適應(yīng)不同領(lǐng)域的需求。

此外，研究團(tuán)隊(duì)還認(rèn)識到，要準(zhǔn)確評估一個(gè)LLM的智能程度，需要更先進(jìn)和綜合的評估方法。傳統(tǒng)的評估方法，如MMLU、SuperGLUE和CLUE等，已不再足夠。為了解決這一問題，他們創(chuàng)造了一個(gè)系統(tǒng)的IQ評估基準(zhǔn)測試，它能夠全面而準(zhǔn)確地衡量智力的四個(gè)核心方面，而且還可以方便地進(jìn)行自動(dòng)評估。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

開源

開源

+關(guān)注

關(guān)注
3

文章
3472

瀏覽量
42944
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
550

瀏覽量
10432
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2793

瀏覽量
3438

原文標(biāo)題：開源大模型FLM-101B：訓(xùn)練成本最低的超100B參數(shù)大模型

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

ARM用以解決圖像超分模型過參數(shù)問題

本文提出一種Any-time super-Resolution Method(ARM)用以解決圖像超分模型過參數(shù)問題，其出發(fā)點(diǎn)在于如下三個(gè)觀察：不同圖像塊的性能會(huì)超分

發(fā)表于 06-10 17:52

探索一種降低ViT模型訓(xùn)練成本的方法

Transformers已成為計(jì)算機(jī)視覺最新進(jìn)展的核心。然而，從頭開始訓(xùn)練ViT模型可能會(huì)耗費(fèi)大量資源和時(shí)間。在本文中旨在探索降低ViT模型訓(xùn)練成本的方法。引入了一些算法改進(jìn)，以便能夠

發(fā)表于 11-24 14:56

飛行訓(xùn)練成績評估模型的建立與實(shí)現(xiàn)

飛行訓(xùn)練成績評估模型的建立與實(shí)現(xiàn)，有興趣的同學(xué)可以下載學(xué)習(xí)

發(fā)表于 05-04 14:37 ?0次下載

AD629B斯皮羅模型最低價(jià)值

發(fā)表于 06-17 16:58 ?7次下載

AD629<b class='flag-5'>B</b>斯皮羅<b class='flag-5'>模型</b><b class='flag-5'>最低</b>價(jià)值

緩解模型訓(xùn)練成本過高的問題

模型壓縮可以分為模型剪枝（pruning）和模型蒸餾（distillation）。由于模型中的參數(shù)對模型

發(fā)表于 05-10 15:05 ?1690次閱讀

智能開源大模型baichuan-7B技術(shù)改進(jìn)

baichuan-7B 主要是參考LLaMA進(jìn)行的改進(jìn)，且模型架構(gòu)與LLaMA一致。而在開源大模型中，LLaMA無疑是其中最閃亮的星，但LLaMA存在如下問題： LLaMA 原生僅支持

發(fā)表于 06-17 14:14 ?1161次閱讀

開源大模型Falcon（獵鷹） 180B發(fā)布 1800億參數(shù)

? 世界最強(qiáng)開源大模型 Falcon 180B 忽然火爆全網(wǎng)，1800億參數(shù)，F(xiàn)alcon 在 3.5 萬億 token 完成訓(xùn)練，性能碾壓

發(fā)表于 09-18 09:29 ?1646次閱讀

Meta發(fā)布CodeLlama70B開源大模型

Meta發(fā)布CodeLlama70B開源大模型 Meta發(fā)布了開源大模型CodeLlama70B

發(fā)表于 01-31 10:30 ?1527次閱讀

Meta推出最強(qiáng)開源模型Llama 3 要挑戰(zhàn)GPT

公司這次開源了Llama 3 8B與70B兩款不同規(guī)模的模型，開發(fā)者可以免費(fèi)使用，而Meta公司還將陸續(xù)推出一系列具備多模態(tài)、多語言對話、更長上下文窗口等能力的新

發(fā)表于 04-19 17:00 ?966次閱讀

通義千問開源千億級參數(shù)模型

通義千問近日開源了其首個(gè)千億級參數(shù)模型Qwen1.5-110B，這是其全系列中首個(gè)達(dá)到千億級別的開源模型。Qwen1.5-110

發(fā)表于 05-08 11:01 ?889次閱讀

谷歌Gemini Ultra模型訓(xùn)練成本近2億美元

斯坦福大學(xué)與研究巨頭Epoch AI聯(lián)合揭示了云計(jì)算時(shí)代下AI模型訓(xùn)練成本的飛速增長。最新研究結(jié)果顯示，AI巨頭OpenAI的GPT-4訓(xùn)練成本高達(dá)7840萬美元，這一數(shù)字令人咋舌。

發(fā)表于 06-07 09:36 ?746次閱讀

英偉達(dá)開源Nemotron-4 340B系列模型，助力大型語言模型訓(xùn)練

近日，英偉達(dá)宣布開源了一款名為Nemotron-4 340B的大型模型，這一壯舉為開發(fā)者們打開了通往高性能大型語言模型（LLM）訓(xùn)練的新天地

發(fā)表于 06-17 14:53 ?704次閱讀

Anthropic AI模型訓(xùn)練成本飆升，預(yù)計(jì)未來將達(dá)百億級

在人工智能領(lǐng)域的激烈競爭中，Anthropic公司以其高昂的研發(fā)投入引發(fā)了廣泛關(guān)注。據(jù)公司CEO達(dá)里奧·阿莫代透露，當(dāng)前正在開發(fā)的AI模型訓(xùn)練成本已飆升至驚人的10億美元，這一數(shù)字不僅彰顯了Anthropic在技術(shù)創(chuàng)新上的不遺余力，也預(yù)示著AI研發(fā)

發(fā)表于 07-09 15:38 ?544次閱讀

AI大模型訓(xùn)練成本飆升，未來三年或達(dá)千億美元

在科技日新月異的今天，人工智能（AI）領(lǐng)域的發(fā)展正以前所未有的速度推進(jìn)，其中，AI大模型的崛起尤為引人注目。然而，隨著模型參數(shù)的持續(xù)膨脹，其背后的訓(xùn)練成本也呈現(xiàn)出驚人的增長態(tài)勢。近日，

發(fā)表于 07-11 15:06 ?1130次閱讀

采用FP8混合精度，DeepSeek V3訓(xùn)練成本僅557.6萬美元！

的模型需要花費(fèi)約4684.8萬美元。然而，隨著技術(shù)的進(jìn)步，這一成本正在迅速降低。DeepSeek V3的出現(xiàn)，標(biāo)志著訓(xùn)練成本的大幅下降，其訓(xùn)練成本僅為557.6萬美元，相較于之前的

發(fā)表于 01-13 11:12 ?823次閱讀

搜索歷史

開源大模型FLM-101B：訓(xùn)練成本最低的超100B參數(shù)大模型

摘要

增長策略詳解

增長策略具體設(shè)置

不同階段的性能評估

FLM主要結(jié)構(gòu)和其他技術(shù)細(xì)節(jié)

Backbone

預(yù)訓(xùn)練

實(shí)驗(yàn)配置

訓(xùn)練的穩(wěn)定性

模型初步評估

與開源模型的對比

引入專業(yè)知識后的再評估

在IQ基準(zhǔn)上的評估

符號映射

規(guī)則理解

模式識別

抗干擾評估

總結(jié)

評論

ARM用以解決圖像超分模型過參數(shù)問題

探索一種降低ViT模型訓(xùn)練成本的方法

飛行訓(xùn)練成績評估模型的建立與實(shí)現(xiàn)

AD629B斯皮羅模型最低價(jià)值

緩解模型訓(xùn)練成本過高的問題

智能開源大模型baichuan-7B技術(shù)改進(jìn)

開源大模型Falcon（獵鷹） 180B發(fā)布 1800億參數(shù)

Meta發(fā)布CodeLlama70B開源大模型

Meta推出最強(qiáng)開源模型Llama 3 要挑戰(zhàn)GPT

通義千問開源千億級參數(shù)模型

谷歌Gemini Ultra模型訓(xùn)練成本近2億美元

英偉達(dá)開源Nemotron-4 340B系列模型，助力大型語言模型訓(xùn)練

Anthropic AI模型訓(xùn)練成本飆升，預(yù)計(jì)未來將達(dá)百億級

AI大模型訓(xùn)練成本飆升，未來三年或達(dá)千億美元

采用FP8混合精度，DeepSeek V3訓(xùn)練成本僅557.6萬美元！