国产精品青青青高清在线观看 ,亚洲无码综合一区二区,久久综合无码人妻

來自：李rumor

大模型是一個實驗工程，涉及數(shù)據(jù)清洗、底層框架、算法策略等多個工序，每個環(huán)節(jié)都有很多坑，因此知道如何避坑和技術(shù)選型非常重要，可以節(jié)省很多算力和時間。

近期百川智能發(fā)布了Baichuan2的7B和13B版本，可能不少卷友被刷屏慣了沒有仔細看，他們在放出模型的同時也給了一份技術(shù)報告，里面干貨滿滿，因此我自來水一波，帶大家一起看看百川積累的KnowHow。同時也有一些我沒完全懂的地方，希望拋磚引玉，可以一起在評論區(qū)討論。

Pre-train

數(shù)據(jù)

數(shù)據(jù)多樣性

從不同的來源獲取數(shù)據(jù)，最好建立一個類目體系，可以提升對整體數(shù)據(jù)分布的把控，方便后續(xù)增減。

進行聚類和去重，可以通過LSH局部敏感或者稠密向量作為聚類特征，LSH更快一些，但向量可以更好地編碼語義。但這里有個問題是需要卡閾值，去重過猛會影響多樣性降低泛化能力。因此百川選擇的做法是去除一部分，并對剩余的樣本打分，作為預(yù)訓(xùn)練時采樣的權(quán)重。

整體去重的流程如下（這里我沒太懂的是為何把Document去重放在最后一步，如果放在前面的環(huán)節(jié)應(yīng)該可以顯著減少句子和段落的數(shù)據(jù)量）：

數(shù)據(jù)質(zhì)量

采用句子級別的分類器進行過濾，這個是業(yè)內(nèi)常用做法了，但具體用什么數(shù)據(jù)訓(xùn)練，用什么標(biāo)準(zhǔn)標(biāo)注沒有細說。

對于內(nèi)容安全，用規(guī)則和模型洗掉有害內(nèi)容，還額外找了一些正向價值觀的數(shù)據(jù)源，提升采樣概率。

模型結(jié)構(gòu)

Tokenizer

Tokenizer的難點是平衡壓縮比和詞表尺寸，比如頻繁出現(xiàn)的幾個中文是可以用1個token表示的，這樣inference時就會很快，但合并的話這幾個中文字單獨的embedding訓(xùn)練可能就不充分，跟其他字組合時語義表示會不夠好。

因此百川使用BPE，選擇了比較折中的12萬大小，同時披露了以下細節(jié)：

對原始數(shù)據(jù)不做任何歸一化

把數(shù)字完全拆開，可以更好理解數(shù)值數(shù)據(jù)

為了代碼數(shù)據(jù)，專門增加空格token

覆蓋率在0.9999，只有少量fall back（一種避免OOV的方法，在碰到unknown中文時會變成utf8的byte token）

位置編碼

由于有外推的需求，最近位置編碼有很多新的工作，比較火的當(dāng)屬RoPE和ALiBi，這里百川都用了，因為他們實驗發(fā)現(xiàn)位置編碼并沒有顯著影響模型表現(xiàn)，同時進行了速度優(yōu)化：

RoPE + Flash Attention

ALiBi + xFormers

激活函數(shù)

采用了表現(xiàn)更好的SwiGLU，由于SwiGLU有三個矩陣，引入了更多參數(shù)，因此百川縮小了FFN層的尺寸（4->8/3再處理成128的倍數(shù)）。

Normalisations

對Transformer的輸入采用LayerNorm，對warm-up更魯棒

采用了RMSNorm的實現(xiàn)，指計算輸入特征的方差，提升計算效率

混合精度

采用BF16，因為其具有更大的范圍，可以讓訓(xùn)練更穩(wěn)定，但對于位置編碼、優(yōu)化器等，采用全精度。

提升穩(wěn)定性

NormHead：對輸出的表示進行歸一化。首先低頻token的模會在訓(xùn)練中變小，進行歸一化后可以提升穩(wěn)定性。另外百川通過對輸出表示聚類，發(fā)現(xiàn)cosine距離可以將相似語義的聚到一起而L2距離不行，歸一化可以消除最終計算logits時點乘中L2的影響。從實驗結(jié)果可以明顯發(fā)現(xiàn)loss收斂更好更穩(wěn)定。

Max-z loss：在訓(xùn)練過程中，百川發(fā)現(xiàn)模型的logits都很大，這樣就會對解碼時的超參數(shù)魯棒性較低，因此增加max-z loss拉低logits的值。

注：對于預(yù)訓(xùn)練的優(yōu)化解讀跳過了Infra的部分，不是那么懂。。

Alignment

SFT

數(shù)據(jù)質(zhì)量：采用抽檢的方式進行質(zhì)量把控，抽一批數(shù)據(jù)檢查，不合格全部退回。

數(shù)據(jù)數(shù)量：100k（目前開源SFT數(shù)據(jù)還是挺多的，不知道百川出于什么考慮

Reward Model

Prompt多樣性：構(gòu)造了一個200+細分類目的數(shù)據(jù)體系，盡可能覆蓋用戶需求，同時提升每類prompt多樣性，從而提升泛化能力

Response多樣性：用不同尺寸和階段的百川模型生成答案，不使用其他開源模型（經(jīng)驗證無法提升RM準(zhǔn)確率）

PPO

預(yù)先對critic模型進行了warmup

為提升RL穩(wěn)定性，進行梯度裁剪

安全

由于模型開源，百川在內(nèi)容安全上非常細致，包括：

聘請10位專業(yè)審核人員構(gòu)建了100+安全類目

用50人的標(biāo)注團隊構(gòu)建了200K攻擊指令

對于攻擊指令，生產(chǎn)多樣性很大的回答

總結(jié)

Baichuan2的效果比第一版提升了很多，在推理任務(wù)上效果翻倍，是目前開源模型中過了最多中文語料的模型。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4615

瀏覽量
92992
開源

開源

+關(guān)注

關(guān)注
3

文章
3363

瀏覽量
42537
函數(shù)

函數(shù)

+關(guān)注

關(guān)注
3

文章
4333

瀏覽量
62700
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2476

瀏覽量
2803

原文標(biāo)題：總結(jié)

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

白?？萍寂c百川智能順勢而為、攜手共進，助力領(lǐng)域大模型應(yīng)用快速落地

（2023年08月08日，中國北京訊）近日，AI基礎(chǔ)軟件服務(wù)商白海科技與國內(nèi)領(lǐng)先的AGI服務(wù)企業(yè)百川智能宣布達成戰(zhàn)略合作協(xié)議。這次合作旨在加速大語言模型在各行各業(yè)的應(yīng)用，并為客戶提供智能高效

發(fā)表于 08-08 14:23 ?1081次閱讀

百川ESD產(chǎn)品簡介 2017版

百川ESD產(chǎn)品簡介

發(fā)表于 10-09 16:26 ?0次下載

海基新能源再獲百川股份資金加持

?；履茉礊?b class='flag-5'>百川股份參股公司，此次增資前，百川股份合計持股26.55%。百川股份表示，本次增資有利于擴大海基新能源鋰電項目產(chǎn)能規(guī)模，滿足其未來發(fā)展對資金的需求。

發(fā)表于 12-28 10:11 ?3713次閱讀

百川智能獲阿里騰訊小米等3億美元投資

百川智能推出了4款開源baichuan-7b/13b、baichuan 2-7b/13b的免費商用產(chǎn)品和baichuan-53b、baichuan 2-53b的閉源大模型，平均每28天推出一次新的大模型。

發(fā)表于 10-17 10:15 ?771次閱讀

百川智能發(fā)布Baichuan2 Turbo系列API，或?qū)⑻娲袠I(yè)大模型

在當(dāng)天的媒體溝通會上，百川智能創(chuàng)始人、CEO王小川，百川智能聯(lián)合創(chuàng)始人、聯(lián)席總裁洪濤，百川智能技術(shù)聯(lián)創(chuàng)陳煒鵬及百川智能商用業(yè)務(wù)部總經(jīng)理李劍共

發(fā)表于 12-20 16:54 ?990次閱讀

搜索出生的百川智能大模型RAG爬坑之路總結(jié)

今天對百川的RAG方法進行解讀，百川智能具有深厚的搜索背景，來看看他們是怎么爬RAG的坑的吧～

發(fā)表于 01-05 15:02 ?1508次閱讀

搜索出生的<b class='flag-5'>百川</b>智能大<b class='flag-5'>模型</b>RAG爬坑之路總結(jié)

百川智能發(fā)布超千億大模型Baichuan 3

百川智能近日發(fā)布了超千億參數(shù)的大語言模型Baichuan 3，引發(fā)了業(yè)界的廣泛關(guān)注。這款模型在多個權(quán)威通用能力評測中表現(xiàn)卓越，展現(xiàn)了其強大的語義理解和生成能力。

發(fā)表于 01-31 14:58 ?860次閱讀

數(shù)勢聯(lián)動百川，發(fā)布首批大模型聯(lián)合解決方案，推動中國大模型價值落地

近日，行業(yè)領(lǐng)先的數(shù)據(jù)智能產(chǎn)品提供商北京數(shù)勢云創(chuàng)科技有限公司（以下簡稱“數(shù)勢科技”）和國內(nèi)通用大模型廠商北京百川智能科技有限公司（以下簡稱“百川”）聯(lián)合發(fā)布大模型數(shù)據(jù)分析垂直領(lǐng)域應(yīng)用解決

發(fā)表于 02-28 11:40 ?489次閱讀

數(shù)勢聯(lián)動<b class='flag-5'>百川</b>，發(fā)布首批大<b class='flag-5'>模型</b>聯(lián)合解決方案，推動中國大<b class='flag-5'>模型</b>價值落地

百川智能與北京大學(xué)將共建通用人工智能聯(lián)合實驗室

近日，百川智能與北京大學(xué)攜手合作，共同簽署了“北大——百川通用人工智能聯(lián)合實驗室”的共建協(xié)議，標(biāo)志著雙方在人工智能領(lǐng)域邁出了堅實的合作步伐。

發(fā)表于 03-21 11:45 ?913次閱讀

百川智能發(fā)布Baichuan 4大模型及首款A(yù)I助手“百小應(yīng)”

百川智能近日發(fā)布了其新一代基座大模型Baichuan 4，并同步推出了首款A(yù)I助手“百小應(yīng)”。這款A(yù)I助手是在Baichuan 4強大能力的基礎(chǔ)上，結(jié)合先進的搜索技術(shù)精心打造而成。

發(fā)表于 05-23 14:15 ?628次閱讀

亞馬遜云科技接入百川智能和零一萬物基礎(chǔ)模型

近日，亞馬遜云科技在中國峰會上宣布，兩大中文基礎(chǔ)模型——百川智能的Baichuan2-7B和零一萬物的Yi-1.5 6B/9B/34B，即將或已正式登陸中國區(qū)域的SageMaker JumpStart。這一舉措為中國企業(yè)提供了豐富的模型

發(fā)表于 06-04 11:53 ?582次閱讀

百川智能完成50億元A輪融資

近日，國內(nèi)領(lǐng)先的醫(yī)療AI大模型企業(yè)——百川智能，正式宣布完成了高達50億元人民幣的A輪融資，這一里程碑式的融資不僅彰顯了市場對其技術(shù)實力與未來發(fā)展?jié)摿Φ母叨日J(rèn)可，也為公司的后續(xù)發(fā)展奠定了堅實的資金基礎(chǔ)。

發(fā)表于 07-26 16:42 ?477次閱讀

大模型廠商“輸血”不斷，百川智能完成50億元A輪融資！

有重磅消息曝出：知名大模型公司百川智能已經(jīng)成功收獲了價值50億元的A輪融資。由此，我們不禁感嘆，大模型廠商們的“輸血”和“續(xù)命”之戰(zhàn)，還在激烈的上演著。

發(fā)表于 07-31 14:47 ?635次閱讀

百川智能發(fā)布一站式大模型商業(yè)化解決方案

近日，百川智能正式推出了一站式大模型商業(yè)化解決方案，旨在為企業(yè)提供更加全面、高效的大模型應(yīng)用服務(wù)。該解決方案以1+3產(chǎn)品矩陣為核心，包括全鏈路優(yōu)質(zhì)通用訓(xùn)練數(shù)據(jù)、Baichuan4-Turbo和Baichuan4-Air兩款

發(fā)表于 11-01 18:01 ?836次閱讀

百川智能發(fā)布Baichuan4-Finance金融大模型

近日，百川智能正式推出了其全鏈路領(lǐng)域增強的金融大模型——Baichuan4-Finance。這一創(chuàng)新產(chǎn)品的發(fā)布，標(biāo)志著百川智能在金融智能化領(lǐng)域邁出了重要一步。 Baichuan4-Finance

發(fā)表于 12-25 10:11 ?185次閱讀

搜索歷史

百川的大模型KnowHow介紹

評論