全网资源亚洲欧美在线观看,中国外卖小哥吃帅小伙大,艳母动漫精品网

【新智元導(dǎo)讀】今天，百川智能正式發(fā)布70億參數(shù)開源中英文大模型——baichuan-7B，一舉拿下多個(gè)評測榜單最佳成績。

時(shí)隔兩個(gè)月，王小川組建的「百川智能」在6月15日正式推出首個(gè)70億參數(shù)中英文預(yù)訓(xùn)練大模型——baichuan-7B。

baichuan-7B不僅在C-Eval、AGIEval和Gaokao中文權(quán)威評測榜單上，以顯著優(yōu)勢全面超過了ChatGLM-6B等其他大模型，并且在MMLU英文權(quán)威評測榜單上，大幅領(lǐng)先LLaMA-7B。

目前baichuan-7B大模型已在Hugging Face、Github以及Model Scope平臺發(fā)布。

Hugging Face：https://huggingface.co/baichuan-inc/baichuan-7B

Github：https://github.com/baichuan-inc/baichuan-7B

Model Scope：https://modelscope.cn/models/baichuan-inc/baichuan-7B/summary

多個(gè)中文評估基準(zhǔn)拿下7B最佳

為了驗(yàn)證模型的各項(xiàng)能力，baichuan-7B在C-Eval、AGIEval和Gaokao三個(gè)最具影響力的中文評估基準(zhǔn)進(jìn)行了綜合評估，并且均獲得了優(yōu)異成績，它已經(jīng)成為同等參數(shù)規(guī)模下中文表現(xiàn)最優(yōu)秀的原生預(yù)訓(xùn)練模型。

在AGIEval的評測里，baichuan-7B綜合評分達(dá)到34.4分，遠(yuǎn)超LLaMA-7B、Falcon-7B、Bloom-7B以及ChatGLM-6B等其他開源模型。

在中文C-EVAL的評測中，baichuan-7B的綜合評分達(dá)到了42.8分，超過了ChatGLM-6B的38.9分，甚至比某些參數(shù)規(guī)模更大的模型還要出色。

在Gaokao評測中，baichuan-7B的綜合評分達(dá)到了36.2分，顯著領(lǐng)先于同參數(shù)規(guī)模的各種其他預(yù)訓(xùn)練模型。

https://cevalbenchmark.com/static/leaderboard_zh.html（2023-06-15）

AGIEval評測基準(zhǔn)由微軟研究院發(fā)起，旨在全面評估基礎(chǔ)模型在人類認(rèn)知和問題解決相關(guān)任務(wù)上的能力，包含了中國的高考、司法考試，以及美國的SAT、LSAT、GRE和GMAT等20個(gè)公開且嚴(yán)謹(jǐn)?shù)墓俜饺雽W(xué)和職業(yè)資格考試。

C-Eval評測基準(zhǔn)由上海交通大學(xué)、清華大學(xué)以及愛丁堡大學(xué)聯(lián)合創(chuàng)建，是面向中文語言模型的綜合考試評測集，覆蓋了52個(gè)來自不同行業(yè)領(lǐng)域的學(xué)科。

Gaokao評測基準(zhǔn)是復(fù)旦大學(xué)研究團(tuán)隊(duì)創(chuàng)建的評測框架，以中國高考題目作為數(shù)據(jù)集，用于測試大模型在中文語言理解和邏輯推理能力方面的表現(xiàn)。

MMLU基準(zhǔn)大幅領(lǐng)先LLaMA-7B

baichuan-7B不僅在中文方面表現(xiàn)優(yōu)異，在英文上表現(xiàn)同樣亮眼。

在MMLU的評測中baichuan-7B綜合評分高達(dá)42.5分，大幅領(lǐng)先英文開源預(yù)訓(xùn)練模型LLaMA-7B的34.2分以及中文開源模型ChatGLM-6B的36.9分。

MMLU由加州大學(xué)伯克利分校等知名高校共同打造，集合了科學(xué)、工程、數(shù)學(xué)、人文、社會科學(xué)等領(lǐng)域的57個(gè)科目，主要目標(biāo)是對模型的英文跨學(xué)科專業(yè)能力進(jìn)行深入測試。其內(nèi)容廣泛，從初級水平一直涵蓋到高級專業(yè)水平。

萬億數(shù)據(jù)、4K上下文、高效穩(wěn)定訓(xùn)練

訓(xùn)練語料對大模型的訓(xùn)練結(jié)果至關(guān)重要。在構(gòu)建預(yù)訓(xùn)練語料庫方面，百川智能以高質(zhì)量中文語料為基礎(chǔ)，同時(shí)融合了優(yōu)質(zhì)的英文數(shù)據(jù)。

具體來說，原始數(shù)據(jù)包括自行抓取的海量中英文互聯(lián)網(wǎng)數(shù)據(jù)和部分開源的中英文數(shù)據(jù)，以及大量高質(zhì)量知識性數(shù)據(jù)。

在數(shù)據(jù)質(zhì)量方面，通過質(zhì)量模型對數(shù)據(jù)進(jìn)行打分，對原始數(shù)據(jù)集進(jìn)行篇章級和句子級的精確篩選。

在內(nèi)容多樣性方面，利用自研超大規(guī)模局部敏感哈希聚類系統(tǒng)和語義聚類系統(tǒng)，對數(shù)據(jù)進(jìn)行了多層次多粒度的聚類，最終構(gòu)建了包含1.2萬億token的兼顧質(zhì)量和多樣性的預(yù)訓(xùn)練數(shù)據(jù)。

相較于其他同參數(shù)規(guī)模的開源中文預(yù)訓(xùn)練模型，數(shù)據(jù)量提高了超過50%。

在萬億優(yōu)質(zhì)中英文數(shù)據(jù)的基礎(chǔ)上，為了更好地提升訓(xùn)練效率，baichuan-7B深度整合了模型算子來加快計(jì)算流程，并針對任務(wù)負(fù)載和集群配置，自適應(yīng)優(yōu)化了模型并行策略以及重計(jì)算策略。

通過高效的訓(xùn)練過程調(diào)度通信，baichuan-7B成功地實(shí)現(xiàn)了計(jì)算與通信的高效重疊，進(jìn)而達(dá)到了超線性的訓(xùn)練加速，在千卡集群上訓(xùn)練吞吐達(dá)到180+Tflops的業(yè)界領(lǐng)先水平。

同時(shí)，已有的開源模型窗口長度在2K以內(nèi)，對于一些長文本建模任務(wù)，如需要引入外部知識做搜索增強(qiáng)的場景，更長的處理長度有助于模型在訓(xùn)練與推理階段捕獲越多的上下文信息，2K的處理長度存在比較大的制約。

經(jīng)過優(yōu)化的分詞算法

baichuan-7B基于高效的attention算子優(yōu)化實(shí)現(xiàn)了萬級別超長動態(tài)窗口的擴(kuò)張能力，本次開源的預(yù)訓(xùn)練模型開放了4K上下文窗口，使模型應(yīng)用場景更加廣泛。

此外，baichuan-7B還對模型訓(xùn)練流程進(jìn)行了深度優(yōu)化，采用了更科學(xué)且穩(wěn)定的訓(xùn)練流程和超參數(shù)選擇，使得 baichuan-7B模型的收斂速度大大提升。

與同等參數(shù)規(guī)模的模型相比，baichuan-7B在困惑度（PPL）和訓(xùn)練損失（training loss）等關(guān)鍵性能指標(biāo)上表現(xiàn)更加優(yōu)秀。

開源免費(fèi)可商用，清北已搶先體驗(yàn)

秉持開源精神，baichuan-7B代碼采用Apache-2.0協(xié)議，模型權(quán)重采用了免費(fèi)商用協(xié)議，只需進(jìn)行簡單登記即可免費(fèi)商用。

baichuan-7B此次開源的內(nèi)容十分豐富，包含了推理代碼、INT4量化實(shí)現(xiàn)、微調(diào)代碼，以及預(yù)訓(xùn)練模型的權(quán)重。

其中，微調(diào)代碼方便用戶對模型進(jìn)行調(diào)整和優(yōu)化；推理代碼與INT4量化實(shí)現(xiàn)則有助于開發(fā)者低成本地進(jìn)行模型的部署和應(yīng)用；預(yù)訓(xùn)練模型權(quán)重開源后，用戶則可以直接使用預(yù)訓(xùn)練模型進(jìn)行各種實(shí)驗(yàn)研究。

據(jù)了解，北京大學(xué)和清華大學(xué)兩所頂尖大學(xué)已率先使用baichuan-7B模型推進(jìn)相關(guān)研究工作，并計(jì)劃在未來與百川智能深入合作，共同推動baichuan-7B模型的應(yīng)用和發(fā)展。

清華大學(xué)互聯(lián)網(wǎng)司法研究院院長、計(jì)算機(jī)系教授劉奕群認(rèn)為， baichuan-7B模型在中文上的效果表現(xiàn)十分出色，它免費(fèi)商用的開源方式展現(xiàn)出開放的態(tài)度，不僅貢獻(xiàn)社區(qū)，也推動技術(shù)發(fā)展。團(tuán)隊(duì)計(jì)劃基于baichuan-7B模型開展司法人工智能領(lǐng)域的相關(guān)研究。

北京大學(xué)人工智能研究院助理教授楊耀東認(rèn)為，baichuan-7B模型的開源將對于中文基礎(chǔ)語言模型的生態(tài)建設(shè)及學(xué)術(shù)研究產(chǎn)生重要推動作用，同時(shí)他也表示將持續(xù)關(guān)注相關(guān)領(lǐng)域探索，并且在中文大語言模型的安全和對齊上進(jìn)行進(jìn)一步深入研究。

百川智能CEO王小川表示：「本次開源模型的發(fā)布是百川智能成立2個(gè)月后的第一個(gè)里程碑，對百川智能而言是一個(gè)良好的開局。baichuan-7B模型，不僅能為中國的AGI事業(yè)添磚加瓦，也為世界大模型開源社區(qū)貢獻(xiàn)了新的力量?！?/p>

技術(shù)團(tuán)隊(duì)專訪

Q：baichuan-7B如何處理幻覺問題，未來該如何提高結(jié)果正確性？

A：大模型在可見的未來還不能徹底解決幻覺問題，一方面通過強(qiáng)化學(xué)習(xí)來讓模型知道自己不知道，有效緩解幻覺，更重要的是需要靠「搜索增強(qiáng)」引入外部知識來逐步解決幻覺問題。

Q：baichuan-7B能帶來哪些商用價(jià)值？

A：baichuan-7B作為在多個(gè)榜單評測效果成績最佳的7B開源可商用大模型，填補(bǔ)了市場上缺乏優(yōu)質(zhì)的針對中文優(yōu)化的7B大模型的空白，是開發(fā)者理想的7B大模型底座。同時(shí)在商用價(jià)值方面，能夠在例如文本生成，自動化寫作，數(shù)據(jù)分析，知識問答，中英翻譯，個(gè)性化交互和專業(yè)領(lǐng)域個(gè)人小助手，比如醫(yī)療領(lǐng)域，給用戶帶來巨大的價(jià)值。

Q：baichuan-7B在評測榜的成績達(dá)到最初的訓(xùn)練模型預(yù)期了嗎？

A：打榜并不是我們的目的，我們相信好的數(shù)據(jù)和算法能力，評測自然會有好的結(jié)果，這次baichuan-7B在多個(gè)最具影響力的評測中的優(yōu)異表現(xiàn)也驗(yàn)證了百川的這個(gè)理念。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
530

瀏覽量
10297
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2488

瀏覽量
2855

原文標(biāo)題：王小川大模型首亮相！70億參數(shù)霸榜，清北搶先用｜獨(dú)家專訪

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

中國移動與中國石油發(fā)布700億參數(shù)昆侖大模型

近日，中國移動與中國石油在北京聯(lián)合舉辦了700億參數(shù)昆侖大模型建設(shè)成果發(fā)布會，正式推出了這一行業(yè)重量級的大模型。據(jù)悉，700億

發(fā)表于 12-04 11:17 ?369次閱讀

奧飛數(shù)據(jù)擬1.3億轉(zhuǎn)讓四川華拓70%股權(quán)

近日，奧飛數(shù)據(jù)發(fā)布了一項(xiàng)重要公告，宣布公司擬以1.3億元人民幣的價(jià)格轉(zhuǎn)讓其持有的四川華拓光通信股份有限公司(以下簡稱“四川華拓”)70%的股權(quán)。根據(jù)公告內(nèi)容，此次交易完成后，奧飛數(shù)據(jù)

發(fā)表于 12-04 11:14 ?458次閱讀

2024 工博會｜清能德創(chuàng)展臺精彩搶先看

2024 工博會｜清能德創(chuàng)展臺精彩搶先看第24屆中國國際工業(yè)博覽會（以下簡稱“工博會”）將于9月24-28日在國家會展中心（上海）舉辦，清能德創(chuàng)將攜最新的伺服產(chǎn)品及行業(yè)解決方案亮相工

發(fā)表于 09-19 14:40 ?326次閱讀

2024 工博會｜<b class='flag-5'>清</b>能德創(chuàng)展臺精彩<b class='flag-5'>搶先</b>看

匯川技術(shù)亮相2024年DIC國際顯示展覽會

2024年DIC國際顯示展覽會在上海開幕，匯川技術(shù)以“數(shù)自融合，彰顯未來”為主題，攜工業(yè)機(jī)器人、視覺檢測、驅(qū)動與控制產(chǎn)品、行業(yè)解決方案、數(shù)字能源解決方案等驚艷亮相。期間，京東方董事長陳炎順、中國

發(fā)表于 09-13 16:07 ?726次閱讀

大模型廠商“輸血”不斷，百川智能完成50億元A輪融資！

有重磅消息曝出：知名大模型公司百川智能已經(jīng)成功收獲了價(jià)值50億元的A輪融資。由此，我們不禁感嘆，大模型廠商們的“輸血”和“續(xù)命”之戰(zhàn)，還在激烈的上演著。

發(fā)表于 07-31 14:47 ?639次閱讀

大<b class='flag-5'>模型</b>廠商“輸血”不斷，百<b class='flag-5'>川</b>智能完成50<b class='flag-5'>億</b>元A輪融資！

凱迪仕霸榜全渠道TOP1 ，全域曝光100億！

618年中狂歡盛典，已正式落下帷幕。智能鎖行業(yè)領(lǐng)頭羊凱迪仕，憑借過硬的科技產(chǎn)品力和品牌勢能，在全域流量加持以及傳奇大師K70新品強(qiáng)勢曝光之下，霸榜天貓、京東、抖音各平臺，穩(wěn)居各類型榜單榜首，繼續(xù)以

發(fā)表于 06-21 20:10 ?330次閱讀

凱迪仕<b class='flag-5'>霸</b><b class='flag-5'>榜</b>全渠道TOP1 ，全域曝光100<b class='flag-5'>億</b>！

百川智能發(fā)布Baichuan 4大模型及首款A(yù)I助手“百小應(yīng)”

百川智能近日發(fā)布了其新一代基座大模型Baichuan 4，并同步推出了首款A(yù)I助手“百小應(yīng)”。這款A(yù)I助手是在Baichuan 4強(qiáng)大能力的基礎(chǔ)上，結(jié)合先進(jìn)的搜索技術(shù)精心打造而成。

發(fā)表于 05-23 14:15 ?633次閱讀

中國主板市場4月遇冷華碩依然霸榜

中國主板市場4月遇冷華碩依然霸榜根據(jù)博板堂的統(tǒng)計(jì)數(shù)據(jù)顯示，2024年4月份我國大陸主板市場出貨量出現(xiàn)普遍下滑的情況。與3月份對比來說，環(huán)比下降18%；與去年4月份對比的話，同比增長17%。根據(jù)博板堂的出貨量榜單來看，華碩、技嘉、微星、七彩虹位列前四，華碩依然

發(fā)表于 05-18 16:11 ?1799次閱讀

微軟自研5000億參數(shù)大模型曝光

微軟近日曝光了其內(nèi)部正在秘密研發(fā)的巨型AI模型——MAl-1，這款模型擁有驚人的5000億參數(shù)。據(jù)微軟首席技術(shù)官Kevin Scott確認(rèn)，MAl-1的研發(fā)工作確實(shí)在穩(wěn)步推進(jìn)中，并且該

發(fā)表于 05-08 09:56 ?468次閱讀

通義千問推出1100億參數(shù)開源模型

通義千問近日震撼發(fā)布1100億參數(shù)的開源模型Qwen1.5-110B，這一舉措標(biāo)志著通義千問在AI領(lǐng)域邁出了重大步伐。該模型成為通義千問全系列首個(gè)千億級

發(fā)表于 05-06 10:49 ?592次閱讀

螞蟻推出20億參數(shù)多模態(tài)遙感模型SkySense

據(jù)了解，負(fù)責(zé)開發(fā)的百靈團(tuán)隊(duì)利用自身擁有的19億遙感影像數(shù)據(jù)集進(jìn)行了預(yù)訓(xùn)練，從而生成了具有20.6億參數(shù)的SkySense大模型。官方稱其為全球范圍內(nèi)

發(fā)表于 02-28 15:53 ?692次閱讀

谷歌發(fā)布全球最強(qiáng)開源大模型Gemma

谷歌近日宣布，其全新開源大模型Gemma正式亮相。Gemma被譽(yù)為全球性能最強(qiáng)大、同時(shí)也是最輕量級的模型系列，分為2B（20億參數(shù)）和7B（

發(fā)表于 02-22 14:51 ?823次閱讀

奧特曼發(fā)布王炸模型Sora OpenAI首個(gè)文生視頻模型Sora正式亮相

奧特曼發(fā)布王炸模型Sora OpenAI首個(gè)文生視頻模型Sora正式亮相 2月16日凌晨OpenAI的首個(gè)文生視頻模型Sora正式

發(fā)表于 02-18 17:41 ?1002次閱讀

百川智能發(fā)布超千億大模型Baichuan 3

百川智能近日發(fā)布了超千億參數(shù)的大語言模型Baichuan 3，引發(fā)了業(yè)界的廣泛關(guān)注。這款模型在多個(gè)權(quán)威通用能力評測中表現(xiàn)卓越，展現(xiàn)了其強(qiáng)大的語義理解和生成能力。

發(fā)表于 01-31 14:58 ?872次閱讀

北通發(fā)布全球首款采用星閃技術(shù)的手柄

上個(gè)月，國產(chǎn)手柄廠商北通宣布其首款星閃手柄已完成開發(fā)，型號為北通阿修羅2 Pro+星閃版。這款手柄不僅是北通的新品，更是全球首款采用星閃技術(shù)

發(fā)表于 01-15 15:21 ?949次閱讀

搜索歷史

王小川大模型首亮相！70億參數(shù)霸榜，清北搶先用

評論