欧美性爱人妻一二三区性爱,欧美aⅴ精品一区二区三区

編者按：日前，中文大模型測評基準SuperCLUE發(fā)布最新榜單，對商湯科技全新升級「日日新SenseNova 5.0」大模型進行了全方位綜合性測評，結(jié)果顯示在SuperCLUE綜合基準上，日日新 5.0表現(xiàn)不俗，以總分80.03分的優(yōu)異成績刷新國內(nèi)最好成績，并在中文綜合成績上超過GPT-4-Turbo-0125。

SuperCLUE是由創(chuàng)立于2019年的CLUE學術(shù)社區(qū)最新發(fā)布的中文通用大模型綜合性評測基準，是被行業(yè)廣泛認可的AI大模型權(quán)威評測榜單。以下評測報告轉(zhuǎn)載自 SuperCLUE官方發(fā)布報道。

4月23日，商湯科技正式發(fā)布全新大模型日日新5.0（SenseChat V5），采用混合專家架構(gòu)（MoE），參數(shù)量高達6000億，支持200K的上下文窗口。據(jù)官方披露，SenseChat V5具備更強的知識、數(shù)學、推理及代碼能力，綜合性能全面對標GPT-4 Turbo。

那么，SenseChat V5在SuperCLUE中文基準上的表現(xiàn)如何？與國內(nèi)外代表性大模型相比處于什么位置？在各項基礎(chǔ)能力上如計算推理、長文本、代碼生成、生成創(chuàng)作上會有怎樣的表現(xiàn)？

SuperCLUE團隊對SenseChat V5在SuperCLUE通用大模型綜合性中文測評基準上，進行了全方位綜合性測評。

測評環(huán)境

參考標準：SuperCLUE綜合性測評標準

評測模型：SenseChat V5（官方于5月11日提供的內(nèi)測API版本）

評測集：SuperCLUE綜合性測評基準4月評測集，2194道多輪簡答題，包括計算、邏輯推理、代碼、長文本在內(nèi)的基礎(chǔ)十大任務。

模型GenerationConfig配置：

temperature=0.01

repetition_penalty=1.0

top_p=0.8

max_new_tokens=2048

stream=false

測評方法：

本次測評為自動化評測，具體評測方案可點擊查閱SuperCLUE綜合性測評標準。本次測評經(jīng)過人工抽樣校驗。

先說結(jié)論

結(jié)論1：在SuperCLUE綜合基準上，SenseChat V5表現(xiàn)不俗，以總分80.03分的優(yōu)異成績刷新國內(nèi)最好成績，并且在中文綜合成績上超過GPT-4-Turbo-0125有0.9分。

結(jié)論2：在本次測評中，理科任務上SenseChat V5取得國內(nèi)最好成績，較GPT-4-Turbo-0125低4.35分，還有一定提升空間；文科任務上SenseChat V5表現(xiàn)十分出色，以82.20分取得國內(nèi)外最高分。

結(jié)論3：在本次測評中，SenseChat V5在各項能力上表現(xiàn)較為均衡，尤其在長文本、生成創(chuàng)作、角色扮演、安全能力、工具使用上處于全球領(lǐng)先位置，適用于智能體、內(nèi)容創(chuàng)作、長程對話等應用場景。代碼能力還有一定提升空間。

對比模型數(shù)據(jù)來源： SuperCLUE, 2024年4月30日

以下是我們從定量和定性兩個角度對模型進行的測評分析。

測評分析

1定量分析

在SuperCLUE測評中，SenseChat V5總體表現(xiàn)如下：

SenseChat V5總體表現(xiàn)

注：對比模型數(shù)據(jù)均來源于SuperCLUE，SenseChat V5和Yi-Large取自2024年5月11日，其余所有模型取自2024年4月30日。由于部分模型分數(shù)較為接近，為了減少問題波動對排名的影響，本次測評將相距0.25分區(qū)間的模型定義為并列，以上排序不代表實際排名。

在SuperCLUE通用綜合測評基準上，SenseChat V5取得80.03分，表現(xiàn)出色，刷新國內(nèi)大模型最好成績。并且，SenseChat V5在中文綜合能力上較GPT-4-Turbo-0125高0.9分。

SenseChat V5在理科任務上的表現(xiàn)

對比模型數(shù)據(jù)來源：SuperCLUE SenseChat V5在理科任務上表現(xiàn)不俗，取得76.78分，國內(nèi)模型中排名第一，較GPT-4-Turbo-0125低4.35分，還有一定提升空間。其中，計算（80.6）、邏輯推理（73.8）、工具使用（80.8）均刷新國內(nèi)最好成績；在代碼能力上還有一定優(yōu)化空間。

SenseChat V5在文科任務上的表現(xiàn)

對比模型數(shù)據(jù)來源：SuperCLUE SenseChat V5在文科任務上表現(xiàn)出色，取得82.20的高分，國內(nèi)外模型中排名第一，較GPT-4-Turbo-0125高4.40分。其中，知識百科（82.4）、長文本（79.2）、角色扮演（80.4）、語義理解（81.6）、生成創(chuàng)作（79.4）、傳統(tǒng)安全（90.2）均刷新國內(nèi)最好成績；

對比數(shù)據(jù)來源：SuperCLUE, 2024年4月30日將SenseChat V5與國內(nèi)大模型平均得分對比，我們可以發(fā)現(xiàn)，SenseChat V5在所有能力上均高于平均線，展現(xiàn)出較均衡的綜合能力。尤其在計算（+16.15）、邏輯推理（+18.89）、代碼（+19.06）、長文本（+21.16）能力上遠高出平均線15分以上。

SenseChat V5與國外代表模型對比

將SenseChat V5與國外代表大模型對比，SenseChat V5在文科類中文任務上好于國外大模型，尤其在長文本、生成創(chuàng)作能力較為領(lǐng)先。在理科如計算、邏輯推理、代碼能力上與GPT-4-Turbo-0125還有一定提升空間。

小結(jié)：

從評測結(jié)果我們發(fā)現(xiàn)，SenseChat V5綜合能力上表現(xiàn)不俗，在總分上刷新了國內(nèi)外最好成績，其中文科任務上有超過GPT-4 Turbo的表現(xiàn)，理科任務上刷新國內(nèi)最好成績，與GPT-4 Turbo還有一定距離。 2定性分析

通過一些典型示例，對比定性分析SenseChat V5的特點。

示例1：長文本

示例2：生成創(chuàng)作

示例3：邏輯推理

模型技術(shù)特點

據(jù)官方介紹，SenseChat V5模型能力顯著提升，其背后是訓練數(shù)據(jù)的全面升級與訓練方法的有效提升。

在數(shù)據(jù)方面，SenseChat V5采用了新一代數(shù)據(jù)生產(chǎn)管線，生產(chǎn)了10T tokens的高質(zhì)量訓練數(shù)據(jù)。通過多個模型進行數(shù)據(jù)的過濾和提煉，顯著提升了預料質(zhì)量和信息密度；基于精細聚類的均衡采樣確保對世界知識覆蓋的完整性。同時，SenseChat V5還大規(guī)模采用了思維型的合成數(shù)據(jù)（數(shù)千億tokens量級），這對于模型在邏輯推理、數(shù)學和編程等方面的能力提升起到了關(guān)鍵作用。

SenseChat V5采用了自研的多階段訓練鏈路，包括三階段預訓練、雙階段SFT和在線RLHF。通過在每個階段設(shè)定更加清晰聚焦的目標，實現(xiàn)更敏捷的調(diào)優(yōu)，也避免了不同目標之間的相互干擾。其中在預訓練階段，分階段培養(yǎng)模型的基礎(chǔ)語言和知識能力、長文建模能力、以及復雜邏輯推理能力（規(guī)?；捎煤铣蓴?shù)據(jù)）；在 SFT 階段，把任務指令遵循和對話體驗優(yōu)化分解到雙階段進行；在 RLHF 階段，采用統(tǒng)一的多維度獎勵模型和動態(tài)系統(tǒng)提示詞對多維度偏好進行打分，從而更好地實現(xiàn)模型在多個維度和人類期望對齊。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

GPT

GPT

+關(guān)注

關(guān)注
0

文章
368

瀏覽量
15922
AI大模型

AI大模型

+關(guān)注

關(guān)注
0

文章
362

瀏覽量
497

原文標題：中文大模型測評基準SuperCLUE：商湯「日日新5.0」總分80.03刷新最好成績，文科能力領(lǐng)跑

文章出處：【微信號：SenseTime2017，微信公眾號：商湯科技SenseTime】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

搜索歷史

中文大模型測評基準SuperCLUE：商湯日日新5.0，刷新國內(nèi)最好成績

評論

電子發(fā)燒友