0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中文大模型測評基準SuperCLUE:商湯日日新5.0,刷新國內(nèi)最好成績

商湯科技SenseTime ? 來源:商湯科技SenseTime ? 2024-05-21 14:45 ? 次閱讀

編者按:日前,中文大模型測評基準SuperCLUE發(fā)布最新榜單,對商湯科技全新升級「日日新SenseNova 5.0」大模型進行了全方位綜合性測評,結(jié)果顯示在SuperCLUE綜合基準上,日日新 5.0表現(xiàn)不俗,以總分80.03分的優(yōu)異成績刷新國內(nèi)最好成績,并在中文綜合成績上超過GPT-4-Turbo-0125。

SuperCLUE是由創(chuàng)立于2019年的CLUE學術(shù)社區(qū)最新發(fā)布的中文通用大模型綜合性評測基準,是被行業(yè)廣泛認可的AI大模型權(quán)威評測榜單。以下評測報告轉(zhuǎn)載自 SuperCLUE官方發(fā)布報道。

4月23日,商湯科技正式發(fā)布全新大模型日日新5.0(SenseChat V5),采用混合專家架構(gòu)(MoE),參數(shù)量高達6000億,支持200K的上下文窗口。據(jù)官方披露,SenseChat V5具備更強的知識、數(shù)學、推理及代碼能力,綜合性能全面對標GPT-4 Turbo。

那么,SenseChat V5在SuperCLUE中文基準上的表現(xiàn)如何?與國內(nèi)外代表性大模型相比處于什么位置?在各項基礎(chǔ)能力上如計算推理、長文本、代碼生成、生成創(chuàng)作上會有怎樣的表現(xiàn)?

SuperCLUE團隊對SenseChat V5在SuperCLUE通用大模型綜合性中文測評基準上,進行了全方位綜合性測評。

測評環(huán)境

參考標準:SuperCLUE綜合性測評標準

評測模型:SenseChat V5(官方于5月11日提供的內(nèi)測API版本)

評測集:SuperCLUE綜合性測評基準4月評測集,2194道多輪簡答題,包括計算、邏輯推理、代碼、長文本在內(nèi)的基礎(chǔ)十大任務。

模型GenerationConfig配置:

temperature=0.01

repetition_penalty=1.0

top_p=0.8

max_new_tokens=2048

stream=false

測評方法

本次測評為自動化評測,具體評測方案可點擊查閱SuperCLUE綜合性測評標準。本次測評經(jīng)過人工抽樣校驗。

ce86e4cc-173c-11ef-b74b-92fbcf53809c.png

ceaa17ee-173c-11ef-b74b-92fbcf53809c.png

先說結(jié)論

結(jié)論1:在SuperCLUE綜合基準上,SenseChat V5表現(xiàn)不俗,以總分80.03分的優(yōu)異成績刷新國內(nèi)最好成績,并且在中文綜合成績上超過GPT-4-Turbo-0125有0.9分。

結(jié)論2:在本次測評中,理科任務上SenseChat V5取得國內(nèi)最好成績,較GPT-4-Turbo-0125低4.35分,還有一定提升空間;文科任務上SenseChat V5表現(xiàn)十分出色,以82.20分取得國內(nèi)外最高分。

結(jié)論3:在本次測評中,SenseChat V5在各項能力上表現(xiàn)較為均衡,尤其在長文本、生成創(chuàng)作、角色扮演、安全能力、工具使用上處于全球領(lǐng)先位置,適用于智能體、內(nèi)容創(chuàng)作、長程對話等應用場景。代碼能力還有一定提升空間。

cee721ca-173c-11ef-b74b-92fbcf53809c.png

對比模型數(shù)據(jù)來源: SuperCLUE, 2024年4月30日

以下是我們從定量定性兩個角度對模型進行的測評分析。

測評分析

1定量分析

在SuperCLUE測評中,SenseChat V5總體表現(xiàn)如下:

SenseChat V5總體表現(xiàn)

cfdfe652-173c-11ef-b74b-92fbcf53809c.png

注:對比模型數(shù)據(jù)均來源于SuperCLUE,SenseChat V5和Yi-Large取自2024年5月11日,其余所有模型取自2024年4月30日。由于部分模型分數(shù)較為接近,為了減少問題波動對排名的影響,本次測評將相距0.25分區(qū)間的模型定義為并列,以上排序不代表實際排名。

在SuperCLUE通用綜合測評基準上,SenseChat V5取得80.03分,表現(xiàn)出色,刷新國內(nèi)大模型最好成績。并且,SenseChat V5在中文綜合能力上較GPT-4-Turbo-0125高0.9分。

SenseChat V5在理科任務上的表現(xiàn)

d01b3496-173c-11ef-b74b-92fbcf53809c.png

對比模型數(shù)據(jù)來源:SuperCLUE SenseChat V5在理科任務上表現(xiàn)不俗,取得76.78分,國內(nèi)模型中排名第一,較GPT-4-Turbo-0125低4.35分,還有一定提升空間。其中,計算(80.6)、邏輯推理(73.8)、工具使用(80.8)均刷新國內(nèi)最好成績;在代碼能力上還有一定優(yōu)化空間。

SenseChat V5在文科任務上的表現(xiàn)

d06b3e78-173c-11ef-b74b-92fbcf53809c.png

對比模型數(shù)據(jù)來源:SuperCLUE SenseChat V5在文科任務上表現(xiàn)出色,取得82.20的高分,國內(nèi)外模型中排名第一,較GPT-4-Turbo-0125高4.40分。其中,知識百科(82.4)、長文本(79.2)、角色扮演(80.4)、語義理解(81.6)、生成創(chuàng)作(79.4)、傳統(tǒng)安全(90.2)均刷新國內(nèi)最好成績;

d0d7487a-173c-11ef-b74b-92fbcf53809c.png

對比數(shù)據(jù)來源:SuperCLUE, 2024年4月30日 將SenseChat V5與國內(nèi)大模型平均得分對比,我們可以發(fā)現(xiàn),SenseChat V5在所有能力上均高于平均線,展現(xiàn)出較均衡的綜合能力。尤其在計算(+16.15)、邏輯推理(+18.89)、代碼(+19.06)、長文本(+21.16)能力上遠高出平均線15分以上。

SenseChat V5與國外代表模型對比

d13c66a6-173c-11ef-b74b-92fbcf53809c.png

將SenseChat V5與國外代表大模型對比,SenseChat V5在文科類中文任務上好于國外大模型,尤其在長文本、生成創(chuàng)作能力較為領(lǐng)先。在理科如計算、邏輯推理、代碼能力上與GPT-4-Turbo-0125還有一定提升空間。

小結(jié)

從評測結(jié)果我們發(fā)現(xiàn),SenseChat V5綜合能力上表現(xiàn)不俗,在總分上刷新了國內(nèi)外最好成績,其中文科任務上有超過GPT-4 Turbo的表現(xiàn),理科任務上刷新國內(nèi)最好成績,與GPT-4 Turbo還有一定距離。 2定性分析

通過一些典型示例,對比定性分析SenseChat V5的特點。

示例1:長文本

d15b7834-173c-11ef-b74b-92fbcf53809c.png

示例2:生成創(chuàng)作

d18d438c-173c-11ef-b74b-92fbcf53809c.png

示例3:邏輯推理

d1ca9c14-173c-11ef-b74b-92fbcf53809c.png

模型技術(shù)特點

據(jù)官方介紹,SenseChat V5模型能力顯著提升,其背后是訓練數(shù)據(jù)的全面升級與訓練方法的有效提升。

在數(shù)據(jù)方面,SenseChat V5采用了新一代數(shù)據(jù)生產(chǎn)管線,生產(chǎn)了10T tokens的高質(zhì)量訓練數(shù)據(jù)。通過多個模型進行數(shù)據(jù)的過濾和提煉,顯著提升了預料質(zhì)量和信息密度;基于精細聚類的均衡采樣確保對世界知識覆蓋的完整性。同時,SenseChat V5還大規(guī)模采用了思維型的合成數(shù)據(jù)(數(shù)千億tokens量級),這對于模型在邏輯推理、數(shù)學和編程等方面的能力提升起到了關(guān)鍵作用。

SenseChat V5采用了自研的多階段訓練鏈路,包括三階段預訓練、雙階段SFT和在線RLHF。通過在每個階段設(shè)定更加清晰聚焦的目標,實現(xiàn)更敏捷的調(diào)優(yōu),也避免了不同目標之間的相互干擾。其中在預訓練階段,分階段培養(yǎng)模型的基礎(chǔ)語言和知識能力、長文建模能力、以及復雜邏輯推理能力(規(guī)?;捎煤铣蓴?shù)據(jù));在 SFT 階段,把任務指令遵循和對話體驗優(yōu)化分解到雙階段進行;在 RLHF 階段,采用統(tǒng)一的多維度獎勵模型和動態(tài)系統(tǒng)提示詞對多維度偏好進行打分,從而更好地實現(xiàn)模型在多個維度和人類期望對齊。



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    15922
  • AI大模型
    +關(guān)注

    關(guān)注

    0

    文章

    362

    瀏覽量

    497

原文標題:中文大模型測評基準SuperCLUE:商湯「日日新5.0」總分80.03刷新最好成績,文科能力領(lǐng)跑

文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    商湯科技日日新V6大模型斬獲“雙料第一” 一項國內(nèi)榜首,一個全球第一

    衛(wèi)冕“雙冠”! 通用語言能力并列國內(nèi)榜首、多模態(tài)能力全球最強,商湯日日新V6」近期斬獲“雙料第一”。 5月28日,權(quán)威大模型測評機構(gòu)
    的頭像 發(fā)表于 05-30 11:13 ?349次閱讀
    <b class='flag-5'>商湯</b>科技<b class='flag-5'>日日新</b>V6大<b class='flag-5'>模型</b>斬獲“雙料第一” 一項<b class='flag-5'>國內(nèi)</b>榜首,一個全球第一

    商湯科技日日新模型SenseNova上線聲網(wǎng)云市場

    日前,商湯科技日日新模型SenseNova即將正式上線聲網(wǎng)云市場,開發(fā)者和企業(yè)用戶可通過聲網(wǎng)的實時互動云服務進行調(diào)用,將商湯領(lǐng)先的模型能力
    的頭像 發(fā)表于 04-08 17:24 ?682次閱讀

    商湯日日新”融合大模型登頂大語言與多模態(tài)雙榜單

    據(jù)弗若斯特沙利文(Frost & Sullivan, 簡稱“沙利文”)聯(lián)合頭豹研究院發(fā)布的《2025年中國大模型年度評測》結(jié)果顯示:在語言和多模態(tài)核心能力測評中,商湯日日新”融合大
    的頭像 發(fā)表于 03-18 10:35 ?454次閱讀

    商湯日日新”融合大模型榮獲雙料冠軍

    技術(shù)領(lǐng)域取得了重大進展。 值得一提的是,“日日新”融合大模型在兩大權(quán)威評測榜單上均表現(xiàn)優(yōu)異,一舉奪得雙料冠軍。在國內(nèi)權(quán)威大模型測評機構(gòu)
    的頭像 發(fā)表于 01-13 16:10 ?465次閱讀

    商湯科技推出“日日新”融合大模型

    剛剛,商湯正式推出“日日新”融合大模型,領(lǐng)先實現(xiàn)原生融合模態(tài),深度推理能力與多模態(tài)信息處理能力均大幅提升,并在兩大權(quán)威評測榜單奪得第一,成為“雙冠王”。
    的頭像 發(fā)表于 01-10 15:59 ?534次閱讀

    商湯日日新多模態(tài)大模型權(quán)威評測第一

    剛剛,商湯科技日日新SenseNova多模態(tài)大模型,在權(quán)威綜合評測權(quán)威平臺OpenCompass的多模態(tài)評測中取得榜單第一。
    的頭像 發(fā)表于 12-20 10:39 ?797次閱讀

    商湯日日新·商量大模型位列國內(nèi)模型第一梯隊

    剛剛,中文模型測評基準SuperCLUE發(fā)布《中文模型
    的頭像 發(fā)表于 11-08 15:38 ?884次閱讀

    云知聲山海大模型位居全球大模型第一梯隊

    SuperCLUE發(fā)布《中文模型基準測評2024上半年報告》,報告選取國內(nèi)外有代表性的33個大
    的頭像 發(fā)表于 09-12 14:41 ?861次閱讀

    商湯日日新模型中標上海電信訂單

    近日,中國電信上海公司公布《產(chǎn)數(shù)開發(fā)代碼助手》項目采購結(jié)果:憑借「日日新」大模型出色的代碼能力,商湯科技中標。由「商湯?小浣熊家族」系列產(chǎn)品團隊提供相關(guān)業(yè)務產(chǎn)品服務支持。
    的頭像 發(fā)表于 07-29 14:25 ?775次閱讀

    商湯AI大模型與中國國家籃球隊達成戰(zhàn)略合作

    商湯科技與中國國家籃球隊達成戰(zhàn)略合作,將基于商湯日日新SenseNova5.5”大模型技術(shù)共同打造AI大模型籃球產(chǎn)品,推動AI大
    的頭像 發(fā)表于 07-17 09:58 ?1069次閱讀

    商湯科技&quot;日日新SenseNova 5.5&quot;大模型閃耀WAIC,引領(lǐng)AI新紀元

    在近期舉辦的世界人工智能大會(WAIC)上,商湯科技攜其流式多模態(tài)交互大模型日日新SenseNova 5.5”震撼登場,不僅為大會帶來了前所未有的AI體驗,更通過多場主題論壇活動,深入探討了AI大
    的頭像 發(fā)表于 07-08 16:05 ?961次閱讀

    商湯日日新”大模型全面賦能2024 WAIC

    7月6日,WAIC 2024迎來第三天。 商湯科技全新升級的「日日新SenseNova 5.5」備受熱議,作為國內(nèi)首個具備流式原生多模態(tài)交互能力的大模型,交互效果和多項核心指標實現(xiàn)
    的頭像 發(fā)表于 07-08 15:54 ?861次閱讀

    商湯流式多模態(tài)交互大模型日日新5.5發(fā)布

    日日新」大模型迎來“燈塔時刻”,它能見你所見,理解你所需,說出你心聲,與你智慧共振。
    的頭像 發(fā)表于 07-08 15:10 ?838次閱讀
    <b class='flag-5'>商湯</b>流式多模態(tài)交互大<b class='flag-5'>模型</b><b class='flag-5'>日日新</b>5.5發(fā)布

    商湯科技發(fā)布日日新5.5大模型體系

    商湯科技近日震撼發(fā)布其最新的日日新5.5大模型體系,標志著人工智能領(lǐng)域又邁出了堅實的一步。該體系以6000億參數(shù)的超大規(guī)?;A(chǔ)模型——日日新
    的頭像 發(fā)表于 07-08 15:05 ?829次閱讀

    商湯宣布將免費向粵語區(qū)用戶推出粵語大模型Web版及App版

    繼4月發(fā)布「日日新SenseNova 5.0」以來,商湯模型繼續(xù)日日精進,新技頻出!
    的頭像 發(fā)表于 05-31 10:51 ?1361次閱讀
    <b class='flag-5'>商湯</b>宣布將免費向粵語區(qū)用戶推出粵語大<b class='flag-5'>模型</b>Web版及App版

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品