无码少妇一级AV片在线观看,国产无套gvtube,中文无码一区二区不卡αv

電子發(fā)燒友網(wǎng)報道（文/周凱揚）當(dāng)下的大模型除了卷商業(yè)化變現(xiàn)外，又開辟出了一個新的“賽博斗蛐蛐”賽道，以各種評測標(biāo)準(zhǔn)來測試大模型在語言、數(shù)學(xué)、推理和代碼方面的綜合成績。作為國內(nèi)最權(quán)威的考試之一，高考則是最能代表學(xué)生綜合能力的一次考驗，而大模型這個特殊身份的考生，如果參加高考究竟會獲得怎樣的成績，也激起了網(wǎng)友的好奇之心。

上海人工智能實驗室的大模型評測體系OpenCompass在近日舉辦了這么一次測試，讓6大開源模型和GPT-4o參加一次特殊的“高考”，然而這些大模型獲得的成績卻讓不少人大跌眼鏡。

閉卷開考全國一卷

在這次大模型參加高考中，OpenCompass的首輪測試采用了全國新課標(biāo)I卷的語數(shù)外試卷作為題源，該卷的覆蓋省份包括江蘇、浙江、河北、福建、山東、湖北、湖南、廣東等。為了方便測試，除了省去其他非統(tǒng)一學(xué)科外，其中英語省去了30分的聽力，所以其單科總分變?yōu)榱?20分。

為了做到“閉卷”，這些受測的模型中，包括Mistral的開源對話模型Mixtral 8x22B、零一萬物的Yi-1.5-34B大模型、智譜AI的GLM-4-9B、上海人工智能實驗室推出的InternLM2-20B-WQX大語言模型以及阿里巴巴的Qwen2-57B和Qwen2-72B。

以上開源模型的開源時間均早于本屆高考，發(fā)布時間最新的是InternLM專門在高考前夕推出的文曲星系列大模型，InternLM2-WQX。即便如此，其發(fā)布于6月4日的時間也滿足了閉卷考試的前提。唯一的例外是商用閉源模型GPT-4o，但其成績也僅僅是作為評測參考。

在閱卷評分上，OpenCompass請到了多位有閱卷經(jīng)驗的高中教師對主觀題答案進(jìn)行評分，每份考卷都由至少3位教師評閱取平均分，甚至對分差較大的題目進(jìn)行了二次審核。另外值得關(guān)注的是，為了保證閱卷老師在主客觀題上產(chǎn)生對大模型“先入為主”的觀念，OpenCompass在閱卷之后才告知閱卷老師答案由大模型生成，并對成績做一個整體分析。

AI大模型高考語數(shù)外得分 / 上海人工智能實驗室

從總分來看，阿里巴巴的通義千問大模型Qwen2-72B排名第一，其次是成績相近的GPT-4o和InternLM2-20B-WQX。然而單從數(shù)學(xué)這一門科目來看，所有的大模型都沒有及格，Mixtral 8x22B甚至只獲得了21分的成績。

語言能力依然是LLM的強(qiáng)項，但“應(yīng)試”能力仍有提升空間

在這次“高考測試”中，不少大模型都在語文和英語上獲得了不錯的成績，尤其是在英語試卷上，GPT-4o更是在英語上獲得了111.5的高分。在語文上，還是國內(nèi)的模型更具優(yōu)勢，尤其是在文言文閱讀、古詩文閱讀和名句默寫上。

有趣的一點是，在語文作文上，各大模型都沒有拉開較大差距。但據(jù)上海人工智能實驗室的觀察，大模型的作文都傾向于將“首先”“其次”和“然后”這樣表達(dá)先后順序的詞放在段首。此外，目前多數(shù)大模型都沒有對一些“應(yīng)試”類題型做出優(yōu)化，比如在語文考試中，閱讀理解中的一些本體、喻體、暗喻等概念，大模型尚不能完全理解，所以在語言文字運用題型上，比如補(bǔ)寫句子等題目就普遍得分不高。

而在英語考試中，盡管各大模型整體表現(xiàn)良好，但部分模型并不適應(yīng)完形填空、七選五這樣非傳統(tǒng)問答式的題型，會出現(xiàn)答案錯位的情況，因此得分率依然處于一個較低的水平。

在英語續(xù)寫和作文的撰寫上，大模型都存在忽略題目要求的現(xiàn)象，普遍出現(xiàn)了超出字?jǐn)?shù)限制而扣分的情況，且單段文字過長。在故事續(xù)寫這樣的題型中，部分大模型也會展開不合實際的聯(lián)想，比如InternLM2-20B-WQX的作答中，就出現(xiàn)了出租車內(nèi)司機(jī)撥通銀行內(nèi)線電話的離譜情節(jié)。

數(shù)學(xué)不及格，主觀問答題成為最大短板

AI大模型數(shù)學(xué)各題型得分 / 上海人工智能實驗室

相較語言能力測試成績，AI大模型在數(shù)學(xué)能力測試上獲得的成績就顯得不盡如人意了。最高分為InternLM2-20B-WQX取得的75分，可以說在數(shù)學(xué)這門學(xué)科上，幾乎所有的大模型都敗下陣來。全國新課標(biāo)I卷的數(shù)學(xué)試卷中存在兩道帶圖題，對于不支持多模態(tài)輸入的大模型而言，只能選擇輸入題干文字從而將圖片舍棄，這也是失分嚴(yán)重的原因之一。

Qwen2-72B的帶圖題答案 / 上海人工智能實驗室

以上圖中的帶圖題答案為例，大模型僅僅給出了一個解題框架，并沒有給出具體數(shù)值的答案。GPT-4o和InternLM2-20B-WQX等大模型雖然給出了具體答案和解題過程，但最終得到的是一個錯誤的答案。

之所以InternLM2-20B-WQX能在數(shù)學(xué)考試上獲得相對較高的成績，也歸功于其團(tuán)隊在數(shù)學(xué)大模型上的積累。今年年初InternLM發(fā)布了數(shù)學(xué)模型書生·浦語數(shù)學(xué)（InternLM2-Math）。書生·浦語數(shù)學(xué)也是首個同時支持形式化數(shù)學(xué)語言以及解題過程評價的開源模型，如此一來不僅可以用于數(shù)學(xué)計算解答，也可以用于數(shù)學(xué)基礎(chǔ)研究和教學(xué)。

盡管如此，在數(shù)學(xué)考試的問答主觀題上，大模型依然成績慘淡。這是因為大模型的回答多數(shù)比較凌亂，也出現(xiàn)了不少常見的錯誤解答但答案正確的現(xiàn)象。所以在77分滿分的問答題上，最高的InternLM2-20B-WQX也只僅僅得了26分。

AI大模型是不合格的考生嗎？

根據(jù)閱卷老師的點評來看，AI大模型依然還是一個比較“死板”的考生，尤其是在主觀題上。以語文的主觀題為例，很多大模型在第一步審題就失敗了，所以答非所問。在英語題目上，大模型的實力還是毋庸置疑的，但還是會在題型和作文中出現(xiàn)紕漏。

至于數(shù)學(xué)依然是所有大模型的弱項，大模型更像是記住了公式但不會運用的學(xué)生，在大部分題目上更傾向于窮舉而非推理。至于帶圖的立體幾何解答題，大模型更是缺乏空間概念，導(dǎo)致出現(xiàn)離譜的解答過程和答案。由此看來，大模型的“應(yīng)試”能力依然有所欠缺，但在飛速迭代下，相信未來這種障礙會越來越少。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
31276

瀏覽量
269637
AI大模型

AI大模型

+關(guān)注

關(guān)注
0

文章
318

瀏覽量
332

AN84-線性技術(shù)雜志電路集，第一卷第四集

電子發(fā)燒友網(wǎng)站提供《AN84-線性技術(shù)雜志電路集，第一卷第四集.pdf》資料免費下載

發(fā)表于 01-09 14:21 ?0次下載

AN84-線性技術(shù)雜志電路集，第<b class='flag-5'>一卷</b>第四集

中興通訊榮獲第七屆“綻放杯”全國一等獎

在近期落幕的第七屆“綻放杯”5G應(yīng)用征集大賽全國總決賽中，由中興通訊、常州移動與微億智造聯(lián)合打造的《打造超級虛擬工廠：5G+多維工業(yè)AI模型》項目榮獲全國一等獎。

發(fā)表于 01-07 17:12 ?295次閱讀

Kimi發(fā)布新一代數(shù)學(xué)推理模型k0-math

近日，Kimi正式推出了其新一代數(shù)學(xué)推理模型k0-math。據(jù)基準(zhǔn)測試顯示，該模型的數(shù)學(xué)能力可與全球領(lǐng)先的OpenAI o1系列中的o1-mini和o1-preview

發(fā)表于 11-18 11:38 ?495次閱讀

ai大模型和傳統(tǒng)ai的區(qū)別在哪？

的BERT模型使用了33億個參數(shù)，而傳統(tǒng)AI模型通常只有幾千到幾百萬個參數(shù)。模型復(fù)雜度 AI大模型

發(fā)表于 07-16 10:06 ?1474次閱讀

兆瀚AI×考試丨百萬份高考答卷如何“秒級”評閱？兆瀚AI服務(wù)器來解答！

2024年全國高考順利落下帷幕，在這青春的“戰(zhàn)場”上，全國1342萬學(xué)子以筆為劍，奮力作答、勇毅逐夢。圖源：本圖由AI生成然而高考的結(jié)束并不

發(fā)表于 07-16 08:14 ?264次閱讀

數(shù)學(xué)建模神經(jīng)網(wǎng)絡(luò)模型的優(yōu)缺點有哪些

數(shù)學(xué)建模神經(jīng)網(wǎng)絡(luò)模型是一種基于人工神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)建模方法，它通過模擬人腦神經(jīng)元的連接和信息傳遞機(jī)制，對復(fù)雜系統(tǒng)進(jìn)行建模和分析。神經(jīng)網(wǎng)絡(luò)模型在

發(fā)表于 07-02 11:36 ?957次閱讀

AI護(hù)航高考！拓維海云天圓滿完成2024高考評卷技術(shù)服務(wù)

近日，2024年全國高考評卷工作在安全、平穩(wěn)、有序中陸續(xù)落下帷幕。拓維海云天連續(xù)第23年為高考提供網(wǎng)上評卷技術(shù)服務(wù),服務(wù)范圍覆蓋全國18個?。▍^(qū)、市），包括吉林、黑龍江、江西、貴州、甘

發(fā)表于 06-29 08:14 ?430次閱讀

當(dāng)AI與數(shù)學(xué)同時走下神壇

2024年4月13日，一場特別的考試開考。數(shù)萬名分散在全球各地的數(shù)學(xué)高手，在這一天早上8點打開了阿里巴巴全球數(shù)學(xué)競賽預(yù)賽的試卷，他們有48小

發(fā)表于 06-23 08:05 ?111次閱讀

高考志愿服務(wù)，一張AI搜索的現(xiàn)實考卷

AI搜索為高考助攻，該如何答好“志愿填報服務(wù)”這張考卷？

發(fā)表于 06-20 09:20 ?2041次閱讀

AI應(yīng)用加速海南高考首次采用AI智能巡考

據(jù)海南省考試局公布的消息顯示，海南今年為高考做足準(zhǔn)備，海南省為確保高考公平公正，將在考場試點采用AI智能巡考，運用人工智能技術(shù)及時發(fā)現(xiàn)和預(yù)警違規(guī)違紀(jì)行為。這項新的輔助舉措在技術(shù)層面進(jìn)

發(fā)表于 06-04 11:55 ?802次閱讀

STM CUBE AI錯誤導(dǎo)入onnx模型報錯的原因？

使用cube-AI分析模型時報錯，該模型是pytorch的cnn轉(zhuǎn)化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.

發(fā)表于 05-27 07:15

三相SVPWM電壓型逆變器的數(shù)學(xué)模型

通過前面得出的dq坐標(biāo)系下的數(shù)學(xué)模型，進(jìn)一步可以得到dq坐標(biāo)系下的變壓器模型。通過這種模型可以幫助我們更好的去理解dq坐標(biāo)系下的數(shù)學(xué)模型。

發(fā)表于 04-06 04:27 ?3480次閱讀

防止AI大模型被黑客病毒入侵控制（原創(chuàng)）聆思大模型AI開發(fā)套件評測4

在訓(xùn)練一只聰明的AI小動物解決實際問題，通過構(gòu)建神經(jīng)網(wǎng)絡(luò)模型并進(jìn)行推理，讓電腦也能像人一樣根據(jù)輸入信息做出決策。在上述示例中，我創(chuàng)建了一個

發(fā)表于 03-19 11:18

AI大模型遠(yuǎn)程控制啟動車輛（原創(chuàng)）

AI大模型

還沒吃飯
發(fā)布于 :2024年03月18日 15:18:29

使用cube-AI分析模型時報錯的原因有哪些？

使用cube-AI分析模型時報錯，該模型是pytorch的cnn轉(zhuǎn)化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.

發(fā)表于 03-14 07:09