隨著ChatGPT等AIGC應(yīng)用掀起大模型浪潮,算力層作為基礎(chǔ)設(shè)施,成為最先受益的產(chǎn)業(yè)。
然而,算力需求大、費(fèi)用昂貴等問題,已成為企業(yè)落地大模型的普通痛點(diǎn),更可能制約AI向前發(fā)展:大模型參數(shù)日益增長(zhǎng),而算力供給瓶頸迫在眉睫,二者形成巨大矛盾。
如何探索更好的大模型算力方案,是業(yè)界共同關(guān)注的焦點(diǎn)。
近日,全球權(quán)威測(cè)評(píng)MLPerf 公布最新推理測(cè)評(píng)結(jié)果,這是MLPerf首度引入GPT大模型推理測(cè)試,參與熱度再創(chuàng)紀(jì)錄,收到了來自英偉達(dá)、英特爾、谷歌、高通等企業(yè)提交的13500 多項(xiàng)性能結(jié)果。
在MLPerf Inference 3.1中,墨芯人工智能(Moffet AI)S30計(jì)算卡在大模型GPT-J(60億參數(shù))上,單卡、4卡、8卡的算力均獲得第一。
這是墨芯在MLPerf上連續(xù)第三次衛(wèi)冕。此前墨芯曾在MLPerf Inference 2.0與2.1上,連續(xù)兩屆獲得第一。
墨芯的成績(jī),為大模型算力方案帶來了可行的創(chuàng)新方向。
事實(shí)證明:結(jié)合AI模型與計(jì)算平臺(tái)的軟硬協(xié)同創(chuàng)新,能夠釋放更大的算力潛力。這也再度印證:以稀疏計(jì)算為代表的創(chuàng)新技術(shù),將是大模型時(shí)代算力發(fā)展的關(guān)鍵。
墨芯參加的是MLPerf開放分區(qū),據(jù)主辦方MLCommons介紹,該分區(qū)旨在鼓勵(lì)創(chuàng)新。因此參賽者可以通過軟硬協(xié)同等方式,探索對(duì)算力的提升。在MLPerf中的GPT-J大模型上,與4nm制程的H100純硬件加速方案相比,12nm制程的墨芯S30計(jì)算卡通過“原創(chuàng)的雙稀疏算法+硬件協(xié)同”方式,取得了高達(dá)1.8倍的優(yōu)勢(shì)。
本次測(cè)評(píng)的GPT-J模型是生成式AI模型,墨芯S30計(jì)算卡在8卡、4卡、單卡模式下,性能分別為170.59,91.57,23.28 (Sample/s),達(dá)到英偉達(dá)H100性能的1.6倍、1.8倍、1.8倍,展現(xiàn)出墨芯產(chǎn)品在AIGC類任務(wù)上的能力。
三度奪冠,大模型算力率先“交卷”,軟硬協(xié)同持續(xù)創(chuàng)新——墨芯的產(chǎn)品實(shí)力數(shù)次經(jīng)過MLPerf的嚴(yán)格檢驗(yàn),也探索出大模型算力發(fā)展的新路徑。
1
稀疏計(jì)算——大模型“潛力股”
獲得市場(chǎng)認(rèn)可
墨芯接連的優(yōu)異成績(jī),主要得益于基于稀疏化算法的軟硬協(xié)同設(shè)計(jì)。
在大模型時(shí)代,稀疏計(jì)算的重要性不言而喻:AI模型大小與其稀疏化潛力成正比。
也就是說,當(dāng)模型越大,算法上有更大稀疏的可能性,稀疏計(jì)算可加速的幅度也越高。對(duì)于一般大型語言模型,稀疏計(jì)算可帶來數(shù)十倍加速。
墨芯獨(dú)創(chuàng)的雙稀疏算法,結(jié)合軟硬協(xié)同設(shè)計(jì),使墨芯Antoum芯片成為全球首款高稀疏倍率AI芯片,支持高達(dá)32倍稀疏——這也正是墨芯在本次MLPerf中創(chuàng)新紀(jì)錄的關(guān)鍵。
模型越大,稀疏計(jì)算的優(yōu)勢(shì)越明顯——尤其是在GPT等大模型參數(shù)動(dòng)輒上百億、千億的現(xiàn)狀下,這使得墨芯的護(hù)城河更為穩(wěn)固。
墨芯的產(chǎn)品實(shí)力與稀疏計(jì)算的大勢(shì)所趨,也獲得了市場(chǎng)的認(rèn)可:墨芯商業(yè)化進(jìn)程接連取得重要突破,助力企業(yè)加速AI應(yīng)用。
就在近日,墨芯成為支持Byte MLPerf的供應(yīng)商之一。
來源:Byte MLPerf網(wǎng)站
當(dāng)前,墨芯AI計(jì)算平臺(tái)已能夠支持不同參數(shù)級(jí)別的大模型,包括 BLOOM, OPT, GPT-J,LLaMA,StableDiffusion等。同時(shí)具有高吞吐、低延時(shí)、低功耗等特點(diǎn),緩解算力之困,真正為企業(yè)帶來“好用”、“用得起”的大模型算力方案。
2
帶來根本性的算力變革
稀疏計(jì)算助力大模型發(fā)展
墨芯的稀疏計(jì)算方案不僅能夠緩解當(dāng)前的算力難題,也為AI的持續(xù)發(fā)展打開新的空間。
稀疏計(jì)算減少了AI模型的計(jì)算量,這意味著能讓大模型既在參數(shù)量上躍升若干個(gè)數(shù)量級(jí)的同時(shí),又不產(chǎn)生過大的計(jì)算量,大模型參數(shù)增長(zhǎng)與算力瓶頸的矛盾有望從根本上得到解決。
同時(shí),由于計(jì)算量的減少,大模型的高算力需求、高功耗、高費(fèi)用等痛點(diǎn),也一并得到解決,實(shí)現(xiàn)“多贏”效果。
墨芯Antoum芯片:全球首款高稀疏倍率AI芯片,支持高達(dá)32倍稀疏
連續(xù)三屆MLPerf的優(yōu)異成績(jī),不僅是對(duì)墨芯產(chǎn)品實(shí)力的證明,也為業(yè)界帶來新啟示:在稀疏計(jì)算等技術(shù)的助力下,大模型的發(fā)展與應(yīng)用有望迎來更廣闊的施展空間,加速AIGC等應(yīng)用在各行各業(yè)遍地開花。
審核編輯:劉清
-
GPT
+關(guān)注
關(guān)注
0文章
354瀏覽量
15380 -
AI芯片
+關(guān)注
關(guān)注
17文章
1887瀏覽量
35028 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1561瀏覽量
7683
原文標(biāo)題:MLPerf首次GPT大模型推理放榜,墨芯連續(xù)三屆登頂
文章出處:【微信號(hào):墨芯人工智能,微信公眾號(hào):墨芯人工智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論