0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI推理CPU當?shù)?,Arm驅(qū)動高效引擎

花茶晶晶 ? 來源:電子發(fā)燒友 ? 作者:黃晶晶 ? 2024-11-13 14:34 ? 次閱讀

AI的訓(xùn)練和推理共同鑄就了其無與倫比的處理能力。在AI訓(xùn)練方面,GPU因其出色的并行計算能力贏得了業(yè)界的青睞,成為了當前AI大模型最熱門的芯片;而在 AI 推理方面,具備卓越通用性和靈活性的CPU本應(yīng)發(fā)揮關(guān)鍵作用,但其重要性卻常常被忽視。

“對于那些希望將大語言模型(LLM)集成到產(chǎn)品和服務(wù)中的企業(yè)和開發(fā)者來說,CPU 通常是首選”。Arm 中國區(qū)業(yè)務(wù)全球副總裁鄒挺在接受采訪時表示。為了適應(yīng)AI推理的應(yīng)用落地,CPU有針對性的優(yōu)化必不可少,Arm Neoverse平臺通過增加如SVE2指令集使得AI 推理具有更好的性能和效率。

wKgZoWc0SKeAXZrNAAChYI9hOdg816.jpg
Arm中國區(qū)業(yè)務(wù)全球副總裁 鄒挺



CPU對于AI推理的重要性

CPU長期以來廣泛應(yīng)用于傳統(tǒng)的AI和機器學(xué)習(xí)任務(wù),其通用性和靈活性使其在部署AI推理時更具優(yōu)勢。鄒挺表示,在AI場景落地初期,專用AI處理器的開發(fā)周期較長,因此,高能效CPU 自然成為了推理的核心;隨著 AI 技術(shù)的深入發(fā)展和應(yīng)用場景的多樣化,定制化專用 AI 加速器應(yīng)運而生。在這一過程中,高能效的CPU不僅作為核心控制單元,還與 GPU、NPU、FPGAASIC 等異構(gòu)單元協(xié)同工作,管理和調(diào)度系統(tǒng)資源,成為AI推理的“靈魂捕手”。

相比于單純依賴 GPU 的高成本和高功耗,CPU在推理過程中具有更高的能效比。CPU 的設(shè)計更適合處理多任務(wù)負載,并且無需復(fù)雜的冷卻和電力解決方案。這使得CPU在大規(guī)模部署中能夠以更低的成本運行,特別是在資源受限的環(huán)境中,其低功耗的特性尤為顯著。這對于那些需要長期、穩(wěn)定運行的 AI 應(yīng)用來說,是一個可持續(xù)且經(jīng)濟高效的選擇。

Arm Neoverse平臺集成SVE2技術(shù),對AI計算至關(guān)重要

Arm Neoverse CPU在 AI 推理中展現(xiàn)了其獨特優(yōu)勢,這一點要從其技術(shù)底層開始剖析。

鄒挺分析,Armv9架構(gòu)已經(jīng)引入 Arm Neoverse 平臺,在Armv9架構(gòu)中Arm 集成SVE2(可擴展向量擴展)指令集。SVE2 作為一種可擴展的向量處理技術(shù),允許處理器同時執(zhí)行多個數(shù)據(jù)元素操作,從而提供了更高效的向量計算和AI 硬件加速。

SVE2 在AI推理中的一個關(guān)鍵應(yīng)用是矩陣運算。矩陣乘法是許多AI任務(wù)中的常見計算,而 SVE2 向量指令可以同時處理多個數(shù)據(jù)元素,使矩陣乘法能夠以向量化的方式進行,從而提高了計算效率。

例如,SVE2 中的 FMMLA 指令可以實現(xiàn) FP32 格式下的矩陣乘法,BFMMLA 指令能夠在 BF16 格式下進行高效運算,而 UMMLA、SMMLA 等指令則優(yōu)化了 INT8 格式下的矩陣運算。通過這些指令和硬件加速功能,AI 推理在Arm架構(gòu)上能夠?qū)崿F(xiàn)更高效的矩陣運算和更優(yōu)的能效比。

這種技術(shù)不僅提升了 AI 推理中矢量運算的效率,尤其是在深度學(xué)習(xí)和自然語言處理(NLP)等核心任務(wù)上,加快了推理速度,并在能效表現(xiàn)上進行了優(yōu)化。通過 SVE2 的支持,Arm Neoverse CPU 可以在邊緣計算和資源受限的環(huán)境中高效運行,從而減少對 GPU 和其他硬件資源的依賴。

基于Arm NeoverseCPU顯著提升推理性能

亞馬遜云服務(wù)(AWS)、微軟、Google和甲骨文 (Oracle) 等全球最大的 AI 頭部云服務(wù)提供商們都通過 Arm Neoverse 進行通用計算和基于 CPU 的 AI 推理與訓(xùn)練。Arm Neoverse 不僅為這些頭部云服務(wù)商提供了定制芯片的靈活性,還優(yōu)化了嚴苛的工作負載,確保在每瓦功率的使用上實現(xiàn)更高的計算效率。

例如,基于Arm架構(gòu)的AWS Graviton,與其他同行業(yè)產(chǎn)品相比,Amazon Sagemaker 的 AI 推理性能提高了 25%,Web 應(yīng)用程序提高了 30%,數(shù)據(jù)庫提高了 40%,效率則提升了 60%。基于 Arm 架構(gòu)的 Google Cloud Axion,與傳統(tǒng)架構(gòu)相比,其性能和能效分別提高了 50% 和 60%,可為基于 CPU 的 AI 推理和訓(xùn)練、YouTube、Google 地球等服務(wù)提供支持。

基于 Arm Neoverse N2 架構(gòu)的阿里云倚天 710,在運行 Llama 3 和 Qwen1.5 等業(yè)內(nèi)標準大語言模型時展現(xiàn)了極高的靈活性和擴展性。通過與 Arm 軟件團隊的緊密合作,阿里云對 llama.cpp 中的 int4 和 int8 GEMM 內(nèi)核進行了優(yōu)化,特別是利用了 SMMLA 指令來提高計算效率。在 ecs.g8y.16xlarge 實例上(配置64個 vCPU 和 256GB 內(nèi)存),多次實驗結(jié)果顯示,每秒處理的詞元數(shù)量增加了 2.7 倍。此外,詞元生成的吞吐量在處理更大批次數(shù)據(jù)時最多提高了 1.9 倍。詞元生成的延遲對于交互式 LLM 部署非常關(guān)鍵。實驗表明,阿里云倚天 710 在單次操作和批量處理場景下均能保持 100 毫秒以內(nèi)的延遲目標,這符合人們每秒 5-10 個單詞的典型閱讀速度。因此,這一架構(gòu)非常適合常規(guī)體量的 LLM 部署。

與其他服務(wù)器 CPU 的對比中,阿里云倚天 710 的優(yōu)勢顯著。在與 Intel Icelake 和 Sapphire Rapids 的對比中,倚天 710 在提示詞處理性能上提升了 3.2 倍,詞元生成性能則提升了 2.2 倍。這表明,倚天 710 不僅在處理性能上有明顯優(yōu)勢,其成本效益也極具吸引力,成為了 LLM 推理應(yīng)用中的理想選擇。

小模型的推理優(yōu)化

越來越多的企業(yè)將開發(fā)重心轉(zhuǎn)向小語言模型(Small Language Models, SLM)或小型 LLM,小模型尤其是在處理對話、翻譯、摘要、分類等任務(wù)時,效率更高且耗能更少。與需要高昂的基礎(chǔ)設(shè)施成本和復(fù)雜漫長的開發(fā)部署周期的大語言模型相比,這些模型在訓(xùn)練過程中消耗的電力也相對較低,適合更靈活、可定制的應(yīng)用場景。

鄒挺分析,在提升模型效率方面,量化技術(shù)是一個重要的優(yōu)化手段。通過將神經(jīng)網(wǎng)絡(luò)的權(quán)重降低到更低的精度,量化技術(shù)顯著減少了模型的內(nèi)存和計算需求。比如,將16位浮點數(shù)壓縮為4位整數(shù),可以大幅降低內(nèi)存占用和計算成本,同時對精度的影響微乎其微。

以 Llama 2 模型為例,原本擁有 70 億參數(shù)的模型在量化后,從 13.5 GB 縮減至 3.9 GB;130 億參數(shù)的版本從 26.1 GB 縮減至7.3 GB;而700 億參數(shù)模型則從 138 GB 減少至 40.7 GB。這些優(yōu)化顯著提升了模型的運行速度,同時降低了在 CPU 上運行的成本。

結(jié)合高效的 Arm CPU 技術(shù),這些優(yōu)化讓輕量級模型可以直接在移動設(shè)備上運行,不僅提升了性能,還實現(xiàn)了數(shù)據(jù)隱私保護和用戶體驗的優(yōu)化。

他進一步表示,在針對 FunASR 語音識別模型的優(yōu)化方面,Arm 充分利用了Armv9 架構(gòu)中的 SVE2 指令、BF16 數(shù)據(jù)類型等特性,并引入了動態(tài)量化技術(shù),使得 FunASR 模型在 Arm Neoverse 服務(wù)器上實現(xiàn)了高效運行。FunASR 是阿里巴巴達摩院開發(fā)的開源大模型,基于 Paraformer 架構(gòu),具備語音識別、語音端點檢測、標點恢復(fù)、語言模型、說話人驗證和分離等多種功能。

SVE2 指令集在Arm架構(gòu)處理器中,對 INT8 數(shù)據(jù)的并行處理非常高效,一次指令周期可以完成 16 個 INT8 的乘累加操作。因此,在對模型執(zhí)行效率有更高要求的場景下,可以采用 INT8 動態(tài)量化來提升效率。此外,INT8 和 BF16 的數(shù)據(jù)格式組合也進一步優(yōu)化了模型計算效率,在保持精度的前提下,實現(xiàn)了 1. 5 倍的效率提升。這樣的優(yōu)化確保了 FunASR 等大模型在 Arm 架構(gòu)上的高效運行,使其能夠在特定領(lǐng)域 AI 應(yīng)用中發(fā)揮重要作用。

不斷優(yōu)化AI推理的性能與能耗

當前全球數(shù)據(jù)中心每年消耗約460太瓦時的電力,隨著AI技術(shù)和應(yīng)用的快速發(fā)展,這一數(shù)字預(yù)計在2030年將增長至當前的三倍。目前,數(shù)據(jù)中心中約有85%的AI負載用于推理任務(wù),這些任務(wù)涵蓋了眾多應(yīng)用和設(shè)備。

Arm Neoverse的架構(gòu)不僅提升了云端計算的性能和能效,還為大規(guī)模云服務(wù)提供商和數(shù)據(jù)中心優(yōu)化了TCO。例如,基于Arm Neoverse 平臺的 AWS Graviton3 在AI推理過程中節(jié)約了50%的成本。

據(jù)悉,Arm在Neoverse的產(chǎn)品線目前有V、N、E三個平臺系列,其中Neoverse V與Neoverse N又進一步推出計算子系統(tǒng)CSS產(chǎn)品,為想快速推出產(chǎn)品,掌握人工智能機遇的合作伙伴,縮減產(chǎn)品開發(fā)時間,加速產(chǎn)品上市進程。

迄今為止,合作伙伴基于Arm架構(gòu)的芯片出貨量已達到 3,000 億顆,這一龐大的市場基礎(chǔ)使Arm能夠支持各種AI 技術(shù)領(lǐng)域的發(fā)展,并成為推動AI創(chuàng)新的重要平臺。AI 推理正從集中在云端擴展到更多的邊緣應(yīng)用,以實現(xiàn)更廣泛的覆蓋和更高效的響應(yīng)。

鄒挺說道: “從移動設(shè)備到 AI 領(lǐng)域,高性能和出色能效始終是Arm的DNA。Arm 將繼續(xù)推動 AI 的技術(shù)變革,帶來更高效、更可持續(xù)的計算解決方案,確保我們的技術(shù)能夠支持合作伙伴在 AI 時代的多樣化需求,同時推動 AI 技術(shù)在更多領(lǐng)域的廣泛落地和普及?!?br />

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    134

    文章

    9091

    瀏覽量

    367512
收藏 人收藏

    評論

    相關(guān)推薦

    Arm成功將Arm KleidiAI軟件庫集成到騰訊自研的Angel 機器學(xué)習(xí)框架

    、更高效AI 性能,顯著提升應(yīng)用功能和用戶體驗,并加速未來 CPU 架構(gòu)的創(chuàng)新與集成。 在 Arm Tech Symposia 深圳年度技術(shù)盛會上,
    的頭像 發(fā)表于 11-24 15:33 ?681次閱讀

    CPU推理AI算力配置新范式

    在當前的人工智能領(lǐng)域,尤其是涉及到深度學(xué)習(xí)的推理階段,行業(yè)普遍認為GPU是唯一的選擇。然而,GPU的成本相對較高,且對于某些特定的應(yīng)用場景,其高昂的價格和較高的能耗成為了一大負擔。相比之下,CPU
    的頭像 發(fā)表于 11-21 01:03 ?234次閱讀
    <b class='flag-5'>CPU</b><b class='flag-5'>推理</b>:<b class='flag-5'>AI</b>算力配置新范式

    高效大模型的推理綜述

    大模型由于其在各種任務(wù)中的出色表現(xiàn)而引起了廣泛的關(guān)注。然而,大模型推理的大量計算和內(nèi)存需求對其在資源受限場景的部署提出了挑戰(zhàn)。業(yè)內(nèi)一直在努力開發(fā)旨在提高大模型推理效率的技術(shù)。本文對現(xiàn)有的關(guān)于高效
    的頭像 發(fā)表于 11-15 11:45 ?373次閱讀
    <b class='flag-5'>高效</b>大模型的<b class='flag-5'>推理</b>綜述

    NVIDIA助力麗蟾科技打造AI訓(xùn)練與推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,為企業(yè)和科研機構(gòu)提供了一套高效、靈活的 AI 訓(xùn)練與推理加速解決方案。無論是在復(fù)雜的
    的頭像 發(fā)表于 10-27 10:03 ?216次閱讀
    NVIDIA助力麗蟾科技打造<b class='flag-5'>AI</b>訓(xùn)練與<b class='flag-5'>推理</b>加速解決方案

    李開復(fù):中國擅長打造經(jīng)濟實惠的AI推理引擎

    10月22日上午,零一萬物公司的創(chuàng)始人兼首席執(zhí)行官李開復(fù)在與外媒的交流中透露,其公司旗下的Yi-Lightning(閃電模型)在推理成本上已實現(xiàn)了顯著優(yōu)勢,比OpenAI的GPT-4o模型低了31倍。他強調(diào),中國擅長打造經(jīng)濟實惠的AI
    的頭像 發(fā)表于 10-22 16:54 ?357次閱讀

    澎峰科技高性能大模型推理引擎PerfXLM解析

    模型的高性能推理框架,并受到廣泛關(guān)注。在歷經(jīng)數(shù)月的迭代開發(fā)后,澎峰科技重磅發(fā)布升級版本,推出全新的高性能大模型推理引擎:PerfXLM。
    的頭像 發(fā)表于 09-29 10:14 ?476次閱讀
    澎峰科技高性能大模型<b class='flag-5'>推理</b><b class='flag-5'>引擎</b>PerfXLM解析

    OpenAI開啟推理算力新Scaling Law,AI PC和CPU的機會來了

    從大模型應(yīng)用的角度看,知識檢索和AI推理將不再涇渭分明,而是深度交織、彼此強化。在這樣一個智能融合的未來圖景中,CPU作為連接存儲、網(wǎng)絡(luò)和各類加速器的紐帶,其地位將變得舉足輕重。
    的頭像 發(fā)表于 09-27 16:20 ?615次閱讀
    OpenAI開啟<b class='flag-5'>推理</b>算力新Scaling Law,<b class='flag-5'>AI</b> PC和<b class='flag-5'>CPU</b>的機會來了

    AMD助力HyperAccel開發(fā)全新AI推理服務(wù)器

    提高成本效率。HyperAccel 針對新興的生成式 AI 應(yīng)用提供超級加速的芯片 IP/解決方案。HyperAccel 已經(jīng)打造出一個快速、高效且低成本的推理系統(tǒng),加速了基于轉(zhuǎn)換器的大型語言模型
    的頭像 發(fā)表于 09-18 09:37 ?364次閱讀
    AMD助力HyperAccel開發(fā)全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務(wù)器

    Arm CPU如何推動AI創(chuàng)新

    在 COMPUTEX 2024 展前,Arm 首席執(zhí)行官 Rene Haas 分享了公司將如何實現(xiàn)到 2025 年底讓超過 1,000 億臺基于 Arm 架構(gòu)設(shè)備可用于從云端到邊緣側(cè)的人工智能 (AI)。
    的頭像 發(fā)表于 09-14 09:49 ?429次閱讀

    基于Arm平臺的服務(wù)器CPU在LLM推理方面的能力

    部署任務(wù)的默認首選平臺。但在推理領(lǐng)域,除了 GPU 和加速器之外,還有其他可行的選擇。長期以來,CPU 一直被用于傳統(tǒng)的 AI 和機器學(xué)習(xí) (ML) 用例,由于 CPU 能夠處理廣泛多
    的頭像 發(fā)表于 09-02 10:39 ?428次閱讀
    基于<b class='flag-5'>Arm</b>平臺的服務(wù)器<b class='flag-5'>CPU</b>在LLM<b class='flag-5'>推理</b>方面的能力

    基于CPU的大型語言模型推理實驗

    隨著計算和數(shù)據(jù)處理變得越來越分散和復(fù)雜,AI 的重點正在從初始訓(xùn)練轉(zhuǎn)向更高效AI 推理。Meta 的 Llama3 是功能強大的公開可用的大型語言模型 (LLM)。本次測試采用開源
    的頭像 發(fā)表于 07-18 14:28 ?544次閱讀
    基于<b class='flag-5'>CPU</b>的大型語言模型<b class='flag-5'>推理</b>實驗

    英特爾助力京東云用CPU加速AI推理,以大模型構(gòu)建數(shù)智化供應(yīng)鏈

    英特爾助力京東云用CPU加速AI推理,以大模型構(gòu)建數(shù)智化供應(yīng)鏈
    的頭像 發(fā)表于 05-27 11:50 ?536次閱讀
    英特爾助力京東云用<b class='flag-5'>CPU</b>加速<b class='flag-5'>AI</b><b class='flag-5'>推理</b>,以大模型構(gòu)建數(shù)智化供應(yīng)鏈

    Arm推動生成式AI落地邊緣!全新Ethos-U85 AI加速器支持Transformer 架構(gòu),性能提升四倍

    電子發(fā)燒友網(wǎng)報道(文/黃晶晶)在嵌入式領(lǐng)域,邊緣與端側(cè)AI推理需求不斷增長,Arm既有Helium 技術(shù)使 CPU 能夠執(zhí)行更多計算密集型的 AI
    的頭像 發(fā)表于 04-16 09:10 ?4613次閱讀
    <b class='flag-5'>Arm</b>推動生成式<b class='flag-5'>AI</b>落地邊緣!全新Ethos-U85 <b class='flag-5'>AI</b>加速器支持Transformer 架構(gòu),性能提升四倍

    開發(fā)者手機 AI - 目標識別 demo

    Network Runtime 神經(jīng)網(wǎng)絡(luò)運行時,作為中間橋梁連通上層AI推理框架和底層加速芯片,實現(xiàn)AI模型的跨芯片推理計算。提供統(tǒng)一AI
    發(fā)表于 04-11 16:14

    Groq LPU崛起,AI芯片主戰(zhàn)場從訓(xùn)練轉(zhuǎn)向推理

    人工智能推理的重要性日益凸顯,高效運行端側(cè)大模型及AI軟件背后的核心技術(shù)正是推理。不久的未來,全球芯片制造商的主要市場將全面轉(zhuǎn)向人工智能推理
    的頭像 發(fā)表于 02-29 16:46 ?1172次閱讀