“基于第五代英特爾至強(qiáng)可擴(kuò)展處理器的寧暢B5000 G5多節(jié)點(diǎn)服務(wù)器,可以在滿(mǎn)足大量AI推理場(chǎng)景在吞吐量、時(shí)延、容量、并發(fā)能力等方面的需求,而且與專(zhuān)用的GPU服務(wù)器相比,在靈活性方面更具優(yōu)勢(shì)。我們希望能夠與英特爾進(jìn)行更加深度的合作,持續(xù)優(yōu)化該方案的AI推理性能,助力用戶(hù)加速擁抱大模型。”
“大模型已經(jīng)成為行業(yè)用戶(hù)進(jìn)行業(yè)務(wù)變革的重要驅(qū)動(dòng)力,這帶來(lái)了規(guī)模巨大且仍在快速提升的算力需求。英特爾提供了面向大模型應(yīng)用的全棧方案,第五代英特爾 至強(qiáng) 可擴(kuò)展處理器則憑借較高的性能與靈活性,非常適合運(yùn)行特定域?qū)S媚P突蜷L(zhǎng)尾模型。通過(guò)與寧暢合作,我們希望能夠滿(mǎn)足更多用戶(hù)對(duì)于大模型推理的性能需求,加速業(yè)務(wù)轉(zhuǎn)型?!?/p>
挑 戰(zhàn)
大語(yǔ)言模型等AI模型的快速發(fā)展凸顯了模型推理的算力瓶頸,給服務(wù)器帶來(lái)了多方面的挑戰(zhàn):
在性能層面,模型的規(guī)模不斷增長(zhǎng),對(duì)于算力的需求不斷提升。除了硬件層面的提升之外,通過(guò)將模型數(shù)據(jù)格式轉(zhuǎn)化為較低精度的數(shù)據(jù)、調(diào)用矢量神經(jīng)網(wǎng)絡(luò)指令(VNNI)等方式,也有助于提升模型的性能表現(xiàn)。
在靈活性層面,專(zhuān)用的AI推理服務(wù)器具有較高的性能表現(xiàn),但是在應(yīng)用場(chǎng)景方面有著較為嚴(yán)格的限制,無(wú)法高效、靈活地應(yīng)對(duì)多種工作負(fù)載的運(yùn)行需求。對(duì)于模型推理需求變化頻繁、規(guī)模相對(duì)較小的用戶(hù)而言,需要更加靈活的推理服務(wù)器,以在不同的工作負(fù)載間進(jìn)行靈活切換。
在成本方面,服務(wù)器的算力密度越高,就越有利于節(jié)約數(shù)據(jù)中心空間以及數(shù)據(jù)中心能耗、設(shè)備等方面的成本。同時(shí),通過(guò)優(yōu)化AI推理性能表現(xiàn),能夠進(jìn)一步節(jié)約成本。
解決方案概述
大語(yǔ)言模型(LLM)作為人工智能(AI)應(yīng)用的一個(gè)重要分支,可以處理多種自然語(yǔ)言任務(wù),如文本分類(lèi)、問(wèn)答、對(duì)話(huà)等,在互聯(lián)網(wǎng)、金融、醫(yī)療、教育等行業(yè)有著廣泛的應(yīng)用,并被普遍認(rèn)為是實(shí)現(xiàn)通用人工智能的重要方式。近年來(lái),大語(yǔ)言模型實(shí)現(xiàn)了“井噴”式的發(fā)展,在展現(xiàn)人工智能的革命性?xún)r(jià)值的同時(shí),也帶來(lái)了算力層面的巨大挑戰(zhàn)。統(tǒng)計(jì)數(shù)據(jù)顯示,從2017年到2022年,模型的規(guī)模增長(zhǎng)了15,000倍,典型的大模型參數(shù)規(guī)模已經(jīng)達(dá)到了千億甚至萬(wàn)億級(jí)別。當(dāng)大模型落地到實(shí)際場(chǎng)景之后,模型推理帶來(lái)了龐大的算力消耗,用戶(hù)需要應(yīng)對(duì)大模型推理所帶來(lái)的算力、總體擁有成本(TCO)、靈活性等挑戰(zhàn)。
寧暢B5000 G5多節(jié)點(diǎn)服務(wù)器作為高密度的服務(wù)器,能夠?yàn)榇笳Z(yǔ)言模型等AI應(yīng)用提供強(qiáng)大的算力支撐。寧暢B5000 G5多節(jié)點(diǎn)服務(wù)器實(shí)現(xiàn)了對(duì)于第五代英特爾 至強(qiáng) 可擴(kuò)展處理器的支持,能夠借助第五代英特爾 至強(qiáng) 可擴(kuò)展處理器的強(qiáng)大算力,以及處理器內(nèi)置的英特爾 高級(jí)矩陣擴(kuò)展(英特爾 AMX),實(shí)現(xiàn)大模型推理等AI應(yīng)用的加速,在靈活性方面較專(zhuān)用的AI服務(wù)器更具優(yōu)勢(shì)。此外,寧暢B5000 G5多節(jié)點(diǎn)服務(wù)器還能夠借助RDMA (Remote Direct Memory Access) 技術(shù)以及英特爾 以太網(wǎng)控制器E810,提供高速的跨節(jié)點(diǎn)通信。
寧暢B5000 G5多節(jié)點(diǎn)服務(wù)器
寧暢B5000 G5多節(jié)點(diǎn)服務(wù)器是一款基于英特爾 至強(qiáng) 可擴(kuò)展處理器自主開(kāi)發(fā)的高密度產(chǎn)品,在4U的空間可最大支持到8個(gè)雙路節(jié)點(diǎn),單節(jié)點(diǎn)已全面支持最新的第五代英特爾 至強(qiáng) 可擴(kuò)展處理器。整個(gè)服務(wù)器的8個(gè)雙路節(jié)點(diǎn)間互相獨(dú)立,互不干擾。B5000 G5多節(jié)點(diǎn)服務(wù)器可支持更多的計(jì)算核心,兼?zhèn)渥吭降挠?jì)算性能和靈活的IO擴(kuò)展能力。B5000 G5可實(shí)現(xiàn)數(shù)據(jù)中心的高密部署、提供強(qiáng)大計(jì)算性能,也可以滿(mǎn)足用戶(hù)業(yè)務(wù)多樣性與靈活性的需求。
該服務(wù)器具備如下優(yōu)勢(shì):
全新升級(jí)極致性能:支持第五代英特爾 至強(qiáng) 可擴(kuò)展處理器,計(jì)算性能強(qiáng)勁,總線(xiàn)帶寬高達(dá)16GT/s;支持DDR5 5600MHz內(nèi)存頻率,內(nèi)存帶寬相比較上一代提升50%;全面支持PCIe 5.0,傳輸速率提升100%。
多節(jié)點(diǎn)計(jì)算靈活配置:4U8節(jié)點(diǎn)高密度架構(gòu),支持8個(gè)雙路計(jì)算節(jié)點(diǎn);機(jī)箱模塊化設(shè)計(jì),配置交換和管理集管理模塊;整機(jī)最大支持4個(gè)NDR/HDR Multi Host模塊或8個(gè)HDR 200G直通模塊;單節(jié)點(diǎn)支持2個(gè)2.5寸硬盤(pán),兼容U.2 NVMe SSD。
多重監(jiān)控綠色節(jié)能:機(jī)箱搭配多級(jí)管理,包含統(tǒng)一的CMM管理和整機(jī)業(yè)務(wù)交換管理,整機(jī)管理支持前后維護(hù)模式,同時(shí)可完成整機(jī)所有節(jié)點(diǎn)IP的管理,實(shí)時(shí)監(jiān)控整機(jī)狀態(tài),提供關(guān)鍵部件健康狀態(tài)的監(jiān)控和上報(bào)功能,全面保障健康運(yùn)行;機(jī)箱采用模塊化設(shè)計(jì),貫徹綠色節(jié)能的設(shè)計(jì)理念,整機(jī)采用集中供電和散熱,搭載高效的智能調(diào)速策略,根據(jù)環(huán)境和整機(jī)工作負(fù)載實(shí)時(shí)調(diào)速,達(dá)到靜音運(yùn)行的效果。
采用第五代英特爾至強(qiáng)可擴(kuò)展處理器為AI推理提供強(qiáng)大算力支持
寧暢B5000 G5多節(jié)點(diǎn)服務(wù)器支持第五代英特爾 至強(qiáng) 可擴(kuò)展處理器,進(jìn)一步提升了算力密度,并提升了能效,能夠?yàn)橛?jì)算、存儲(chǔ)、網(wǎng)絡(luò)等多種類(lèi)型的應(yīng)用構(gòu)建強(qiáng)大的性能基礎(chǔ)。
第五代英特爾 至強(qiáng) 可擴(kuò)展處理器為拓展HPC與AI應(yīng)用提供了強(qiáng)大的性能基礎(chǔ)。新一代處理器擁有更可靠的性能,更出色的能效。它在運(yùn)行各種工作負(fù)載時(shí)均可實(shí)現(xiàn)顯著的每瓦性能增益,在AI、數(shù)據(jù)中心、網(wǎng)絡(luò)和科學(xué)計(jì)算的性能和總體擁有成本(TCO)方面亦有更出色的表現(xiàn)。相較上一代產(chǎn)品,第五代英特爾 至強(qiáng)可擴(kuò)展處理器可在相同功耗范圍內(nèi)提供更高的算力和更快的內(nèi)存。此外,它與一代產(chǎn)品的軟件和平臺(tái)兼容,因此部署新系統(tǒng)時(shí)可大大減少測(cè)試和驗(yàn)證工作。
圖2. 第五代英特爾 至強(qiáng) 可擴(kuò)展處理器具備更強(qiáng)大性能
除了利用第五代英特爾 至強(qiáng) 可擴(kuò)展處理器帶來(lái)的基礎(chǔ)性能的提升之外,寧暢B5000 G5多節(jié)點(diǎn)服務(wù)器還重點(diǎn)利用了處理器提供的AI加速能力。
該處理器內(nèi)置了創(chuàng)新的英特爾 AMX加速引擎。英特爾 AMX針對(duì)廣泛的硬件和軟件優(yōu)化,它進(jìn)一步增強(qiáng)了前代技術(shù) — 矢量神經(jīng)網(wǎng)絡(luò)指令(VNNI)和BF16,從一維向量發(fā)展為二維矩陣,以便最大限度地利用計(jì)算資源,提高高速緩存利用率,以及避免潛在的帶寬瓶頸,顯著增加了人工智能應(yīng)用程序的每時(shí)鐘指令數(shù)(IPC),可為AI工作負(fù)載中的訓(xùn)練和推理提供性能提升,可對(duì)參數(shù)量多達(dá)200億的模型進(jìn)行推理和調(diào)優(yōu)10。
為了進(jìn)一步增強(qiáng)AI推理性能表現(xiàn),寧暢B5000 G5多節(jié)點(diǎn)服務(wù)器還能夠英特爾 以太網(wǎng)控制器E810中的RDMA (Remote Direct Memory Access) 功能,降低網(wǎng)路數(shù)據(jù)傳輸過(guò)程中的時(shí)延,提供高速的跨節(jié)點(diǎn)通信,化解大規(guī)模AI推理任務(wù)在集群通信中的網(wǎng)絡(luò)瓶頸。
寧暢測(cè)試了基于第五代英特爾 至強(qiáng) 可擴(kuò)展處理器的B5000 G5多節(jié)點(diǎn)服務(wù)器在多種AI推理工作負(fù)載中的性能表現(xiàn)。
大語(yǔ)言模型 (LLM):高密度、多并發(fā)、支持高達(dá)70B
LLaMa2是Meta發(fā)布的免費(fèi)可商用版本的大模型,LLaMa2模型系列包含70億、130億和700億三種參數(shù)變體。LLaMa2相比第一代在預(yù)訓(xùn)練語(yǔ)料庫(kù)大小上增加了40%,LLaMa2接受了2萬(wàn)億個(gè)Token的訓(xùn)練,精調(diào)Chat模型在100萬(wàn)人類(lèi)標(biāo)記數(shù)據(jù)上訓(xùn)練,上下文長(zhǎng)度是第一代的兩倍,并采用了分組查詢(xún)注意力機(jī)制等優(yōu)化結(jié)構(gòu)。
第四代/第五代英特爾 至強(qiáng) 可擴(kuò)展處理器的代際時(shí)延數(shù)據(jù)對(duì)比如圖3所示,在LLaMa2-7B和LLaMa2-13B模式中,時(shí)延均有13%的下降11。
此外,第五代英特爾 至強(qiáng) 可擴(kuò)展平臺(tái)可支持多通道大容量的內(nèi)存,使用64G內(nèi)存時(shí),單節(jié)點(diǎn)(Node)至少可以擴(kuò)展到1024GB內(nèi)存,這樣可支持LLM模型的并發(fā)。其中,70B-4Node可同時(shí)支持28個(gè)LLM模型并發(fā),13B-1Node可同時(shí)支持40個(gè)LLM模型并發(fā),7B-1Node可同時(shí)支持72個(gè)LLM模型并發(fā)。 在第二次token時(shí),時(shí)延可低至63.5毫秒。除了在模型并發(fā)上有卓越表現(xiàn)外,模型之間的切換也在10毫秒之內(nèi),幾乎無(wú)感,模型駐留數(shù)最高可達(dá)到576個(gè)12。
圖3. LLaMa2-7B和LLaMa2-13B時(shí)延比較
Resnet 50
ResNet50是一種非常流行的卷積神經(jīng)網(wǎng)絡(luò)模型,ResNet50的主要特點(diǎn)是引入了“殘差塊”(Residual + Block)。在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中,每一層都是在前一層的基礎(chǔ)上添加新的變換,而在ResNet中,每一層都是在前一層的基礎(chǔ)上添加新的變換,同時(shí)還保留了前一層的原始輸入,這種設(shè)計(jì)使得網(wǎng)絡(luò)可以更好地學(xué)習(xí)輸入和輸出之間的差異,而不是直接學(xué)習(xí)輸出,這有助于提高模型的性能。
寧暢的測(cè)試數(shù)據(jù)如圖4所示,相較第四代英特爾 至強(qiáng) 可擴(kuò)展處理器,基于第五代英特爾 至強(qiáng) 可擴(kuò)展處理器的寧暢B5000 G5多節(jié)點(diǎn)服務(wù)器,將ResNet50推理性能提升了10%13。
圖4. ResNet50性能比較(越高越好)
文本生成圖像
(Stable Diffusion)
Stable Diffusion是一種基于潛在擴(kuò)散模型(Latent Diffusion Models) 的文本到圖像生成模型,能夠根據(jù)任意文本輸入生成高質(zhì)量圖像,同時(shí)還保留了圖像的語(yǔ)義結(jié)構(gòu)。Stable-Diffusion一般需要數(shù)秒完成圖片生成,生成的圖像具有較高的逼真度和細(xì)節(jié)表現(xiàn)力。寧暢的測(cè)試數(shù)據(jù)如圖5所示,相較第四代英特爾 至強(qiáng) 可擴(kuò)展處理器,基于第五代英特爾 至強(qiáng) 可擴(kuò)展處理器的寧暢B5000 G5多節(jié)點(diǎn)服務(wù)器,將Stable Diffusion推理性能提升了9%14。
圖5. Stable Diffusion性能比較
上述測(cè)試主要基于單節(jié)點(diǎn)配置環(huán)境完成,用戶(hù)還可通過(guò)部署更多節(jié)點(diǎn),來(lái)獲得更高的性能表現(xiàn)。
收 益
基于第五代英特爾 至強(qiáng) 可擴(kuò)展處理器的寧暢B5000 G5多節(jié)點(diǎn)服務(wù)器為用戶(hù)的AI推理任務(wù)帶來(lái)了如下收益:
在保證特定精度的前提下,模型推理的吞吐量、時(shí)延等性能指標(biāo)方面能夠比肩常規(guī)GPU,滿(mǎn)足大語(yǔ)言模型等AI模型的推理需求。
可以在4U8節(jié)點(diǎn)上同時(shí)執(zhí)行多個(gè)AI推理任務(wù),在特定的服務(wù)質(zhì)量(SLA)要求下,實(shí)現(xiàn)較高的并發(fā)量,有助于提升資源的利用率,降低AI推理的總體擁有成本(TCO)。
無(wú)需增加專(zhuān)門(mén)的硬件便可以支持高效的AI推理,有助于提升服務(wù)器的靈活性,敏捷地滿(mǎn)足多種應(yīng)用工作負(fù)載的支撐需求。
展 望
大模型應(yīng)用已經(jīng)進(jìn)入到爆發(fā)期,《中國(guó)人工智能大模型地圖研究報(bào)告》顯示,2023 年,全球發(fā)布的大模型數(shù)量已經(jīng)超過(guò)200個(gè),其中中國(guó)發(fā)布的大模型已經(jīng)達(dá)到了79個(gè)15。面對(duì)百億、千億乃至萬(wàn)億規(guī)模的大模型數(shù)據(jù)處理、訓(xùn)練、調(diào)優(yōu)及推理需求,用戶(hù)迫切希望構(gòu)建符合自身業(yè)務(wù)特點(diǎn)和需求的AI算力平臺(tái),進(jìn)行計(jì)算資源的合理配置。基于第五代英特爾 至強(qiáng) 可擴(kuò)展處理器的寧暢B5000 G5多節(jié)點(diǎn)服務(wù)器憑借在性能、靈活性等方面的優(yōu)勢(shì),有望成為用戶(hù)推動(dòng)大模型推理的重要基礎(chǔ)設(shè)施。
除了模型推理之外,基于第五代英特爾 至強(qiáng) 可擴(kuò)展處理器的寧暢B5000 G5多節(jié)點(diǎn)服務(wù)器還在更多場(chǎng)景中,提供了卓越的性能、擴(kuò)展性與敏捷性。雙方將在技術(shù)探索、產(chǎn)品升級(jí)、應(yīng)用推廣等多個(gè)層面深度協(xié)作,建設(shè)從云到邊緣的基礎(chǔ)設(shè)施,推動(dòng)數(shù)字資源平等,打破數(shù)字鴻溝,以澎湃的算力賦能數(shù)字經(jīng)濟(jì)的高速發(fā)展。
審核編輯:劉清
-
處理器
+關(guān)注
關(guān)注
68文章
19286瀏覽量
229811 -
英特爾
+關(guān)注
關(guān)注
61文章
9964瀏覽量
171763 -
人工智能
+關(guān)注
關(guān)注
1791文章
47274瀏覽量
238467 -
大模型
+關(guān)注
關(guān)注
2文章
2448瀏覽量
2701
原文標(biāo)題:寧暢B5000 G5多節(jié)點(diǎn)服務(wù)器采用第五代英特爾? 至強(qiáng)? 可擴(kuò)展處理器,提供卓越、高靈活度的AI推理算力
文章出處:【微信號(hào):英特爾中國(guó),微信公眾號(hào):英特爾中國(guó)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論