概 述
近年來(lái)人工智能 (AI) 技術(shù)突飛猛進(jìn)的一個(gè)重要標(biāo)志是大語(yǔ)言模型 (LLM) 的重要突破。大語(yǔ)言模型是基于自然語(yǔ)言處理 (NLP) 技術(shù)的transformer機(jī)制,目標(biāo)在于理解、生成自然語(yǔ)言文本,以及處理人機(jī)對(duì)話(huà)等邏輯性創(chuàng)造性語(yǔ)義理解要求更高的自然語(yǔ)言任務(wù)。與傳統(tǒng)NLP模型不同,大語(yǔ)言模型具備參數(shù)規(guī)模巨大、訓(xùn)練數(shù)據(jù)量大等特點(diǎn),在模型訓(xùn)練、模型微調(diào)、模型推理等階段均需要龐大的算力資源。在大模型應(yīng)用 “百花齊放” 的今天,AI算力的供需缺口已經(jīng)成為一個(gè)不爭(zhēng)的事實(shí),如何快速構(gòu)建高性能、低成本的算力平臺(tái)成為企業(yè)普遍關(guān)心的問(wèn)題。
面向希望經(jīng)濟(jì)、高效進(jìn)行大語(yǔ)言模型落地場(chǎng)景的中小企業(yè)用戶(hù),新華三 (H3C) 提供了基于英特爾至強(qiáng)可擴(kuò)展處理器的H3C UniServer R6900 G6服務(wù)器解決方案。該服務(wù)器能夠借助英特爾至強(qiáng)可擴(kuò)展處理器內(nèi)置的強(qiáng)大AI加速能力,滿(mǎn)足常見(jiàn)大語(yǔ)言模型微調(diào)和推理算力需求。同時(shí),該服務(wù)器還具備交付與部署便捷、性?xún)r(jià)比高等優(yōu)勢(shì),能夠幫助更多中小企業(yè)挖掘大語(yǔ)言模型的應(yīng)用潛力,賦能企業(yè)的智能化轉(zhuǎn)型。
背景:大語(yǔ)言模型突飛猛進(jìn)中小企業(yè)迎來(lái)轉(zhuǎn)型契機(jī)
大語(yǔ)言模型是當(dāng)前大模型最具應(yīng)用潛力的領(lǐng)域之一,由大語(yǔ)言模型賦能的AI應(yīng)用已經(jīng)在搜索增強(qiáng)、代碼生成、問(wèn)答系統(tǒng)、智能語(yǔ)音助手、知識(shí)圖譜構(gòu)建、專(zhuān)業(yè)文檔生成、智能翻譯等任務(wù)中展現(xiàn)出巨大的價(jià)值。賽迪研究院的數(shù)據(jù)顯示,截止2023年 12月,中國(guó)已有多家語(yǔ)言大模型研發(fā)廠商,2023年市場(chǎng)規(guī)模約為132.3億元,增長(zhǎng)率達(dá)到110%;預(yù)測(cè)到2027年,中國(guó)語(yǔ)言大模型市場(chǎng)規(guī)模有望達(dá)到600億元1。對(duì)于中小企業(yè)而言,積極迎接大語(yǔ)言模型帶來(lái)的產(chǎn)業(yè)發(fā)展浪潮,將有助于跟上AI發(fā)展趨勢(shì),提升企業(yè)的競(jìng)爭(zhēng)力,助力降本增效。
大語(yǔ)言模型落地鏈路主要分為模型預(yù)訓(xùn)練、模型微調(diào) (Fine Tuning)、模型推理等階段,對(duì)于中小企業(yè)而言,由于投入規(guī)模限制和特定應(yīng)用場(chǎng)景的需求,其落地的工程化路徑更傾向于使用已經(jīng)初步完成大規(guī)模預(yù)訓(xùn)練的開(kāi)源/通用大模型(30B及以下),并采用特定領(lǐng)域的數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào),通過(guò)檢索增強(qiáng)生成 (RAG) 等相關(guān)技術(shù),同樣達(dá)到與通用大模型接近的理想效果,以使其更好地適應(yīng)特定的任務(wù)或應(yīng)用場(chǎng)景。
綜上所述,在大語(yǔ)言模型的實(shí)際部署階段,中小企業(yè)需要解決大語(yǔ)言模型微調(diào)與推理問(wèn)題,這會(huì)在性能、算力成本、效率等方面遇到相應(yīng)的挑戰(zhàn)。
在滿(mǎn)足微調(diào)和推理兩大場(chǎng)景需求的同時(shí)降低成本
在大語(yǔ)言模型微調(diào)方面,性能與成本通常是呈現(xiàn)正比關(guān)系,采用專(zhuān)用的AI服務(wù)器能夠提供強(qiáng)大的算力,但是會(huì)消耗高額的成本,這對(duì)于中小企業(yè)而言是一項(xiàng)巨大的支出。
快速迎上大語(yǔ)言模型的發(fā)展浪潮
大語(yǔ)言模型發(fā)展的日新月異意味著,中小企業(yè)必須快速行動(dòng)起來(lái),投身到大語(yǔ)言模型的發(fā)展浪潮中。但同時(shí),專(zhuān)用的AI服務(wù)器面臨著供貨緊張、部署繁瑣、上線時(shí)間周期長(zhǎng)等客觀現(xiàn)狀,難以快速提供AI算力支持,反觀不少企業(yè)都擁有大量的通用服務(wù)器資源,若能高效利用這些資源,將有助于大幅縮短大模型應(yīng)用上線周期。
解決方案:基于英特爾至強(qiáng)可擴(kuò)展處理器的H3C UniServer R6900 G6服務(wù)器
針對(duì)中小企業(yè)在中小規(guī)模的模型微調(diào)與推理上的挑戰(zhàn),H3C推出了H3C UniServer R6900 G6服務(wù)器單一節(jié)點(diǎn)解決方案,成功地展示了基于中等規(guī)模大語(yǔ)言模型的微調(diào)和推理能力。
作為該解決方案的核心,H3C UniServer R6900 G6服務(wù)器是H3C基于第四代英特爾至強(qiáng)可擴(kuò)展處理器自主研發(fā)的新一代4U四路機(jī)架式服務(wù)器。整機(jī)設(shè)計(jì)在上一代產(chǎn)品的基礎(chǔ)上進(jìn)行了全面優(yōu)化,無(wú)論在計(jì)算效率、擴(kuò)展能力還是低碳節(jié)能等方面都達(dá)到了全新的高度,是繼G5產(chǎn)品之后的又一標(biāo)桿四路服務(wù)器產(chǎn)品,是大規(guī)模虛擬化、數(shù)據(jù)庫(kù)、內(nèi)存計(jì)算、數(shù)據(jù)分析、數(shù)據(jù)倉(cāng)庫(kù)、商業(yè)智能、ERP等數(shù)據(jù)密集型應(yīng)用關(guān)鍵業(yè)務(wù)的理想選擇。
圖 1. H3C UniServer R6900 G6服務(wù)器
H3C UniServer R6900 G6服務(wù)器搭載的第四代英特爾至強(qiáng)可擴(kuò)展處理器通過(guò)創(chuàng)新架構(gòu)增加了每個(gè)處理器核心每個(gè)時(shí)鐘周期的可執(zhí)行指令數(shù)量,每個(gè)插槽多達(dá)60個(gè)核心,支持8通道DDR5內(nèi)存,有效提升了內(nèi)存帶寬與速度,并通過(guò)PCIe 5.0(80個(gè)通道)實(shí)現(xiàn)了更高的PCIe帶寬提升。第四代英特爾至強(qiáng)可擴(kuò)展處理器提供了出色性能和安全性,可根據(jù)用戶(hù)的業(yè)務(wù)需求進(jìn)行擴(kuò)展。借助內(nèi)置的加速器,用戶(hù)可以在AI、分析、云和微服務(wù)、網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、存儲(chǔ)等類(lèi)型的工作負(fù)載中獲得優(yōu)化的性能。
圖 2. 第四代英特爾至強(qiáng)可擴(kuò)展處理器為數(shù)據(jù)中心提供多種優(yōu)勢(shì)
H3C UniServer R6900 G6服務(wù)器單一節(jié)點(diǎn)解決方案在大語(yǔ)言模型微調(diào)及推理上的能力,源于以下三大技術(shù)突破:
單CPU算力突破
在大模型微調(diào)和推理任務(wù)中,涉及大規(guī)模矩陣運(yùn)算。隨著模型尺寸的擴(kuò)大,矩陣的大小也相應(yīng)增加,這對(duì)處理器的算力有著極高的要求。
第四代英特爾至強(qiáng)可擴(kuò)展處理器提供了增強(qiáng)的AI算力支持。與此前的英特爾至強(qiáng)可擴(kuò)展處理器中提供的英特爾AVX-512不同,英特爾 AMX采用了全新的指令集與電路設(shè)計(jì),通過(guò)提供矩陣類(lèi)型的運(yùn)算,顯著增加了人工智能應(yīng)用程序的每時(shí)鐘指令數(shù) (IPC),可為AI工作負(fù)載中的訓(xùn)練和推理帶來(lái)大幅的性能提升。
單機(jī)算力突破
在大語(yǔ)言模型的訓(xùn)練和微調(diào)過(guò)程中,為提供充足的算力,通常采用多機(jī)多卡的分布式訓(xùn)練方式,但這種方式會(huì)帶來(lái)額外的系統(tǒng)互聯(lián)開(kāi)銷(xiāo),同時(shí)也可能導(dǎo)致訓(xùn)練性能的損耗。
H3C結(jié)合英特爾平臺(tái)的特有的UPI (Ultra Path Interconnect) 多CPU組合技術(shù),推出了H3C UniServer R6900 G6四路服務(wù)器。這種服務(wù)器突破了傳統(tǒng)雙路服務(wù)器的算力限制,能夠提供單機(jī)更高的算力密度。方案采用了高帶寬低延遲的UPI互聯(lián)方案,能夠?qū)崿F(xiàn)CPU算力的高速橫向倍增。這意味著,用戶(hù)可以在一臺(tái)節(jié)點(diǎn)上完成所有的計(jì)算任務(wù),從而避免了分布式訓(xùn)練可能帶來(lái)的各種問(wèn)題。
內(nèi)存限制突破
大語(yǔ)言模型的訓(xùn)練和推理對(duì)于內(nèi)存容量有著較高需求,這種需求源于AI 模型訓(xùn)練過(guò)程中的兩個(gè)關(guān)鍵步驟:一是加載模型的權(quán)重,二是存儲(chǔ)用于反向傳播的梯度信息以及執(zhí)行參數(shù)更新的優(yōu)化器參數(shù)。此外,選擇適當(dāng)?shù)挠?xùn)練批量大小也至關(guān)重要,因?yàn)檩^大的批量有助于模型更快地收斂,從而提升微調(diào)后模型的性能。然而,較大的批量會(huì)使得中間激活值的存儲(chǔ)也占據(jù)了大量的內(nèi)存空間。以Llama 30B模型為例,在進(jìn)行16位浮點(diǎn)數(shù)訓(xùn)練時(shí),如果訓(xùn)練批量大小被設(shè)定為16并且使用Adam優(yōu)化器,估算需要600GB左右的內(nèi)存才能成功完成30B模型的LoRA微調(diào)。雖然目前 涌現(xiàn)了非常多的技術(shù)手段來(lái)解決內(nèi)存限制的問(wèn)題,但是會(huì)引入復(fù)雜的技術(shù)棧和額外復(fù)雜度。
針對(duì)上述問(wèn)題,H3C UniServer R6900 G6服務(wù)器可支持64根4800MT/s DDR5 ECC內(nèi)存,能夠提供高達(dá)16TB的內(nèi)存容量,從而打破了內(nèi)存限制。相比于使用GPU的方案,這種方案能夠減少內(nèi)存壓縮和多卡間數(shù)據(jù)通信的開(kāi)銷(xiāo),從而更有效地完成微調(diào)訓(xùn)練任務(wù)。
除了上面三方面的技術(shù)突破,在實(shí)現(xiàn)算力突破的同時(shí),英特爾還針對(duì)大型語(yǔ)言模型的推理和訓(xùn)練過(guò)程,提供了一系列基于PyTorch框架的軟件優(yōu)化措施。這些優(yōu)化被集成在IntelExtension for PyTorch開(kāi)源軟件庫(kù)中,旨在進(jìn)一步提升模型的性能和效率。
IntelExtension for PyTorch是英特爾發(fā)起的一個(gè)開(kāi)源擴(kuò)展項(xiàng)目,它基于 PyTorch的擴(kuò)展機(jī)制實(shí)現(xiàn),旨在通過(guò)提供額外的軟件優(yōu)化充分發(fā)揮硬件特性,幫助用戶(hù)在原生PyTorch的基礎(chǔ)上顯著提升英特爾硬件(如CPU和GPU)上的深度學(xué)習(xí)推理計(jì)算和訓(xùn)練性能。通過(guò)擴(kuò)展,PyTorch用戶(hù)將能更加及時(shí)地受益于英特爾硬件的最新功能,并在第一時(shí)間體驗(yàn)軟件優(yōu)化帶來(lái)的卓越性能和部署便捷性。
圖 3.IntelExtension for PyTorch框架
目前,IntelExtension for PyTorch配合PyTorch,可支持PyTorch框架下大部分主流模型,其中深度優(yōu)化模型有50+以上。用戶(hù)只需要從Hugging Face拉取模型,加載到PyTorch框架中,通過(guò)簡(jiǎn)單幾步完成BF16混合精度轉(zhuǎn)換,模型就可以在CPU上高效部署。同時(shí),Intel Extension for PyTorch面向transformer運(yùn)算對(duì)相關(guān)計(jì)算進(jìn)行了深入優(yōu)化,實(shí)現(xiàn)了融合的ROPE (Fused Rotary Positional Embeddings) 操作,可以減少計(jì)算的復(fù)雜性并提高模型的運(yùn)行效率。
圖 4.IntelExtension for PyTorch 支持50多種主流AI模型
性能驗(yàn)證:充分滿(mǎn)足中等規(guī)模大模型微調(diào)
與推理的算力要求
為驗(yàn)證基于英特爾至強(qiáng)可擴(kuò)展處理器的H3C UniServer R6900 G6服務(wù)器在大語(yǔ)言模型推理和微調(diào)兩大場(chǎng)景的服務(wù)能力,H3C選擇了英特爾至強(qiáng)金牌 6448H處理器+2TB內(nèi)存的配置,并進(jìn)行了測(cè)試。
微調(diào)場(chǎng)景
H3C對(duì)Llama2-7B和Llama2-13B模型,以及Llama1-30B模型進(jìn)行了微調(diào)測(cè)試。這些測(cè)試在業(yè)界通用的Alpaca數(shù)據(jù)集(6.5M token,數(shù)據(jù)集大小 20MBytes)上進(jìn)行,旨在評(píng)估在禁用梯度累積(Gradient Accumulation) 的情況下,四路服務(wù)器能支持的batch size,訓(xùn)練過(guò)程中的峰值內(nèi)存占用,以及訓(xùn)練完成所需的時(shí)間。
測(cè)試數(shù)據(jù)如表1所示,對(duì)于7B、13B和30B大小的Llama模型,四路H3C UniServer R6900 G6服務(wù)器可以滿(mǎn)足實(shí)用訓(xùn)練時(shí)長(zhǎng)的要求。
表 1. 不同模型在微調(diào)中的訓(xùn)練時(shí)間與最大內(nèi)存使用6
推理場(chǎng)景
H3C對(duì)Llama2的7B和13B模型,以及Code Llama的34B模型進(jìn)行了深入測(cè)試,以充分挖掘基于英特爾至強(qiáng)可擴(kuò)展處理器的H3C UniServer R6900 G6服務(wù)器的性能極限。本測(cè)試專(zhuān)注于評(píng)估這些硬件配置在不同的 input/output token latency、 batch size,以及多實(shí)例運(yùn)行情況下的表現(xiàn)。
首token延遲、總吞吐與并發(fā)數(shù)的測(cè)試結(jié)果分別如圖5、圖6所示,對(duì)于 7B、13B大小的Llama模型,四路H3C UniServer R6900 G6服務(wù)器可以滿(mǎn)足多實(shí)例運(yùn)行的要求。
圖 5. 不同模型的首token延遲7
圖 6. 不同模型的總吞吐性能測(cè)試8
收 益
基于英特爾至強(qiáng)可擴(kuò)展處理器的H3C UniServer R6900 G6服務(wù)器提供了大語(yǔ)言模型微調(diào)推理一體方案,為中小企業(yè)提供了一種更高效、更經(jīng)濟(jì)的解決方案,實(shí)現(xiàn)了以下價(jià)值:
可以更加快速的推動(dòng)以大語(yǔ)言模型為代表的AGI的部署:該方案能夠在單一服務(wù)器上覆蓋微調(diào)和推理,不僅簡(jiǎn)化了操作流程,也提高了算力平臺(tái)的交付效率。同時(shí),方案基于Pytorch,TensorFlow,OpenVINO等流行的開(kāi)源框架,使得中小企業(yè)能夠在CPU平臺(tái)上方便快捷地搭建最新的模型服務(wù),更快地將AGI應(yīng)用到業(yè)務(wù)流程中。
有助于企業(yè)搭建更具性?xún)r(jià)比的大語(yǔ)言模型算力平臺(tái):該方案不依賴(lài)于昂貴的GPU服務(wù)器,而是可以采用更具經(jīng)濟(jì)性的通用CPU服務(wù)器,同時(shí)達(dá)到理想的性能表現(xiàn),可以助力用戶(hù)降低大語(yǔ)言模型算力平臺(tái)的總體擁有成本 (TCO)。
實(shí)現(xiàn)出色的靈活性與擴(kuò)展性:解決方案具有極高的適應(yīng)性和靈活性,可以廣泛應(yīng)用于通用計(jì)算和AI專(zhuān)用場(chǎng)景。用戶(hù)可以靈活地調(diào)整和優(yōu)化系統(tǒng)資源的使用,從而實(shí)現(xiàn)最優(yōu)的性能和效果。
展 望
大語(yǔ)言模型已經(jīng)徹底改變了智能化應(yīng)用的生態(tài),大語(yǔ)言模型帶來(lái)的涌現(xiàn)能力賦予了其巨大的應(yīng)用前景,成為足以改變商業(yè)競(jìng)爭(zhēng)態(tài)勢(shì)的重要能力?;谟⑻貭栔翉?qiáng)可擴(kuò)展處理器的H3C UniServer R6900 G6服務(wù)器在當(dāng)前算力稀缺、資源不足的情況下,為中小企業(yè)提供了經(jīng)濟(jì)、高效、靈活的AI算力平臺(tái)選項(xiàng),可以助力用戶(hù)投入到AI競(jìng)賽中,為業(yè)務(wù)帶來(lái)切實(shí)的收益。
除了用于大語(yǔ)言模型的微調(diào)和推理之外,基于英特爾至強(qiáng)可擴(kuò)展處理器的H3C UniServer R6900 G6服務(wù)器具備的強(qiáng)大通用性意味著,其能夠在更多領(lǐng)域發(fā)揮價(jià)值,而對(duì)于有更高性能需求的場(chǎng)景,該方案也能夠通過(guò)服務(wù)器節(jié)點(diǎn)擴(kuò)展來(lái)提供更高的算力。面向未來(lái),英特爾與H3C還將進(jìn)一步合作,包括采用新一代硬件平臺(tái),通過(guò)軟件工具套件進(jìn)行性能優(yōu)化,攜手拓展AI生態(tài)等,助力用戶(hù)在AI時(shí)代獲得成功。
審核編輯:劉清
-
處理器
+關(guān)注
關(guān)注
68文章
19313瀏覽量
230056 -
英特爾
+關(guān)注
關(guān)注
61文章
9978瀏覽量
171868 -
PCIe
+關(guān)注
關(guān)注
15文章
1241瀏覽量
82729 -
人工智能
+關(guān)注
關(guān)注
1791文章
47352瀏覽量
238775
原文標(biāo)題:基于英特爾? 至強(qiáng)? 可擴(kuò)展處理器的H3C UniServer R6900 G6服務(wù)器加速大語(yǔ)言模型微調(diào)及推理
文章出處:【微信號(hào):英特爾中國(guó),微信公眾號(hào):英特爾中國(guó)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論