精品国产91在线网址,麻豆91视频

概述

近年來(lái)人工智能 (AI) 技術(shù)突飛猛進(jìn)的一個(gè)重要標(biāo)志是大語(yǔ)言模型 (LLM) 的重要突破。大語(yǔ)言模型是基于自然語(yǔ)言處理 (NLP) 技術(shù)的transformer機(jī)制，目標(biāo)在于理解、生成自然語(yǔ)言文本，以及處理人機(jī)對(duì)話(huà)等邏輯性創(chuàng)造性語(yǔ)義理解要求更高的自然語(yǔ)言任務(wù)。與傳統(tǒng)NLP模型不同，大語(yǔ)言模型具備參數(shù)規(guī)模巨大、訓(xùn)練數(shù)據(jù)量大等特點(diǎn)，在模型訓(xùn)練、模型微調(diào)、模型推理等階段均需要龐大的算力資源。在大模型應(yīng)用 “百花齊放” 的今天，AI算力的供需缺口已經(jīng)成為一個(gè)不爭(zhēng)的事實(shí)，如何快速構(gòu)建高性能、低成本的算力平臺(tái)成為企業(yè)普遍關(guān)心的問(wèn)題。

面向希望經(jīng)濟(jì)、高效進(jìn)行大語(yǔ)言模型落地場(chǎng)景的中小企業(yè)用戶(hù)，新華三 (H3C) 提供了基于英特爾至強(qiáng)可擴(kuò)展處理器的H3C UniServer R6900 G6服務(wù)器解決方案。該服務(wù)器能夠借助英特爾至強(qiáng)可擴(kuò)展處理器內(nèi)置的強(qiáng)大AI加速能力，滿(mǎn)足常見(jiàn)大語(yǔ)言模型微調(diào)和推理算力需求。同時(shí)，該服務(wù)器還具備交付與部署便捷、性?xún)r(jià)比高等優(yōu)勢(shì)，能夠幫助更多中小企業(yè)挖掘大語(yǔ)言模型的應(yīng)用潛力，賦能企業(yè)的智能化轉(zhuǎn)型。

背景：大語(yǔ)言模型突飛猛進(jìn)中小企業(yè)迎來(lái)轉(zhuǎn)型契機(jī)

大語(yǔ)言模型是當(dāng)前大模型最具應(yīng)用潛力的領(lǐng)域之一，由大語(yǔ)言模型賦能的AI應(yīng)用已經(jīng)在搜索增強(qiáng)、代碼生成、問(wèn)答系統(tǒng)、智能語(yǔ)音助手、知識(shí)圖譜構(gòu)建、專(zhuān)業(yè)文檔生成、智能翻譯等任務(wù)中展現(xiàn)出巨大的價(jià)值。賽迪研究院的數(shù)據(jù)顯示，截止2023年 12月，中國(guó)已有多家語(yǔ)言大模型研發(fā)廠商，2023年市場(chǎng)規(guī)模約為132.3億元，增長(zhǎng)率達(dá)到110%；預(yù)測(cè)到2027年，中國(guó)語(yǔ)言大模型市場(chǎng)規(guī)模有望達(dá)到600億元1。對(duì)于中小企業(yè)而言，積極迎接大語(yǔ)言模型帶來(lái)的產(chǎn)業(yè)發(fā)展浪潮，將有助于跟上AI發(fā)展趨勢(shì)，提升企業(yè)的競(jìng)爭(zhēng)力，助力降本增效。

大語(yǔ)言模型落地鏈路主要分為模型預(yù)訓(xùn)練、模型微調(diào) (Fine Tuning)、模型推理等階段，對(duì)于中小企業(yè)而言，由于投入規(guī)模限制和特定應(yīng)用場(chǎng)景的需求，其落地的工程化路徑更傾向于使用已經(jīng)初步完成大規(guī)模預(yù)訓(xùn)練的開(kāi)源/通用大模型（30B及以下），并采用特定領(lǐng)域的數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào)，通過(guò)檢索增強(qiáng)生成 (RAG) 等相關(guān)技術(shù)，同樣達(dá)到與通用大模型接近的理想效果，以使其更好地適應(yīng)特定的任務(wù)或應(yīng)用場(chǎng)景。

綜上所述，在大語(yǔ)言模型的實(shí)際部署階段，中小企業(yè)需要解決大語(yǔ)言模型微調(diào)與推理問(wèn)題，這會(huì)在性能、算力成本、效率等方面遇到相應(yīng)的挑戰(zhàn)。

在滿(mǎn)足微調(diào)和推理兩大場(chǎng)景需求的同時(shí)降低成本

在大語(yǔ)言模型微調(diào)方面，性能與成本通常是呈現(xiàn)正比關(guān)系，采用專(zhuān)用的AI服務(wù)器能夠提供強(qiáng)大的算力，但是會(huì)消耗高額的成本，這對(duì)于中小企業(yè)而言是一項(xiàng)巨大的支出。

快速迎上大語(yǔ)言模型的發(fā)展浪潮

大語(yǔ)言模型發(fā)展的日新月異意味著，中小企業(yè)必須快速行動(dòng)起來(lái)，投身到大語(yǔ)言模型的發(fā)展浪潮中。但同時(shí)，專(zhuān)用的AI服務(wù)器面臨著供貨緊張、部署繁瑣、上線時(shí)間周期長(zhǎng)等客觀現(xiàn)狀，難以快速提供AI算力支持，反觀不少企業(yè)都擁有大量的通用服務(wù)器資源，若能高效利用這些資源，將有助于大幅縮短大模型應(yīng)用上線周期。

解決方案：基于英特爾至強(qiáng)可擴(kuò)展處理器的H3C UniServer R6900 G6服務(wù)器

針對(duì)中小企業(yè)在中小規(guī)模的模型微調(diào)與推理上的挑戰(zhàn)，H3C推出了H3C UniServer R6900 G6服務(wù)器單一節(jié)點(diǎn)解決方案，成功地展示了基于中等規(guī)模大語(yǔ)言模型的微調(diào)和推理能力。

作為該解決方案的核心，H3C UniServer R6900 G6服務(wù)器是H3C基于第四代英特爾至強(qiáng)可擴(kuò)展處理器自主研發(fā)的新一代4U四路機(jī)架式服務(wù)器。整機(jī)設(shè)計(jì)在上一代產(chǎn)品的基礎(chǔ)上進(jìn)行了全面優(yōu)化，無(wú)論在計(jì)算效率、擴(kuò)展能力還是低碳節(jié)能等方面都達(dá)到了全新的高度，是繼G5產(chǎn)品之后的又一標(biāo)桿四路服務(wù)器產(chǎn)品，是大規(guī)模虛擬化、數(shù)據(jù)庫(kù)、內(nèi)存計(jì)算、數(shù)據(jù)分析、數(shù)據(jù)倉(cāng)庫(kù)、商業(yè)智能、ERP等數(shù)據(jù)密集型應(yīng)用關(guān)鍵業(yè)務(wù)的理想選擇。

圖 1. H3C UniServer R6900 G6服務(wù)器

H3C UniServer R6900 G6服務(wù)器搭載的第四代英特爾至強(qiáng)可擴(kuò)展處理器通過(guò)創(chuàng)新架構(gòu)增加了每個(gè)處理器核心每個(gè)時(shí)鐘周期的可執(zhí)行指令數(shù)量，每個(gè)插槽多達(dá)60個(gè)核心，支持8通道DDR5內(nèi)存，有效提升了內(nèi)存帶寬與速度，并通過(guò)PCIe 5.0（80個(gè)通道）實(shí)現(xiàn)了更高的PCIe帶寬提升。第四代英特爾至強(qiáng)可擴(kuò)展處理器提供了出色性能和安全性，可根據(jù)用戶(hù)的業(yè)務(wù)需求進(jìn)行擴(kuò)展。借助內(nèi)置的加速器，用戶(hù)可以在AI、分析、云和微服務(wù)、網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、存儲(chǔ)等類(lèi)型的工作負(fù)載中獲得優(yōu)化的性能。

圖 2. 第四代英特爾至強(qiáng)可擴(kuò)展處理器為數(shù)據(jù)中心提供多種優(yōu)勢(shì)

H3C UniServer R6900 G6服務(wù)器單一節(jié)點(diǎn)解決方案在大語(yǔ)言模型微調(diào)及推理上的能力，源于以下三大技術(shù)突破：

單CPU算力突破

在大模型微調(diào)和推理任務(wù)中，涉及大規(guī)模矩陣運(yùn)算。隨著模型尺寸的擴(kuò)大，矩陣的大小也相應(yīng)增加，這對(duì)處理器的算力有著極高的要求。

第四代英特爾至強(qiáng)可擴(kuò)展處理器提供了增強(qiáng)的AI算力支持。與此前的英特爾至強(qiáng)可擴(kuò)展處理器中提供的英特爾AVX-512不同，英特爾 AMX采用了全新的指令集與電路設(shè)計(jì)，通過(guò)提供矩陣類(lèi)型的運(yùn)算，顯著增加了人工智能應(yīng)用程序的每時(shí)鐘指令數(shù) (IPC)，可為AI工作負(fù)載中的訓(xùn)練和推理帶來(lái)大幅的性能提升。

單機(jī)算力突破

在大語(yǔ)言模型的訓(xùn)練和微調(diào)過(guò)程中，為提供充足的算力，通常采用多機(jī)多卡的分布式訓(xùn)練方式，但這種方式會(huì)帶來(lái)額外的系統(tǒng)互聯(lián)開(kāi)銷(xiāo)，同時(shí)也可能導(dǎo)致訓(xùn)練性能的損耗。

H3C結(jié)合英特爾平臺(tái)的特有的UPI (Ultra Path Interconnect) 多CPU組合技術(shù)，推出了H3C UniServer R6900 G6四路服務(wù)器。這種服務(wù)器突破了傳統(tǒng)雙路服務(wù)器的算力限制，能夠提供單機(jī)更高的算力密度。方案采用了高帶寬低延遲的UPI互聯(lián)方案，能夠?qū)崿F(xiàn)CPU算力的高速橫向倍增。這意味著，用戶(hù)可以在一臺(tái)節(jié)點(diǎn)上完成所有的計(jì)算任務(wù)，從而避免了分布式訓(xùn)練可能帶來(lái)的各種問(wèn)題。

內(nèi)存限制突破

大語(yǔ)言模型的訓(xùn)練和推理對(duì)于內(nèi)存容量有著較高需求，這種需求源于AI 模型訓(xùn)練過(guò)程中的兩個(gè)關(guān)鍵步驟：一是加載模型的權(quán)重，二是存儲(chǔ)用于反向傳播的梯度信息以及執(zhí)行參數(shù)更新的優(yōu)化器參數(shù)。此外，選擇適當(dāng)?shù)挠?xùn)練批量大小也至關(guān)重要，因?yàn)檩^大的批量有助于模型更快地收斂，從而提升微調(diào)后模型的性能。然而，較大的批量會(huì)使得中間激活值的存儲(chǔ)也占據(jù)了大量的內(nèi)存空間。以Llama 30B模型為例，在進(jìn)行16位浮點(diǎn)數(shù)訓(xùn)練時(shí)，如果訓(xùn)練批量大小被設(shè)定為16并且使用Adam優(yōu)化器，估算需要600GB左右的內(nèi)存才能成功完成30B模型的LoRA微調(diào)。雖然目前涌現(xiàn)了非常多的技術(shù)手段來(lái)解決內(nèi)存限制的問(wèn)題，但是會(huì)引入復(fù)雜的技術(shù)棧和額外復(fù)雜度。

針對(duì)上述問(wèn)題，H3C UniServer R6900 G6服務(wù)器可支持64根4800MT/s DDR5 ECC內(nèi)存，能夠提供高達(dá)16TB的內(nèi)存容量，從而打破了內(nèi)存限制。相比于使用GPU的方案，這種方案能夠減少內(nèi)存壓縮和多卡間數(shù)據(jù)通信的開(kāi)銷(xiāo)，從而更有效地完成微調(diào)訓(xùn)練任務(wù)。

除了上面三方面的技術(shù)突破，在實(shí)現(xiàn)算力突破的同時(shí)，英特爾還針對(duì)大型語(yǔ)言模型的推理和訓(xùn)練過(guò)程，提供了一系列基于PyTorch框架的軟件優(yōu)化措施。這些優(yōu)化被集成在IntelExtension for PyTorch開(kāi)源軟件庫(kù)中，旨在進(jìn)一步提升模型的性能和效率。

IntelExtension for PyTorch是英特爾發(fā)起的一個(gè)開(kāi)源擴(kuò)展項(xiàng)目，它基于 PyTorch的擴(kuò)展機(jī)制實(shí)現(xiàn)，旨在通過(guò)提供額外的軟件優(yōu)化充分發(fā)揮硬件特性，幫助用戶(hù)在原生PyTorch的基礎(chǔ)上顯著提升英特爾硬件（如CPU和GPU）上的深度學(xué)習(xí)推理計(jì)算和訓(xùn)練性能。通過(guò)擴(kuò)展，PyTorch用戶(hù)將能更加及時(shí)地受益于英特爾硬件的最新功能，并在第一時(shí)間體驗(yàn)軟件優(yōu)化帶來(lái)的卓越性能和部署便捷性。

圖 3.IntelExtension for PyTorch框架

目前，IntelExtension for PyTorch配合PyTorch，可支持PyTorch框架下大部分主流模型，其中深度優(yōu)化模型有50+以上。用戶(hù)只需要從Hugging Face拉取模型，加載到PyTorch框架中，通過(guò)簡(jiǎn)單幾步完成BF16混合精度轉(zhuǎn)換，模型就可以在CPU上高效部署。同時(shí)，Intel Extension for PyTorch面向transformer運(yùn)算對(duì)相關(guān)計(jì)算進(jìn)行了深入優(yōu)化，實(shí)現(xiàn)了融合的ROPE (Fused Rotary Positional Embeddings) 操作，可以減少計(jì)算的復(fù)雜性并提高模型的運(yùn)行效率。

圖 4.IntelExtension for PyTorch 支持50多種主流AI模型

性能驗(yàn)證：充分滿(mǎn)足中等規(guī)模大模型微調(diào)

與推理的算力要求

為驗(yàn)證基于英特爾至強(qiáng)可擴(kuò)展處理器的H3C UniServer R6900 G6服務(wù)器在大語(yǔ)言模型推理和微調(diào)兩大場(chǎng)景的服務(wù)能力，H3C選擇了英特爾至強(qiáng)金牌 6448H處理器+2TB內(nèi)存的配置，并進(jìn)行了測(cè)試。

微調(diào)場(chǎng)景

H3C對(duì)Llama2-7B和Llama2-13B模型，以及Llama1-30B模型進(jìn)行了微調(diào)測(cè)試。這些測(cè)試在業(yè)界通用的Alpaca數(shù)據(jù)集（6.5M token，數(shù)據(jù)集大小 20MBytes）上進(jìn)行，旨在評(píng)估在禁用梯度累積(Gradient Accumulation) 的情況下，四路服務(wù)器能支持的batch size，訓(xùn)練過(guò)程中的峰值內(nèi)存占用，以及訓(xùn)練完成所需的時(shí)間。

測(cè)試數(shù)據(jù)如表1所示，對(duì)于7B、13B和30B大小的Llama模型，四路H3C UniServer R6900 G6服務(wù)器可以滿(mǎn)足實(shí)用訓(xùn)練時(shí)長(zhǎng)的要求。

表 1. 不同模型在微調(diào)中的訓(xùn)練時(shí)間與最大內(nèi)存使用6

推理場(chǎng)景

H3C對(duì)Llama2的7B和13B模型，以及Code Llama的34B模型進(jìn)行了深入測(cè)試，以充分挖掘基于英特爾至強(qiáng)可擴(kuò)展處理器的H3C UniServer R6900 G6服務(wù)器的性能極限。本測(cè)試專(zhuān)注于評(píng)估這些硬件配置在不同的 input/output token latency、 batch size，以及多實(shí)例運(yùn)行情況下的表現(xiàn)。

首token延遲、總吞吐與并發(fā)數(shù)的測(cè)試結(jié)果分別如圖5、圖6所示，對(duì)于 7B、13B大小的Llama模型，四路H3C UniServer R6900 G6服務(wù)器可以滿(mǎn)足多實(shí)例運(yùn)行的要求。

圖 5. 不同模型的首token延遲7

圖 6. 不同模型的總吞吐性能測(cè)試8

收益

基于英特爾至強(qiáng)可擴(kuò)展處理器的H3C UniServer R6900 G6服務(wù)器提供了大語(yǔ)言模型微調(diào)推理一體方案，為中小企業(yè)提供了一種更高效、更經(jīng)濟(jì)的解決方案，實(shí)現(xiàn)了以下價(jià)值：

可以更加快速的推動(dòng)以大語(yǔ)言模型為代表的AGI的部署：該方案能夠在單一服務(wù)器上覆蓋微調(diào)和推理，不僅簡(jiǎn)化了操作流程，也提高了算力平臺(tái)的交付效率。同時(shí)，方案基于Pytorch，TensorFlow，OpenVINO等流行的開(kāi)源框架，使得中小企業(yè)能夠在CPU平臺(tái)上方便快捷地搭建最新的模型服務(wù)，更快地將AGI應(yīng)用到業(yè)務(wù)流程中。

有助于企業(yè)搭建更具性?xún)r(jià)比的大語(yǔ)言模型算力平臺(tái)：該方案不依賴(lài)于昂貴的GPU服務(wù)器，而是可以采用更具經(jīng)濟(jì)性的通用CPU服務(wù)器，同時(shí)達(dá)到理想的性能表現(xiàn)，可以助力用戶(hù)降低大語(yǔ)言模型算力平臺(tái)的總體擁有成本 (TCO)。

實(shí)現(xiàn)出色的靈活性與擴(kuò)展性：解決方案具有極高的適應(yīng)性和靈活性，可以廣泛應(yīng)用于通用計(jì)算和AI專(zhuān)用場(chǎng)景。用戶(hù)可以靈活地調(diào)整和優(yōu)化系統(tǒng)資源的使用，從而實(shí)現(xiàn)最優(yōu)的性能和效果。

展望

大語(yǔ)言模型已經(jīng)徹底改變了智能化應(yīng)用的生態(tài)，大語(yǔ)言模型帶來(lái)的涌現(xiàn)能力賦予了其巨大的應(yīng)用前景，成為足以改變商業(yè)競(jìng)爭(zhēng)態(tài)勢(shì)的重要能力?；谟⑻貭栔翉?qiáng)可擴(kuò)展處理器的H3C UniServer R6900 G6服務(wù)器在當(dāng)前算力稀缺、資源不足的情況下，為中小企業(yè)提供了經(jīng)濟(jì)、高效、靈活的AI算力平臺(tái)選項(xiàng)，可以助力用戶(hù)投入到AI競(jìng)賽中，為業(yè)務(wù)帶來(lái)切實(shí)的收益。

除了用于大語(yǔ)言模型的微調(diào)和推理之外，基于英特爾至強(qiáng)可擴(kuò)展處理器的H3C UniServer R6900 G6服務(wù)器具備的強(qiáng)大通用性意味著，其能夠在更多領(lǐng)域發(fā)揮價(jià)值，而對(duì)于有更高性能需求的場(chǎng)景，該方案也能夠通過(guò)服務(wù)器節(jié)點(diǎn)擴(kuò)展來(lái)提供更高的算力。面向未來(lái)，英特爾與H3C還將進(jìn)一步合作，包括采用新一代硬件平臺(tái)，通過(guò)軟件工具套件進(jìn)行性能優(yōu)化，攜手拓展AI生態(tài)等，助力用戶(hù)在AI時(shí)代獲得成功。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴