0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA GPU助力提升模型訓(xùn)練和推理性價比

GLeX_murata_eet ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達企業(yè)解 ? 2021-08-23 17:09 ? 次閱讀

無量推薦系統(tǒng)承載著騰訊PCG(平臺與內(nèi)容事業(yè)群)的推薦場景,包括: 騰訊看點(瀏覽器、QQ看點、商業(yè)化)、騰訊新聞、騰訊視頻、騰訊音樂、閱文、應(yīng)用寶、小鵝拼拼等。無量推薦系統(tǒng)支持日活躍用戶達數(shù)億級別,其中的模型數(shù)量達數(shù)千個,日均調(diào)用服務(wù)達到千億級別。無量推薦系統(tǒng),在模型訓(xùn)練和推理都能夠進行海量Embedding和DNN模型的GPU計算,是目前業(yè)界領(lǐng)先的體系結(jié)構(gòu)設(shè)計。

傳統(tǒng)推薦系統(tǒng)面臨挑戰(zhàn)

傳統(tǒng)推薦系統(tǒng)具有以下特點: 訓(xùn)練是基于參數(shù)服務(wù)器的框架,解決海量數(shù)據(jù)和稀疏特征的分布式訓(xùn)練問題。推理通常分離大規(guī)模Embedding和DNN,只能進行DNN的GPU加速。 所以,傳統(tǒng)的推薦系統(tǒng)架構(gòu)具有一些局限性:1. 大規(guī)模分布式架構(gòu)有大量的額外開銷,比如參數(shù)和梯度的網(wǎng)絡(luò)收發(fā)。2. 隨著DNN模型復(fù)雜性的的進一步提升,CPU的計算速度開始捉襟見肘。 隨著業(yè)務(wù)的快速增長,日活用戶增多,對其調(diào)用數(shù)量快速增加,給推薦系統(tǒng)后臺帶來了新的挑戰(zhàn):1. 模型更加復(fù)雜,計算量更大,但是參數(shù)服務(wù)器的分布式架構(gòu)有效計算比很低。2. 海量Embedding因為規(guī)模龐大,查詢和聚合計算難以有效利用GPU高性能顯存和算力的優(yōu)勢。

GPU助力提升模型訓(xùn)練和推理性價比

基于以上的挑戰(zhàn),騰訊PCG(平臺與內(nèi)容事業(yè)群)選擇使用基于NVIDIA A100 GPU的分布式系統(tǒng)架構(gòu)來創(chuàng)建無量推薦系統(tǒng)。

1. 通過多級存儲和Pipeline優(yōu)化,在HPC上完成大規(guī)模推薦模型的GPU的高性能訓(xùn)練。2. 基于特征訪問Power-law分布的特性,GPU緩存高頻特征參數(shù),同時從CPU中動態(tài)獲取低頻特征參數(shù),實現(xiàn)了大規(guī)模推薦模型完整的GPU端到端模型推理。

騰訊PCG有多種類型的推薦業(yè)務(wù)場景。比如信息流推薦的QQ瀏覽器、QQ看點、新聞推薦的騰訊新聞、視頻推薦的騰訊視頻、微視、App推薦的應(yīng)用寶、以及騰訊音樂的音樂推薦和閱文集團的文學(xué)推薦。

無量推薦系統(tǒng)承載了這些推薦業(yè)務(wù)場景的模型訓(xùn)練和推理服務(wù)?;趥鹘y(tǒng)的推薦系統(tǒng)架構(gòu),無量推薦系統(tǒng)使用大量CPU資源,通過分布式架構(gòu)可以擴展到TB級模型的訓(xùn)練和部署,取得了巨大的成功。隨著業(yè)務(wù)的快速增長,日活用戶增多,對其調(diào)用數(shù)量快速增加,傳統(tǒng)架構(gòu)局限性限制了推薦系統(tǒng)的架構(gòu)擴展和性能提升。

通過使用GPU訓(xùn)練和推理,單機多卡的GPU算力可以達到數(shù)十臺CPU機器的算力,節(jié)省了大量的額外分布式開銷。通過充分利用A100 GPU高性能顯存快速訪問Embedding,以及并行算力處理DNN推理,單張A100 GPU可以在相同的延遲下推理10倍于CPU的打分樣本。目前基于GPU的推薦架構(gòu)可以提升模型訓(xùn)練和推理性價比1~3倍。

未來,無量推薦系統(tǒng)將不斷優(yōu)化推薦模型在GPU上的應(yīng)用,利用HPC多機多卡,混合精度等能力,進一步提高推薦場景使用GPU的性價比。

重磅!NVIDIA行業(yè)微站一睹為快!內(nèi)容涵蓋NVIDIA主要的12大行業(yè)方案,以及NVIDIA當(dāng)期重點產(chǎn)品資料。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5021

    瀏覽量

    103250

原文標(biāo)題:NVIDIA A100 GPU助力騰訊PCG加速無量推薦系統(tǒng)

文章出處:【微信號:murata-eetrend,微信公眾號:murata-eetrend】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    GPU是如何訓(xùn)練AI大模型

    在AI模型訓(xùn)練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數(shù)等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU是如何
    的頭像 發(fā)表于 12-19 17:54 ?151次閱讀

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術(shù) (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發(fā)揮出卓越的推理性能。
    的頭像 發(fā)表于 12-17 17:47 ?195次閱讀

    PyTorch GPU 加速訓(xùn)練模型方法

    在深度學(xué)習(xí)領(lǐng)域,GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時間的重要手段。PyTorch作為一個流行的深度學(xué)習(xí)框架,提供了豐富的工具和
    的頭像 發(fā)表于 11-05 17:43 ?584次閱讀

    NVIDIA助力麗蟾科技打造AI訓(xùn)練推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,為企業(yè)和科研機構(gòu)提供了一套高效、靈活的 AI 訓(xùn)練推理加速解決方案。無論是在復(fù)雜的 AI 開發(fā)任務(wù)中,還是在高并發(fā)
    的頭像 發(fā)表于 10-27 10:03 ?236次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>助力</b>麗蟾科技打造AI<b class='flag-5'>訓(xùn)練</b>與<b class='flag-5'>推理</b>加速解決方案

    為什么ai模型訓(xùn)練要用gpu

    GPU憑借其強大的并行處理能力和高效的內(nèi)存系統(tǒng),已成為AI模型訓(xùn)練不可或缺的重要工具。
    的頭像 發(fā)表于 10-24 09:39 ?342次閱讀

    開箱即用,AISBench測試展示英特爾至強處理器的卓越推理性

    近期,第五代英特爾?至強?可擴展處理器通過了中國電子技術(shù)標(biāo)準(zhǔn)化研究院組織的人工智能服務(wù)器系統(tǒng)性能測試(AISBench)。英特爾成為首批通過AISBench大語言模型(LLM)推理性能測試的企業(yè)
    的頭像 發(fā)表于 09-06 15:33 ?361次閱讀
    開箱即用,AISBench測試展示英特爾至強處理器的卓越<b class='flag-5'>推理性</b>能

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國最具影響力的模型開源社區(qū),致力給開發(fā)者提供模型即服務(wù)的體驗。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語言模型
    的頭像 發(fā)表于 08-23 15:48 ?467次閱讀

    llm模型訓(xùn)練一般用什么系統(tǒng)

    。 硬件系統(tǒng) 1.1 GPU(圖形處理器) 在訓(xùn)練大型語言模型時,GPU是首選的硬件設(shè)備。相比于CPU,GPU具有更高的并行處理能力,可以顯
    的頭像 發(fā)表于 07-09 10:02 ?430次閱讀

    摩爾線程和滴普科技完成大模型訓(xùn)練推理適配

    近日,摩爾線程與滴普科技宣布了一項重要合作成果。摩爾線程的夸娥(KUAE)千卡智算集群與滴普科技的企業(yè)大模型Deepexi已完成訓(xùn)練推理適配,共同實現(xiàn)了700億參數(shù)LLaMA2大語言模型
    的頭像 發(fā)表于 05-30 10:14 ?562次閱讀

    進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    。 **英偉達Blackwell架構(gòu)在數(shù)據(jù)中心方面的應(yīng)用有哪些?** 1. **AI **大模型訓(xùn)練 Blackwell 架構(gòu)的 GPU 針對當(dāng)前火爆的 AI 大模型進行了優(yōu)化,能夠
    發(fā)表于 05-13 17:16

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    豐富的常識知識,能夠基于常識進行推理,填補信息空白,并作出合理推斷。隨著訓(xùn)練規(guī)模和參數(shù)量的增加,大語言模型推理能力將持續(xù)提升,為解決實際問
    發(fā)表于 05-04 23:55

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫,用于優(yōu)化從 PC 到云端的 NVID
    的頭像 發(fā)表于 04-28 10:36 ?589次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實踐中,唯品會 AI 平臺與 NVIDIA 團隊合作,結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網(wǎng)絡(luò)和熱
    的頭像 發(fā)表于 04-20 09:39 ?758次閱讀

    自然語言處理應(yīng)用LLM推理優(yōu)化綜述

    當(dāng)前,業(yè)界在將傳統(tǒng)優(yōu)化技術(shù)引入 LLM 推理的同時,同時也在探索從大模型自回歸解碼特點出發(fā),通過調(diào)整推理過程和引入新的模型結(jié)構(gòu)來進一步提升
    發(fā)表于 04-10 11:48 ?620次閱讀
    自然語言處理應(yīng)用LLM<b class='flag-5'>推理</b>優(yōu)化綜述

    利用NVIDIA產(chǎn)品技術(shù)組合提升用戶體驗

    本案例通過利用NVIDIA TensorRT-LLM加速指令識別深度學(xué)習(xí)模型,并借助NVIDIA Triton推理服務(wù)器在NVIDIA V1
    的頭像 發(fā)表于 01-17 09:30 ?715次閱讀