無量推薦系統(tǒng)承載著騰訊PCG(平臺與內(nèi)容事業(yè)群)的推薦場景,包括: 騰訊看點(瀏覽器、QQ看點、商業(yè)化)、騰訊新聞、騰訊視頻、騰訊音樂、閱文、應(yīng)用寶、小鵝拼拼等。無量推薦系統(tǒng)支持日活躍用戶達數(shù)億級別,其中的模型數(shù)量達數(shù)千個,日均調(diào)用服務(wù)達到千億級別。無量推薦系統(tǒng),在模型訓(xùn)練和推理都能夠進行海量Embedding和DNN模型的GPU計算,是目前業(yè)界領(lǐng)先的體系結(jié)構(gòu)設(shè)計。
傳統(tǒng)推薦系統(tǒng)面臨挑戰(zhàn)
傳統(tǒng)推薦系統(tǒng)具有以下特點: 訓(xùn)練是基于參數(shù)服務(wù)器的框架,解決海量數(shù)據(jù)和稀疏特征的分布式訓(xùn)練問題。推理通常分離大規(guī)模Embedding和DNN,只能進行DNN的GPU加速。 所以,傳統(tǒng)的推薦系統(tǒng)架構(gòu)具有一些局限性:1. 大規(guī)模分布式架構(gòu)有大量的額外開銷,比如參數(shù)和梯度的網(wǎng)絡(luò)收發(fā)。2. 隨著DNN模型復(fù)雜性的的進一步提升,CPU的計算速度開始捉襟見肘。 隨著業(yè)務(wù)的快速增長,日活用戶增多,對其調(diào)用數(shù)量快速增加,給推薦系統(tǒng)后臺帶來了新的挑戰(zhàn):1. 模型更加復(fù)雜,計算量更大,但是參數(shù)服務(wù)器的分布式架構(gòu)有效計算比很低。2. 海量Embedding因為規(guī)模龐大,查詢和聚合計算難以有效利用GPU高性能顯存和算力的優(yōu)勢。
GPU助力提升模型訓(xùn)練和推理性價比
基于以上的挑戰(zhàn),騰訊PCG(平臺與內(nèi)容事業(yè)群)選擇使用基于NVIDIA A100 GPU的分布式系統(tǒng)架構(gòu)來創(chuàng)建無量推薦系統(tǒng)。
1. 通過多級存儲和Pipeline優(yōu)化,在HPC上完成大規(guī)模推薦模型的GPU的高性能訓(xùn)練。2. 基于特征訪問Power-law分布的特性,GPU緩存高頻特征參數(shù),同時從CPU中動態(tài)獲取低頻特征參數(shù),實現(xiàn)了大規(guī)模推薦模型完整的GPU端到端模型推理。
騰訊PCG有多種類型的推薦業(yè)務(wù)場景。比如信息流推薦的QQ瀏覽器、QQ看點、新聞推薦的騰訊新聞、視頻推薦的騰訊視頻、微視、App推薦的應(yīng)用寶、以及騰訊音樂的音樂推薦和閱文集團的文學(xué)推薦。
無量推薦系統(tǒng)承載了這些推薦業(yè)務(wù)場景的模型訓(xùn)練和推理服務(wù)?;趥鹘y(tǒng)的推薦系統(tǒng)架構(gòu),無量推薦系統(tǒng)使用大量CPU資源,通過分布式架構(gòu)可以擴展到TB級模型的訓(xùn)練和部署,取得了巨大的成功。隨著業(yè)務(wù)的快速增長,日活用戶增多,對其調(diào)用數(shù)量快速增加,傳統(tǒng)架構(gòu)局限性限制了推薦系統(tǒng)的架構(gòu)擴展和性能提升。
通過使用GPU訓(xùn)練和推理,單機多卡的GPU算力可以達到數(shù)十臺CPU機器的算力,節(jié)省了大量的額外分布式開銷。通過充分利用A100 GPU高性能顯存快速訪問Embedding,以及并行算力處理DNN推理,單張A100 GPU可以在相同的延遲下推理10倍于CPU的打分樣本。目前基于GPU的推薦架構(gòu)可以提升模型訓(xùn)練和推理性價比1~3倍。
未來,無量推薦系統(tǒng)將不斷優(yōu)化推薦模型在GPU上的應(yīng)用,利用HPC多機多卡,混合精度等能力,進一步提高推薦場景使用GPU的性價比。
重磅!NVIDIA行業(yè)微站一睹為快!內(nèi)容涵蓋NVIDIA主要的12大行業(yè)方案,以及NVIDIA當(dāng)期重點產(chǎn)品資料。
責(zé)任編輯:haq
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5021瀏覽量
103250
原文標(biāo)題:NVIDIA A100 GPU助力騰訊PCG加速無量推薦系統(tǒng)
文章出處:【微信號:murata-eetrend,微信公眾號:murata-eetrend】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論