0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA 助力 DeepRec 為 vivo 推薦業(yè)務(wù)實(shí)現(xiàn)高性能 GPU 推理優(yōu)化

NVIDIA英偉達(dá) ? 來源:未知 ? 2023-01-18 00:55 ? 次閱讀

本案例中,vivo 人工智能推薦算法組自研的推薦服務(wù)平臺,使用阿里巴巴開源大規(guī)模稀疏模型訓(xùn)練和預(yù)測引擎 DeepRec,在稀疏模型訓(xùn)練(稀疏功能、I/O 優(yōu)化)和高性能推理框架層面,實(shí)現(xiàn)其搜廣推各類業(yè)務(wù)場景下,算法開發(fā)和上線的全鏈路優(yōu)化。

其中,在 GPU 線上推理服務(wù)優(yōu)化上,vivo 使用 DeepRec 提供的 Device Placement Optimization,以及 NVIDIA CUDA multi-stream,MPS (Multi-Process Service) / Multi-context 和 NVIDIA GPU 計算專家團(tuán)隊在 multi-stream 基礎(chǔ)上開發(fā)的 MergeStream 功能,顯著提升了線上推理服務(wù)的 GPU 有效利用率。

vivo 人工智能推薦算法組的業(yè)務(wù)包含了信息流、視頻、音樂、廣告等搜索/廣告/推薦各類業(yè)務(wù),基本涵蓋了搜廣推各類型的業(yè)務(wù)。

為了支撐上述場景的算法開發(fā)上線,vivo 自研了集特征數(shù)據(jù)、模型開發(fā)、模型推理等流程于一體的推薦服務(wù)平臺。通過成熟、規(guī)范的推薦組件及服務(wù),該平臺為 vivo 內(nèi)各推薦業(yè)務(wù)(廣告、信息流等)提供一站式的推薦解決方案,便于業(yè)務(wù)快速構(gòu)建推薦服務(wù)及算法策略高效迭代。

8ae3f162-9685-11ed-bfe3-dac502259ad0.png

圖片來源于 vivo

vivo 人工智能推薦算法組在深耕業(yè)務(wù)同時,在積極探索適用于搜索/廣告/推薦大規(guī)模性稀疏性算法訓(xùn)練框架。分別探索了 TensorNet/XDL/TFRA 等框架及組件,這些框架組件在分布式、稀疏性功能上做了擴(kuò)展,能夠彌補(bǔ) TensorFlow 在搜索/廣告/推薦大規(guī)模性稀疏性場景不足,但是在通用性、易用性以及功能特點(diǎn)上,這些框架存在各種不足。

作為 DeepRec 最早的一批社區(qū)用戶,vivo 在 DeepRec 還是內(nèi)部項目時,就與 DeepRec 開發(fā)者保持密切的合作。經(jīng)過一年積累與打磨,vivo 見證了 DeepRec 從內(nèi)部項目到開源再到后續(xù)多個 release 版本的發(fā)布。在合作中,DeepRec 賦能 vivo 各個業(yè)務(wù)增長,vivo 也作為 DeepRec 深度用戶,將業(yè)務(wù)中的需求以及使用中的問題積極回饋到 DeepRec 開源社區(qū)。

DeepRec (https://github.com/alibaba/DeepRec) 是阿里巴巴集團(tuán)提供的針對搜索、推薦、廣告場景模型的訓(xùn)練/預(yù)測引擎,在分布式、圖優(yōu)化、算子、Runtime 等方面對稀疏模型進(jìn)行了深度性能優(yōu)化,提供了豐富的高維稀疏特征功能的支持。基于 DeepRec 進(jìn)行模型迭代不僅能帶來更好的業(yè)務(wù)效果,同時在 Training/Inference 性能有明顯的性能提升。

8af35bca-9685-11ed-bfe3-dac502259ad0.png

圖片來源于阿里巴巴

通過業(yè)務(wù)實(shí)踐,在稀疏模型訓(xùn)練層面,vivo 使用 DeepRec 提供的基于 Embedding Variable (https://deeprec.readthedocs.io/zh/latest/Embedding-Variable.html) 的動態(tài) Embedding 功能和特征準(zhǔn)入 (https://deeprec.readthedocs.io/zh/latest/Feature-Filter.html)/淘汰功能(https://deeprec.readthedocs.io/zh/latest/Feature-Eviction.htm),解決了使用 TensorFlow 原生 Embedding Layer 的三個痛點(diǎn),包括可拓展性差,hash 沖突導(dǎo)致模型訓(xùn)練有損,無法處理冗余的稀疏特征;并在內(nèi)部嘗試對訓(xùn)練數(shù)據(jù)存儲格式做 I/O 優(yōu)化。

8b12c62c-9685-11ed-bfe3-dac502259ad0.png

圖片來源于阿里巴巴

使用動態(tài) Embedding 和特征準(zhǔn)入/淘汰功能實(shí)現(xiàn)的收益如下:

  1. 靜態(tài) Embedding 升級到動態(tài) Embedding:使用 DeepRec 的動態(tài) Embedding 替換 TensorFlow 的靜態(tài) Embedding 后,保證所有特征 Embedding 無沖突,離線 AUC 提升 0.5%,線上點(diǎn)擊率提升 1.2%,同時模型體積縮小 20%。

  2. ID 特征的利用:在使用 TensorFlow 時,vivo 嘗試過對 ID 特征進(jìn)行 hash 處理輸入模型,實(shí)驗表明這種操作對比基線具有負(fù)收益。這是由于 ID 特征過于稀疏,同時 ID 具有唯一指示性,hash 處理會帶來大量的 Embedding 沖突?;趧討B(tài) Embedding,使用 ID 特征離線 AUC 提升 0.4%,線上點(diǎn)擊率提升 0.6%。同時配合 global step 特征淘汰,離線 AUC 提升 0.1%,線上點(diǎn)擊率提升 0.5%。

8b1ae924-9685-11ed-bfe3-dac502259ad0.png

Embedding Variable 流程示意圖

圖片來源于阿里巴巴

在 I/O 優(yōu)化上,目前 vivo 內(nèi)部使用的是 TFRecord 數(shù)據(jù)格式存儲訓(xùn)練數(shù)據(jù),存在占用存儲空間大,非明文存儲的兩個缺陷。而 DeepRec 的 Parquet 是一種列式存儲的數(shù)據(jù)格式,能夠節(jié)省存儲資源,加快數(shù)據(jù)讀取速度。使用 Parquet Dataset 支持讀取 Parquet 文件,開箱即用,無需額外安裝第三庫,使用簡單方便。同時,Parquet Dataset 能夠加快數(shù)據(jù)讀取速度,提高模型訓(xùn)練的 I/O 性能。

vivo 內(nèi)部嘗試使用 Parquet Dataset 來替換現(xiàn)有 TFRecord,提高訓(xùn)練速度 30%,減少樣本存儲成本 38%,降低帶寬成本。同時,vivo 內(nèi)部支持 hive 查詢 Parquet 文件,算法工程師能夠高效快捷地分析樣本數(shù)據(jù)。

在高性能推理框架層面,由于在業(yè)務(wù)逐漸發(fā)展過程中,廣告召回量增長 3.5 倍,同時目標(biāo)預(yù)估數(shù)增加兩倍,推理計算復(fù)雜度增加,超時率超過 5%,嚴(yán)重影響線上服務(wù)可用性以及業(yè)務(wù)指標(biāo)。因此,vivo 嘗試探索升級改造現(xiàn)有推理服務(wù),保證業(yè)務(wù)可持續(xù)發(fā)展。vivo 借助 DeepRec 開源的諸多推理優(yōu)化功能,在 CPU 推理改造以及 GPU 推理升級方面進(jìn)行探索,并取得一定收益。

客戶挑戰(zhàn)

在 CPU 推理優(yōu)化層面,vivo 在使用 DeepRec 提供的基于 ShareNothing 架構(gòu)的 SessionGroup 后,明顯緩解了直接使用 TensorFlow 的 C++ 接口調(diào)用 Session::Run 而導(dǎo)致的 CPU 使用率低的問題,在保證 latency 的前提下極大提高了 QPS,單機(jī) QPS 提升高達(dá) 80%,單機(jī) CPU 利用率提升 75%。

但是經(jīng)過 SessionGroup 的優(yōu)化,雖然 CPU 推理性能得到改善,超時率依舊無法得到緩解。鑒于多目標(biāo)模型目標(biāo)塔數(shù)較多、模型中使用 Attention、LayerNorm、GateNet 等復(fù)雜結(jié)構(gòu)、特征多,存在大量稀疏特征三點(diǎn)原因,vivo 嘗試探索 GPU 推理來優(yōu)化線上性能。

應(yīng)用方案

Device Placement Optimization

通常,對于稀疏特征的處理一般是將其 Embedding 化,由于模型中存在大量的稀疏特征,因此 vivo 的廣告模型使用大量的 Embedding 算子。從推理的 timeline 可以看出,Embedding 算子分散在 timeline 的各個階段,導(dǎo)致大量的 GPU kernel launch 以及數(shù)據(jù)拷貝,因此圖計算非常耗時。

8b33e488-9685-11ed-bfe3-dac502259ad0.png

圖片來源于阿里巴巴

Device PlacementOptimization 完全將 Embedding Layer placed 到 CPU 上,解決了Embedding Layer 內(nèi)部存在的 CPU 和 GPU 之間大量數(shù)據(jù)拷貝的問題。

8b5f48a8-9685-11ed-bfe3-dac502259ad0.png

圖片來源于阿里巴巴

Device Placement Optimization 性能優(yōu)化明顯,CPU 算子(主要是 Embedding Layer)的計算集中在 timeline 的最開端,之后 GPU 主要負(fù)責(zé)網(wǎng)絡(luò)層的計算。相較于 CPU 推理,Device Placement Optimization P99 降低 35%。

NVIDIA CUDA Multi-Stream 功能

在推理過程中,vivo 發(fā)現(xiàn)單流執(zhí)行導(dǎo)致 GPU 的利用率不高,無法充分挖掘 GPU 算力。DeepRec 支持用戶使用 multi-stream 功能,多 stream 并發(fā)計算,提升 GPU 利用率。多線程并發(fā) launch kernel 時,存在較大的鎖開銷,極大影響了 kernel launch 的效率,這里的鎖與 CUDA Driver 中的 Context 相關(guān)。因此可以通過使用 MPS/Multi-context 來避免 launch 過程中鎖開銷,從而進(jìn)一步提升 GPU 的有效利用率。

8b6af25c-9685-11ed-bfe3-dac502259ad0.png

圖片來源于阿里巴巴

此外,模型中存在大量的 H2D 以及 D2H 的數(shù)據(jù)拷貝,在原生代碼中,計算 stream 和拷貝 stream 是獨(dú)立的,這會導(dǎo)致 stream 之間存在大量同步開銷,同時對于在 Recv 算子之后的計算算子,必須等到 MemCopy 完成之后才能被 launch 執(zhí)行,MemCopy 和 launch 難以 overlap 執(zhí)行?;谝陨蠁栴},NVIDIA GPU 計算專家團(tuán)隊在 multi-stream 功能基礎(chǔ)上進(jìn)一步優(yōu)化,開發(fā)了 MergeStream 功能,允許 MemCopy 和計算使用相同的 stream,從而減少上述的同步開銷以及允許 Recv 之后計算算子 launch 開銷被 overlap。

8b7d30f2-9685-11ed-bfe3-dac502259ad0.png

圖片來源于阿里巴巴

vivo 在線上推理服務(wù)中使用了 multi-stream 功能,P99 降低 18%。更進(jìn)一步地,在使用 MergeStream 功能后,P99 降低 11%。

編譯優(yōu)化 - BladeDISC

BladeDISC(https://github.com/alibaba/BladeDISC)是阿里集團(tuán)自主研發(fā)的、原生支持存在動態(tài)尺寸模型的深度學(xué)習(xí)編譯器。DeepRec 中集成了 BladeDISC,通過使用 BladeDISC 內(nèi)置的 aStitch 大尺度算子融合技術(shù)對于存在較多訪存密集型算子的模型有顯著的效果。利用 BladeDISC 對模型進(jìn)行編譯優(yōu)化,推理性能得到大幅度提升。

BladeDISC 將大量訪存密集型算子編譯成一個大的融合算子,可以大大減少框架調(diào)度和 kernel launch 的開銷。區(qū)別于其他深度學(xué)習(xí)編譯器的是,BladeDISC 還會通過優(yōu)化 GPU 不同層次存儲(特別是 SharedMemory)的使用來提升了訪存操作和 Op 間數(shù)據(jù)交換的性能。圖中可以看到,綠色是 Blade DISC優(yōu)化合并的算子替代了原圖中大量的算子。

8ba7736c-9685-11ed-bfe3-dac502259ad0.png

圖片來源于阿里巴巴

8bb0fad6-9685-11ed-bfe3-dac502259ad0.png

圖片來源于阿里巴巴

另外,由于線上模型比較復(fù)雜,為了進(jìn)一步減少編譯耗時、提升部署效率,vivo 啟用了 BladeDISC 的編譯緩存功能。開啟此功能時,BladeDISC 僅會在新舊版本模型的 Graph 結(jié)構(gòu)發(fā)生改變時觸發(fā)編譯,如果新舊模型僅有權(quán)重變更則復(fù)用之前的編譯結(jié)果。經(jīng)過驗證,編譯緩存在保證正確性的同時,幾乎掩蓋了編譯模型的開銷,模型更新速度與之前幾乎相同。在使用 BladeDISC 功能后,線上服務(wù) P99 降低 21%。

使用效果及影響

DeepRec 提供大量的解決方案可以幫助用戶快速實(shí)施 GPU 推理。經(jīng)過一系列優(yōu)化,相較于 CPU 推理,GPU 推理 P99 降低 50%,GPU 利用率平均在 60% 以上。此外,線上一張 NVIDIA T4 Tensor Core GPU 的推理性能超過兩臺 Xeon 6330 112Core 的 CPU 機(jī)器,節(jié)省了大量的機(jī)器資源。

基于 CPU 的分布式異步訓(xùn)練存在兩個問題:一是異步訓(xùn)練會損失訓(xùn)練精度,模型難以收斂到最佳;二是隨著模型結(jié)構(gòu)逐漸復(fù)雜,訓(xùn)練性能會急劇下降。未來,vivo 打算嘗試基于 GPU 的同步訓(xùn)練來加速復(fù)雜模型訓(xùn)練。DeepRec 支持兩種 GPU 同步框架:NVIDIA Merlin Sparse Operation Kit (SOK) 和 HybridBackend。后續(xù) vivo 將嘗試這兩種 GPU 同步訓(xùn)練來加速模型訓(xùn)練。

NVIDIA 計算專家團(tuán)隊也與 DeepRec 技術(shù)團(tuán)隊深入合作,為在稀疏功能層面的 Embedding Variable GPU 支持、在同步訓(xùn)練層面的 Merlin SOK 集成,以及圖優(yōu)化層面的 Embedding 子圖 Fusion 功能開發(fā)提供技術(shù)支持。

Embedding Variable GPU 支持介紹 https://deeprec.readthedocs.io/zh/latest/Embedding-Variable-GPU.html

DeepRec 設(shè)計并提供了一套支持動態(tài) Embedding 語義的 Embedding Variable,在特征無損訓(xùn)練的同時以最經(jīng)濟(jì)的方式使用內(nèi)存資源,使得超大規(guī)模特征的模型更容易增量上線。進(jìn)一步地,因為 GPU 具有強(qiáng)大的并行計算能力,對于 Embedding Variable 底層的 Hash Table 查找、插入等操作也具有明顯的加速作用。同時,對于模型計算部分若使用 GPU,則使用 GPU 上的 Embedding Variable 也可避免 Host 和 Device 上的數(shù)據(jù)拷貝,提高整體性能。因此增加了 Embedding Variable 的 GPU 支持。

GPU 版本的 Embedding Variable 通過 NVIDIA cuCollection 作為底層 Hash Table 的實(shí)現(xiàn),可以明顯加速 Embedding 相關(guān)的操作,而且使用方便,在具有 NVIDIA GPU 的環(huán)境中會自動啟用,也可以手動放置在合適的 GPU 設(shè)備上。性能測試顯示 GPU 版本相比于 CPU 版本,Embedding 部分會有 2 倍以上的加速。

分布式訓(xùn)練集成 Merlin SOK 介紹 https://deeprec.readthedocs.io/zh/latest/SOK.html

DeepMerlin SOK 是 NVIDIA Merlin 團(tuán)隊基于 Merlin SOK 提供的針對神經(jīng)網(wǎng)絡(luò)中稀疏操作的加速插件庫,使用 DeepMerlin SOK 可對 DeepRec 中相關(guān)的 Embedding 操作進(jìn)行加速和分布式訓(xùn)練的支持。

該 SOK 的設(shè)計理念就是希望同時兼容靈活性和高性能。在靈活性方面,使用 SOK 不會對用戶使用 DeepRec 本身的功能有影響,可以和 DeepRec 提供的 Embedding Variable 完全兼容,也會集成到 DeepRec 的高級接口方便用戶的使用。在高性能方面,SOK 主要從兩方面去考慮,一方面,在算法設(shè)計上,通過 reduce 操作來減少搬運(yùn)的數(shù)據(jù)量,另一方面,在實(shí)現(xiàn)上,主要通過算子融合技術(shù),融合多表的查詢和通信,提供稀疏操作的性能。性能測試顯示 SOK 能夠提供接近于線性的擴(kuò)展能力,在 8 GPU 下相比 1 GPU 能夠達(dá)到 6.5 倍的加速效果。

Embedding 子圖 Fusion 功能介紹 https://deeprec.readthedocs.io/zh/latest/Fused-Embedding.html

DeepRec 及 TensorFlow 原生的 embedding lookup 相關(guān) API,如 safe_embedding_lookup_sparse,會創(chuàng)建比較多細(xì)碎的算子,且部分算子只有 CPU 實(shí)現(xiàn)。因此在 GPU 上執(zhí)行時容易出現(xiàn) kernel launch bound 的問題以及額外 H2D & D2H 拷貝,造成低 GPU 利用率,降低執(zhí)行速度。

針對此場景,NVIDIA 計算專家團(tuán)隊與 DeepRec 合作,共同定制開發(fā)了支持在 NVIDIA GPU 上執(zhí)行的 Embedding 子圖 Fusion 功能,并對 GPU 高算力高吞吐的特點(diǎn)進(jìn)行了針對性優(yōu)化:提供一組接口以及相關(guān) Fusion 算子,通過算子融合,減少需要 launch 的 kernel 數(shù)量,優(yōu)化訪存,提供高性能的實(shí)現(xiàn),達(dá)到加速執(zhí)行的目的。

Embedding Fusion 功能易用,從 Python 層面提供接口及開關(guān),用戶無需修改代碼即可快速使用。加速效果方面,單獨(dú)從 Embedding 模塊看,GPU Embedding Fusion 可以提供 2 倍左右的加速。從整體模型來看,加速效果取決于 Embedding 模塊的耗時占比。在幾個測試模型上,此功能可以提供 1.2 倍左右的整體性能加速。

點(diǎn)擊“閱讀原文”掃描下方海報二維碼,即可免費(fèi)注冊 GTC 23,切莫錯過這場 AI 和元宇宙時代的技術(shù)大會!


原文標(biāo)題:NVIDIA 助力 DeepRec 為 vivo 推薦業(yè)務(wù)實(shí)現(xiàn)高性能 GPU 推理優(yōu)化

文章出處:【微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3796

    瀏覽量

    91322

原文標(biāo)題:NVIDIA 助力 DeepRec 為 vivo 推薦業(yè)務(wù)實(shí)現(xiàn)高性能 GPU 推理優(yōu)化

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    鴻蒙原生頁面高性能解決方案上線OpenHarmony社區(qū) 助力打造高性能原生應(yīng)用

    高性能鴻蒙原生應(yīng)用。 Nodepool:優(yōu)化頁面滑動流暢性Nodepool旨在解決應(yīng)用頁面滑動卡頓問題。開發(fā)中,相似頁面因業(yè)務(wù)和代碼差異,組件復(fù)用性差,引發(fā)卡頓、丟幀,影響用戶體驗。Nodepool通過
    發(fā)表于 01-02 18:00

    借助NVIDIA GPU提升魯班系統(tǒng)CAE軟件計算效率

    本案例中魯班系統(tǒng)高性能 CAE 軟件利用 NVIDIA 高性能 GPU實(shí)現(xiàn)復(fù)雜產(chǎn)品的快速仿真,加速產(chǎn)品開發(fā)和設(shè)計迭代,縮短開發(fā)周期,提升產(chǎn)
    的頭像 發(fā)表于 12-27 16:24 ?158次閱讀

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術(shù) (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發(fā)揮出卓越的推理性能。
    的頭像 發(fā)表于 12-17 17:47 ?195次閱讀

    助力AIoT應(yīng)用:在米爾FPGA開發(fā)板上實(shí)現(xiàn)Tiny YOLO V4

    受限的設(shè)備上運(yùn)行,尤其在低功耗、實(shí)時檢測的邊緣計算設(shè)備中表現(xiàn)出色。相比傳統(tǒng) GPU,F(xiàn)PGA 能在小面積和低功耗下實(shí)現(xiàn)類似的推理性能,非常契合 AIoT 應(yīng)用。像米爾 ZU3EG 這樣的 FPGA
    發(fā)表于 12-06 17:18

    全新NVIDIA NIM微服務(wù)實(shí)現(xiàn)突破性進(jìn)展

    全新 NVIDIA NIM 微服務(wù)實(shí)現(xiàn)突破性進(jìn)展,可助力氣象技術(shù)公司開發(fā)和部署 AI 模型,實(shí)現(xiàn)對降雪、結(jié)冰和冰雹的預(yù)測。
    的頭像 發(fā)表于 11-21 10:07 ?234次閱讀

    NVIDIA助力麗蟾科技打造AI訓(xùn)練與推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,企業(yè)和科研機(jī)構(gòu)提供了一套高效、靈活的 AI 訓(xùn)練與推理加速解決方案。無論是在復(fù)雜的 AI 開發(fā)任務(wù)中,還是在高并發(fā)
    的頭像 發(fā)表于 10-27 10:03 ?237次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>助力</b>麗蟾科技打造AI訓(xùn)練與<b class='flag-5'>推理</b>加速解決方案

    Wolfspeed碳化硅助力實(shí)現(xiàn)高性能功率系統(tǒng)

    Wolfspeed碳化硅助力實(shí)現(xiàn)高性能功率系統(tǒng)
    發(fā)表于 10-24 10:51 ?0次下載

    GPU高性能服務(wù)器配置

    GPU高性能服務(wù)器作為提升計算速度和效率的關(guān)鍵設(shè)備,在各大應(yīng)用場景中發(fā)揮著越來越重要的作用。在此,petacloud.ai小編為你介紹GPU高性能服務(wù)器的配置要點(diǎn)。
    的頭像 發(fā)表于 10-21 10:42 ?234次閱讀

    澎峰科技高性能大模型推理引擎PerfXLM解析

    自ChatGPT問世以來,大模型遍地開花,承載大模型應(yīng)用的高性能推理框架也不斷推出,大有百家爭鳴之勢。在這種情況下,澎峰科技作為全球領(lǐng)先的智能計算服務(wù)提供商,在2023年11月25日發(fā)布了針對大語言
    的頭像 發(fā)表于 09-29 10:14 ?504次閱讀
    澎峰科技<b class='flag-5'>高性能</b>大模型<b class='flag-5'>推理</b>引擎PerfXLM解析

    IaaS+on+DPU(IoD)+下一代高性能算力底座技術(shù)白皮書

    數(shù)據(jù)中心的第三顆“主力芯片”,主要通過其專用處理器優(yōu)化數(shù)據(jù)中心的網(wǎng)絡(luò)、存儲、安全等處理性能,助力服務(wù)器運(yùn)行效率顯著提升,有效降低成本。因此,在新型數(shù)據(jù)中心建設(shè)時,圍繞 DPU 構(gòu)建數(shù)據(jù)中心網(wǎng)絡(luò)的基礎(chǔ)設(shè)施
    發(fā)表于 07-24 15:32

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    冷卻技術(shù),提高計算密度,減少占地面積,并通過高帶寬、低延遲的GPU通信,有效減少數(shù)據(jù)中心的碳足跡和能源消耗。相較于傳統(tǒng)的NVIDIA H100風(fēng)冷基礎(chǔ)設(shè)施,GB200在相同功耗下實(shí)現(xiàn)25倍的
    發(fā)表于 05-13 17:16

    NVIDIA全面加快Meta Llama 3的推理速度

    Meta 最新開源大語言模型采用 NVIDIA 技術(shù)構(gòu)建,其經(jīng)過優(yōu)化后可在云、數(shù)據(jù)中心、邊緣和 PC 的 NVIDIA GPU 上運(yùn)行。
    的頭像 發(fā)表于 04-23 09:52 ?476次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實(shí)踐中,唯品會 AI 平臺與 NVIDIA 團(tuán)隊合作,結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網(wǎng)絡(luò)和熱
    的頭像 發(fā)表于 04-20 09:39 ?759次閱讀

    降本增效:NVIDIA路徑優(yōu)化引擎創(chuàng)下多項世界紀(jì)錄!

    NVIDIA cuOpt 路徑優(yōu)化引擎助力川崎重工實(shí)現(xiàn)鐵路安全,支持 SyncTwin 實(shí)現(xiàn)制造優(yōu)化
    的頭像 發(fā)表于 04-03 11:17 ?445次閱讀

    NVIDIA 發(fā)布全新交換機(jī),全面優(yōu)化萬億參數(shù)級 GPU 計算和 AI 基礎(chǔ)設(shè)施

    NVIDIA 軟件實(shí)現(xiàn)了跨 ?Blackwell GPU、新交換機(jī)和 BlueField-3 SuperNIC 的分布式計算,大幅提升了 AI、數(shù)據(jù)處理、高性能計算和云工作負(fù)載的
    發(fā)表于 03-19 10:05 ?363次閱讀
    <b class='flag-5'>NVIDIA</b> 發(fā)布全新交換機(jī),全面<b class='flag-5'>優(yōu)化</b>萬億參數(shù)級 <b class='flag-5'>GPU</b> 計算和 AI 基礎(chǔ)設(shè)施