0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPU加速的推薦程序框架Merlin HugeCTR

NVIDIA英偉達(dá) ? 來(lái)源:NVIDIA英偉達(dá) ? 作者:NVIDIA英偉達(dá) ? 2022-03-20 15:30 ? 次閱讀

Merlin HugeCTR(以下簡(jiǎn)稱(chēng) HugeCTR)是 GPU 加速的推薦程序框架,旨在在多個(gè) GPU 和節(jié)點(diǎn)之間分配訓(xùn)練并估計(jì)點(diǎn)擊率(Click-through rate)。

此次v3.4更新涉及的模塊主要為:

HugeCTR 分級(jí)參數(shù)服務(wù)器

HugeCTR Python API

相關(guān)介紹:

HugeCTR 分級(jí)參數(shù)服務(wù)器介紹

V3.4.1 版本新增內(nèi)容

調(diào)整了整個(gè)代碼庫(kù)中日志消息的日志級(jí)別。

現(xiàn)已支持對(duì)具有多個(gè)標(biāo)簽的數(shù)據(jù)集進(jìn)行推理:

“Softmax” 層現(xiàn)在已支持 FP16,并且支持混合精度以進(jìn)行多標(biāo)簽推理。

支持多 GPU 離線推理:

我們通過(guò) Python 接口支持多 GPU 離線推理,它可以利用Hierarchical Parameter Server

并在多個(gè)設(shè)備上實(shí)現(xiàn)并發(fā)執(zhí)行。更多信息請(qǐng)參考推理 API和多 GPU 離線推理筆記本。

HPS 已構(gòu)建為獨(dú)立庫(kù):

我們重構(gòu)了代碼庫(kù)并將分層參數(shù)服務(wù)器構(gòu)建為一個(gè)獨(dú)立的庫(kù),以后會(huì)進(jìn)一步封裝。

metadata.json 簡(jiǎn)介:

添加了有關(guān) Parquet data 中 _metadata.json 的詳細(xì)信息。

增加了用于估計(jì)每個(gè) GPU 的詞匯量大小的文檔和工具:

我們添加了一個(gè)工具來(lái)計(jì)算每個(gè) GPU 的不同嵌入類(lèi)型的詞匯量大小,在此基礎(chǔ)上,workspace_size_per_gpu_in_mb 可以根據(jù)嵌入向量大小和優(yōu)化器類(lèi)型評(píng)估更多信息請(qǐng)參考腳本:

訓(xùn)練中支持 HDFS :

a. 現(xiàn)在支持從 HDFS 加載和存儲(chǔ)模型和優(yōu)化器狀態(tài)。

b. 增加了編譯選項(xiàng)使 HDFS 的支持更加靈活。

c. 添加了一個(gè)筆記本來(lái)展示如何將 HugeCTR 與 HDFS 一起使用:

增加了一個(gè)演示如何分析模型文件的 Python 腳本和筆記本

錯(cuò)誤修復(fù):修復(fù)了SOK 中的鏡像策略錯(cuò)誤。

修復(fù)了無(wú)法在nvcr.io/nvidia/merlin/merlin-tensorflow-training:22.02 中導(dǎo)入稀疏操作工具包的問(wèn)題。

HugeCTR 參數(shù)服務(wù)器:修復(fù)了在未配置 RocksDB 時(shí),可能會(huì)在初始化期間發(fā)生的訪問(wèn)沖突問(wèn)題。

已知問(wèn)題

HugeCTR 使用 NCCL 在 rank 之間共享數(shù)據(jù),并且 NCCL 可能需要共享系統(tǒng)內(nèi)存用于 IPC 和固定(頁(yè)面鎖定)系統(tǒng)內(nèi)存資源。在容器內(nèi)使用 NCCL 時(shí),建議您通過(guò)發(fā)出以下命令(-shm-size=1g -ulimit memlock=-1) 來(lái)增加這些資源。

另見(jiàn) NCCL 的 已知問(wèn)題

還有 GitHub 問(wèn)題

目前即使目標(biāo) Kafka broker 無(wú)響應(yīng),KafkaProducers 啟動(dòng)也會(huì)成功。為了避免與來(lái)自 Kafka 的流模型更新相關(guān)的數(shù)據(jù)丟失,您必須確保有足夠數(shù)量的 Kafka brokers 啟動(dòng)、正常工作并且可以從運(yùn)行 HugeCTR 的節(jié)點(diǎn)訪問(wèn)。

文件列表中的數(shù)據(jù)文件數(shù)量應(yīng)不小于數(shù)據(jù)讀取器的數(shù)量。否則,不同的 worker 將被映射到同一個(gè)文件,從而導(dǎo)致數(shù)據(jù)加載不會(huì)按預(yù)期進(jìn)行。

正則化器暫不支持聯(lián)合損失訓(xùn)練。

原文標(biāo)題:Merlin HugeCTR v3.4.1 發(fā)布說(shuō)明

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 接口
    +關(guān)注

    關(guān)注

    33

    文章

    8611

    瀏覽量

    151247
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4742

    瀏覽量

    128972
  • 工具包
    +關(guān)注

    關(guān)注

    0

    文章

    46

    瀏覽量

    9541

原文標(biāo)題:Merlin HugeCTR v3.4.1 發(fā)布說(shuō)明

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    GPU加速云服務(wù)器怎么用的

    GPU加速云服務(wù)器是將GPU硬件與云計(jì)算服務(wù)相結(jié)合,通過(guò)云服務(wù)提供商的平臺(tái),用戶(hù)可以根據(jù)需求靈活租用帶有GPU資源的虛擬機(jī)實(shí)例。那么,GPU
    的頭像 發(fā)表于 12-26 11:58 ?66次閱讀

    《CST Studio Suite 2024 GPU加速計(jì)算指南》

    許可證模型的加速令牌或SIMULIA統(tǒng)一許可證模型的SimUnit令牌或積分授權(quán)。 4. GPU計(jì)算的啟用 - 交互式模擬:通過(guò)加速對(duì)話框啟用,打開(kāi)求解器對(duì)話框,點(diǎn)擊“加速”按鈕,打
    發(fā)表于 12-16 14:25

    PyTorch GPU 加速訓(xùn)練模型方法

    在深度學(xué)習(xí)領(lǐng)域,GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時(shí)間的重要手段。PyTorch作為一個(gè)流行的深度學(xué)習(xí)框架,提供了豐富的工具和方法來(lái)利用GPU進(jìn)行模型訓(xùn)練。 1. 了解
    的頭像 發(fā)表于 11-05 17:43 ?567次閱讀

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--了解算力芯片GPU

    每個(gè)CUDA單元在 OpenCL 編程框架中都有對(duì)應(yīng)的單元。 倒金字塔結(jié)構(gòu)GPU存儲(chǔ)體系 共享內(nèi)存是開(kāi)發(fā)者可配置的編程資源,使用門(mén)檻較高,編程上需要更多的人工顯式處理。 在并行計(jì)算架構(gòu)中,線程
    發(fā)表于 11-03 12:55

    常見(jiàn)GPU問(wèn)題及解決方法

    各種問(wèn)題。以下是一些常見(jiàn)的GPU問(wèn)題及其解決方法: GPU驅(qū)動(dòng)程序過(guò)時(shí)或不兼容 問(wèn)題描述:GPU驅(qū)動(dòng)程序
    的頭像 發(fā)表于 10-27 14:12 ?1428次閱讀

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識(shí)別 圖像識(shí)別是深度學(xué)習(xí)的核心應(yīng)用領(lǐng)域之一,GPU加速圖像識(shí)別模型訓(xùn)練方面發(fā)揮著關(guān)鍵作用。通過(guò)利用
    的頭像 發(fā)表于 10-27 11:13 ?399次閱讀

    GPU超頻設(shè)置技巧

    技巧: 了解你的硬件 : 在超頻之前,了解你的GPU型號(hào)和規(guī)格是非常重要的。不同的GPU有不同的超頻潛力。 檢查GPU的默認(rèn)頻率和電壓,以及制造商推薦的超頻范圍。 更新驅(qū)動(dòng)程序 : 確
    的頭像 發(fā)表于 10-27 11:09 ?483次閱讀

    GPU加速計(jì)算平臺(tái)是什么

    GPU加速計(jì)算平臺(tái),簡(jiǎn)而言之,是利用圖形處理器(GPU)的強(qiáng)大并行計(jì)算能力來(lái)加速科學(xué)計(jì)算、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等復(fù)雜計(jì)算任務(wù)的軟硬件結(jié)合系統(tǒng)。
    的頭像 發(fā)表于 10-25 09:23 ?253次閱讀

    有沒(méi)有大佬知道NI vision 有沒(méi)有辦法通過(guò)gpu和cuda來(lái)加速圖像處理

    有沒(méi)有大佬知道NI vision 有沒(méi)有辦法通過(guò)gpu和cuda來(lái)加速圖像處理
    發(fā)表于 10-20 09:14

    深度學(xué)習(xí)GPU加速效果如何

    圖形處理器(GPU)憑借其強(qiáng)大的并行計(jì)算能力,成為加速深度學(xué)習(xí)任務(wù)的理想選擇。
    的頭像 發(fā)表于 10-17 10:07 ?201次閱讀

    SOK在手機(jī)行業(yè)的應(yīng)用案例

    通過(guò)封裝 NVIDIA Merlin HugeCTR,Sparse Operation Kit(以下簡(jiǎn)稱(chēng) SOK)使得 TensorFlow 用戶(hù)可以借助 HugeCTR 的一些相關(guān)特性和優(yōu)化
    的頭像 發(fā)表于 07-25 10:01 ?355次閱讀
    SOK在手機(jī)行業(yè)的應(yīng)用案例

    鴻蒙Ability Kit(程序框架服務(wù))【應(yīng)用啟動(dòng)框架AppStartup】

    `AppStartup`提供了一種更加簡(jiǎn)單高效的初始化組件的方式,支持異步初始化組件加速應(yīng)用的啟動(dòng)時(shí)間。使用啟動(dòng)框架應(yīng)用開(kāi)發(fā)者只需要分別為待初始化的組件實(shí)現(xiàn)`AppStartup`提供
    的頭像 發(fā)表于 06-10 18:38 ?714次閱讀

    美國(guó)Merlin公司加速自主飛行模擬器開(kāi)發(fā)

    美國(guó)Merlin公司正全力加速自主飛行模擬器的開(kāi)發(fā)進(jìn)程,以推動(dòng)航空領(lǐng)域的創(chuàng)新與發(fā)展。這一舉措不僅體現(xiàn)了Merlin公司在技術(shù)研發(fā)方面的雄厚實(shí)力,也預(yù)示著自主飛行技術(shù)即將迎來(lái)新的突破。
    的頭像 發(fā)表于 04-22 11:30 ?610次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實(shí)踐中,唯品會(huì) AI 平臺(tái)與 NVIDIA 團(tuán)隊(duì)合作,結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網(wǎng)絡(luò)和熱 Embedding 全置于 GPU 上進(jìn)行加速
    的頭像 發(fā)表于 04-20 09:39 ?734次閱讀

    GPU CUDA 編程的基本原理是什么

    神經(jīng)網(wǎng)絡(luò)能加速的有很多,當(dāng)然使用硬件加速是最可觀的了,而目前除了專(zhuān)用的NPU(神經(jīng)網(wǎng)絡(luò)加速單元),就屬于GPU對(duì)神經(jīng)網(wǎng)絡(luò)加速效果最好了
    的頭像 發(fā)表于 03-05 10:26 ?823次閱讀
    <b class='flag-5'>GPU</b> CUDA 編程的基本原理是什么