97爱色欧美亚洲综合图区,2022最新在线精品国自产拍视频,中文字幕视频二区人妻爱

Merlin HugeCTR(以下簡稱 HugeCTR)是 GPU 加速的推薦程序框架，旨在在多個 GPU 和節(jié)點(diǎn)之間分配訓(xùn)練并估計(jì)點(diǎn)擊率(Click-through rate)。

此次v3.4更新涉及的模塊主要為：

HugeCTR 分級參數(shù)服務(wù)器

HugeCTR Python API

相關(guān)介紹：

HugeCTR 分級參數(shù)服務(wù)器介紹

V3.4.1 版本新增內(nèi)容

調(diào)整了整個代碼庫中日志消息的日志級別。

現(xiàn)已支持對具有多個標(biāo)簽的數(shù)據(jù)集進(jìn)行推理：

“Softmax” 層現(xiàn)在已支持 FP16，并且支持混合精度以進(jìn)行多標(biāo)簽推理。

支持多 GPU 離線推理：

我們通過 Python 接口支持多 GPU 離線推理，它可以利用Hierarchical Parameter Server

并在多個設(shè)備上實(shí)現(xiàn)并發(fā)執(zhí)行。更多信息請參考推理 API和多 GPU 離線推理筆記本。

HPS 已構(gòu)建為獨(dú)立庫：

我們重構(gòu)了代碼庫并將分層參數(shù)服務(wù)器構(gòu)建為一個獨(dú)立的庫，以后會進(jìn)一步封裝。

metadata.json 簡介：

添加了有關(guān) Parquet data 中 _metadata.json 的詳細(xì)信息。

增加了用于估計(jì)每個 GPU 的詞匯量大小的文檔和工具：

我們添加了一個工具來計(jì)算每個 GPU 的不同嵌入類型的詞匯量大小，在此基礎(chǔ)上，workspace_size_per_gpu_in_mb 可以根據(jù)嵌入向量大小和優(yōu)化器類型評估更多信息請參考腳本：

訓(xùn)練中支持 HDFS ：

a. 現(xiàn)在支持從 HDFS 加載和存儲模型和優(yōu)化器狀態(tài)。

b. 增加了編譯選項(xiàng)使 HDFS 的支持更加靈活。

c. 添加了一個筆記本來展示如何將 HugeCTR 與 HDFS 一起使用：

增加了一個演示如何分析模型文件的 Python 腳本和筆記本

錯誤修復(fù)：修復(fù)了SOK 中的鏡像策略錯誤。

修復(fù)了無法在nvcr.io/nvidia/merlin/merlin-tensorflow-training:22.02 中導(dǎo)入稀疏操作工具包的問題。

HugeCTR 參數(shù)服務(wù)器：修復(fù)了在未配置 RocksDB 時(shí)，可能會在初始化期間發(fā)生的訪問沖突問題。

已知問題

HugeCTR 使用 NCCL 在 rank 之間共享數(shù)據(jù)，并且 NCCL 可能需要共享系統(tǒng)內(nèi)存用于 IPC 和固定(頁面鎖定)系統(tǒng)內(nèi)存資源。在容器內(nèi)使用 NCCL 時(shí)，建議您通過發(fā)出以下命令(-shm-size=1g -ulimit memlock=-1) 來增加這些資源。

另見 NCCL 的已知問題

還有 GitHub 問題

目前即使目標(biāo) Kafka broker 無響應(yīng)，KafkaProducers 啟動也會成功。為了避免與來自 Kafka 的流模型更新相關(guān)的數(shù)據(jù)丟失，您必須確保有足夠數(shù)量的 Kafka brokers 啟動、正常工作并且可以從運(yùn)行 HugeCTR 的節(jié)點(diǎn)訪問。

文件列表中的數(shù)據(jù)文件數(shù)量應(yīng)不小于數(shù)據(jù)讀取器的數(shù)量。否則，不同的 worker 將被映射到同一個文件，從而導(dǎo)致數(shù)據(jù)加載不會按預(yù)期進(jìn)行。

正則化器暫不支持聯(lián)合損失訓(xùn)練。

原文標(biāo)題：Merlin HugeCTR v3.4.1 發(fā)布說明

文章出處：【微信公眾號：NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

審核編輯：湯梓紅

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

接口

接口

+關(guān)注

關(guān)注
33

文章
8844

瀏覽量
152796
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4861

瀏覽量
130206
工具包

工具包

+關(guān)注

關(guān)注
0

文章
47

瀏覽量
9643

原文標(biāo)題：Merlin HugeCTR v3.4.1 發(fā)布說明

文章出處：【微信號：NVIDIA_China，微信公眾號：NVIDIA英偉達(dá)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

GPU加速計(jì)算平臺的優(yōu)勢

傳統(tǒng)的CPU雖然在日常計(jì)算任務(wù)中表現(xiàn)出色，但在面對大規(guī)模并行計(jì)算需求時(shí)，其性能往往捉襟見肘。而GPU加速計(jì)算平臺憑借其獨(dú)特的優(yōu)勢，吸引了行業(yè)內(nèi)人士的廣泛關(guān)注和應(yīng)用。下面，AI部落小編為大家分享GPU

發(fā)表于 02-23 16:16 ?235次閱讀

利用NVIDIA DPF引領(lǐng)DPU加速云計(jì)算的未來

DPU 的強(qiáng)大功能，并優(yōu)化 GPU 加速計(jì)算平臺。作為一種編排框架和實(shí)施藍(lán)圖，DPF 使開發(fā)者、服務(wù)提供商和企業(yè)能夠無縫構(gòu)建 BlueField 加速的云原生軟件平臺。

發(fā)表于 01-24 09:29 ?434次閱讀

利用NVIDIA DPF引領(lǐng)DPU<b class='flag-5'>加速</b>云計(jì)算的未來

GPU加速云服務(wù)器怎么用的

GPU加速云服務(wù)器是將GPU硬件與云計(jì)算服務(wù)相結(jié)合，通過云服務(wù)提供商的平臺，用戶可以根據(jù)需求靈活租用帶有GPU資源的虛擬機(jī)實(shí)例。那么，GPU

發(fā)表于 12-26 11:58 ?282次閱讀

《CST Studio Suite 2024 GPU加速計(jì)算指南》

許可證模型的加速令牌或SIMULIA統(tǒng)一許可證模型的SimUnit令牌或積分授權(quán)。 4. GPU計(jì)算的啟用 - 交互式模擬：通過加速對話框啟用，打開求解器對話框，點(diǎn)擊“加速”按鈕，打

發(fā)表于 12-16 14:25

PyTorch GPU 加速訓(xùn)練模型方法

在深度學(xué)習(xí)領(lǐng)域，GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時(shí)間的重要手段。PyTorch作為一個流行的深度學(xué)習(xí)框架，提供了豐富的工具和方法來利用GPU進(jìn)行模型訓(xùn)練。 1. 了解

發(fā)表于 11-05 17:43 ?1061次閱讀

【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--了解算力芯片GPU

每個CUDA單元在 OpenCL 編程框架中都有對應(yīng)的單元。倒金字塔結(jié)構(gòu)GPU存儲體系共享內(nèi)存是開發(fā)者可配置的編程資源，使用門檻較高，編程上需要更多的人工顯式處理。在并行計(jì)算架構(gòu)中，線程

發(fā)表于 11-03 12:55

常見GPU問題及解決方法

各種問題。以下是一些常見的GPU問題及其解決方法： GPU驅(qū)動程序過時(shí)或不兼容問題描述：GPU驅(qū)動程序是

發(fā)表于 10-27 14:12 ?2879次閱讀

GPU深度學(xué)習(xí)應(yīng)用案例

GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要，以下是一些GPU深度學(xué)習(xí)應(yīng)用案例：一、圖像識別圖像識別是深度學(xué)習(xí)的核心應(yīng)用領(lǐng)域之一，GPU在加速圖像識別模型訓(xùn)練方面發(fā)揮著關(guān)鍵作用。通過利用

發(fā)表于 10-27 11:13 ?815次閱讀

GPU加速計(jì)算平臺是什么

GPU加速計(jì)算平臺，簡而言之，是利用圖形處理器（GPU）的強(qiáng)大并行計(jì)算能力來加速科學(xué)計(jì)算、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等復(fù)雜計(jì)算任務(wù)的軟硬件結(jié)合系統(tǒng)。

發(fā)表于 10-25 09:23 ?432次閱讀

有沒有大佬知道NI vision 有沒有辦法通過gpu和cuda來加速圖像處理

有沒有大佬知道NI vision 有沒有辦法通過gpu和cuda來加速圖像處理

發(fā)表于 10-20 09:14

深度學(xué)習(xí)GPU加速效果如何

圖形處理器（GPU）憑借其強(qiáng)大的并行計(jì)算能力，成為加速深度學(xué)習(xí)任務(wù)的理想選擇。

發(fā)表于 10-17 10:07 ?432次閱讀

SOK在手機(jī)行業(yè)的應(yīng)用案例

通過封裝 NVIDIA Merlin HugeCTR，Sparse Operation Kit（以下簡稱 SOK）使得 TensorFlow 用戶可以借助 HugeCTR 的一些相關(guān)特性和優(yōu)化

發(fā)表于 07-25 10:01 ?545次閱讀

鴻蒙Ability Kit（程序框架服務(wù)）【應(yīng)用啟動框架AppStartup】

`AppStartup`提供了一種更加簡單高效的初始化組件的方式，支持異步初始化組件加速應(yīng)用的啟動時(shí)間。使用啟動框架應(yīng)用開發(fā)者只需要分別為待初始化的組件實(shí)現(xiàn)`AppStartup`提供

發(fā)表于 06-10 18:38 ?965次閱讀

美國Merlin公司加速自主飛行模擬器開發(fā)

美國Merlin公司正全力加速自主飛行模擬器的開發(fā)進(jìn)程，以推動航空領(lǐng)域的創(chuàng)新與發(fā)展。這一舉措不僅體現(xiàn)了Merlin公司在技術(shù)研發(fā)方面的雄厚實(shí)力，也預(yù)示著自主飛行技術(shù)即將迎來新的突破。

發(fā)表于 04-22 11:30 ?767次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實(shí)踐中，唯品會 AI 平臺與 NVIDIA 團(tuán)隊(duì)合作，結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網(wǎng)絡(luò)和熱 Embedding 全置于 GPU 上進(jìn)行加速

發(fā)表于 04-20 09:39 ?976次閱讀

搜索歷史

GPU加速的推薦程序框架Merlin HugeCTR

評論