0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

HugeCTR能夠高效地利用GPU來進(jìn)行推薦系統(tǒng)的訓(xùn)練

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2022-04-01 09:40 ? 次閱讀

1. Introduction

HugeCTR 能夠高效地利用 GPU 來進(jìn)行推薦系統(tǒng)的訓(xùn)練,為了使它還能直接被其他 DL 用戶,比如 TensorFlow 所直接使用,我們開發(fā)了 SparseOperationKit (SOK),來將 HugeCTR 中的高級(jí)特性封裝為 TensorFlow 可直接調(diào)用的形式,從而幫助用戶在 TensorFlow 中直接使用 HugeCTR 中的高級(jí)特性來加速他們的推薦系統(tǒng)。

796b3d68-b14e-11ec-aa7f-dac502259ad0.png

圖 1. SOK embedding 工作流程

SOK 以數(shù)據(jù)并行的方式接收輸入數(shù)據(jù),然后在 SOK 內(nèi)部做黑盒式地模型轉(zhuǎn)換,最后將計(jì)算結(jié)果以數(shù)據(jù)并行的方式傳遞給初始 GPU。這種方式可以盡可能少地修改用戶已有的代碼,以更方便、快捷地在多個(gè) GPU 上進(jìn)行擴(kuò)展。

SOK 不僅僅是加速了 TensorFlow 中的算子,而是根據(jù)業(yè)界中的實(shí)際需求提供了對(duì)應(yīng)的新解決方案,比如說 GPU HashTable。SOK 可以與 TensorFlow 1.15 和 TensorFlow 2.x 兼容使用;既可以使用 TensorFlow 自帶的通信工具,也可以使用 Horovod 等第三方插件來作為 embedding parameters 的通信工具。

2. TF2 Comparison/Performance

使用 MLPerf 的標(biāo)準(zhǔn)模型 DLRM 來對(duì) SOK 的性能進(jìn)行測試。

798ed8f4-b14e-11ec-aa7f-dac502259ad0.png

圖 2. SOK 性能測試數(shù)據(jù)

相比于 NVIDIA 的 DeepLearning Examples,使用 SOK 可以獲得更快的訓(xùn)練速度以及更高的吞吐量。

3. API

SOK 提供了簡潔的、類 TensorFlow 的 API;使用 SOK 的方式非常簡單、直接;讓用戶通過修改幾行代碼就可以使用 SOK。

1. 定義模型結(jié)構(gòu)

79ad3c54-b14e-11ec-aa7f-dac502259ad0.png

左側(cè)是使用 TensorFlow 的 API 來搭建模型,右側(cè)是使用 SOK 的 API 來搭建相同的模型。使用 SOK 來搭建模型的時(shí)候,只需要將 TensorFlow 中的 Embedding Layer 替換為 SOK 對(duì)應(yīng)的 API 即可。

2. 使用 Horovod 來定義 training loop

79d96892-b14e-11ec-aa7f-dac502259ad0.png

同樣的,左側(cè)是使用 TensorFlow 來定義 training loop,右側(cè)是使用 SOK 時(shí),training loop 的定義方式??梢钥吹?,使用 SOK 時(shí),只需要對(duì) Embedding Variables 和 Dense Variables 進(jìn)行分別處理即可。其中,Embedding Variables 部分由 SOK 管理,Dense Variables 由 TensorFlow 管理。

3. 使用 tf.distribute.MirroredStrategy 來定義 training loop

79f46584-b14e-11ec-aa7f-dac502259ad0.png

類似的,還可以使用 TensorFlow 自帶的通信工具來定義 training loop。

4. 開始訓(xùn)練

7a0c4bae-b14e-11ec-aa7f-dac502259ad0.png

在開始訓(xùn)練過程時(shí),使用 SOK 與使用 TensorFlow 時(shí)所用代碼完全一致。

4. 結(jié)語

SOK 將 HugeCTR 中的高級(jí)特性包裝為 TensorFlow 可以直接使用的模塊,通過修改少數(shù)幾行代碼即可在已有模型代碼中利用上 HugeCTR 的先進(jìn)設(shè)計(jì)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4749

    瀏覽量

    129034
  • SOK
    SOK
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    6338

原文標(biāo)題:Merlin HugeCTR Sparse Operation Kit 系列之一

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    GPU是如何訓(xùn)練AI大模型的

    在AI模型的訓(xùn)練過程中,大量的計(jì)算工作集中在矩陣乘法、向量加法和激活函數(shù)等運(yùn)算上。這些運(yùn)算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU是如何訓(xùn)練AI大模型的。
    的頭像 發(fā)表于 12-19 17:54 ?148次閱讀

    如何利用地物光譜進(jìn)行地利用分類?

    在土地利用分類領(lǐng)域,地物光譜技術(shù)正發(fā)揮著日益重要的作用。下面就為大家簡要介紹如何利用地物光譜進(jìn)行地利用分類: 1.地物光譜數(shù)據(jù)采集: 使用專業(yè)光譜儀對(duì)不同地物
    的頭像 發(fā)表于 12-13 14:44 ?111次閱讀
    如何<b class='flag-5'>利用</b>地物光譜<b class='flag-5'>進(jìn)行</b>土<b class='flag-5'>地利用</b>分類?

    訓(xùn)練AI大模型需要什么樣的gpu

    訓(xùn)練AI大模型需要選擇具有強(qiáng)大計(jì)算能力、足夠顯存、高效帶寬、良好散熱和能效比以及良好兼容性和擴(kuò)展性的GPU。在選擇時(shí),需要根據(jù)具體需求進(jìn)行權(quán)衡和選擇。
    的頭像 發(fā)表于 12-03 10:10 ?146次閱讀

    NPU與GPU的性能對(duì)比

    它們?cè)诓煌瑧?yīng)用場景下的表現(xiàn)。 一、設(shè)計(jì)初衷與優(yōu)化方向 NPU : 專為加速AI任務(wù)而設(shè)計(jì),包括深度學(xué)習(xí)和推理。 針對(duì)神經(jīng)網(wǎng)絡(luò)的計(jì)算模式進(jìn)行了優(yōu)化,能夠高效地執(zhí)行矩陣乘法、卷積等操作。 擁有眾多小型處理單元,配備專門的內(nèi)存體系結(jié)構(gòu)和數(shù)據(jù)流優(yōu)化策略,對(duì)深度學(xué)習(xí)任務(wù)的處理特別
    的頭像 發(fā)表于 11-14 15:19 ?1231次閱讀

    PyTorch GPU 加速訓(xùn)練模型方法

    在深度學(xué)習(xí)領(lǐng)域,GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時(shí)間的重要手段。PyTorch作為一個(gè)流行的深度學(xué)習(xí)框架,提供了豐富的工具和方法
    的頭像 發(fā)表于 11-05 17:43 ?580次閱讀

    為什么ai模型訓(xùn)練要用gpu

    GPU憑借其強(qiáng)大的并行處理能力和高效的內(nèi)存系統(tǒng),已成為AI模型訓(xùn)練不可或缺的重要工具。
    的頭像 發(fā)表于 10-24 09:39 ?336次閱讀

    GPU服務(wù)器在AI訓(xùn)練中的優(yōu)勢具體體現(xiàn)在哪些方面?

    能力特別適合于深度學(xué)習(xí)中的大規(guī)模矩陣運(yùn)算和高維度數(shù)據(jù)處理,這些是AI訓(xùn)練中常見的計(jì)算密集型任務(wù)。 2、高效的數(shù)據(jù)處理:AI訓(xùn)練通常涉及大量的數(shù)據(jù),GPU服務(wù)器
    的頭像 發(fā)表于 09-11 13:24 ?439次閱讀

    蘋果承認(rèn)使用谷歌芯片訓(xùn)練AI

    蘋果公司最近在一篇技術(shù)論文中披露,其先進(jìn)的人工智能系統(tǒng)Apple Intelligence背后的兩個(gè)關(guān)鍵AI模型,是在谷歌設(shè)計(jì)的云端芯片上完成預(yù)訓(xùn)練的。這一消息標(biāo)志著在尖端AI訓(xùn)練領(lǐng)域,大型科技公司正積極探索并實(shí)踐著英偉達(dá)
    的頭像 發(fā)表于 07-30 17:03 ?743次閱讀

    SOK在手機(jī)行業(yè)的應(yīng)用案例

    通過封裝 NVIDIA Merlin HugeCTR,Sparse Operation Kit(以下簡稱 SOK)使得 TensorFlow 用戶可以借助 HugeCTR 的一些相關(guān)特性和優(yōu)化加速 GPU 上的分布式 Embed
    的頭像 發(fā)表于 07-25 10:01 ?366次閱讀
    SOK在手機(jī)行業(yè)的應(yīng)用案例

    llm模型訓(xùn)練一般用什么系統(tǒng)

    LLM(Large Language Model,大型語言模型)是近年來在自然語言處理領(lǐng)域取得顯著成果的一種深度學(xué)習(xí)模型。它通常需要大量的計(jì)算資源和數(shù)據(jù)進(jìn)行訓(xùn)練。以下是關(guān)于LLM模型訓(xùn)練
    的頭像 發(fā)表于 07-09 10:02 ?427次閱讀

    如何利用Matlab進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練

    ,使得神經(jīng)網(wǎng)絡(luò)的創(chuàng)建、訓(xùn)練和仿真變得更加便捷。本文將詳細(xì)介紹如何利用Matlab進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,包括網(wǎng)絡(luò)創(chuàng)建、數(shù)據(jù)預(yù)處理、訓(xùn)練過程、參數(shù)調(diào)
    的頭像 發(fā)表于 07-08 18:26 ?1925次閱讀

    如何提高自動(dòng)駕駛汽車感知模型的訓(xùn)練效率和GPU利用

    由于采用了多攝像頭輸入和深度卷積骨干網(wǎng)絡(luò),用于訓(xùn)練自動(dòng)駕駛感知模型的 GPU 內(nèi)存占用很大。當(dāng)前減少內(nèi)存占用的方法往往會(huì)導(dǎo)致額外的計(jì)算開銷或工作負(fù)載的失衡。
    的頭像 發(fā)表于 04-29 09:12 ?929次閱讀
    如何提高自動(dòng)駕駛汽車感知模型的<b class='flag-5'>訓(xùn)練</b>效率和<b class='flag-5'>GPU</b><b class='flag-5'>利用</b>率

    AI訓(xùn)練,為什么需要GPU

    隨著由ChatGPT引發(fā)的人工智能熱潮,GPU成為了AI大模型訓(xùn)練平臺(tái)的基石,甚至是決定性的算力底座。為什么GPU能力壓CPU,成為炙手可熱的主角呢?要回答這個(gè)問題,首先需要了解當(dāng)前人工智能(AI
    的頭像 發(fā)表于 04-24 08:05 ?1075次閱讀
    AI<b class='flag-5'>訓(xùn)練</b>,為什么需要<b class='flag-5'>GPU</b>?

    FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

    上漲,因?yàn)槭聦?shí)表明,它們的 GPU訓(xùn)練和運(yùn)行 深度學(xué)習(xí)模型 方面效果明顯。實(shí)際上,英偉達(dá)也已經(jīng)對(duì)自己的業(yè)務(wù)進(jìn)行了轉(zhuǎn)型,之前它是一家純粹做 GPU 和游戲的公司,現(xiàn)在除了作為一家云
    發(fā)表于 03-21 15:19

    應(yīng)用大模型提升研發(fā)效率的實(shí)踐與探索

    對(duì)于模型訓(xùn)練,我們可以采用 3D 并行訓(xùn)練的方式實(shí)現(xiàn)。將模型參數(shù)和梯度張量劃分為多個(gè)分區(qū),分配到不同 GPU 卡上進(jìn)行計(jì)算。每張卡負(fù)責(zé)自己
    的頭像 發(fā)表于 02-22 11:47 ?641次閱讀
    應(yīng)用大模型提升研發(fā)效率的實(shí)踐與探索