0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用Apache Spark和NVIDIA GPU加速深度學(xué)習(xí)

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-27 09:54 ? 次閱讀

隨著人們對(duì)深度學(xué)習(xí)( deep learning , DL )興趣的日益濃厚,越來越多的用戶在生產(chǎn)環(huán)境中使用 DL 。由于 DL 需要強(qiáng)大的計(jì)算能力,開發(fā)人員正在利用 gpu 來完成他們的訓(xùn)練和推理工作。

pYYBAGJoomiALHkfAACMGzsbajs051.png

最近,為了更好地統(tǒng)一 Spark 上的 DL 和數(shù)據(jù)處理,作為 Apache Spark 的一項(xiàng)重大舉措的一部分, GPU 成為 Apache Spark 3.0 中的一種可調(diào)度資源。 Spark 將這些資源請求傳遞給底層集群管理器。因?yàn)檫@允許您大規(guī)模地運(yùn)行分布式推理,所以它可以幫助加速大數(shù)據(jù)管道以利用 DL 應(yīng)用程序。

在 Apache Spark 3. 0 之前,使用 gpu 是很困難的。您必須手動(dòng)將 GPU 設(shè)備分配給 Spark 作業(yè),并對(duì)每個(gè)執(zhí)行器或任務(wù)的所有配置進(jìn)行硬編碼,以便在一臺(tái)機(jī)器上使用不同的 GPU 。因?yàn)?apachehadoop3 。 1yarn 集群管理器允許不同機(jī)器之間的 GPU 協(xié)調(diào), Apache Spark 現(xiàn)在可以與它一起工作,幫助將設(shè)備安排傳遞給不同的任務(wù)。提交帶有 GPU 資源配置發(fā)現(xiàn)腳本的應(yīng)用程序后, Spark 將處理任務(wù)之間如何共享 GPU 的分配和協(xié)調(diào)。

在本教程中,我們將演示如何創(chuàng)建 GPU 機(jī)器集群,并使用 Apache Spark 和 Amazon EMR 上的 深層 Java 庫( DJL ) 來利用 Scala 中的大規(guī)模圖像分類。 DJL 現(xiàn)在提供了一個(gè)基于 GPU 的深入學(xué)習(xí) Java 包,該包被設(shè)計(jì)成可以在 Spark 中順利工作。

如果您對(duì) Scala 和 Java 感興趣,或者正在尋找將 Java 中的 DL 集成到大數(shù)據(jù)管道中的解決方案, DJL 提供了一個(gè)可行的解決方案。由于 Python 是 DL 最常用的語言,而 Java 是企業(yè)開發(fā)人員和數(shù)據(jù)工程師最流行的語言, DJL 的目標(biāo)是深入學(xué)習(xí), Java 開發(fā)人員可以使用熟悉的概念和直觀的 API 訪問的開源工具。 DJL 是建立在現(xiàn)代深度學(xué)習(xí)框架( TensorFlow 、 PyTorch 、 Apache MXNet 等)之上的。您可以輕松地使用 DJL 來訓(xùn)練您的模型,或者從各種引擎部署您喜愛的模型,而無需進(jìn)行任何額外的轉(zhuǎn)換。

設(shè)置 Spark 應(yīng)用程序

首先,導(dǎo)入 Spark 依賴項(xiàng)。 Spark SQL 和 ML 庫用于存儲(chǔ)和處理映像, Spark 依賴項(xiàng)僅在編譯時(shí)使用,并且由于在運(yùn)行時(shí)提供,因此在打包時(shí)被排除在外。當(dāng)所有東西都打包好后,。 jar 任務(wù)將它們排除在外。

configurations {
    exclusion
}
dependencies {
    implementation "org.apache.spark:spark-sql_2.12:3.0.1"
    implementation "org.apache.spark:spark-mllib_2.12:3.0.1"
    implementation "org.apache.hadoop:hadoop-hdfs:2.7.4"

    exclusion "org.apache.spark:spark-sql_2.12:3.0.1"
    exclusion "org.apache.spark:spark-mllib_2.12:3.0.1"
    exclusion "org.apache.hadoop:hadoop-hdfs:2.7.4"}
}
jar {
    from {
        (configurations.runtimeClasspath - configurations.exclusion).collect {
            it.isDirectory() ? it : zipTree(it)
        }
    }
}

接下來,導(dǎo)入與 DJL 相關(guān)的依賴項(xiàng)。您使用 DJL 和 PyTorch 包。它們提供了 DJL 的核心特性,并加載了一個(gè) DL 引擎來運(yùn)行以進(jìn)行推斷。此外,您還可以使用 pytorch-native-cu101 在具有 CUDA 10 。 1 的 GPU 上運(yùn)行。

    implementation platform("ai.djl:bom:0.8.0")
    implementation "ai.djl:api"
    runtimeOnly "ai.djl.pytorch:pytorch-model-zoo"
    runtimeOnly "ai.djl.pytorch:pytorch-native-cu101::linux-x86_64"

加載模型

要在 DJL 中加載模型,請?zhí)峁┏休d模型的 URL ( file ://, hdfs ://, s3 ://, https ://)。從該 URL 下載并導(dǎo)入模型。 DJL 還提供了一個(gè)強(qiáng)大的動(dòng)物園模型。 zoo 模型允許您管理預(yù)先訓(xùn)練的模型,并在一行中加載它們。內(nèi)置的動(dòng)物園模型目前支持 70 多個(gè)預(yù)先訓(xùn)練和準(zhǔn)備使用的模型,這些模型來自 GluonCV 、 HuggingFace 、 TorchHub 和 Keras 。

def loadModel(device : Device): ZooModel[Row, Classifications] = {
    val modelUrl = "https://alpha-djl-demos.s3.amazonaws.com/model/djl-blockrunner/pytorch_resnet18.zip?model_name=traced_resnet18"
    val criteria = Criteria.builder
      .setTypes(classOf[Row], classOf[Classifications])
      .optModelUrls(modelUrl)
      .optTranslator(new MyTranslator())
      .optProgress(new ProgressBar)
      .optDevice(device)
      .build()
     ModelZoo.loadModel(criteria)
}

這里的輸入類型是 Spark SQL 中的 Row 。輸出類型是分類結(jié)果。 MyTranslator 函數(shù)執(zhí)行預(yù)處理和后處理工作。加載的模型是來自 torchvision 的預(yù)訓(xùn)練 PyTorch ResNet18 模型。

主要邏輯

在下面的代碼示例中, downloadImages 函數(shù)下載演示圖像并將其存儲(chǔ)在 Hadoop 文件系統(tǒng)( hdfs )。接下來, spark.read.format(“image”) 函數(shù)使用 Spark 圖像數(shù)據(jù)源 將圖像文件從 HDFS 加載到 Spark DataFrame 中。在此步驟之后, mapPartition 獲取 GPU 信息。如代碼示例所示, TaskContext.resources()(“gpu”) 函數(shù)存儲(chǔ)為此分區(qū)分配的 GPU 。這可確保單個(gè)設(shè)備上的所有 GPU 都得到正確使用。將模型加載到指定的 GPU 后, predictor.predict(row) 返回 Spark DataFrame 分區(qū)中圖像(行)的分類。

def main(args: Array[String]) {

    // download images
    val imagePath = downloadImages(new Path("hdfs:///images"))

    // Spark configuration
    val spark = SparkSession.builder()
      .appName("Image Classification")
      .config(new SparkConf())
      .getOrCreate()
    val df = spark.read.format("image").option("dropInvalid", true).load(imagePath)
    val result = df.select(col("image.*")).mapPartitions(partition => {
      val context = TaskContext.get()
      val gpu = context.resources()("gpu").addresses(0)
      val model = loadModel(Device.gpu(gpu.toInt))
      val predictor = model.newPredictor()
      partition.map(row => {
        predictor.predict(row).toString
      })
    })(Encoders.STRING)
    println(result.collect().mkString("
"))
}

把它包起來

運(yùn)行 。/gradlew jar 將所有內(nèi)容捆綁到一個(gè) jar 中,并在 Spark 集群中運(yùn)行。

使用多個(gè) GPU 設(shè)置 Spark 群集

由于 Amazon emr6 。 2 。 0 的發(fā)布, Spark 3 。 0 在所有 GPU 實(shí)例中都可用。

要設(shè)置 Spark 群集,請使用 AWS CLI 創(chuàng)建一個(gè)包含三個(gè)實(shí)例的 GPU 群集。要成功運(yùn)行該命令,必須將 myKey 更改為 EC2 密鑰名稱。如果預(yù)先配置了 --region 選項(xiàng),也可以將其刪除。

aws emr create-cluster \
    --name "Spark cluster" \
    --release-label emr-6.2.0 \
    --region us-east-1 \
    --ebs-root-volume-size 50 \
    --applications Name=Hadoop Name=Spark \
    --ec2-attributes KeyName=myKey \
    --instance-type g3s.xlarge \
    --instance-count 3 \
    --use-default-roles \
    --configurations https://raw.githubusercontent.com/aws-samples/djl-demo/master/aws/emr-distributed-inference/image-classification-gpu/configurations.json 

您可以從 AWS 中提供的各種 GPU 實(shí)例中進(jìn)行選擇。此示例使用 g3s.xlarge 實(shí)例類型進(jìn)行測試目的群集設(shè)置的總運(yùn)行時(shí)間約為 10 – 15 分鐘。

執(zhí)行 Spark 作業(yè)

您可以在 EMR 控制臺(tái)上或從命令行運(yùn)行此駐車作業(yè)。

下面的命令告訴 Spark 運(yùn)行一個(gè) Yarn 集群,并設(shè)置一個(gè)腳本來查找不同設(shè)備上的 gpu 。每個(gè)任務(wù)的 GPU 數(shù)量設(shè)置為 0 。 5 ,這意味著兩個(gè)任務(wù)共享一個(gè) GPU 。您可能還需要相應(yīng)地設(shè)置 CPU 編號(hào),以確保它們匹配。例如,如果您有一個(gè) 8 核 CPU ,并且將 spark.task.cpus 設(shè)置為 2 ,這意味著四個(gè)任務(wù)可以在一臺(tái)機(jī)器上并行運(yùn)行。要獲得最佳性能,請將 spark.task.resource.gpu.amount 設(shè)置為 0 。 25 。這允許四個(gè)任務(wù)共享同一個(gè) GPU 。這有助于最大限度地提高性能,因?yàn)?GPU 和 CPU 中的所有核心都已使用。如果沒有平衡的設(shè)置,一些內(nèi)核處于空閑狀態(tài),這會(huì)浪費(fèi)資源。

spark-submit \
    --master yarn \
    --conf spark.executor.resource.gpu.discoveryScript=/usr/lib/spark/scripts/gpu/getGpusResources.sh \
    --conf spark.worker.resource.gpu.discoveryScript=/usr/lib/spark/scripts/gpu/getGpusResources.sh \
    --conf spark.task.resource.gpu.amount="0.5" \
    --conf spark.task.cpus=2 \
    --conf spark.executor.resource.gpu.amount=1 \
    --conf spark.worker.resource.gpu.amount=1 \
    --class com.examples.ImageClassificationExample \
    build/libs/image-classification-gpu-1.0-SNAPSHOT.jar

這個(gè)腳本大約需要 4-6 分鐘才能完成,您將得到一個(gè)打印輸出的推斷結(jié)果作為輸出。

摘要

在本教程中,您從頭開始構(gòu)建包,并將工作提交到 GPU 集群以執(zhí)行推理任務(wù)。嘗試對(duì)自己的應(yīng)用程序使用相同的設(shè)置。

關(guān)于作者

Qing Lan 是 AWS 深度學(xué)習(xí)工具包團(tuán)隊(duì)的 SDE 。他是 DJL 的合著者之一 (djl 。 ai 公司 ) 以及 apachemxnet 的 PPMC 成員。 2017 年畢業(yè)于哥倫比亞大學(xué),獲計(jì)算機(jī)工程碩士學(xué)位, 2017 年暑期實(shí)習(xí)。他專注于分布式深度學(xué)習(xí)訓(xùn)練和推理領(lǐng)域。

Kong Zhao 是 NVIDIA 的主要解決方案架構(gòu)師。他提供技術(shù)思想領(lǐng)導(dǎo)和架構(gòu)指導(dǎo)。他為 NVIDIA 和 AWS 客戶進(jìn)行 PoC ,通過在云中開發(fā)、優(yōu)化和部署 GPU 加速解決方案來滿足他們的 AI 和 HPC 需求。他關(guān)注的核心領(lǐng)域是 GPU 相關(guān)的云架構(gòu)、 HPC 、機(jī)器學(xué)習(xí)和分析。此前, Kong 曾擔(dān)任 AWS 的高級(jí)解決方案架構(gòu)師、云交換的 atEquinix 架構(gòu)師以及 Cisco 的產(chǎn)品經(jīng)理。

Carol McDonald 是一位產(chǎn)品營銷經(jīng)理,專注于 Spark 和數(shù)據(jù)科學(xué)。 Carol 在很多方面都有經(jīng)驗(yàn),包括技術(shù)營銷、軟件架構(gòu)和開發(fā)、培訓(xùn)、技術(shù)宣傳和開發(fā)人員外展。 Carol 編寫行業(yè)架構(gòu)、最佳實(shí)踐、模式、原型、教程、演示、博客文章、白皮書和電子書。她走遍世界各地,做演講和動(dòng)手實(shí)驗(yàn);在銀行、醫(yī)療保險(xiǎn)和電信行業(yè)開發(fā)了復(fù)雜的、關(guān)鍵任務(wù)的應(yīng)用程序??_爾擁有田納西大學(xué)計(jì)算機(jī)科學(xué)碩士學(xué)位和范德比爾特大學(xué)地質(zhì)學(xué)學(xué)士學(xué)位??_爾精通英語、法語和德語。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • JAVA
    +關(guān)注

    關(guān)注

    19

    文章

    2967

    瀏覽量

    104763
  • API
    API
    +關(guān)注

    關(guān)注

    2

    文章

    1501

    瀏覽量

    62033
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4797

    瀏覽量

    84694
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    《CST Studio Suite 2024 GPU加速計(jì)算指南》

    的各個(gè)方面,包括硬件支持、操作系統(tǒng)支持、許可證、GPU計(jì)算的啟用、NVIDIA和AMD GPU的詳細(xì)信息以及相關(guān)的使用指南和故障排除等內(nèi)容。 1. 硬件支持 - NVIDIA
    發(fā)表于 12-16 14:25

    深度學(xué)習(xí)工作負(fù)載中GPU與LPU的主要差異

    ,一個(gè)新的競爭力量——LPU(Language Processing Unit,語言處理單元)已悄然登場,LPU專注于解決自然語言處理(NLP)任務(wù)中的順序性問題,是構(gòu)建AI應(yīng)用不可或缺的一環(huán)。 本文旨在探討深度學(xué)習(xí)工作負(fù)載中GPU
    的頭像 發(fā)表于 12-09 11:01 ?300次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>工作負(fù)載中<b class='flag-5'>GPU</b>與LPU的主要差異

    GPU深度學(xué)習(xí)中的應(yīng)用 GPUs在圖形設(shè)計(jì)中的作用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心部分,已經(jīng)成為推動(dòng)技術(shù)進(jìn)步的重要力量。GPU(圖形處理單元)在深度學(xué)習(xí)中扮演著至關(guān)重要的角色,
    的頭像 發(fā)表于 11-19 10:55 ?517次閱讀

    NPU在深度學(xué)習(xí)中的應(yīng)用

    設(shè)計(jì)的硬件加速器,它在深度學(xué)習(xí)中的應(yīng)用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對(duì)深度學(xué)習(xí)算法優(yōu)化的處理器,它與傳統(tǒng)的CPU和
    的頭像 發(fā)表于 11-14 15:17 ?591次閱讀

    PyTorch GPU 加速訓(xùn)練模型方法

    深度學(xué)習(xí)領(lǐng)域,GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時(shí)間的重要手段。PyTorch作為一個(gè)流行的深度
    的頭像 發(fā)表于 11-05 17:43 ?560次閱讀

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識(shí)別 圖像識(shí)別是
    的頭像 發(fā)表于 10-27 11:13 ?398次閱讀

    GPU加速計(jì)算平臺(tái)是什么

    GPU加速計(jì)算平臺(tái),簡而言之,是利用圖形處理器(GPU)的強(qiáng)大并行計(jì)算能力來加速科學(xué)計(jì)算、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等復(fù)雜計(jì)算任務(wù)的軟硬件結(jié)合系統(tǒng)。
    的頭像 發(fā)表于 10-25 09:23 ?251次閱讀

    FPGA加速深度學(xué)習(xí)模型的案例

    FPGA(現(xiàn)場可編程門陣列)加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的一個(gè)熱門研究方向。以下是一些FPGA加速
    的頭像 發(fā)表于 10-25 09:22 ?229次閱讀

    深度學(xué)習(xí)GPU加速效果如何

    圖形處理器(GPU)憑借其強(qiáng)大的并行計(jì)算能力,成為加速深度學(xué)習(xí)任務(wù)的理想選擇。
    的頭像 發(fā)表于 10-17 10:07 ?200次閱讀

    Spark基于DPU的Native引擎算子卸載方案

    1.背景介紹 Apache Spark(以下簡稱Spark)是一個(gè)開源的分布式計(jì)算框架,由UC Berkeley AMP Lab開發(fā),可用于批處理、交互式查詢(Spark SQL)、實(shí)
    的頭像 發(fā)表于 06-28 17:12 ?604次閱讀
    <b class='flag-5'>Spark</b>基于DPU的Native引擎算子卸載方案

    新手小白怎么學(xué)GPU云服務(wù)器跑深度學(xué)習(xí)?

    新手小白想用GPU云服務(wù)器跑深度學(xué)習(xí)應(yīng)該怎么做? 用個(gè)人主機(jī)通常pytorch可以跑但是LexNet,AlexNet可能就直接就跑不動(dòng),如何實(shí)現(xiàn)更經(jīng)濟(jì)便捷的實(shí)現(xiàn)GPU云服務(wù)器
    發(fā)表于 06-11 17:09

    Spark基于DPU Snappy壓縮算法的異構(gòu)加速方案

    一、總體介紹 1.1 背景介紹 Apache Spark是專為大規(guī)模數(shù)據(jù)計(jì)算而設(shè)計(jì)的快速通用的計(jì)算引擎,是一種與 Hadoop 相似的開源集群計(jì)算環(huán)境,但是兩者之間還存在一些不同之處,這些不同之處使
    的頭像 發(fā)表于 03-26 17:06 ?809次閱讀
    <b class='flag-5'>Spark</b>基于DPU Snappy壓縮算法的異構(gòu)<b class='flag-5'>加速</b>方案

    RDMA技術(shù)在Apache Spark中的應(yīng)用

    背景介紹 在當(dāng)今數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,Apache?Spark已經(jīng)成為了處理大規(guī)模數(shù)據(jù)集的首選框架。作為一個(gè)開源的分布式計(jì)算系統(tǒng),Spark因其高效的大數(shù)據(jù)處理能力而在各行各業(yè)中廣受歡迎。無論是金融服務(wù)
    的頭像 發(fā)表于 03-25 18:13 ?1542次閱讀
    RDMA技術(shù)在<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>中的應(yīng)用

    基于DPU和HADOS-RACE加速Spark 3.x

    背景簡介 Apache Spark(下文簡稱Spark)是一種開源集群計(jì)算引擎,支持批/流計(jì)算、SQL分析、機(jī)器學(xué)習(xí)、圖計(jì)算等計(jì)算范式,以其強(qiáng)大的容錯(cuò)能力、可擴(kuò)展性、函數(shù)式API、多語
    的頭像 發(fā)表于 03-25 18:12 ?1366次閱讀
    基于DPU和HADOS-RACE<b class='flag-5'>加速</b><b class='flag-5'>Spark</b> 3.x

    FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

    現(xiàn)場可編程門陣列 (FPGA) 解決了 GPU 在運(yùn)行深度學(xué)習(xí)模型時(shí)面臨的許多問題 在過去的十年里,人工智能的再一次興起使顯卡行業(yè)受益匪淺。英偉達(dá) (Nvidia) 和 AMD 等公
    發(fā)表于 03-21 15:19