0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

使用Dask和NVIDIA推動無障礙加速分析

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-20 15:48 ? 次閱讀

在 NVIDIA ,我們正在推動數(shù)據(jù)科學、機器學習人工智能的變革。推動我們前進的一些主要趨勢如下:

Python 作為最常用的數(shù)據(jù)分析語言的崛起

對高可用性分布式計算的需求增加

需要更多的計算能力

開源軟件成為業(yè)界主流

這些趨勢的交叉點是 達斯克。 ,一個開源庫,旨在為現(xiàn)有的 Python 堆棧提供并行性。在這篇文章中,我們將討論 Dask ,它是什么,我們?nèi)绾卧?NVIDIA 中使用它,以及為什么它在大型企業(yè)中有如此大的潛力。最后,我們強調(diào)了對企業(yè) Dask 支持的日益增長的需求,以及像 盤繞 、 水蟒 和 全視距 這樣的公司正在滿足小型和大型客戶的需求。

Dask :應對伸縮 Python 的歷史挑戰(zhàn)

蟒蛇很慢。 Python 最初是由 Guido Van Rossum 在 1989 年作為一個假日愛好項目開發(fā)的,它并不打算處理它今天在一些計算量最大的組織中所做的 tb 級生產(chǎn)工作負載。怎么搞的?

Python 是一種高度可用的語言,它將 Fortran 和 CUDA 等高性能語言和 api 與輕量級、用戶友好的 api 相連接。通過將可訪問性與性能相結(jié)合,它已被科學家、主題專家和其他可能沒有傳統(tǒng)計算機科學背景的數(shù)據(jù)從業(yè)人員所采用。成功的項目如 NumPy 、 學習工具 scikit ,尤其是 [ZBK5 號] 改變了我們對數(shù)據(jù)科學和機器學習的可訪問性的看法。

在大數(shù)據(jù)用例變得如此流行之前,這些項目并沒有一個強大的并行解決方案。 Python 是單核計算的選擇,但是用戶不得不為多核或多機器并行尋找其他解決方案。這導致了用戶體驗的中斷和挫折感。

許多偉大的開發(fā)人員試圖解決這種挫折。類似 Hadoop 的 mrjob 和 Apache 的 PySpark 這樣的庫允許您將計算與 Python 并行化,但用戶體驗與 NumPy 、 pandas 和 scikit Learning 等收藏夾的體驗不同。這就創(chuàng)建了一種模式,工作必須兩次完成:在 pandas 中開發(fā)您的想法,然后在 PySpark 和 MLlib 公司 中重構(gòu),以實現(xiàn)規(guī)?;ぷ?。通常,這項工作由兩個獨立的團隊完成,在不同團隊通信以排除錯誤時,會減慢部署速度并創(chuàng)建開銷。

輸入 Dask 。 這種在 Python 中擴展工作負載的日益增長的需求導致了 Dask 在過去五年中的自然增長。同樣受到 web 開發(fā)人員的歡迎, Python 有一個健壯的網(wǎng)絡棧, Dask 利用它來構(gòu)建一個靈活、高效、分布式的計算系統(tǒng),能夠擴展各種工作負載。 Dask 的靈活性有助于它在其他大數(shù)據(jù)解決方案(如 Hadoop 或 ApacheSpark )中脫穎而出。其對本機代碼的支持使得它特別容易用于 Python 用戶和 C / C ++ +/ CUDA 開發(fā)人員。

Dask 很快被 Python 開發(fā)人員社區(qū)采用。今天, Dask 是由一個開發(fā)人員社區(qū)管理的,他們跨越了幾十個機構(gòu)和 PyData 項目,比如 pandas 、 Jupyter 和 scikitlearn 。 Dask 與這些流行工具的集成使得采用率迅速上升,在需要 Pythonic 大數(shù)據(jù)工具的開發(fā)人員中,采用率約為 20% 。

poYBAGJfuwqAQLGAAABhYMnv58A493.png

圖 1 Python 開發(fā)人員使用的大數(shù)據(jù)工具(》 100%

Dask 和 NVIDIA :推動無障礙加速分析

NVIDIA 了解 GPUs 提供給數(shù)據(jù)分析的能力。這就是為什么我們一直在努力幫助你從數(shù)據(jù)中獲得最大的信息。在了解 Dask 的強大功能和可訪問性之后,我們開始在 RAPIDS 項目上使用 Dask ,目標是將加速數(shù)據(jù)分析工作負載水平擴展到多個 GPUs 和 GPU – 系統(tǒng)。

由于可訪問的 Python 接口和數(shù)據(jù)科學以外的多功能性, Dask 在整個 NVIDIA 中擴展到其他項目,成為從解析 JSON 到管理端到端深度學習工作流的新應用程序的自然選擇。以下是我們使用 Dask 的許多正在進行的項目和合作中的一些。

RAPIDS

RAPIDS 是一套開源軟件庫和 api ,用于完全在 GPUs 上執(zhí)行數(shù)據(jù)科學管道,通常將培訓時間從幾天縮短到幾分鐘?;?NVIDIA CUDA -X AI , RAPIDS 結(jié)合了多年來在圖形、機器學習、高性能計算( HPC )等領域的發(fā)展。

雖然 CUDA -X 的功能非常強大,但大多數(shù)數(shù)據(jù)分析從業(yè)者更喜歡使用 Python 工具集(如 NumPy 、 pandas 和 scikit learn )進行實驗、構(gòu)建和培訓模型。 Dask 是 RAPIDS 生態(tài)系統(tǒng)的重要組成部分,通過基于 Python 的舒適用戶體驗,使您更容易利用加速計算。

NVTabular

NVTabular 是一個功能工程和預處理庫,旨在快速、輕松地操作 TB 的表格數(shù)據(jù)集。它建立在 Dask-cuDF 庫之上,提供了一個高級抽象層,簡化了大規(guī)模高性能 ETL 操作的創(chuàng)建。通過使用 RAPIDS 和 Dask , NVTabular 可以擴展到數(shù)千個 GPUs ,消除了等待 ETL 進程完成的瓶頸。

BlazingsQL

BlazingsQL 是 GPUs 上的一個非??焖俚姆植际?SQL 引擎,也是基于 Dask-cuDF 構(gòu)建的。它使數(shù)據(jù)科學家能夠輕松地將大型數(shù)據(jù)湖連接到 GPU —加速分析 。只需幾行代碼,就可以在 HDFS 和 Amazon S3 這樣的數(shù)據(jù)湖中直接查詢原始文件格式,如 CSV 和 apacheparquet ,然后直接將結(jié)果導入 GPU 內(nèi)存。

BlazingDB , Inc 。是 BlazingSQL 背后的公司,是 RAPIDS 的核心貢獻者,并與 NVIDIA 進行了大量合作。

庫斯特里姆

在 NVIDIA ,我們在內(nèi)部使用 Dask 為我們的部分產(chǎn)品和業(yè)務運營提供燃料。使用 斯特雷姆茲 、 Dask 和 RAPIDS ,我們構(gòu)建了 庫斯特里姆 ,一個使用 100% 原生 Python 的加速流數(shù)據(jù)平臺。有了 cuStreamz ,我們可以對一些最苛刻的應用程序進行實時分析,比如 GeForce NOW 、 NVIDIA GPU Cloud ( NGC )和 NVIDIA Drive SIM 。雖然這是一個年輕的項目,但我們已經(jīng)看到使用支持 Dask 的 cuStreamz 的其他流媒體數(shù)據(jù)平臺的總體擁有成本顯著降低。

Dask 和 RAPIDS :促進企業(yè)創(chuàng)新

許多公司都在采用 Dask 和 RAPIDS 來擴展其一些最重要的業(yè)務。 NVIDIA 的一些最大的合作伙伴,行業(yè)的領導者,正在使用 Dask 和 RAPIDS 來支持他們的數(shù)據(jù)分析。下面是一些最近令人興奮的例子。

大寫一

Capital One 以“改變銀行業(yè)為己任”,在大規(guī)模數(shù)據(jù)分析方面投入巨資,為客戶提供更好的產(chǎn)品和服務,提高整個企業(yè)的運營效率。借助一個對 Python 友好的大型數(shù)據(jù)科學家社區(qū), 大寫一使用 Dask 和 RAPIDS 可以擴展和加速傳統(tǒng)上難以并行化的 Python 工作負載,并顯著減少大數(shù)據(jù)分析的學習曲線。

國家能源研究科學計算中心

致力于為基礎科學研究提供計算資源和專業(yè)知識, NERSC 是通過計算加速科學發(fā)現(xiàn)的世界領先者。這項任務的一部分是讓研究人員能夠使用超級計算機來推動科學探索。有了 Dask 和 RAPIDS , 他們最新的超級計算機“ Perlmutter ” 的不可思議的功能就可以很容易地被那些在超級計算方面背景有限的研究人員和科學家所利用。通過使用 Dask 創(chuàng)建一個熟悉的界面,他們將超級計算的能力交給了科學家,推動了跨領域的潛在突破。

橡樹嶺國家實驗室

在全球大流行的情況下,橡樹嶺國家實驗室( ORNL )正在通過建立一個“虛擬實驗室”來推動創(chuàng)新的邊界,以對抗 COVID-19 的藥物發(fā)現(xiàn)。 使用 Dask 、 RAPIDS 、 BlazingSQL 和 NVIDIA GPUs , 研究人員可以利用他們筆記本電腦上的 Summit 超級計算機來篩選小分子化合物,以確定它們與 SARS-CoV-2 主要蛋白酶結(jié)合的能力。有了這樣一個靈活的工具集,工程師們能夠在不到兩周的時間內(nèi)啟動并運行這個定制的工作流,并且可以看到次秒級的查詢結(jié)果。

沃爾瑪實驗室

作為零售業(yè)的巨頭,沃爾瑪利用大量的數(shù)據(jù)集來更好地為客戶服務,預測產(chǎn)品需求,提高內(nèi)部效率。依靠大規(guī)模數(shù)據(jù)分析來實現(xiàn)這些目標, 沃爾瑪實驗室轉(zhuǎn)向了達斯克、 XGBoost 和 RAPIDS 可將培訓時間減少 100 倍,從而實現(xiàn)快速模型迭代和精度改進,以進一步推動其業(yè)務。利用 Dask ,他們向數(shù)據(jù)科學家開放了 NVIDIA GPUs 的能力,以解決他們最棘手的問題。

企業(yè)中的達斯克:一個成長中的市場

雖然企業(yè)中的實踐者通常很容易嘗試開源軟件,但在生產(chǎn)中使用該軟件則更具挑戰(zhàn)性。隨著新興的、有希望的開源技術(shù),企業(yè)可能會推出自己的部署來解決現(xiàn)實世界中的業(yè)務問題。隨著開源軟件的成熟和發(fā)展,公司紛紛涌現(xiàn),開始滿足企業(yè)級部署、集成和支持的需求。

隨著其在大型機構(gòu)中的日益成功,我們已經(jīng)開始看到更多的公司滿足企業(yè)對 Dask 產(chǎn)品和服務的需求。以下是一些正在滿足企業(yè)需求的公司,標志著一個成熟市場的開始。

水蟒

與 SciPy 生態(tài)系統(tǒng)的一大部分一樣, Dask 從 水蟒公司, 開始,在那里它獲得了發(fā)展,并逐漸發(fā)展成為一個更大的開源社區(qū)。隨著社區(qū)的發(fā)展和企業(yè)開始采用 Dask , Anaconda 開始提供咨詢服務、培訓和開源支持,以簡化企業(yè)的使用。作為開源軟件的主要支持者, Anaconda 還雇傭了許多 Dask 維護人員,為企業(yè)客戶提供了對軟件的深入理解。

盤繞

由 Dask 項目負責人和前 NVIDIA 員工 Matthew Rocklin 等 Dask 維護人員創(chuàng)建, 盤繞 提供了一個圍繞 Dask 的托管解決方案,使其在云環(huán)境和企業(yè)環(huán)境中都變得容易,同時還提供企業(yè)支持,幫助優(yōu)化機構(gòu)內(nèi)的 Python 分析。最近 正式發(fā)布 ,他們的 公共托管托管部署產(chǎn)品 為今天使用 Dask 和 RAPIDS 提供了一種既健壯又直觀的方法。

全視距

致力于幫助企業(yè)從其數(shù)據(jù)中創(chuàng)造價值, 全視距 提供多種服務,推動跨行業(yè)的數(shù)據(jù)分析。與 Anaconda 一樣, Quansight 為使用 Dask 的企業(yè)提供咨詢服務和培訓。 Quansight 擁有 PyData 和 NumFOCUS 生態(tài)系統(tǒng),它還為需要在開源軟件中進行增強或缺陷修復的企業(yè)提供支持。

結(jié)論

Dask 是一個功能強大且可訪問的開源項目,它允許數(shù)據(jù)分析從業(yè)者輕松地擴展 Python 工作負載。由于它的承諾和易用性, Dask 已經(jīng)在數(shù)據(jù)科學家中引起了極大的興趣,并且開始在企業(yè)環(huán)境中顯示出驚人的結(jié)果。在 NVIDIA 上,我們相信 Dask 的變革能力,我們將其作為 RAPIDS 套件中的一個主要組件根深蒂固,允許通過 Python 接口訪問加速計算的能力。

隨著 Dask 的不斷成熟,我們開始看到越來越多的公司滿足對 Dask 管理部署和對企業(yè)支持的需求。這一成熟標志著數(shù)據(jù)分析行業(yè)的重大進步,推動更廣泛的受眾獲得可訪問的高性能分析,并使改變游戲規(guī)則、數(shù)據(jù)驅(qū)動的創(chuàng)新成為必然。

關于作者

Jacob Schmitt 是 NVIDIA 企業(yè)數(shù)據(jù)科學產(chǎn)品團隊的產(chǎn)品營銷經(jīng)理,他幫助企業(yè)用戶連接到強大的數(shù)據(jù)科學解決方案。在加入 NVIDIA 之前,他是 Capital One 機器學習中心的產(chǎn)品經(jīng)理,推動了諸如 Dask 和 RAPIDS 等強大開源庫的采用和擴展。

Matthew Rocklin 是 Coiled 的首席執(zhí)行官,這家公司使 Python 更容易擴展以解決數(shù)據(jù)科學和機器學習問題。 Matt 還是一個長期的開源維護者,特別關注 Dask 。在開始盤繞之前,馬特帶領 Dask + RAPIDS 團隊進入 NVIDIA 。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4996

    瀏覽量

    103213
  • 機器學習
    +關注

    關注

    66

    文章

    8423

    瀏覽量

    132744
收藏 人收藏

    評論

    相關推薦

    數(shù)據(jù)采集與傳輸無障礙 簡化設備,解決隧道深部監(jiān)測難題 擺脫信號盲區(qū)的困擾

    數(shù)據(jù)采集與傳輸無障礙 簡化設備,解決隧道深部監(jiān)測難題 擺脫信號盲區(qū)的困擾 根據(jù)實際情況和工程環(huán)境,我們特別推出了一種一站式現(xiàn)場監(jiān)測方案,旨在方便快捷地完成隧道深部及信號盲區(qū)部分的施工監(jiān)測。我們利用
    的頭像 發(fā)表于 12-21 17:29 ?124次閱讀
    數(shù)據(jù)采集與傳輸<b class='flag-5'>無障礙</b> 簡化設備,解決隧道深部監(jiān)測難題 擺脫信號盲區(qū)的困擾

    NVIDIA預測2025年AI行業(yè)發(fā)展

    NVIDIA 加速計算、數(shù)據(jù)科學和研究領域?qū)<翌A測,多模態(tài)模型將推動行業(yè)創(chuàng)新和效率提升。
    的頭像 發(fā)表于 12-18 13:49 ?281次閱讀

    NVIDIA加速全球大多數(shù)超級計算機推動科技進步

    HPCwire 讀者和編輯選擇獎。 自 2006 年發(fā)布 CUDA 以來,NVIDIA 不斷推動 AI 和加速計算的進步,最新發(fā)布的全球最強超級計算機 TOP500 榜單突顯了該公司在超算領域取得的矚目成就
    的頭像 發(fā)表于 11-24 14:38 ?336次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>全球大多數(shù)超級計算機<b class='flag-5'>推動</b>科技進步

    NVIDIA加速計算如何推動醫(yī)療健康

    近日,NVIDIA 企業(yè)平臺副總裁 Bob Pette 在 AI Summit 一場演講中重點談論了 NVIDIA 加速計算如何推動醫(yī)療健康、網(wǎng)絡安全和制造等行業(yè)實現(xiàn)轉(zhuǎn)型。他表示,
    的頭像 發(fā)表于 11-20 09:10 ?303次閱讀

    日本企業(yè)借助NVIDIA產(chǎn)品加速AI創(chuàng)新

    日本領先企業(yè)和大學正在使用 NVIDIA NeMo、NIM 微服務和 NVIDIA Isaac 加速 AI 創(chuàng)新。
    的頭像 發(fā)表于 11-19 14:34 ?327次閱讀

    HarmonyOS NEXT應用元服務開發(fā)標注屏幕朗讀內(nèi)容的場景

    控件包含顯示文本(text)、無障礙文本(accessibilityText)2個屬性,其中,顯示文本為用戶界面上呈現(xiàn)的信息,無障礙文本為無障礙專有的朗讀信息,不在界面上顯示。屏幕朗讀提取信息進行
    發(fā)表于 10-12 15:52

    開發(fā)者大會成功舉辦 vivo用科技搭建人與數(shù)字世界的無障礙橋梁

    盲人協(xié)會主席李慶忠出席論壇,與資深用戶、合作伙伴們分享vivo信息無障礙建設最新成果,共同展望信息無障礙美好未來。 vivo副總裁、vvQ AI全球研究院院長周圍與中國殘疾人聯(lián)合會理事,中國盲人協(xié)會主席李慶忠出席論壇 以科技創(chuàng)新推動
    發(fā)表于 10-12 14:18 ?150次閱讀
    開發(fā)者大會成功舉辦 vivo用科技搭建人與數(shù)字世界的<b class='flag-5'>無障礙</b>橋梁

    HarmonyOS NEXT應用元服務開發(fā)Accessibility(信息無障礙)介紹

    Accessibility(信息無障礙),是指任何人在任何情況下都能平等、方便地獲取信息并利用信息。其目的是縮小全社會不同階層、不同地區(qū)、不同年齡、不同健康狀況的人群在信息理解、信息交互、信息利用
    發(fā)表于 10-09 10:29

    NVIDIA加速計算和生成式AI領域的創(chuàng)新

    在最新發(fā)布的公司 2024 財年可持續(xù)發(fā)展報告開篇的一封信中,NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛介紹了 NVIDIA加速計算和生成式 AI 領域的創(chuàng)新,以及 AI 技術(shù)在提高生產(chǎn)力、減少浪費和節(jié)約能源方面的潛力。他堅信,
    的頭像 發(fā)表于 09-09 09:18 ?578次閱讀

    華為致力于推動無障礙技術(shù)發(fā)展

    的智能生活新紀元。這場聚焦前沿科技的盛會并未止步于技術(shù)的展示,而是進一步拓展至人文情懷與平等包容,用一場“湖畔對談”無障礙活動以及TECH4ALL數(shù)字包容展館,為我們呈現(xiàn)了一次科技與人文的對話。 ? 今年已經(jīng)是第三年,華為在HDC現(xiàn)場舉辦與華為無障礙用戶交流
    的頭像 發(fā)表于 06-29 16:13 ?748次閱讀

    鴻蒙ArkTS聲明式開發(fā):跨平臺支持列表【無障礙屬性】 通用屬性

    組件可以設置相應的無障礙屬性和事件來更好地使用無障礙能力。
    的頭像 發(fā)表于 06-11 17:30 ?415次閱讀
    鴻蒙ArkTS聲明式開發(fā):跨平臺支持列表【<b class='flag-5'>無障礙</b>屬性】 通用屬性

    革命性的圖形分析NVIDIA cuGraph 加速的下一代架構(gòu)

    在我們的 先前的圖分析探索 中,我們使用 NVIDIA cuGraph 揭示了 GPU-CPU 融合的變革力量?;谶@些見解,我們現(xiàn)在引入了一種革命性的新架構(gòu),它重新定義了圖處理的邊界。 圖形處理
    的頭像 發(fā)表于 06-04 17:54 ?7588次閱讀
    革命性的圖形<b class='flag-5'>分析</b>: <b class='flag-5'>NVIDIA</b> cuGraph <b class='flag-5'>加速</b>的下一代架構(gòu)

    交通運輸部大力推廣適老化無障礙交通服務

    4月3日,交通運輸部發(fā)布了關于2024年適老化無障礙交通出行服務擴容提質(zhì)增效的實施方案。方案明確了出租車電動召回和網(wǎng)絡預約車輛的“一鍵召喚”服務要在地級市以上的所有城市實現(xiàn)全區(qū)覆蓋;
    的頭像 發(fā)表于 04-03 16:15 ?918次閱讀

    基于STM32H743IIT6開發(fā)的代碼,是否能不經(jīng)修改無障礙地運行在STM32H753IIT6上?

    基于 STM32H743IIT6 開發(fā)的代碼,是否能不經(jīng)修改無障礙地運行在STM32H753IIT6上?
    發(fā)表于 03-29 06:19

    蘋果iOS 18和macOS 15無障礙功能升級

    Adaptive Voice Shortcuts功能可讓用戶把獨特的口語短語綁定到無障礙設定中。用戶能自行設定定制化短語,只需講述這段話便能啟動他們所需的輔助功能設置; 例如VoiceOver,語音控制,縮放等諸多現(xiàn)有輔助功能都能用此方法進行快速切換。
    的頭像 發(fā)表于 03-08 11:08 ?736次閱讀