隨著 AI 正幫助各行各業(yè)推動(dòng)創(chuàng)新和提高效率,基于海量的高質(zhì)量數(shù)據(jù)來(lái)訓(xùn)練各種模型是充分發(fā)揮 AI 應(yīng)用潛力的必經(jīng)之路,正因如此,數(shù)據(jù)科學(xué)家們面臨著日益增長(zhǎng)的工作負(fù)載需求,迫切需求尋找高效趁手的工具以應(yīng)對(duì)挑戰(zhàn)。
Pandas 是一個(gè)靈活而強(qiáng)大的 Python 數(shù)據(jù)分析和處理庫(kù),由于其是一款非常易于使用的 API,成為了數(shù)據(jù)科學(xué)家的首選。然而,隨著數(shù)據(jù)集大小的增長(zhǎng),Pandas 在純 CPU 系統(tǒng)中的處理速度和效率方面就會(huì)遇到困難。
對(duì)于面向數(shù)據(jù)分析工作的 DataFrame 軟件庫(kù),除了 Pandas,目前還有一顆冉冉上升的開源新星——Polars。相比于主要依賴單線程執(zhí)行的 Pandas,Polars 在處理大數(shù)據(jù)集時(shí)的速度通常比其快 5 到 10 倍。
盡管 Pandas 和 Polars 在數(shù)據(jù)處理領(lǐng)域各有所長(zhǎng),但是處理超大數(shù)據(jù)集不僅需要極致發(fā)揮 CPU 的能力,也需要 GPU 發(fā)揮作用。在這一背景下,NVIDIA 發(fā)布了 RAPIDS cuDF 庫(kù),用于加載、連接、聚合、過(guò)濾和以其他方式操作數(shù)據(jù),充分利用了 GPU 大規(guī)模并行處理能力的優(yōu)勢(shì)。
RAPIDS 是一套開源的 GPU 加速 Python 程序庫(kù),旨在改進(jìn)數(shù)據(jù)科學(xué)和分析工作流。RAPIDS cuDF 是一個(gè) GPU DataFrame 程序庫(kù),其提供了一個(gè)類似 Pandas 的 API,用于加載、過(guò)濾和操作數(shù)據(jù)。cuDF 的早期版本只適用于 GPU 開發(fā)工作流程。而 NVIDIA 也在持續(xù)對(duì)這一應(yīng)用進(jìn)行更新。
現(xiàn)在 RAPIDS cuDF 可以為 950 萬(wàn) Pandas 用戶帶來(lái) GPU 加速,而無(wú)需他們更改代碼,根據(jù)數(shù)據(jù)集大小為 5 GB 的分析基準(zhǔn)測(cè)試結(jié)果,處理時(shí)間縮短到原來(lái)的 1/150。而由 RAPIDS cuDF 驅(qū)動(dòng)的全新 GPU 引擎已經(jīng)可將 NVIDIA GPU 上的 Polars 工作流速度最高提速 13 倍,這意味著僅在一臺(tái)機(jī)器上數(shù)據(jù)科學(xué)家就能實(shí)現(xiàn)在數(shù)秒內(nèi)處理數(shù)億行數(shù)據(jù)。
借助 RAPIDS cuDF,數(shù)據(jù)科學(xué)家現(xiàn)在可以在他們首選的代碼庫(kù)上全速運(yùn)行數(shù)據(jù)處理。此外,隨著數(shù)據(jù)集規(guī)模不斷增長(zhǎng),處理工作占用更多內(nèi)存,在 NVIDIA RTX 加持的 AI 工作站和 PC 上的運(yùn)行也實(shí)現(xiàn)了顯著的速度提升。相比于基于傳統(tǒng) CPU 的解決方案,在工作站中配合使用 cuDF 和 NVIDIA RTX 5880 Ada 架構(gòu) GPU,可以將性能提升多達(dá) 100 倍。
通過(guò)以下博客了解更多關(guān)于 RAPIDS cuDF 的最新信息,解鎖在 AI 應(yīng)用與解決方案中加速數(shù)據(jù)分析探索的創(chuàng)新靈感。
無(wú)需更改代碼即可將 Pandas 提速近 150 倍
Pandas 是 Python 生態(tài)系統(tǒng)中最流行的 DataFrame 程序庫(kù),但它的速度會(huì)隨著 CPU 上數(shù)據(jù)量的增加而變慢。現(xiàn)在只需一條命令,用戶就可以在無(wú)需更改代碼的情況下,使用 cuDF 將加速計(jì)算引入到其 Pandas 工作流中。根據(jù)數(shù)據(jù)集大小為 5 GB 的分析基準(zhǔn)測(cè)試結(jié)果,處理時(shí)間縮短到原來(lái)的 150 分之一。
點(diǎn)擊閱讀《無(wú)需更改代碼,RAPIDS cuDF 將 Pandas 提速近 150 倍》了解更多 cuDF 將統(tǒng)一的 CPU/GPU 體驗(yàn)引入 Pandas 工作流并為其帶來(lái)頂尖性能的詳細(xì)信息。
RAPIDS cuDF 驅(qū)動(dòng)的 Polars GPU 引擎
最高提速 13 倍
RAPIDS cuDF 驅(qū)動(dòng)的 Polars GPU 引擎現(xiàn)已發(fā)布公測(cè)版,為各行各業(yè)的數(shù)據(jù)科學(xué)家和工程師提供了一種適用于中等規(guī)模數(shù)據(jù)處理的強(qiáng)大工具。該引擎最高能夠?qū)?NVIDIA GPU 上的 Polars 工作流速度提速 13 倍,可以在不產(chǎn)生分布式系統(tǒng)開銷的情況下,高效處理數(shù)億行規(guī)模的數(shù)據(jù)集。Polars GPU 引擎直接內(nèi)置在 Polars API 中,使所有用戶都能輕松訪問(wèn)。
點(diǎn)擊閱讀《RAPIDS cuDF 驅(qū)動(dòng)的 Polars GPU 引擎發(fā)布公測(cè)版》了解更多將 NVIDIA 加速計(jì)算引入 Polars 顯著提升加速性能的詳細(xì)介紹。
使用 RAPIDS cuDF 加速預(yù)處理工作流
突破數(shù)據(jù)科學(xué)的瓶頸
隨著 AI 和數(shù)據(jù)科學(xué)的不斷發(fā)展,快速處理和分析大量數(shù)據(jù)集的能力將成為各行業(yè)實(shí)現(xiàn)突破的關(guān)鍵差異化因素。無(wú)論是開發(fā)復(fù)雜的機(jī)器學(xué)習(xí)模型、執(zhí)行復(fù)雜的統(tǒng)計(jì)分析還是探索生成式 AI,RAPIDS cuDF 都可為新一代數(shù)據(jù)處理奠定基礎(chǔ)。
點(diǎn)擊閱讀《解密 AI 如何加速數(shù)據(jù)科學(xué)工作流》了解更多相關(guān)信息,預(yù)見 RTX AI 將如何為未來(lái)的工程師創(chuàng)造無(wú)限可能。
GTC 2025 將于2025 年 3 月 17 至 21 日在美國(guó)加州圣何塞及線上同步舉行。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5075瀏覽量
103598 -
gpu
+關(guān)注
關(guān)注
28文章
4768瀏覽量
129277 -
AI
+關(guān)注
關(guān)注
87文章
31493瀏覽量
270096 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
166瀏覽量
10084
原文標(biāo)題:合集詳解 RAPIDS cuDF 如何賦能 AI 加速數(shù)據(jù)科學(xué)
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論