0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

高效地?cái)U(kuò)展Polars GPU Parquet讀取器

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-04-21 17:12 ? 次閱讀

51b13412-1c3a-11f0-9310-92fbcf53809c.png

在處理大型數(shù)據(jù)集時(shí),數(shù)據(jù)處理工具的性能至關(guān)重要。Polars 作為一個(gè)以速度和效率著稱的開源數(shù)據(jù)處理庫,它提供了由 cuDF 驅(qū)動(dòng)的 GPU 加速后端,能夠顯著提升性能。

然而,要想充分發(fā)揮 Polars GPU 后端的優(yōu)勢,優(yōu)化數(shù)據(jù)加載過程并有效地管理工作流所需的內(nèi)存至關(guān)重要。隨著 GPU 后端開發(fā)的持續(xù)進(jìn)展,在使用 GPU Parquet 讀取器處理不斷增大的數(shù)據(jù)集時(shí),可以使用一些其他技術(shù)來保持高性能?,F(xiàn)有的 Polars GPU Parquet 讀取器(包括至 24.10 版本)無法針對更大的數(shù)據(jù)集進(jìn)行擴(kuò)展。

本文探討了分塊 Parquet 讀取器與統(tǒng)一虛擬內(nèi)存(UVM)相結(jié)合,如何能夠超越非分塊讀取器和基于 CPU 的方法。

標(biāo)度因數(shù)和非分塊讀取器帶來的挑戰(zhàn)

隨著標(biāo)度因數(shù)(SF)的增加,非分塊 GPU Polars 讀取器(24.10 版)常常會遇到困難。當(dāng)標(biāo)度因數(shù)超過 200 時(shí),性能會顯著下降。在 Query 9 等特定場景下,非分塊 GPU 讀取器甚至在標(biāo)度因數(shù)達(dá)到 50 之前就會出問題。這種限制源于將大型 Parquet 文件加載到 GPU 內(nèi)存時(shí)的內(nèi)存限制。非分塊 Parquet 讀取器圖表會缺失數(shù)據(jù),這凸顯了在標(biāo)度因數(shù)較高時(shí)遇到的內(nèi)存溢出(OOM)錯(cuò)誤。

51bbc968-1c3a-11f0-9310-92fbcf53809c.png

圖 1. Query 13 執(zhí)行的可靠性,對比 24.10 版和 24.1 2版 Parquet 讀取器

通過分塊 Parquet 讀取提升 I/O 和峰值內(nèi)存性能

為了突破這些內(nèi)存限制,分塊 Parquet 讀取器就變得至關(guān)重要。通過將 Parquet 文件切分為較小數(shù)據(jù)塊進(jìn)行讀取,可以減少內(nèi)存占用,使 Polars GPU 能夠處理更大的數(shù)據(jù)集。對于任何給定的查詢,與非分塊讀取器相比,使用單次讀取限制為 16GB 的分塊 Parquet 讀取器能夠執(zhí)行更多的標(biāo)度因數(shù)。對于 Query 9,必須使用 16GB 或 32GB 的分塊 Parquet 讀取方式才能執(zhí)行并實(shí)現(xiàn)更高的吞吐量。

51c87fbe-1c3a-11f0-9310-92fbcf53809c.png

圖 2. 針對 Query 9,通過改變標(biāo)度因數(shù)不同分塊大?。╬ass_read_limit)進(jìn)行吞吐量對比

借助統(tǒng)一虛擬內(nèi)存讀取更大的數(shù)據(jù)集

雖然分塊讀取優(yōu)化了內(nèi)存管理,但統(tǒng)一虛擬內(nèi)存將性能提升到了新的高度。統(tǒng)一虛擬內(nèi)存使 GPU 能夠直接訪問系統(tǒng)內(nèi)存,進(jìn)一步緩解了內(nèi)存限制并提高了數(shù)據(jù)傳輸效率。

相比之下,未配備統(tǒng)一虛擬內(nèi)存的分塊讀取器在標(biāo)度因數(shù)達(dá)到 100 之前就會觸發(fā)內(nèi)存溢出錯(cuò)誤。分塊讀取器與統(tǒng)一虛擬內(nèi)存相結(jié)合,可以在更高的標(biāo)度因數(shù)下成功地執(zhí)行查詢,不過吞吐量會受到影響。

圖 3 顯示了這一顯著優(yōu)勢。與非分塊 Parquet 讀取器相比,配備統(tǒng)一虛擬內(nèi)存的分塊 Parquet 讀取器能夠成功地執(zhí)行標(biāo)度因數(shù)更高的查詢。

51d51c60-1c3a-11f0-9310-92fbcf53809c.png

圖 3. 配備統(tǒng)一虛擬內(nèi)存的分塊讀取器、CPU 以及未配備統(tǒng)一虛擬內(nèi)存時(shí)的 Query 13 吞吐量(數(shù)值越高性能表現(xiàn)越好)

穩(wěn)定性和吞吐量

在選擇最佳的pass_read_limit時(shí),需要重點(diǎn)考慮穩(wěn)定性和吞吐量之間的平衡。圖 1-圖 3 表明,16GB 或 32GB 的pass_read_limit實(shí)現(xiàn)了兩者最優(yōu)的平衡。

32GBpass_read_limit:除了 Query 9 和 Query 19 因內(nèi)存溢出異常遭遇失敗外,所有其他查詢均成功完成。

16GBpass_read_limit:所有查詢均成功完成。

分塊 GPU 與 CPU 的比較

觀察結(jié)果顯示,每次查詢的吞吐量通常高于 CPU Polars,這使得許多在未分塊時(shí)無法完成的查詢得以完成。建議將pass_read_limit參數(shù)設(shè)置為 16GB 或 32GB,該閾值設(shè)定具有合理性。與非分塊 Parquet 讀取器相比,16GB 或 32GB 的pass_read_limit能夠在更高的標(biāo)度因數(shù)下成功地執(zhí)行查詢。

結(jié)論

對于 Polars GPU 而言,配備統(tǒng)一虛擬內(nèi)存的分塊 Parquet 讀取器通常優(yōu)于 Polars CPU 和非分塊Parquet 讀取器,尤其是在處理大規(guī)模數(shù)據(jù)集和高標(biāo)度因數(shù)場景時(shí)。通過優(yōu)化數(shù)據(jù)加載過程,可以充分發(fā)揮 Polars GPU 的潛力,顯著提升性能。作為最新的cudf-polars(24.12 版及更高版本)的一部分,分塊 Parquet 讀取器和統(tǒng)一虛擬內(nèi)存是讀取 Parquet 文件的默認(rèn)方式。這使得所有查詢和標(biāo)度因數(shù)都實(shí)現(xiàn)了像上述的性能提升。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4909

    瀏覽量

    130648
  • 讀取器
    +關(guān)注

    關(guān)注

    0

    文章

    51

    瀏覽量

    5401
  • 虛擬內(nèi)存
    +關(guān)注

    關(guān)注

    0

    文章

    78

    瀏覽量

    8211

原文標(biāo)題:高效地?cái)U(kuò)展 Polars GPU Parquet 讀取器

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    什么是可編程讀取器?

    無線頻率識別(RFID)是一種自動(dòng) ID 技術(shù),其可識別任何含有編碼卷標(biāo)的物體。 UHFRFID 系統(tǒng)由一個(gè)讀取器 (或詢問) 組成,該讀取器調(diào)變一個(gè) 860MHz 至 960MHz 頻率范圍內(nèi)
    發(fā)表于 09-30 06:46

    Impinj發(fā)布Speedway Revolution讀取器

    Impinj 發(fā)布Speedway Revolution 讀取器 領(lǐng)先的 UHF Gen 2 RFID 技術(shù)供應(yīng)商 Impinj 公司宣布推出 Speedway Revolution 讀取器,綜合有公司的創(chuàng)新性 Autopi
    發(fā)表于 11-13 17:34 ?1268次閱讀

    指紋讀取器的掃描范圍/分辨率/接口

    指紋讀取器的掃描范圍/分辨率/接口 掃描范圍      
    發(fā)表于 12-28 14:27 ?678次閱讀

    指紋讀取器

    指紋讀取器              指紋讀取器是一
    發(fā)表于 12-28 14:29 ?1078次閱讀

    指紋讀取器的電力規(guī)格/支持的操作系統(tǒng)

    指紋讀取器的電力規(guī)格/支持的操作系統(tǒng) 電力規(guī)格    &nb
    發(fā)表于 12-28 14:31 ?698次閱讀

    指紋讀取器的認(rèn)證/傳感元件

    指紋讀取器的認(rèn)證/傳感元件  認(rèn)證              認(rèn)證指的是一種產(chǎn)品是不是經(jīng)過了一些權(quán)威部門
    發(fā)表于 12-28 14:37 ?753次閱讀

    單一處理簡化RFID讀取器設(shè)計(jì)及RFID系統(tǒng)范例分析

    目前大多數(shù)RFID讀取器必須使用一個(gè)以上的處理才能符合應(yīng)用裝置需求,透過使用匯聚型(Convergent)處理,以單一處理即可滿足。本文將聚焦于RFID
    發(fā)表于 12-11 18:50 ?1367次閱讀
    單一處理<b class='flag-5'>器</b>簡化RFID<b class='flag-5'>讀取器</b>設(shè)計(jì)及RFID系統(tǒng)范例分析

    訊寶科技推出第2代移動(dòng)型RFID讀取器RD5000

    近日美國訊寶科技公司宣布推出緊湊式第2代移動(dòng)型RFID讀取器RD5000。該讀取器可集成在叉車、平板式起重機(jī)、拉伸式包裝機(jī)和其它原材料處理設(shè)備上,以便在不同的空間受限的環(huán)境中使用。RD5000移動(dòng)型RFID讀取器將RFID的使用
    發(fā)表于 12-13 13:03 ?1100次閱讀

    如何使用處理區(qū)來簡化rfid讀取器

    本文聚焦于RFID讀取器的功能,探索必須在RFID讀取器上執(zhí)行的基本軟件元件以及伺服連結(jié),并提供利用單一處理完成相關(guān)設(shè)計(jì)的系統(tǒng)設(shè)定建議。
    發(fā)表于 01-07 16:46 ?908次閱讀
    如何使用處理區(qū)來簡化rfid<b class='flag-5'>讀取器</b>

    近距離讀取器天線的設(shè)計(jì)示例詳細(xì)說明

    本文檔的主要內(nèi)容詳細(xì)介紹的是近距離讀取器天線的設(shè)計(jì)示例詳細(xì)說明。
    發(fā)表于 05-13 17:30 ?16次下載
    近距離<b class='flag-5'>讀取器</b>天線的設(shè)計(jì)示例詳細(xì)說明

    讓Arduino充當(dāng)玻璃容器中的控制和傳感讀取器

    電子發(fā)燒友網(wǎng)站提供《讓Arduino充當(dāng)玻璃容器中的控制和傳感讀取器.zip》資料免費(fèi)下載
    發(fā)表于 11-22 14:27 ?0次下載
    讓Arduino充當(dāng)玻璃容器中的控制<b class='flag-5'>器</b>和傳感<b class='flag-5'>器</b><b class='flag-5'>讀取器</b>

    帶RC522 RFID讀取器套件的BUONO UNO R3

    電子發(fā)燒友網(wǎng)站提供《帶RC522 RFID讀取器套件的BUONO UNO R3.zip》資料免費(fèi)下載
    發(fā)表于 12-27 09:20 ?3次下載
    帶RC522 RFID<b class='flag-5'>讀取器</b>套件的BUONO UNO R3

    指紋讀取器上進(jìn)行掃描什么意思

    指紋讀取器是一種生物識別技術(shù),它通過掃描和分析個(gè)人的指紋來識別身份。指紋是人體手指皮膚上的獨(dú)特紋理,每個(gè)人的指紋都是獨(dú)一無二的,即使是同卵雙胞胎的指紋也會有所不同。這種技術(shù)已經(jīng)被廣泛應(yīng)用于安全
    的頭像 發(fā)表于 10-14 10:57 ?751次閱讀

    二維碼讀取器讀取DPM金屬零件激光雕刻碼

    二維碼讀取器,作為現(xiàn)代自動(dòng)識別技術(shù)的重要組成部分,其在各行各業(yè)的應(yīng)用日益廣泛。特別是在工業(yè)制造領(lǐng)域,二維碼讀取器讀取DPM(DirectPartMark)金屬零件激光雕刻碼的技術(shù),更是展現(xiàn)了其高精度
    的頭像 發(fā)表于 01-02 16:21 ?519次閱讀
    二維碼<b class='flag-5'>讀取器</b><b class='flag-5'>讀取</b>DPM金屬零件激光雕刻碼

    二維碼讀取器是干嘛的

    二維碼讀取器(用于二維碼讀取的機(jī)器),作為一種現(xiàn)代化的自動(dòng)識別技術(shù)設(shè)備,正日益滲透到我們生活的方方面面。從商場購物到物流配送,從醫(yī)療管理到工業(yè)生產(chǎn)線,二維碼讀取器憑借其高效、準(zhǔn)確的
    的頭像 發(fā)表于 03-17 15:57 ?299次閱讀
    二維碼<b class='flag-5'>讀取器</b>是干嘛的

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品