1?
什么是流處理?
流是從生產(chǎn)者到消費(fèi)者的一系列無限事件。大量數(shù)據(jù)生成為金融交易、傳感器測量或 Web 服務(wù)器日志等事件流。流處理是對接收到的新數(shù)據(jù)事件的連續(xù)處理。
Streamz 等流處理庫有助于構(gòu)建用于管理連續(xù)數(shù)據(jù)流的流程,允許應(yīng)用程序在事件發(fā)生時(shí)對其作出響應(yīng)。
流處理流程通常涉及多個(gè)操作,例如過濾、聚合、計(jì)數(shù)、分析、轉(zhuǎn)換、充實(shí)、分支、連接、流量控制、早期階段反饋、回壓和存儲。
2?
為何選擇流處理?
數(shù)據(jù)流的持續(xù)處理在許多應(yīng)用程序中都非常有幫助,例如:
醫(yī)療健康:持續(xù)監(jiān)控儀器數(shù)據(jù)
智慧城市:交通模式和擁塞管理
制造:優(yōu)化和預(yù)測性維護(hù)
運(yùn)輸:優(yōu)化路線和燃料消耗
汽車:智能汽車
網(wǎng)絡(luò)安全和異常檢測:Web 或網(wǎng)絡(luò)日志處理
金融:股票上市時(shí)間序列
機(jī)器學(xué)習(xí):實(shí)時(shí)預(yù)測
廣告:基于位置或動作的廣告
由于各企業(yè)高度依賴實(shí)時(shí)分析、推理、監(jiān)控等功能,因此流處理市場正經(jīng)歷指數(shù)級發(fā)展。現(xiàn)在,基于流構(gòu)建的服務(wù)是日常業(yè)務(wù)的核心組成部分,結(jié)構(gòu)化遙測事件和非結(jié)構(gòu)化日志正以每年超過 5 倍的速度增長。在現(xiàn)代商業(yè)環(huán)境中,這種規(guī)模的大數(shù)據(jù)流愈加復(fù)雜并且難以有效地運(yùn)行,因此,經(jīng)濟(jì)高效的可靠流對其至關(guān)重要。
3?
GPU 加速流處理
NVIDIA RAPIDScuStreamz 是 GPU 加速流數(shù)據(jù)處理庫,旨在加速流處理吞吐量并降低總擁有成本 (TCO)。NVIDIA 的 cuStreamz 制作流程每年可節(jié)省數(shù)十萬美元。cuStreamz 使用 Python 編寫,基于 RAPIDS(用于數(shù)據(jù)科學(xué)庫的 GPU 加速器)而構(gòu)建。通過添加 GPU 支持的 Flink 可以看出,端到端 GPU 加速正迅速成為行業(yè)標(biāo)準(zhǔn),NVIDIA 很高興能成為此趨勢的一個(gè)組成部分。
cuStreamz 基于以下內(nèi)容構(gòu)建:
Streamz,一個(gè)能夠幫助構(gòu)建管理連續(xù)數(shù)據(jù)流流程的開源 Python 庫;
Dask,一個(gè)能夠并行處理流工作負(fù)載的穩(wěn)健可靠的調(diào)度程序;
RAPIDS,一種用于流計(jì)算的 GPU 加速庫套件。
cuStreamz 通過在后臺利用 RAPIDS cuDF 來加速 Streamz,從而使用 GPU 加速流數(shù)據(jù)計(jì)算。cuStreamz 還受益于 cuDF 的加速 JSON、Parquet 和 CSV 讀取器和寫入器。cuStreamz 團(tuán)隊(duì)構(gòu)建了一個(gè)加速 Kafka 數(shù)據(jù)源連接器,能夠非常快速地將 Kafka 的數(shù)據(jù)直接讀取到 cuDF 數(shù)據(jù)幀中,從而顯著提升端到端性能。然后,可以使用 Dask 在分布式模式下并行運(yùn)行流流程,從而大規(guī)模提高性能。
在下圖中對 cuStreamz 架構(gòu)進(jìn)行了概括總結(jié)。cuStreamz 是連接 Python 流與 GPU 的橋梁,應(yīng)用了檢查點(diǎn)和狀態(tài)管理等復(fù)雜可靠的流功能。cuStreamz 還提供了必要的基礎(chǔ)模塊來編寫流作業(yè),這些作業(yè)在 GPU 上安全運(yùn)行,并且性能更好,成本更低。
4?
GPU 加速的端到端數(shù)據(jù)科學(xué)
基于 NVIDIA CUDA-X AI構(gòu)建的 RAPIDS 開源軟件庫,使您完全能夠在 GPU 上執(zhí)行端到端數(shù)據(jù)科學(xué)和分析流程。此套件依靠 NVIDIA CUDA基元進(jìn)行低級別計(jì)算優(yōu)化,但通過用戶友好型 Python 接口能夠?qū)崿F(xiàn) GPU 并行化和高帶寬顯存速度。
借助 RAPIDS GPU DataFrame,數(shù)據(jù)可以通過一個(gè)類似 Pandas 的接口加載到 GPU 上,然后用于各種連接的機(jī)器學(xué)習(xí)和圖形分析算法,而無需離開 GPU。這種級別的互操作性是通過 Apache Arrow 這樣的庫實(shí)現(xiàn)的。允許加速數(shù)據(jù)準(zhǔn)備、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等端到端流程。
RAPIDS cuML 的機(jī)器學(xué)習(xí)算法和數(shù)學(xué)基元遵循熟悉的類似于 scikit-learn 的 API。單塊 GPU 和大型數(shù)據(jù)中心部署均支持 XGBoost 等主流算法。針對大型數(shù)據(jù)集,相較于同等功效的 CPU,這些基于 GPU 的實(shí)施方案能夠以 10 到 50 倍的速度更快地完成任務(wù)。
RAPIDS 支持在許多熱門數(shù)據(jù)科學(xué)庫之間共享設(shè)備內(nèi)存。這樣可將數(shù)據(jù)保留在 GPU 上,并省去了來回復(fù)制主機(jī)內(nèi)存的高昂成本。
*與NVIDIA產(chǎn)品相關(guān)的圖片或視頻(完整或部分)的版權(quán)均歸NVIDIA Corporation所有。
審核編輯:劉清
-
傳感器
+關(guān)注
關(guān)注
2552文章
51359瀏覽量
755675 -
加速器
+關(guān)注
關(guān)注
2文章
806瀏覽量
37998 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8437瀏覽量
132892 -
智能汽車
+關(guān)注
關(guān)注
30文章
2885瀏覽量
107444 -
GPU芯片
+關(guān)注
關(guān)注
1文章
303瀏覽量
5871
原文標(biāo)題:麗臺科普丨什么是流處理?
文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論