文章來(lái)源:虹科云科技 虹科干貨丨Lambda數(shù)據(jù)架構(gòu)和Kappa數(shù)據(jù)架構(gòu)——構(gòu)建現(xiàn)代數(shù)據(jù)架構(gòu)
如何更好地構(gòu)建我們的數(shù)據(jù)處理架構(gòu),如何對(duì)IT系統(tǒng)中的遺留問(wèn)題進(jìn)行現(xiàn)代化改造并將其轉(zhuǎn)變?yōu)楝F(xiàn)代數(shù)據(jù)架構(gòu)?該怎么為你的需求匹配最適合的架構(gòu)設(shè)計(jì)呢,本文將分析兩種最流行的基于速度的數(shù)據(jù)架構(gòu),為你提供一些思路。
文章速覽:
· 什么是數(shù)據(jù)架構(gòu)?
· 基于速度的數(shù)據(jù)架構(gòu)
· Lambda數(shù)據(jù)架構(gòu)
· Kappa數(shù)據(jù)架構(gòu)
· 探索數(shù)據(jù)流模型
· 結(jié)語(yǔ)
一、什么是數(shù)據(jù)架構(gòu)?
數(shù)據(jù)架構(gòu)是企業(yè)架構(gòu)中的一個(gè)元素,繼承了企業(yè)架構(gòu)的主要屬性:流程、策略、變更管理和評(píng)估權(quán)衡。 根據(jù)Open Group架構(gòu)框架,數(shù)據(jù)架構(gòu)是對(duì)“企業(yè)主要數(shù)據(jù)類(lèi)型、來(lái)源、邏輯數(shù)據(jù)資產(chǎn)、物理數(shù)據(jù)資產(chǎn)和數(shù)據(jù)管理資源的結(jié)構(gòu)和交互” 的描述。
根據(jù)數(shù)據(jù)管理知識(shí)體系, 數(shù)據(jù)架構(gòu)是“識(shí)別企業(yè)的數(shù)據(jù)需求(無(wú)論結(jié)構(gòu)如何)并設(shè)計(jì)和維護(hù)核心藍(lán)圖以滿(mǎn)足這些需求”的過(guò)程 。它使用核心藍(lán)圖來(lái)指導(dǎo)數(shù)據(jù)集成、控制數(shù)據(jù)資產(chǎn)并使數(shù)據(jù)投資與業(yè)務(wù)戰(zhàn)略保持一致。
然而,糟糕的數(shù)據(jù)架構(gòu)是僵化且過(guò)度集中的 。它使用了錯(cuò)誤的工具來(lái)完成工作,這阻礙了開(kāi)發(fā)和變更管理。
二、基于速度的數(shù)據(jù)架構(gòu)
數(shù)據(jù)速度是指數(shù)據(jù)生成的速度、數(shù)據(jù)移動(dòng)的速度以及將其處理為可用指導(dǎo)的速度。
根據(jù)處理數(shù)據(jù)的速度,數(shù)據(jù)架構(gòu)通常分為兩類(lèi):Lambda和Kappa。
Lambda數(shù)據(jù)架構(gòu)?
1.什么是Lambda
Lambda數(shù)據(jù)架構(gòu)由Apache Storm的創(chuàng)建者Nathan Marz于 2011 年開(kāi)發(fā),旨在解決大規(guī)模實(shí)時(shí)數(shù)據(jù)處理的挑戰(zhàn)。術(shù)語(yǔ) Lambda 源自lambda演算 (λ),描述了在多個(gè)節(jié)點(diǎn)上并行運(yùn)行分布式計(jì)算的函數(shù)。Lambda數(shù)據(jù)架構(gòu)提供了一個(gè)可擴(kuò)展、容錯(cuò)且靈活的系統(tǒng)來(lái)處理大量數(shù)據(jù)。它允許以混合方式訪(fǎng)問(wèn)批處理和流處理方法。
2.Lambda架構(gòu)的使用場(chǎng)景
1)當(dāng)您有各種工作負(fù)載和速度要求時(shí),Lambda架構(gòu)是理想的選擇。由于它可以處理大量數(shù)據(jù)并提供低延遲查詢(xún)結(jié)果,因此適合儀表板和報(bào)告等實(shí)時(shí)分析應(yīng)用程序。 Lambda架構(gòu)對(duì)于 批處理 (清理、轉(zhuǎn)換、數(shù)據(jù)聚合)、 流處理任務(wù) (事件處理、開(kāi)發(fā)機(jī)器學(xué)習(xí)模型、異常檢測(cè)、欺詐預(yù)防)以及 構(gòu)建集中存儲(chǔ)庫(kù) (稱(chēng)為“數(shù)據(jù)湖”)非常有用。
2)Lambda架構(gòu)的關(guān)鍵區(qū)別在于,它使用兩個(gè)獨(dú)立的處理系統(tǒng)來(lái)處理不同類(lèi)型的數(shù)據(jù)處理工作負(fù)載 。第一個(gè)是 批處理系統(tǒng) ,它將結(jié)果存儲(chǔ)在集中式數(shù)據(jù)存儲(chǔ)(例如數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖)中。第二個(gè)系統(tǒng)是 流處理系統(tǒng) ,它在數(shù)據(jù)到達(dá)時(shí)實(shí)時(shí)處理數(shù)據(jù)并將結(jié)果存儲(chǔ)在分布式數(shù)據(jù)存儲(chǔ)中。
3.Lambda架構(gòu)的組成
Lambda架構(gòu)由攝取層、批處理層、速度層(或流層)和服務(wù)層組成。
· 批處理層: 批處理層處理大量歷史數(shù)據(jù)并將結(jié)果存儲(chǔ)在集中式數(shù)據(jù)存儲(chǔ)中,例如數(shù)據(jù)倉(cāng)庫(kù)或分布式文件系統(tǒng)。該層使用Hadoop或Spark等框架進(jìn)行高效的數(shù)據(jù)處理,使其能夠提供所有可用數(shù)據(jù)的總體視圖。
· 速度層: 速度層處理高速數(shù)據(jù)流,并使用Apache Flink或Apache Storm等事件處理引擎提供最新的信息視圖。該層處理傳入的實(shí)時(shí)數(shù)據(jù)并將結(jié)果存儲(chǔ)在分布式數(shù)據(jù)存儲(chǔ)中,例如消息隊(duì)列或NoSQL數(shù)據(jù)庫(kù)。
· 服務(wù)層: 無(wú)論底層處理系統(tǒng)如何,Lambda架構(gòu)服務(wù)層對(duì)于為用戶(hù)提供一致的數(shù)據(jù)訪(fǎng)問(wèn)體驗(yàn)至關(guān)重要。它在支持需要快速訪(fǎng)問(wèn)當(dāng)前信息(例如儀表板和分析)的實(shí)時(shí)應(yīng)用程序方面發(fā)揮著重要作用。
4.Lambda架構(gòu)的使用場(chǎng)景
Lambda架構(gòu)解決了計(jì)算任意函數(shù)的問(wèn)題,系統(tǒng)必須評(píng)估任何給定輸入的數(shù)據(jù)處理函數(shù)(無(wú)論是慢動(dòng)作還是實(shí)時(shí)) 。此外,它還 提供容錯(cuò)功能 ,確保在一個(gè)系統(tǒng)出現(xiàn)故障或不可用時(shí),任一系統(tǒng)的結(jié)果都可以用作另一個(gè)系統(tǒng)的輸入。在高吞吐量、低延遲和近實(shí)時(shí)應(yīng)用程序中,這種架構(gòu)的效率是很明顯的。
Lambda架構(gòu)示意圖
5、Lambda架構(gòu)的缺點(diǎn)
Lambda架構(gòu)提供了許多優(yōu)勢(shì),例如可擴(kuò)展性、容錯(cuò)性以及處理各種數(shù)據(jù)處理工作負(fù)載(批處理和流)的靈活性。但它也有缺點(diǎn):
· Lambda架構(gòu)很復(fù)雜 ,它使用多種技術(shù)堆棧來(lái)處理和存儲(chǔ)數(shù)據(jù)。
· 設(shè)置和維護(hù)可能具有挑戰(zhàn)性 ,尤其是在資源有限的組織中。
· 每個(gè)階段的批處理和速度層中都會(huì)重復(fù)底層邏輯 。這種重復(fù)有一個(gè)代價(jià):數(shù)據(jù)差異。因?yàn)楸M管具有相同的邏輯,但一層與另一層的實(shí)現(xiàn)不同。因此,錯(cuò)誤/錯(cuò)誤的概率較高,并且您可能會(huì)遇到批處理層和速度層的不同結(jié)果。
Kappa數(shù)據(jù)架構(gòu)?
2014年,Jay Kreps指出了Lambda架構(gòu)的一些缺點(diǎn)。這次討論使大數(shù)據(jù)社區(qū)找到了一種使用更少代碼資源的替代方案——Kappa數(shù)據(jù)架構(gòu)。
1、什么是Kappa數(shù)據(jù)架構(gòu)
Kappa(以希臘字母 ? 命名,在數(shù)學(xué)中用于表示循環(huán))背后的 主要思想是單個(gè)技術(shù)堆??捎糜趯?shí)時(shí)和批量數(shù)據(jù)處理 。該名稱(chēng)反映了該體系結(jié)構(gòu)對(duì)連續(xù)數(shù)據(jù)處理或再處理的重視,而不是基于批處理的方法。
Kappa 的核心依賴(lài)于流式架構(gòu) 。傳入數(shù)據(jù)首先存儲(chǔ)在事件流日志中。然后,它由流處理引擎(例如 Kafka)連續(xù)實(shí)時(shí)處理或攝取到另一個(gè)分析數(shù)據(jù)庫(kù)或業(yè)務(wù)應(yīng)用程序中。這樣做需要使用各種通信范例,例如實(shí)時(shí)、近實(shí)時(shí)、批處理、微批處理和請(qǐng)求響應(yīng)等。
2、Kappa數(shù)據(jù)架構(gòu)的組成
數(shù)據(jù)重新處理是 Kappa的一項(xiàng)關(guān)鍵要求,使源端的任何更改對(duì)結(jié)果的影響可見(jiàn)。因此,Kappa 架構(gòu)僅由兩層組成:流處理層和服務(wù)層。
在Kappa架構(gòu)中,只有一層處理層 :流處理層。該層負(fù)責(zé)采集、處理和存儲(chǔ)直播數(shù)據(jù)。這種方法消除了對(duì)批處理系統(tǒng)的需要。相反,它使用先進(jìn)的流處理引擎(例如 Apache Flink、Apache Storm、Apache Kafka 或 Apache Kinesis)來(lái)處理大量數(shù)據(jù)流并提供對(duì)查詢(xún)結(jié)果的快速、可靠的訪(fǎng)問(wèn)。
流處理層有兩個(gè)組件:
· 攝取組件 :該層從各種來(lái)源收集傳入數(shù)據(jù),例如日志、數(shù)據(jù)庫(kù)事務(wù)、傳感器和 API。數(shù)據(jù)被實(shí)時(shí)攝取并存儲(chǔ)在分布式數(shù)據(jù)存儲(chǔ)中,例如消息隊(duì)列或NoSQL數(shù)據(jù)庫(kù)。
· 處理組件 :該組件處理大量數(shù)據(jù)流并提供對(duì)查詢(xún)結(jié)果的快速可靠的訪(fǎng)問(wèn)。它使用事件處理引擎(例如 Apache Flink 或 Apache Storm)來(lái)實(shí)時(shí)處理傳入數(shù)據(jù)和歷史數(shù)據(jù)(來(lái)自存儲(chǔ)區(qū)域),然后將信息存儲(chǔ)到分布式數(shù)據(jù)存儲(chǔ)中。
對(duì)于幾乎所有用例,實(shí)時(shí)數(shù)據(jù)都勝過(guò)非實(shí)時(shí)數(shù)據(jù)。盡管如此,Kappa架構(gòu)不應(yīng)該被視為 Lambda 架構(gòu)的替代品。反之,在不需要批處理層的高性能來(lái)滿(mǎn)足標(biāo)準(zhǔn)服務(wù)質(zhì)量的情況下,您應(yīng)該考慮 Kappa架構(gòu)。
3、Kappa架構(gòu)的優(yōu)勢(shì)
Kappa架構(gòu)旨在提供可擴(kuò)展、容錯(cuò)且靈活的系統(tǒng),用于實(shí)時(shí)處理大量數(shù)據(jù) 。它使用單一技術(shù)堆棧來(lái)處理實(shí)時(shí)和歷史工作負(fù)載,并將所有內(nèi)容視為流。Kappa 架構(gòu)的主要?jiǎng)訖C(jī)是避免為批處理層和速度層維護(hù)兩個(gè)獨(dú)立的代碼庫(kù)(管道)。這使得它能夠提供更加精簡(jiǎn)的數(shù)據(jù)處理管道,同時(shí)仍然提供對(duì)查詢(xún)結(jié)果的快速可靠訪(fǎng)問(wèn)。
Kappa架構(gòu)示意圖
4、Kappa架構(gòu)的缺點(diǎn)
Kappa架構(gòu)承諾可擴(kuò)展性、容錯(cuò)性和簡(jiǎn)化的管理。然而,它也有缺點(diǎn)。
· Kappa架構(gòu)理論上比 Lambda更簡(jiǎn)單,但對(duì)于不熟悉流處理框架的企業(yè)來(lái)說(shuō),技術(shù)上仍然可能很復(fù)雜。
· 擴(kuò)展事件流平臺(tái)時(shí)的基礎(chǔ)設(shè)施成本 。在事件流平臺(tái)中存儲(chǔ)大量數(shù)據(jù)可能成本高昂,并會(huì)引發(fā)其他可擴(kuò)展性問(wèn)題,尤其是當(dāng)數(shù)據(jù)量達(dá)到TB或PB級(jí)時(shí)。
· 事件時(shí)間和處理時(shí)間之間的滯后不可避免地會(huì)產(chǎn)生數(shù)據(jù)延遲 。因此,Kappa 架構(gòu)需要一套機(jī)制來(lái)解決這個(gè)問(wèn)題,例如水印、狀態(tài)管理、重新處理或回填。
探索數(shù)據(jù)流模型?
1、為什么會(huì)出現(xiàn)數(shù)據(jù)流模型
Lambda和Kappa試圖通過(guò)集成本質(zhì)上不兼容的復(fù)雜工具來(lái)克服2010年代Hadoop生態(tài)系統(tǒng)的缺點(diǎn)。這兩種方法都難以解決協(xié)調(diào)批處理和流數(shù)據(jù)的根本挑戰(zhàn)。然而,Lambda和Kappa 為進(jìn)一步的改進(jìn)提供了靈感和基礎(chǔ)。
統(tǒng)一多個(gè)代碼路徑是管理批處理和流處理的一項(xiàng)重大挑戰(zhàn)。即使有了Kappa架構(gòu)的統(tǒng)一隊(duì)列和存儲(chǔ)層,開(kāi)發(fā)人員也需要使用不同的工具來(lái)收集實(shí)時(shí)統(tǒng)計(jì)數(shù)據(jù)并運(yùn)行批量聚合作業(yè)。今天,他們正在努力應(yīng)對(duì)這一挑戰(zhàn)。
2、什么是數(shù)據(jù)流模型
數(shù)據(jù)流模型的基本前提是將所有數(shù)據(jù)視為事件并在不同類(lèi)型的窗口上執(zhí)行聚合。實(shí)時(shí)事件流是無(wú)界數(shù)據(jù),而批量數(shù)據(jù)是具有自然窗口的有界事件流。
窗口模式示意圖
數(shù)據(jù)工程師可以選擇不同的窗口,例如滑動(dòng)窗口或會(huì)話(huà)窗口,以進(jìn)行實(shí)時(shí)聚合。數(shù)據(jù)流模型允許使用幾乎相同的代碼在同一系統(tǒng)內(nèi)進(jìn)行實(shí)時(shí)和批處理。
“批處理作為流處理的一個(gè)特例”的想法已經(jīng)變得越來(lái)越普遍,F(xiàn)link和Spark等框架也采用了類(lèi)似的方法。
結(jié)語(yǔ)
當(dāng)然,關(guān)于速度模型的數(shù)據(jù)架構(gòu)討論還有另一個(gè)用處:適合物聯(lián)網(wǎng) (IoT) 的設(shè)計(jì)選擇,在本篇文章中,我們就不再贅述。如何最好地構(gòu)建我們處理數(shù)據(jù)的架構(gòu),如何對(duì)僵化且緩慢的IT遺留系統(tǒng),進(jìn)行現(xiàn)代化改造并將其轉(zhuǎn)變?yōu)楝F(xiàn)代數(shù)據(jù)架構(gòu),顯然,關(guān)于這個(gè)問(wèn)題還尚未有定論。歡迎與我們共同探討。
審核編輯:湯梓紅
-
數(shù)據(jù)庫(kù)
+關(guān)注
關(guān)注
7文章
3841瀏覽量
64545 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8900瀏覽量
137585 -
Lambda
+關(guān)注
關(guān)注
0文章
29瀏覽量
9894
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論