數(shù)據(jù)網(wǎng)格作為一種新的數(shù)據(jù)管理方法,在業(yè)界越來越受到關注。然而在興奮之余,人們對其復雜性以及能否兌現(xiàn)承諾表示擔憂。本文將深入探討數(shù)據(jù)網(wǎng)格的復雜性,解決圍繞其是否過時存在的巨大爭議,并探索它所帶來的機遇和挑戰(zhàn)。此外,還將討論該行業(yè)可能缺少的內(nèi)容以及可能阻礙其成功實施的潛在障礙。
數(shù)據(jù)網(wǎng)格:民主化和可擴展數(shù)據(jù)架構的范例
經(jīng)常使用的“數(shù)據(jù)網(wǎng)格”這一術語是什么意思,為什么要考慮實現(xiàn)數(shù)據(jù)網(wǎng)格?
類似于軟件工程團隊如何從單片應用程序過渡到微服務架構,數(shù)據(jù)網(wǎng)格代表了微服務的數(shù)據(jù)平臺。數(shù)據(jù)網(wǎng)格的靈感來自軟件建模專家Eric Evans的“領域驅(qū)動設計”理論,該理論主張與特定業(yè)務領域保持一致的靈活和可擴展的軟件開發(fā),它提供了一種類似的方法。
與傳統(tǒng)的單片式數(shù)據(jù)基礎設施不同,傳統(tǒng)的單片數(shù)據(jù)基礎設施在集中的數(shù)據(jù)湖中處理數(shù)據(jù)消耗、存儲、轉換和輸出,數(shù)據(jù)網(wǎng)格支持分布式、特定領域的數(shù)據(jù)消費者。它將“數(shù)據(jù)視為產(chǎn)品”,每個領域都負責管理自己的數(shù)據(jù)管道。
關鍵是,根據(jù)數(shù)據(jù)網(wǎng)格原則,領域團隊承擔底層平臺或數(shù)據(jù)存儲層的所有權,這引發(fā)了一些爭議。這些領域通過通用互操作層連接起來,遵循一致的語法和數(shù)據(jù)標準。雖然可能會出現(xiàn)一些基礎設施重復,但某些團隊已經(jīng)采用了更集中的平臺,從而產(chǎn)生混合的“數(shù)據(jù)網(wǎng)格”結構。
在自助服務商業(yè)智能時代,許多企業(yè)宣稱自己是數(shù)據(jù)優(yōu)先的組織,這有些令人尷尬。然而,并不是所有這些公司都優(yōu)先考慮其數(shù)據(jù)架構的民主化和可擴展性。
行業(yè)領先的企業(yè)認識到數(shù)據(jù)的變革潛力。例如,一些首席執(zhí)行官成為Snowflake和Looker等技術的早期采用者,或者首席數(shù)據(jù)官(CDO)領導團隊進行了關于數(shù)據(jù)管理最佳實踐的培訓,而首席技術官(CTO)則投資了專門的數(shù)據(jù)工程團隊。盡管如此,數(shù)據(jù)團隊都渴望一種更簡單的方法來滿足企業(yè)不斷增長的需求,從處理連續(xù)的特殊查詢到通過集中的提取、轉換、加載(ETL)管道管理不同的數(shù)據(jù)源。
在追求民主化和可擴展性的基礎上,人們意識到,當前的數(shù)據(jù)架構可能難以滿足企業(yè)不斷發(fā)展的需求,通常僅限于孤立的數(shù)據(jù)倉庫或?qū)崟r流功能有限的數(shù)據(jù)湖。
幸運的是,有一種解決方案可以為數(shù)據(jù)管理提供一種全新的視角——數(shù)據(jù)網(wǎng)格,這是一種在整個行業(yè)掀起波瀾的架構范式。
值得注意的是,數(shù)據(jù)網(wǎng)格經(jīng)常與“數(shù)據(jù)結構”這一術語混淆,“數(shù)據(jù)結構”是由Forrester公司分析師在世紀之交提出的。數(shù)據(jù)結構包含由虛擬管理層鏈接的現(xiàn)代數(shù)據(jù)平臺組成的各種異構解決方案。然而,它并沒有像數(shù)據(jù)網(wǎng)格那樣強調(diào)去中心化和領域驅(qū)動的架構。
數(shù)據(jù)網(wǎng)格的消亡是炒作還是現(xiàn)實?
在社交媒體討論領域,已經(jīng)有人猜測數(shù)據(jù)網(wǎng)格將會消亡。數(shù)據(jù)網(wǎng)格是由ThoughtWorks公司前首席顧問Zhamak Dehghani于2019年提出的,他提出了一種通過分布式架構管理分析數(shù)據(jù)的新方法。通過使最終用戶能夠直接訪問和查詢原始位置的數(shù)據(jù),數(shù)據(jù)網(wǎng)格消除了在數(shù)據(jù)湖或數(shù)據(jù)倉庫中進行集中的需要。在這種模式下,數(shù)據(jù)被視為一種產(chǎn)品,其所有權歸屬于最密切參與其消費和理解的團隊。
引入這個概念是為了解決企業(yè)所面臨的挑戰(zhàn),這些挑戰(zhàn)依賴于集中式數(shù)據(jù)平臺架構,提供可擴展的解決方案,并通過及時決策和為民主化數(shù)據(jù)擁有數(shù)據(jù)產(chǎn)品的交付。數(shù)據(jù)網(wǎng)格解決了與大規(guī)模數(shù)據(jù)可用性和可訪問性相關的問題,使業(yè)務用戶和數(shù)據(jù)科學家能夠從不同的數(shù)據(jù)源中提取、分析和操作有價值的見解,無論其位置如何。此外,它不需要專業(yè)數(shù)據(jù)團隊的持續(xù)干預。
雖然數(shù)據(jù)網(wǎng)格是一個相對較新的概念,但圍繞其消亡的討論已經(jīng)引起了人們的關注。以下深入探討導致這樣的懷疑日益增長背后的原因。
Cloudera數(shù)據(jù)平臺促進了數(shù)據(jù)網(wǎng)格架構的關鍵原則,即領域所有權、數(shù)據(jù)即產(chǎn)品、自助服務平臺和聯(lián)合治理。
數(shù)據(jù)網(wǎng)格的復雜性:超越技術層面
數(shù)據(jù)網(wǎng)格不僅僅是技術方面的問題;它包含了數(shù)據(jù)管理的核心原則。它包括按領域管理數(shù)據(jù)、將數(shù)據(jù)視為產(chǎn)品、啟用自助服務數(shù)據(jù)平臺以及實現(xiàn)聯(lián)合計算治理。這些支柱構成了數(shù)據(jù)網(wǎng)格的基礎,并塑造了其整體價值主張。
面向領域的數(shù)據(jù)所有者和管道:在數(shù)據(jù)網(wǎng)格架構中,數(shù)據(jù)所有權在負責將其數(shù)據(jù)作為產(chǎn)品提供的領域數(shù)據(jù)所有者之間聯(lián)合起來。這種方法支持跨不同位置的分布式數(shù)據(jù)之間的通信和協(xié)作。
雖然數(shù)據(jù)基礎設施負責為每個領域提供必要的解決方案來處理數(shù)據(jù),但領域本身管理數(shù)據(jù)的攝取、清理和聚合,以生成業(yè)務智能應用程序可用的資產(chǎn)。每個域都擁有自己的提取、轉換、加載(ETL)管道,而一組適用于所有領域的功能處理原始數(shù)據(jù)的存儲、編目和訪問控制。一旦數(shù)據(jù)被提供給特定的領域并被轉換,領域所有者就可以利用它來滿足他們的分析或操作需求。數(shù)據(jù)沿襲在理解整個組織的消費模式和支持向更分散的結構過渡方面起著至關重要的作用。
自助服務功能:數(shù)據(jù)網(wǎng)格利用面向領域的設計原則提供自助數(shù)據(jù)平臺,允許用戶抽象技術復雜性并專注于其特定的數(shù)據(jù)用例。數(shù)據(jù)網(wǎng)格將與領域無關的數(shù)據(jù)基礎設施功能集中到一個共享平臺中,以解決在每個領域中維護數(shù)據(jù)管道和基礎設施所需的重復工作和技能問題。這個中央平臺處理數(shù)據(jù)管道引擎、存儲和流基礎設施。與此同時,每個領域都利用這些組件來運行定制的ETL管道,提供必要的支持來服務于它們的數(shù)據(jù),同時保持流程的自主性。
通信的互操作性和標準化:每個領域的核心是一套通用的數(shù)據(jù)標準,可在需要時促進領域之間的協(xié)作。由于某些數(shù)據(jù)(包括原始數(shù)據(jù)源和經(jīng)過清理、轉換和服務的數(shù)據(jù)集)對多個領域變得有價值,因此跨領域協(xié)作是必不可少的。數(shù)據(jù)網(wǎng)格通過標準化格式、治理、可發(fā)現(xiàn)性和元數(shù)據(jù)字段以及其他數(shù)據(jù)特性來實現(xiàn)這一點。此外,與單個微服務類似,每個數(shù)據(jù)域定義并同意它們向其消費者保證的服務水平協(xié)議(SLA)和質(zhì)量指標。
面向領域的數(shù)據(jù)治理:在數(shù)據(jù)網(wǎng)格架構中實施面向領域的數(shù)據(jù)治理方法,以確保符合全球和監(jiān)管約束和政策。這種方法利用聯(lián)合服務來保護企業(yè)的數(shù)據(jù)和系統(tǒng)。
聯(lián)合治理模型允許實施數(shù)據(jù)保護措施,同時適應每個領域的獨特需求。它確保根據(jù)適用的法規(guī)和策略保護數(shù)據(jù)和系統(tǒng),為在域級別管理數(shù)據(jù)隱私、安全性和遵從性提供框架。
通過實現(xiàn)聯(lián)合治理,數(shù)據(jù)網(wǎng)格架構促進了數(shù)據(jù)治理的結構化和協(xié)調(diào)的方法,支持對數(shù)據(jù)資產(chǎn)的有效管理,同時保持對相關法規(guī)和策略的遵從性。
對領域名稱所有權的關注
數(shù)據(jù)網(wǎng)格的一個關鍵問題在于領域所有權的概念。雖然讓各個業(yè)務領域擁有和管理自己的數(shù)據(jù)似乎很有吸引力,但這也引發(fā)了潛在的孤島和碎片化問題。在處理企業(yè)范圍的數(shù)據(jù)治理或主數(shù)據(jù)管理時,領域的概念可能導致數(shù)據(jù)視圖的不完整。在授權領域所有者和確保跨域數(shù)據(jù)協(xié)作之間取得平衡是一個需要解決的挑戰(zhàn)。
數(shù)據(jù)網(wǎng)格的模糊參數(shù)
理解數(shù)據(jù)網(wǎng)格的一個重大挑戰(zhàn)是需要特定的指導方針和參數(shù)。圍繞數(shù)據(jù)網(wǎng)格使用的語言通常圍繞著新的思維方式和不同的數(shù)據(jù)處理方式。雖然提到了聯(lián)合數(shù)據(jù)存儲和數(shù)據(jù)虛擬化等概念,但缺乏明確的實現(xiàn)指南。這種模糊性使得企業(yè)在采用數(shù)據(jù)網(wǎng)格時難以彌合理論與實踐之間的差距。
數(shù)據(jù)網(wǎng)格“消亡”背后的現(xiàn)實
2022年6月,調(diào)研機構Gartner公司發(fā)布了《2022年炒作周期數(shù)據(jù)管理》,該報告根據(jù)采用水平和預計的主流采用時間表評估了技術的成熟度。這個周期有助于數(shù)據(jù)和分析領導者識別有前途的技術,并確定評估和采用的合適時機。
根據(jù)這份報告,數(shù)據(jù)網(wǎng)格目前處于“創(chuàng)新觸發(fā)”階段,尚未達到“膨脹預期的峰值”。根據(jù)預測,它將在達到平臺期之前過時。
Gartner公司的分析師Mark Beyer、Ehtisham Zaidi和Robert Thanaraj量化了數(shù)據(jù)網(wǎng)格的感知效益,并指出其在目標受眾中的市場滲透率也相對較低,在1%到5%之間。圍繞數(shù)據(jù)網(wǎng)格的炒作源于聲稱它解決了集中式數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)中心的挑戰(zhàn)。
為什么會發(fā)生這種情況?
Gartner公司解釋說,數(shù)據(jù)網(wǎng)格解決方案利用業(yè)務應用程序以去中心化的方式捕獲和分發(fā)數(shù)據(jù)。在通常情況下,當集中式方法未能產(chǎn)生令人滿意的結果時,通常是由于實施和交付方面的挑戰(zhàn)而采用分散的數(shù)據(jù)管理方法。然而,隨著支持集中式數(shù)據(jù)訪問的技術和解決方案的進步,像數(shù)據(jù)網(wǎng)格這樣的分布式方法預計將在企業(yè)IT中失去流行性。
在這份報告發(fā)表之后,行業(yè)專家對Gartner公司的觀察結果表示支持和反對。Data Mesh Radio主持人Scott Hirlman批評Gartner公司對供應商和技術的偏見,聲稱數(shù)據(jù)網(wǎng)格不太可能過時。
Gartner公司前分析師、現(xiàn)任Profisee公司數(shù)據(jù)策略主管Malcolm Hawker為Gartner公司的觀點進行了辯護。他澄清道,Gartner公司并不認為數(shù)據(jù)網(wǎng)格目前已經(jīng)過時,與其相反,這張圖表預示著未來的過時。Hawker表達了Gartner公司的理念,即數(shù)據(jù)結構將成為主導的數(shù)據(jù)管理架構模式,最終使數(shù)據(jù)網(wǎng)格過時。
數(shù)據(jù)網(wǎng)格和核心原理與技術的融合
業(yè)界廠商正在努力解決如何將數(shù)據(jù)網(wǎng)格的核心原則和理論與技術和流程的實際方面相結合的問題。雖然將數(shù)據(jù)視為產(chǎn)品并接受以領域為中心的所有權的想法很有吸引力,但實際的實現(xiàn)和標準化提出了重大挑戰(zhàn)。企業(yè)必須在采用數(shù)據(jù)網(wǎng)格原則和確保他們擁有正確的工具、技術和流程來有效地支持它之間找到平衡。
從過去的錯誤中吸取教訓
數(shù)據(jù)網(wǎng)格是分散數(shù)據(jù)管理的眾多嘗試之一。根據(jù)以往的經(jīng)驗,例如從集中式數(shù)據(jù)倉庫到以領域為中心的方法的轉換都面臨著挑戰(zhàn)。必須從過去的錯誤中吸取教訓,并評估技術的進步和日益加深的理解是否能夠克服以前面臨的障礙。
需要明確和解決棘手的問題
為了確保數(shù)據(jù)網(wǎng)格的成功,需要明確其原則、治理模型和跨功能數(shù)據(jù)的處理。需要解決一些棘手的問題,例如如何處理跨多個領域域的關鍵數(shù)據(jù)域(如客戶或產(chǎn)品)。有了這些問題令人滿意的答案,數(shù)據(jù)網(wǎng)格的實用性和有效性就有了信心。
可觀察性在克服數(shù)據(jù)網(wǎng)格挑戰(zhàn)中的作用
數(shù)據(jù)網(wǎng)格架構概念為數(shù)據(jù)行業(yè)帶來了令人興奮的機會和關注。一些個人和組織擔心與數(shù)據(jù)網(wǎng)格中自主性和民主化增加相關的潛在風險,特別是在數(shù)據(jù)發(fā)現(xiàn)、健康和管理方面。
然而,更仔細的研究表明,數(shù)據(jù)網(wǎng)格架構實際上通過強制要求可擴展和自助數(shù)據(jù)可觀察性來解決這些問題。數(shù)據(jù)可觀察性對于領域在數(shù)據(jù)網(wǎng)格框架內(nèi)真正擁有其數(shù)據(jù)變得至關重要。這種自助功能包括各種功能和標準化,包括靜態(tài)和動態(tài)數(shù)據(jù)的數(shù)據(jù)加密、數(shù)據(jù)產(chǎn)品的版本控制、數(shù)據(jù)產(chǎn)品架構、數(shù)據(jù)產(chǎn)品發(fā)現(xiàn)和目錄注冊、數(shù)據(jù)治理和標準化、數(shù)據(jù)產(chǎn)品生產(chǎn)、監(jiān)控和警報的數(shù)據(jù)沿襲、數(shù)據(jù)產(chǎn)品日志,以及衡量數(shù)據(jù)產(chǎn)品質(zhì)量的指標。
當這些功能和標準化結合在一起時,就建立了一個健壯的可觀察性層。數(shù)據(jù)網(wǎng)格范式強調(diào)了單個領域處理數(shù)據(jù)可觀察性的標準化和可擴展方法的重要性,使團隊能夠解決關鍵問題,例如數(shù)據(jù)新鮮度、數(shù)據(jù)完整性、跟蹤模式更改以及理解上游和下游管道的依賴關系。
展望未來,數(shù)據(jù)網(wǎng)格將會繼續(xù)發(fā)展,數(shù)據(jù)網(wǎng)格的創(chuàng)始人Zhamak Dehghani宣布成立Nextdata公司在數(shù)據(jù)行業(yè)掀起了波瀾。這家初創(chuàng)公司旨在通過提供對數(shù)據(jù)產(chǎn)品內(nèi)置信任的愉快體驗,增強數(shù)據(jù)開發(fā)人員、用戶和所有者的能力。
隨著數(shù)據(jù)網(wǎng)格趨勢的發(fā)展,必須在實現(xiàn)完全去中心化的數(shù)據(jù)網(wǎng)格方法和在其架構中納入卓越中心的元素之間找到平衡。為了探索對數(shù)據(jù)網(wǎng)格的進一步見解和觀點,可以深入研究Zhamak Dehghani、Sven Balnojan的《數(shù)據(jù)網(wǎng)格在行動》一書、Kevin Petrie的《數(shù)據(jù)網(wǎng):重新思考數(shù)據(jù)集成》和Joe Gleinser的《你的應用程序應該考慮數(shù)據(jù)網(wǎng)連接嗎?》中的智慧和知識。
結論
數(shù)據(jù)網(wǎng)格為數(shù)據(jù)管理提出了一個有趣的概念,但在真正站穩(wěn)腳跟之前,它面臨著巨大的挑戰(zhàn)。該行業(yè)需要解決領域所有權問題,定義更精確的參數(shù),并找到將核心原則與技術相結合的方法。通過從過去的經(jīng)驗中學習并提出棘手的問題,可以駕馭數(shù)據(jù)網(wǎng)格的復雜性,并確定其在數(shù)據(jù)管理策略中的可行性。 審核編輯:彭菁
-
軟件
+關注
關注
69文章
4944瀏覽量
87492 -
應用程序
+關注
關注
37文章
3268瀏覽量
57705 -
數(shù)據(jù)源
+關注
關注
1文章
63瀏覽量
9679 -
數(shù)據(jù)網(wǎng)格
關注
0文章
7瀏覽量
6125
原文標題:圍繞數(shù)據(jù)網(wǎng)格的巨大爭議:成功還是失???
文章出處:【微信號:D1Net11,微信公眾號:存儲D1net】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論