作者:Hebert W. Pereyra,IBM 杰出工程師,Hybrid Data Management首席架構師
譯者:劉俊 ,IBM watsonx.data開發(fā)架構師
北京2023年7月17日/美通社/ -- 數據湖誕生至今已有十多年的歷史,為全球一些最大的企業(yè)提供了數據分析的支持。然而,也有人認為,絕大多數數據湖部署已經演變成為"數據沼澤"。不論你站在哪一邊,現實情況是,這些系統(tǒng)中仍然承載著大量的數據。這些數據規(guī)模龐大,使得移動、遷移或對其進行現代化都變得異常困難。
數據湖的巨大挑戰(zhàn):單一結構的架構問題
從較高層次來看,數據湖是一個大規(guī)模的單一數據存儲庫。數據可以以原始形式存儲,也可以經過優(yōu)化,采用適合專用引擎使用的不同格式。
就Hadoop而言,它是最受歡迎的數據湖之一,通過使用開源軟件實現該存儲庫,并在通用硬件上運行,可以以非常低的成本在系統(tǒng)中存儲大量數據。數據可以以開放的數據格式進行持久化,從而實現了數據消費的民主化,并通過自動復制提供了高可用性的支持。默認的處理框架具備從故障中恢復的能力。這無疑是與傳統(tǒng)分析環(huán)境有著顯著差異的重要轉變,傳統(tǒng)數據分析環(huán)境往往意味著供應商鎖定以及無法處理大規(guī)模數據。
另一個出乎意料的挑戰(zhàn)是將Spark引入作為大數據處理框架。由于其支持數據轉換、流式處理和SQL,它迅速獲得了廣泛的認可。然而,它并未能與現有的數據湖環(huán)境友好共存,因此通常需要額外的專用計算集群才能運行Spark。
我們將時間前移15年回到當下,現實已經清楚地表明了這項技術所涉及的權衡和妥協。其快速的采用意味著客戶很快失去了對數據湖中數據的追蹤。同樣具有挑戰(zhàn)的是,他們無法確定數據的來源、獲取方式以及在處理過程中的轉換方式。數據治理仍然是這項技術中尚未探索的領域。雖然軟件可能是開源的,但需要有人學習如何使用、維護和支持它。僅依賴社區(qū)支持并不能持續(xù)滿足業(yè)務運營所需的響應時間。高可用性通過復制實現則意味著需要更多磁盤上的數據副本,增加存儲成本,并導致故障更加頻繁。而高可用的分布式處理框架則意味著不得不在性能方面做出妥協,以換取彈性(這將導致交互式分析和商業(yè)智能的性能嚴重下降)。
為何要對數據湖進行現代化?
數據湖在特定的使用場景中已經被證明是成功的。然而清楚的是,企業(yè)迫切需要對這些部署進行現代化,保護基礎設施、技能和存儲在這些系統(tǒng)中的數據的投資。
在尋找答案的過程中,行業(yè)研究了現有的數據平臺技術及其優(yōu)勢。很明顯,有效的方法是將傳統(tǒng)的(或者說是遺留的)數據倉庫或數據集市的關鍵特性與數據湖的優(yōu)勢結合起來。以下幾個關鍵要素迅速浮出水面:
具備彈性和可擴展的存儲,能夠滿足日益增長的數據規(guī)模需求。
采用開放的數據格式,使數據對所有人都可訪問,同時針對高性能進行優(yōu)化,并具備良好定義的結構。
開放的元數據(可共享),能夠支持多個消費引擎或框架。
支持數據更新(ACID特性)和事務并發(fā)處理。
綜合的數據安全和數據治理(如數據血緣、完整的數據訪問策略定義和執(zhí)行,包括地理分布)。
上述要素導致了湖倉一體的出現。湖倉一體是一種數據平臺,是將數據倉庫和數據湖的優(yōu)點融合在一起,形成統(tǒng)一、協調的數據管理解決方案。
利用watsonx.data來現代化數據湖的好處
站在當下數據分析的十字路口,IBM的回應是為企業(yè)提供watsonx.data解決方案。
站在當下數據分析的十字路口,IBM的回應是為企業(yè)提供watsonx.data解決方案,這是一個用于大規(guī)模數據管理的新型開放式數據存儲,允許企業(yè)在無需遷移的情況下圍繞、增強和現代化其現有的數據湖和數據倉庫。它支持開放式的多云與混合云,可以在客戶管理的基礎設施(本地或者私有云)和公有云上運行。它建立在湖倉一體架構之上,并嵌入了一整套解決方案(以及通用軟件堆棧),適用于所有形態(tài)。
與市場上的競品相比,IBM的方法基于開源堆棧和架構。這些組件并不是新的,而是業(yè)界已經廣泛使用的成熟組件。IBM關注它們的互操作性、共存性和元數據交換。用戶可以快速入門,從而大大降低了入門和使用的成本,因為其上層架構和基礎概念是大家熟悉且直觀的:
通過對象存儲實現開放的數據(和表格格式)
通過S3進行數據訪問
使用Presto和Spark進行查詢計算(SQL、數據科學、轉換和流處理)
通過Hive和兼容結構實現開放的元數據共享
Watsonx.data為企業(yè)提供了一種保護他們在數據湖和數據倉庫數十年投資的方式,使企業(yè)可立即擴展并逐步現代化其安裝,將每個組件專注于對企業(yè)最重要的使用場景。
一個關鍵的差異化因素是多引擎策略,允許用戶在統(tǒng)一的數據平臺上根據實際情況選擇適合的技術。watsonx.data使客戶能夠實現完全動態(tài)的分層存儲(以及相關的計算)。隨著時間的推移,這可以帶來非常顯著的數據管理和處理的成本節(jié)省。
如果最終企業(yè)的目標是通過湖倉一體架構來現代化現有的數據湖部署,那么watsonx.data則通過選擇計算方式來最小化數據遷移和應用遷移,從而簡化了任務。
接下來可以做什么?
在過去的幾年里,數據湖在大多數企業(yè)的數據管理策略中發(fā)揮了重要作用。如果企業(yè)的目標是對其數據管理策略進行演進并現代化為真正的混合分析云架構,那么IBM基于湖倉一體架構構建的新型數據存儲watsonx.data,則是值得企業(yè)考慮的技術選擇。
審核編輯 黃宇
-
存儲
+關注
關注
13文章
4320瀏覽量
85906 -
架構
+關注
關注
1文章
515瀏覽量
25491 -
數據分析
+關注
關注
2文章
1451瀏覽量
34071
發(fā)布評論請先 登錄
相關推薦
評論