隨著大數(shù)據(jù)和數(shù)據(jù)湖的發(fā)展,數(shù)據(jù)建模似乎瀕臨滅亡。數(shù)據(jù)湖的開發(fā)者留下了大量數(shù)據(jù)沼澤,所以建?;顒舆€是必須的。那么為什么仍然存在關于數(shù)據(jù)建模的問題呢?當然有各種各樣的原因。有些問題至少已有 30 年歷史,而最近人們更加認為使用云數(shù)據(jù)平臺和分析數(shù)據(jù)架構的 ELT 方法所致。下面我們看看常見的阻礙數(shù)據(jù)建模的原因:
1缺乏興趣——企業(yè)真的不在乎
盡管 CIO 和 CEO 宣傳“數(shù)據(jù)驅動”,但對于某些企業(yè)而言,數(shù)據(jù)的管理和利用并沒有放在主要日程上,至少在高層是這樣。這可能是可以理解的——并非每個企業(yè)都是“數(shù)據(jù)企業(yè)”;數(shù)據(jù)可能很重要,但僅在特定的獨立領域內使用。有些組織從事采購和銷售產(chǎn)品、提供法律顧問等行業(yè),這并不是說他們不使用數(shù)據(jù),而是,就目前而言即使使用 Excel 這種處理工具也滿足使用了。
這可能發(fā)生在傳統(tǒng)的組織中,可能發(fā)生在行業(yè)領軍企業(yè),也可能發(fā)生在技術初創(chuàng)企業(yè)中,在這些組織中,良好的數(shù)據(jù)是運營次要考慮因素。
解決方案:除非組織遭受足夠多的數(shù)據(jù)相關痛苦,或者高級管理層選擇支持戰(zhàn)略性數(shù)據(jù)支持業(yè)務方法,否則數(shù)據(jù)建模以及治理和其他數(shù)據(jù)內容將主要在項目級別完成,以實現(xiàn)本地目標。
2 缺乏“全局”——沒有全面的業(yè)務數(shù)據(jù)模型
數(shù)據(jù)建模通常被視為支持運營和分析產(chǎn)品開發(fā)的詳細活動,從數(shù)據(jù)策略中刪除,并且僅作為詳細業(yè)務分析的一部分影響業(yè)務用戶。但是,如果沒有組織數(shù)據(jù)分布的高級地圖,公司如何“數(shù)據(jù)驅動”,或者業(yè)務領域如何就數(shù)據(jù)所有權和責任達成一致?CDO 應該如何合理跨越多個應用程序或孤島的數(shù)據(jù),每個應用程序或孤島都有相互獨立的目標,成為“客戶”的真正來源,或者了解特定數(shù)據(jù)流的原因?
90年代的情況是龐大、詳細的 3NF“企業(yè)數(shù)據(jù)模型”,通常會運行到 100 或 1000 個實體。有時,這是為特定行業(yè)“現(xiàn)成”購買的,但隨后需要在企業(yè)內部進行驗證和調整。毫不奇怪,這些做法通常會陷入困境,被更緊迫的業(yè)務優(yōu)先事項所取代。
解決方案:高級“業(yè)務數(shù)據(jù)建?!被颉案拍顢?shù)據(jù)建模”的藝術已經(jīng)存在超過 15 年。在經(jīng)驗豐富的從業(yè)者手中,對于中型企業(yè)或部門,應該可以在 1-3 個月內制作出良好的初稿,包括與企業(yè)所有部門的適當互動。通常,這可以與針對更多高級管理人員和員工的數(shù)據(jù)素養(yǎng)練習一起完成。隨著從一個業(yè)務域更詳細的數(shù)據(jù)工作引發(fā)對概念或全新概念的差異化的需求,可以改進和擴展這樣的模型。
從“頂層”開始數(shù)據(jù)建模本身就非常有用,這是組織數(shù)據(jù)處理方法的基礎。
3數(shù)據(jù)作為應用程序完成或事后的想法
盡管許多應用程序產(chǎn)生并依賴于數(shù)據(jù),但一直存在一種趨勢,尤其是程序開發(fā)中,忽視數(shù)據(jù)建模,而不是應用程序設計中首要事情。這尤其體現(xiàn)在兩個方面:
a) 使用第三方程序加速業(yè)務能力
許多應用程序都有自己的數(shù)據(jù)模型,該模型存在于“要么接受要么放棄”的基礎上——您可以調整數(shù)據(jù)需求,以適應應用程序的數(shù)據(jù)模型。另一方面,其他應用程序積極鼓勵業(yè)務用戶進行本地定制,而不考慮數(shù)據(jù)模型是否真的有意義。
更廣泛的集成問題可能會被擱置一旁,只要應用程序可以獲取或交換數(shù)據(jù)以滿足即時需求,也許是通過 API。一些應用程序甚至積極阻止在其自身環(huán)境之外提取數(shù)據(jù)。
解決方案:僅購買能夠提供清晰數(shù)據(jù)模型和/或用于分析目的的精心構建的提取/數(shù)據(jù)共享選項的應用程序。建議將這部分作為采購必要條件,而不僅僅是“是/否”的回答。
b) 內部應用程序開發(fā)人員將數(shù)據(jù)建模視為事后的想法
這是企業(yè)內部的問題,開發(fā)人員通常在時間壓力下工作,向內部或外部用戶提供數(shù)據(jù)展示,這些用戶對數(shù)據(jù)的存儲方式?jīng)]有直接興趣。
解決方案:數(shù)據(jù)建模師應該是任何應用程序團隊的核心部分。數(shù)據(jù)模型初稿通常應該是開始第一個真正的敏捷開發(fā)的先決條件。將產(chǎn)生的數(shù)據(jù)供下游使用,無論是出于操作目的還是分析目的,都應該是整體框架的一部分。這是數(shù)據(jù)驅動開發(fā)的最佳實踐,數(shù)據(jù)網(wǎng)格模式強烈建議這種做法。
4 效率問題——建模只會減慢速度
模型就是這樣——對現(xiàn)實世界的簡化。在進行數(shù)據(jù)建模的情況下,通常會捕獲一些隱式規(guī)則和關系,希望能夠適應企業(yè)管理其現(xiàn)實世界交互的方式。
90 年代的關系建模被認為太慢了,識別實體、關系和屬性的視圖通常被業(yè)務變化和新數(shù)據(jù)源所取代,并且在捕獲和傳輸在線事件時未能增加價值。隨著組織從生產(chǎn)純物理產(chǎn)品轉向更多數(shù)字產(chǎn)品,定期更改成為常態(tài),建模被視為阻礙或與保持最新所需相沖突。
解決方案:在在線應用程序中,半結構化“文檔模型”方法提供了事件封裝和可擴展模式的一定程度的靈活性。使用此類結構的最佳實踐隱含地承認 3NF 分析的原則。分析數(shù)據(jù)平臺轉而提供對 JSON 等格式的本地支持,并具有不同程度的承諾。
在分析領域,Data Vault 方法通過歸納關鍵實體之間的關系、識別來源的多樣性和高變化概率以及構建歷史記錄來提供敏捷性。
數(shù)據(jù)網(wǎng)格建議將大部分建模留給本地域——盡管它也提倡雙時態(tài)建模方法,并談到需要通用標準、一種新的建模方法,甚至一種語言來實現(xiàn)跨域的“可組合性”。
最終,為用例或應用構建正確類型的模型是成功的最佳秘訣,無論是文檔、3NF、Data Vault 還是維度。雖然建模首先是一項邏輯活動,在底層數(shù)據(jù)平臺中支持一系列具有良好性能的數(shù)據(jù)建模方法可以顯著簡化邏輯到物理的映射。
5 直接獲取數(shù)據(jù)——數(shù)據(jù)沼澤遺留問題
雖然大數(shù)據(jù)運動是由互聯(lián)網(wǎng)生成的龐大數(shù)據(jù)驅動的,但它也是對復雜性和數(shù)據(jù)變化率問題的回應。隨著一些組織開始通過利用一切數(shù)據(jù)產(chǎn)生巨大收益,人們越來越不愿意丟棄任何數(shù)據(jù)。而且數(shù)據(jù)湖從業(yè)者認為,建模已經(jīng)過時了。現(xiàn)在,當連接大型數(shù)據(jù)集或多表模型的數(shù)據(jù)很痛苦時,創(chuàng)建大量非規(guī)范化數(shù)據(jù)集的動力就非常強烈,通常會導致大量重復。對數(shù)據(jù)安全的忽視也進一步助長了這一趨勢。
受此經(jīng)驗的影響,基于云的“現(xiàn)代數(shù)據(jù)堆?!敝谐霈F(xiàn)的兩個互補趨勢出現(xiàn)了一些阻力:“廉價”存儲和“轉換(ELT) 模式”。
許多云數(shù)據(jù)平臺參與者至少在某種程度上將存儲與計算分開。云對象存儲具有彈性且相對成本低。大量數(shù)據(jù)出于未知原因被保留,原始數(shù)據(jù)或建模不佳的數(shù)據(jù)被直接使用并且從未正確集成。雖然存儲很便宜,但不斷增長的數(shù)據(jù)量推高了按消費定價的計算,使平臺提供商有鼓勵客戶不要在乎數(shù)據(jù)建模。
這筆費用不能完全回避——即使是廉價存儲的數(shù)據(jù)有時也應該被刪除,無論是為了減少混亂、降低濫用風險還是讓地球更輕盈。
許多組織已經(jīng)轉向分層數(shù)據(jù)建模方法,其中第一層采用“原始”數(shù)據(jù),無論是直接匹配 OLTP 系統(tǒng)上的表格,還是未經(jīng)提煉的 JSON Web 和 IoT 日志。這種 ELT 模式并不新鮮,例如在 Teradata 等平臺上的數(shù)據(jù)倉庫模式和實施中很常見,已有十年或更長時間。理想的目標是原始層饋送到更多層,通常是反映某些規(guī)范模型(例如 3NF 或 Data Vault)的一致性層和針對最終用戶的表示或交付層(通常按維度建模)。
將數(shù)據(jù)保存更長時間是有正當理由的——監(jiān)管(證明你五年前所做的是合法的)、網(wǎng)絡安全(攻擊模式可以發(fā)展數(shù)月)、數(shù)據(jù)科學和長期分析(將原始數(shù)據(jù)轉化為新功能)、或者僅僅是利用直接的內置歷史從舊數(shù)據(jù)重構下游新產(chǎn)品的能力。與此相反的是隱私法規(guī)和違規(guī)風險,以及將半衰期短的數(shù)據(jù)保存太久的環(huán)境成本。最終,這又回到了數(shù)據(jù)所有權和“為什么”的問題上。
解決方案:僅僅因為可以忽視,并不意味著應該這樣。具有可靠治理、良好的數(shù)據(jù)高級模型和可靠數(shù)據(jù)架構的組織可以受益于更便宜的存儲和易于使用的平臺支持的數(shù)據(jù)底座和轉換模式。不急于對數(shù)據(jù)進行詳細的過度建模并在其價值確定之前花費大量的計算周期和工程師時間進行轉換可能是有價值的。
同樣,讓我們現(xiàn)實地看待數(shù)據(jù)的“半衰期”,尤其是原始數(shù)據(jù)——很少有法規(guī)要求保留超過 7 年的歷史,而 ML 模型則更少,除非著眼于長期的事件。您的數(shù)據(jù)平臺在捕獲依賴關系和訪問歷史記錄方面有多好?這有助于識別那些從未或很少使用的數(shù)據(jù)集,并避免因擔心下游后果而保留數(shù)據(jù)。
總之…
就像數(shù)據(jù)中的許多好東西一樣,良好的建模源于組織承諾、適當應用良好實踐和模式的技能、精心設計的流程以及設計師的優(yōu)秀技能。在大多數(shù)數(shù)據(jù)平臺上,不進行建模是災難性的。
審核編輯:郭婷
-
數(shù)據(jù)
+關注
關注
8文章
7080瀏覽量
89175 -
大數(shù)據(jù)
+關注
關注
64文章
8896瀏覽量
137516
原文標題:談談阻礙數(shù)據(jù)建模的5大借口
文章出處:【微信號:IndustryIOT,微信公眾號:工業(yè)互聯(lián)網(wǎng)前線】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論