在數(shù)據(jù)和分析領(lǐng)域中,數(shù)據(jù)網(wǎng)格(Data Mesh)范式是取代數(shù)據(jù)湖、成為主要架構(gòu)模式的強(qiáng)勢候選者。 重要的是,數(shù)據(jù)網(wǎng)格引入了新的組織視角,并且它與特定技術(shù)無關(guān)。 其關(guān)鍵思想是將領(lǐng)域驅(qū)動(dòng)設(shè)計(jì)(DDD)和產(chǎn)品思維,應(yīng)用到數(shù)據(jù)和分析領(lǐng)域的難題中。與引入DevOps文化相比,建立數(shù)據(jù)網(wǎng)格文化包含人與人的連接,同理心,以及聯(lián)合責(zé)任結(jié)構(gòu)的建立。 通過這種方式,從數(shù)據(jù)中產(chǎn)生業(yè)務(wù)價(jià)值能夠?qū)崿F(xiàn)可持續(xù)的規(guī)?;?。
隨著各個(gè)公司在關(guān)鍵業(yè)務(wù)領(lǐng)域進(jìn)行數(shù)字化,他們收集了越來越多的有關(guān)其自身流程和客戶的數(shù)據(jù)。 因此,他們希望使用這些數(shù)據(jù)來推動(dòng)基于事實(shí)的決策,以便更好地滿足客戶的需求。 在某些行業(yè)中,數(shù)據(jù)驅(qū)動(dòng)的水平,即公司能夠基于數(shù)據(jù)而不是憑直覺做出決策的速度,已經(jīng)成為決定性的競爭優(yōu)勢。
數(shù)據(jù)倉庫、數(shù)據(jù)湖以及關(guān)于中心化數(shù)據(jù)所有權(quán)的問題
在傳統(tǒng)的商業(yè)智能(BI)中,集中維護(hù)的數(shù)據(jù)倉庫是許多商業(yè)決策的基礎(chǔ),例如:通過最新的報(bào)表來支持這些商業(yè)決策。 隨著大數(shù)據(jù)技術(shù)的成熟以及數(shù)據(jù)科學(xué)的日益普及,許多公司投資建設(shè)了中央數(shù)據(jù)湖——有些是為了替代數(shù)據(jù)倉庫,但更多情況下是對(duì)現(xiàn)有數(shù)據(jù)倉庫的補(bǔ)充。 二者的主要區(qū)別在于集展和建模的不同:通過數(shù)據(jù)倉庫的方式,數(shù)據(jù)在攝取時(shí),已經(jīng)根據(jù)特定的應(yīng)用進(jìn)行了轉(zhuǎn)換; 對(duì)于數(shù)據(jù)湖,這種轉(zhuǎn)換僅在數(shù)據(jù)用于消費(fèi)時(shí)發(fā)生。 但是,這兩種方法的共同特點(diǎn)是中心化。 而正是這種中心化導(dǎo)致了問題的反復(fù)出現(xiàn)。
我一次又一次看到,一個(gè)模式是不堪重負(fù)、壓力重重的中央“數(shù)據(jù)團(tuán)隊(duì)”。 這個(gè)團(tuán)隊(duì)維護(hù)著中央數(shù)據(jù)基礎(chǔ)設(shè)施,無論是數(shù)據(jù)倉庫還是數(shù)據(jù)湖。然而,更重要的是,該團(tuán)隊(duì)孤立地負(fù)責(zé)向利益相關(guān)者,產(chǎn)品團(tuán)隊(duì)和數(shù)據(jù)科學(xué)家提供及時(shí)可靠的數(shù)據(jù)集或報(bào)表。 我故意稱其為數(shù)據(jù)團(tuán)隊(duì),而不是更具體地稱為數(shù)據(jù)工程或數(shù)據(jù)洞察團(tuán)隊(duì),是因?yàn)樗从沉诉@個(gè)團(tuán)隊(duì)經(jīng)常要處理的不明確的責(zé)任組合。
因此,該數(shù)據(jù)團(tuán)隊(duì)的成員經(jīng)常會(huì)陷入困境。 他們花費(fèi)大量時(shí)間進(jìn)行“消防員”式的救急工作,也修復(fù)數(shù)據(jù)生產(chǎn)團(tuán)隊(duì)引入的問題,但也很難使數(shù)據(jù)的消費(fèi)者滿意。 尤其令人悲傷的是,這些團(tuán)隊(duì)成員通常是公司中最精通數(shù)據(jù)的人。并且經(jīng)??梢钥吹降氖牵哼@種長期的壓力會(huì)導(dǎo)致生產(chǎn)力下降,工作場所滿意度降低,甚至員工流失率增加。
如今有能力的工程師為什么無法解決這種問題? 原因在于這不是技術(shù)問題,而是組織問題。 主要問題之一是參與各方的職責(zé)劃分不當(dāng)。
數(shù)據(jù)生產(chǎn)者一方,具有領(lǐng)域?qū)I(yè)知識(shí),即他們了解數(shù)據(jù)的含義,并且可以直接更改數(shù)據(jù)的形式; 而數(shù)據(jù)使用者一方,是數(shù)據(jù)的既得利益者,了解數(shù)據(jù)的業(yè)務(wù)潛力,因此可以清楚地描述需求,包括數(shù)據(jù)質(zhì)量的相關(guān)需求。 數(shù)據(jù)團(tuán)隊(duì)的成員夾于這兩方之間:他們有責(zé)任交付可靠和高質(zhì)量的數(shù)據(jù),但他們既沒有領(lǐng)域?qū)I(yè)知識(shí),也無法直接影響數(shù)據(jù)如何產(chǎn)生。 此外,他們并不是最終使用數(shù)據(jù)的決策者。 這意味著利益,責(zé)任和能力分布在三個(gè)不同的方面,這導(dǎo)致了摩擦,沮喪和誤解。
圖一,處理數(shù)據(jù)的傳統(tǒng)方式切斷了數(shù)據(jù)負(fù)責(zé)人與數(shù)據(jù)使用者的關(guān)系
Data Mesh:去中心化的領(lǐng)域所有權(quán),共享的基礎(chǔ)設(shè)施
相反,數(shù)據(jù)網(wǎng)格的目標(biāo)狀態(tài)是讓數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)使用者盡可能緊密地合作。從組織的角度來看,理想的情況是同一團(tuán)隊(duì)同時(shí)生產(chǎn)和使用相同的數(shù)據(jù),以便能夠在同一個(gè)團(tuán)隊(duì)中考量利益,責(zé)任和能力。在實(shí)踐中,這通常是不可行的,因?yàn)閿?shù)據(jù)生產(chǎn)團(tuán)隊(duì)已經(jīng)在其特定領(lǐng)域承擔(dān)了太多責(zé)任,以至于他們也無法完全負(fù)責(zé)數(shù)據(jù)消費(fèi)應(yīng)用。因此,將這些角色分成兩個(gè)直接溝通無需中間人的團(tuán)隊(duì),已經(jīng)是向前邁出了一大步。數(shù)據(jù)生產(chǎn)團(tuán)隊(duì)的目標(biāo)應(yīng)該是提供數(shù)據(jù),以便其他人可以在不需要詳細(xì)領(lǐng)域知識(shí)的前提下就能從該數(shù)據(jù)中獲得價(jià)值,即數(shù)據(jù)產(chǎn)生者應(yīng)隱藏“實(shí)施細(xì)節(jié)”。當(dāng)然,這樣的數(shù)據(jù)生產(chǎn)團(tuán)隊(duì)也可以同時(shí)處于數(shù)據(jù)消費(fèi)者的位置。有一些面向消費(fèi)者的數(shù)據(jù)領(lǐng)域非常復(fù)雜,足以證明整個(gè)領(lǐng)域?qū)<覉F(tuán)隊(duì)的價(jià)值,但是這些專家自己使用的數(shù)據(jù)與數(shù)據(jù)源對(duì)齊。
單純從組織角度來看,這種數(shù)據(jù)生產(chǎn)者和消費(fèi)者的雙邊關(guān)系結(jié)構(gòu)將特定領(lǐng)域的一切交給了一個(gè)團(tuán)隊(duì),有利于減少摩擦,增加了所有權(quán),從而能夠高質(zhì)量地?cái)U(kuò)展。如果我們接受這個(gè)前提,那為什么有著集中所有權(quán)的中央數(shù)據(jù)團(tuán)隊(duì)的模式如此普遍?以我的經(jīng)驗(yàn),有三個(gè)主要的關(guān)注點(diǎn),它們?cè)诤艽蟪潭壬向?qū)動(dòng)了企業(yè)中不幸的中心化數(shù)據(jù)所有權(quán)模式:
擔(dān)心團(tuán)隊(duì)中沒有足夠的數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)專家來組成多個(gè)團(tuán)隊(duì)。相反,中央團(tuán)隊(duì)被認(rèn)為可以更有效地利用那些稀缺的專家,并可以更平等地支持多個(gè)團(tuán)隊(duì)。
擔(dān)心失去對(duì)數(shù)據(jù)質(zhì)量的控制,例如建立去中心化所有權(quán)的全局標(biāo)準(zhǔn)似乎很困難。
擔(dān)心重復(fù)的基礎(chǔ)設(shè)施投資,因?yàn)槊總€(gè)團(tuán)隊(duì)都需要?jiǎng)?chuàng)建和維護(hù)類似的基礎(chǔ)設(shè)施,例如管道,服務(wù)和存儲(chǔ)。
通常,中心化數(shù)據(jù)所有權(quán)和中心化數(shù)據(jù)基礎(chǔ)設(shè)施之間缺乏概念上的分離, 阻礙了去中心化數(shù)據(jù)所有權(quán)的優(yōu)勢。 實(shí)際上,在上述所有三種情況下,創(chuàng)建專注于自助服務(wù)工具的共享數(shù)據(jù)基礎(chǔ)設(shè)施平臺(tái)可以幫助緩解此類擔(dān)憂。但是,至關(guān)重要的是,與領(lǐng)域無關(guān)的自助服務(wù)工具要能夠使該數(shù)據(jù)架構(gòu)平臺(tái)脫離中心化的領(lǐng)域數(shù)據(jù)所有權(quán)。 然而,通過使用領(lǐng)域無關(guān)的自助服務(wù)工具,能夠與讓數(shù)據(jù)基礎(chǔ)設(shè)施平臺(tái)脫離中心化的領(lǐng)域數(shù)據(jù)所有權(quán)。否則,數(shù)據(jù)基礎(chǔ)設(shè)施平臺(tái)將存在迅速成為具有中心化數(shù)據(jù)所有權(quán)的中央數(shù)據(jù)平臺(tái)的風(fēng)險(xiǎn),這正是我們首先要擺脫的境況。 最后,此方法還需要與建立針對(duì)數(shù)據(jù)的產(chǎn)品思維相結(jié)合,以確保去中心化的數(shù)據(jù)所有權(quán)是可持續(xù)的。
圖2:與領(lǐng)域無關(guān)的數(shù)據(jù)平臺(tái)
領(lǐng)域無關(guān)基礎(chǔ)架構(gòu)以及產(chǎn)品思維
為什么說數(shù)據(jù)基礎(chǔ)設(shè)施平臺(tái)確實(shí)是領(lǐng)域無關(guān)且專注于自助服務(wù)的呢?一個(gè)標(biāo)志是,無需聯(lián)系數(shù)據(jù)基礎(chǔ)設(shè)施平臺(tái)團(tuán)隊(duì),團(tuán)隊(duì)即可通過提供領(lǐng)域數(shù)據(jù)來共享其專業(yè)知識(shí)。這意味著,那些數(shù)據(jù)基礎(chǔ)設(shè)施平臺(tái)的開發(fā)人員在完成本職工作時(shí),并不需要詳細(xì)的領(lǐng)域知識(shí)。
另一方面,該平臺(tái)必須提供工具,讓領(lǐng)域數(shù)據(jù)專家在無需深厚的數(shù)據(jù)工程專業(yè)知識(shí)的情況下管理其數(shù)據(jù)交付物的整個(gè)生命周期。這意味著必須使他們能夠創(chuàng)建數(shù)據(jù)領(lǐng)域產(chǎn)品,對(duì)其進(jìn)行描述和演進(jìn)升級(jí),觀察其使用情況以及適時(shí)銷毀數(shù)據(jù)。
創(chuàng)建提供這種使能水平的自助服務(wù)平臺(tái)是一項(xiàng)巨大的技術(shù)和產(chǎn)品開發(fā)挑戰(zhàn)。不過,它的核心是傳統(tǒng)的內(nèi)部軟件產(chǎn)品開發(fā)可以從實(shí)現(xiàn)最常見的用例開始,再逐步地?cái)U(kuò)展平臺(tái)的功能。
這樣,可以避免了構(gòu)建重復(fù)的基礎(chǔ)設(shè)施,因?yàn)闆]有將基礎(chǔ)設(shè)施平臺(tái)團(tuán)隊(duì)拉入中心化的數(shù)據(jù)所有權(quán)中。這樣一個(gè)與領(lǐng)域無關(guān)的平臺(tái)團(tuán)隊(duì)可以更好地進(jìn)行擴(kuò)展,因?yàn)槠涑蓡T不需要跟進(jìn)特定領(lǐng)域的難題和所有業(yè)務(wù)領(lǐng)域的需求。相反,那些領(lǐng)域數(shù)據(jù)團(tuán)隊(duì)?wèi)?yīng)該積極地培養(yǎng)和維護(hù)這些詳盡的領(lǐng)域知識(shí)。因此,如果能夠正確地關(guān)注重點(diǎn),一個(gè)中型團(tuán)隊(duì)就能夠可持續(xù)地開發(fā)和維護(hù)共享的數(shù)據(jù)基礎(chǔ)設(shè)施平臺(tái)。
共享的自助服務(wù)數(shù)據(jù)基礎(chǔ)設(shè)施平臺(tái)的另一個(gè)重要優(yōu)點(diǎn)是,除了避免重復(fù)工作外,還關(guān)乎數(shù)據(jù)治理和標(biāo)準(zhǔn)化。如果對(duì)于領(lǐng)域數(shù)據(jù)團(tuán)隊(duì)而言,使用平臺(tái)的工具提供數(shù)據(jù)要比通過構(gòu)建自己的基礎(chǔ)設(shè)施還方便,那么通過這些平臺(tái)工具來實(shí)施某些標(biāo)準(zhǔn)將變得很容易。這樣,標(biāo)準(zhǔn)化和一定程度上的治理就會(huì)由便利性驅(qū)動(dòng)。
因此,在上面概述的關(guān)于去中心化數(shù)據(jù)所有權(quán)的三個(gè)問題中,僅剩下一個(gè)數(shù)據(jù)質(zhì)量的相關(guān)問題?,F(xiàn)在,中心化團(tuán)隊(duì)無法承擔(dān)數(shù)據(jù)質(zhì)量的責(zé)任。如今,數(shù)據(jù)質(zhì)量的責(zé)任無論如何也不能由一個(gè)中心化的團(tuán)隊(duì)以可擴(kuò)展和可持續(xù)的方式來承擔(dān)。沒有任何一個(gè)團(tuán)隊(duì)可以針對(duì)所有業(yè)務(wù)領(lǐng)域建立足夠的領(lǐng)域?qū)I(yè)知識(shí)來確保數(shù)據(jù)質(zhì)量。這就是數(shù)據(jù)質(zhì)量的意義:它不是對(duì)數(shù)據(jù)形態(tài)的普遍保證,而是與數(shù)據(jù)的具體內(nèi)容,語義和演進(jìn)的息息相關(guān)。
但是,單純以去中心化的責(zé)任制還不能解決這一挑戰(zhàn)。為此,產(chǎn)品思維開始發(fā)揮作用。需要激勵(lì)領(lǐng)域數(shù)據(jù)團(tuán)隊(duì)以可靠的方式提供高質(zhì)量的數(shù)據(jù),例如通過使預(yù)算與數(shù)據(jù)消費(fèi)者的數(shù)量和消費(fèi)滿意度相匹配。這樣,領(lǐng)域數(shù)據(jù)團(tuán)隊(duì)將嘗試提高其數(shù)據(jù)的價(jià)值,并嘗試滿足其數(shù)據(jù)消費(fèi)者的需求。
最后總結(jié)一下,我們需要建立三種方法,以實(shí)現(xiàn)具有去中心化數(shù)據(jù)所有權(quán)的可擴(kuò)展和可持續(xù)的數(shù)據(jù)格局:
使用領(lǐng)域驅(qū)動(dòng)設(shè)計(jì)作為主要手段構(gòu)建數(shù)據(jù),并將領(lǐng)域(或子域)的完整端到端所有權(quán)分配給一個(gè)能夠滿足其職責(zé)所需的跨職能團(tuán)隊(duì)。
利用平臺(tái)思維,投資創(chuàng)建共享且與領(lǐng)域無關(guān)的自助數(shù)據(jù)基礎(chǔ)設(shè)施平臺(tái)。該平臺(tái)沒有中心化的數(shù)據(jù)所有權(quán),而是專注于支持和促進(jìn)數(shù)據(jù)生產(chǎn)者和消費(fèi)者者之間的直接協(xié)作。
利用產(chǎn)品思維,激勵(lì)領(lǐng)域數(shù)據(jù)團(tuán)隊(duì)提高高質(zhì)量的數(shù)據(jù)以滿足數(shù)據(jù)消費(fèi)團(tuán)隊(duì)的需求。
fqj
-
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1449瀏覽量
34060 -
數(shù)據(jù)網(wǎng)格
+關(guān)注
關(guān)注
0文章
7瀏覽量
6125
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論