1.基礎概念
我們首先來了解一下一些基本的概念。到底什么什么是數(shù)據(jù)治理?
從DAMA理論知識體系的角度來說,數(shù)據(jù)治理的定義如下:數(shù)據(jù)治理是在管理數(shù)據(jù)資產過程中行使權力和管控,包括計劃、 監(jiān)控和實施。
與食品生產線類似,數(shù)據(jù)治理的過程實際上就是將成本較低的原材料(原始數(shù)據(jù)),經過一系列的提純、加工、模具定型(數(shù)據(jù)模型)等工序,最終轉化為我們可食用(可使用)的,價值較高的商品(數(shù)據(jù)產品)。在這個過程中,設定相應的流程和制度并加以監(jiān)管是治理過程的必要條件,由此才能保證治理過程規(guī)范、完整和安全,滿足產品上架(數(shù)據(jù)產品進行共享和開放應用)的市場要求。
而與通常意義的數(shù)據(jù)治理相比,公共數(shù)據(jù)治理是更廣義上的數(shù)據(jù)治理,通常與政府治理緊密結合,其目標是通過數(shù)據(jù)資產的開發(fā)利用創(chuàng)造社會價值,從而提升執(zhí)政能力。隨著政府治理現(xiàn)代化水平提升,政府對公共數(shù)據(jù)治理的要求就越高。
2.背景介紹
國家大數(shù)據(jù)戰(zhàn)略中明確提出構建以數(shù)據(jù)為關鍵要素的數(shù)字經濟,運用大數(shù)據(jù)提升國家治理現(xiàn)代化水平,運用大數(shù)據(jù)促進保障和改善民生的要求。并且目前數(shù)據(jù)中心已納入新型基礎設施建設要求中。
基于大數(shù)據(jù)中心的公共數(shù)據(jù)治理組織通常分為三種模式:
分散運營模式進行運作,即數(shù)據(jù)管理職能分布在不同的業(yè)務部門和技術部門,通常這種模式下,有過多人員參與治理和制定決策,在實施協(xié)作決策時反而更加困難,難以長期維持,通常在該模式下定義數(shù)據(jù)所有權也比較困難。
第二種是集中運營模式,所有工作都由數(shù)據(jù)管理組織掌控,為數(shù)據(jù)管理和數(shù)據(jù)治理建立了正式的管理職位且擁有最終決策人,由于在這過程中會出現(xiàn)重大的組織結構變革,參與數(shù)據(jù)管理的角色可能會存在丟失業(yè)務領域的專業(yè)知識的風險。
最后一種分散和集中模式相結合的混合運營模式,其中一個變體就是聯(lián)邦運營模式,它為數(shù)據(jù)管理提供具有分散執(zhí)行的集中策略,由一個集中的數(shù)據(jù)管理中心與分散的業(yè)務部門團隊合作。目前來看對大部分地方政府來說,更適合混合運營模式。
任何一種公共數(shù)據(jù)治理模式都包含大量數(shù)據(jù)治理活動,但我們在實踐過程中發(fā)現(xiàn)各類問題,包括:如何做到將數(shù)據(jù)應編盡編?在歸集過程中如何保證更新及時性?不同部門業(yè)務數(shù)據(jù)在共享時如何明確統(tǒng)一的定義?如何提高數(shù)據(jù)質量?等,這些問題在后續(xù)的文章中會逐步展開介紹。
由業(yè)務處理難點延伸,當前數(shù)據(jù)治理還包括數(shù)據(jù)分散、數(shù)據(jù)存儲管理不集中,各委辦局業(yè)務技術平臺不互通導致信息割裂無法順利共享等問題,因此就會導致原始數(shù)據(jù)的質量不高,附加值低的現(xiàn)象。
3.治理方案
從公共數(shù)據(jù)治理的目標出發(fā),最基礎的就是提升“存、管、找、用”四項基本能力,由于篇幅優(yōu)先,簡單從調研梳理、數(shù)據(jù)感知、數(shù)據(jù)管理、共享交換和應用幾個方面介紹一下公共數(shù)據(jù)治理的實施思路。
3.1 調研梳理
調研梳理通常權責清單和應用系統(tǒng)作為切入,基于已有數(shù)據(jù)資產實現(xiàn)“應編盡編,按需歸集”。
應編盡編,即對委辦局所有可提供的業(yè)務數(shù)據(jù)進行梳理和規(guī)整,并根據(jù)委辦局內部業(yè)務要求,定義好每個數(shù)據(jù)模型下的數(shù)據(jù)標準,例如字段長、字段類型、字典代碼等基本信息,作為各部門的數(shù)據(jù)資產家底。
按需歸集,調研各部門數(shù)據(jù)資產的同事,需要了解實際業(yè)務開展需要哪些其他委辦局的數(shù)據(jù)進行業(yè)務協(xié)同。通過對相同數(shù)據(jù)需求的數(shù)源分析與認責,實現(xiàn)“一數(shù)一源、一次歸集、多次共享”的目標,降低公共數(shù)據(jù)共享門檻。
通常在梳理政府公共數(shù)據(jù)中,會分兩個方面進行。一是自上而下,即如上所說的從業(yè)務的角度出發(fā),分析委辦局的業(yè)務構成,這里不再贅述。二是自下而上的梳理,即從技術的角度出發(fā),直接探尋數(shù)據(jù)本質,分析部門業(yè)務數(shù)據(jù)庫中的數(shù)據(jù)模型,基礎元數(shù)據(jù)主要包含資源標識號、資源名稱、資源類型、提供單位、所屬系統(tǒng)、更新周期等內容。
3.2 數(shù)據(jù)感知
在梳理數(shù)據(jù)以后,需要從業(yè)務角度和技術角度“理解”所歸集的數(shù)據(jù),即數(shù)據(jù)感知。
從業(yè)務角度來看,元數(shù)據(jù)來源于業(yè)務數(shù)據(jù)產生的源數(shù)據(jù)模型中,即最開始的業(yè)務部門對于某個數(shù)據(jù)表中的字段定義。隨著對元數(shù)據(jù)分析的深入推進,我們會接觸到關于技術層面的數(shù)據(jù)結構定義、數(shù)據(jù)標準定義、數(shù)據(jù)字典定義等元數(shù)據(jù)。
從技術角度看,在數(shù)據(jù)治理的過程中,從源數(shù)據(jù)層到數(shù)據(jù)清洗到數(shù)據(jù)存儲再到數(shù)據(jù)應用,期間都會產生元數(shù)據(jù)。
通過元數(shù)據(jù)采集,我們可以借助元數(shù)據(jù)采集和管理工具建立應用元數(shù)據(jù)和技術元數(shù)據(jù)之間的關聯(lián),從而對元數(shù)據(jù)進行分析和聚類,最終形成完整的元數(shù)據(jù)體系,如資產目錄、數(shù)據(jù)標準、數(shù)據(jù)模型等。
“以用識數(shù)”——根據(jù)使用反饋來給數(shù)據(jù)打標簽;
“以數(shù)識數(shù)”——根據(jù)定義的規(guī)則給數(shù)據(jù)打標簽;
在這個過程中我們通常選擇高效的圖數(shù)據(jù)庫實現(xiàn)元數(shù)據(jù)關系展現(xiàn),每個數(shù)據(jù)和它的元數(shù)據(jù)都是圖中的一個點,數(shù)據(jù)和元數(shù)據(jù)之間的關系是線,元數(shù)據(jù)和元數(shù)據(jù)之間關系也是線,這樣構建的一張可擴展的復雜的圖,既描述了數(shù)據(jù)和元數(shù)據(jù)之間的關系,也描述了元數(shù)據(jù)和元數(shù)據(jù)之間的關系,快速得到分析和查詢結果。
3.3 數(shù)據(jù)管理
1、資源目錄管理
建立統(tǒng)一的元數(shù)據(jù)倉庫是實現(xiàn)數(shù)據(jù)管理的必要條件,并且離不開高質量的資源目錄。英文通常用“Catalog”、“Category”、“Directory”代表目錄,但各自的含義并不一樣,我們在公共數(shù)據(jù)治理中一般采用“Catalog”作為目錄實體的定義,為數(shù)據(jù)資源提供了歸類和索引,讓抽象的數(shù)據(jù)變得“有跡可循”。即我們常說的“存管協(xié)同”概念。
而數(shù)據(jù)治理中的資源目錄通過與元數(shù)據(jù)管理相結合,在使數(shù)據(jù)有跡可循的基礎上,增加了數(shù)據(jù)的排列組合功能。社會、互聯(lián)網、政府內部各級部門等數(shù)據(jù)產生源頭收集來的數(shù)據(jù),經過采集清洗后,可以納入信息資源目錄中,同樣的業(yè)務數(shù)據(jù)經過資源盤點和整合,可以為不同的業(yè)務場景提供數(shù)據(jù)支撐。
在治理項目實施過程中,我們通常將資源目錄分為三個層次——資源目錄、資產目錄和服務目錄。
資源目錄,數(shù)據(jù)可順利采集,保證編目的目錄的名稱、信息項名稱與采集上來的庫表名稱、字段名稱相對應,且能夠提供基礎的數(shù)據(jù)共享服務,在這一階段的主要工作就是明確目錄內容的定義,保證數(shù)據(jù)更新頻率和周期能夠滿足數(shù)據(jù)共享和使用的基本需求。
資產目錄是基本資源目錄進行標準化處理之后的成果,在這一階段我們借助各委辦局對各自業(yè)務的明確定義和公共數(shù)據(jù)標準,為先前編目的資源添加準確的業(yè)務描述和業(yè)務標簽。根據(jù)各個資源在上一階段的數(shù)據(jù)共享和使用情況,我們可以對各目錄的共享方式進行準確的描述和定義,提高其可使用程度。
服務目錄來源于各部門通過數(shù)據(jù)共享交換后留下的權責清單記錄,這一階段更向業(yè)務層面貼合。結合實際已共享的應用場景,可以對每個目錄進行使用場景進行統(tǒng)計分析,找到各類使用場景中的異同,從而在反饋數(shù)據(jù)的基礎上進行總結提煉,逐步明確具體的使用場景,并將這些場景劃入數(shù)據(jù)共享的允許范圍內,當有委辦局對該資源目錄有相同的使用場景進行申請時,通過資源目錄管理平臺的處理機制,可以迅速通過申請,提高共享效率。
2、數(shù)據(jù)質量管理
數(shù)據(jù)質量管理是對數(shù)據(jù)生命周期的每個階段里可能引發(fā)的數(shù)據(jù)質量問題進行識別、度量、監(jiān)控、預警等一系列管理活動。通常數(shù)據(jù)質量管理應遵循完整性、有效性、準確性、唯一性、一致性和合理性這幾個原則。我們在數(shù)據(jù)質量管理中可以按照發(fā)現(xiàn)問題、分析問題、提出方案、解決問題等幾步來進行。
(1)設置數(shù)據(jù)質量規(guī)則。即針對不同的數(shù)據(jù)對象,配置相應的數(shù)據(jù)質量指標,不限于:數(shù)據(jù)唯一性、數(shù)據(jù)準確性、數(shù)據(jù)完整性、數(shù)據(jù)一致性、數(shù)據(jù)關聯(lián)性、數(shù)據(jù)及時性等。
(2)分析數(shù)據(jù)質量問題產生的原因??赡苁羌夹g層面數(shù)據(jù)模型設計的質量問題,也可能是業(yè)務層面系統(tǒng)相互獨立導致數(shù)據(jù)無法對接或者是業(yè)務端進行數(shù)據(jù)錄入時未按照規(guī)范進行錄入。
(3)選擇解決辦法。技術上可以通過ETL工具按照數(shù)據(jù)標準規(guī)范進行數(shù)據(jù)清洗和標準;業(yè)務上可以對業(yè)務系統(tǒng)進行升級改造和數(shù)據(jù)補錄。
(4)質量檢測,監(jiān)督檢查。設置數(shù)據(jù)檢查任務對存量數(shù)據(jù)進行檢查,形成數(shù)據(jù)質量問題清單并出具數(shù)據(jù)質量問題報告。通過定期對系統(tǒng)開展全面的數(shù)據(jù)質量狀況評估,從問題率、解決率、解決時效等方面建立評價指標進行整改評估,根據(jù)整改優(yōu)化結果。
3.4 數(shù)據(jù)共享交換
數(shù)據(jù)是在流通、應用中創(chuàng)造價值的,這就涉及“數(shù)據(jù)共享”和“數(shù)據(jù)交換”。
數(shù)據(jù)共享由“供”和“需”兩部分組成。之前在數(shù)據(jù)梳理中也提到過,我們會對委辦局自有的和需求的數(shù)據(jù)進行梳理,當基礎資源目錄形成后,隨著業(yè)務事項需求的推動,在交換體系中會形成以委辦局為主體的需求清單、責任清單和負面清單。
需求清單為A委辦局對其他委辦局的數(shù)據(jù)需求;責任清單為其他委辦局對A委辦局下的數(shù)據(jù)需求;負面清單則為A委辦局審批責任清單中的內容時,暫時無法提供或不予共享的數(shù)據(jù)資源清單。
通過對數(shù)據(jù)資源的供需管理,可以為上層管理部門把握目前數(shù)據(jù)湖中的數(shù)據(jù)共享趨勢提供數(shù)據(jù)參考。各委辦局權屬下的資源按照被共享次數(shù)進行分析,逐步梳理出該委辦局下的典型業(yè)務場景,并由業(yè)務驅動需求,將數(shù)據(jù)湖中分散的數(shù)據(jù)進行業(yè)務歸類,形成數(shù)據(jù)專題庫。再進行數(shù)據(jù)反哺,將各級單位產生的原始數(shù)據(jù),通過數(shù)據(jù)湖中的分析、交換、歸類,以專題庫的形式再次共享出去,為各業(yè)務系統(tǒng)提供質量較高的數(shù)據(jù)參考。
4.數(shù)據(jù)應用
通過調研梳理、數(shù)據(jù)采集和感知、數(shù)據(jù)資產管理和數(shù)據(jù)共享交換,此時的公共數(shù)據(jù)在數(shù)據(jù)可用性、數(shù)據(jù)可信度、數(shù)據(jù)管理成本和數(shù)據(jù)安全性上都有了較大改善。
同時,在治理過程中以城市數(shù)據(jù)中心為樞紐,形成了承上啟下的新型公共數(shù)據(jù)管理模式,在原有的海量數(shù)據(jù)的基礎之上對數(shù)據(jù)進行提煉和賦能。向上,可向國家級部門提供城市數(shù)據(jù),同時提出需求,豐富國家數(shù)據(jù)歸集和治理場景;向下,可推動內部數(shù)據(jù)共享,結合業(yè)務場景建設專題庫,促進城市有效管理和運行,同時為下級部門提供數(shù)據(jù),滿足數(shù)據(jù)為基層賦能、數(shù)據(jù)價值提升的要求。
此外,治理后的公共數(shù)據(jù)不僅可以滿足政府內部的數(shù)據(jù)流通共享,還可以將部分數(shù)據(jù)對社會開放,形成以需求為導向的數(shù)據(jù)管理模式,從而促進數(shù)據(jù)開發(fā)應用服務,借助社會層面的應用獲取更多管理、建設信息,形成數(shù)據(jù)流通閉環(huán),為社會生活創(chuàng)造更大的價值。
關于作者:
姚絲雨,數(shù)據(jù)治理工程師,擁有較豐富的政府行業(yè)項目管理、數(shù)據(jù)治理和實施經驗,參與上海市大數(shù)據(jù)中心數(shù)據(jù)運營、浦東新區(qū)政務大數(shù)據(jù)數(shù)據(jù)管理、數(shù)據(jù)質量提升和數(shù)據(jù)治理服務項目,參與浦東新區(qū)大數(shù)據(jù)中心數(shù)據(jù)治理和數(shù)據(jù)運營管理工作。
責任編輯:gt
-
數(shù)據(jù)中心
+關注
關注
16文章
4785瀏覽量
72152 -
大數(shù)據(jù)
+關注
關注
64文章
8893瀏覽量
137464
發(fā)布評論請先 登錄
相關推薦
評論