導(dǎo)讀:宜信于2017年推出了一系列大數(shù)據(jù)開源工具,包括DBus、Wormhole、Moonbox、Davinci等,這些工具是如何在宜信內(nèi)部應(yīng)用的?它們和宜信數(shù)據(jù)中臺是怎樣的關(guān)系?又是如何驅(qū)動各種日常數(shù)據(jù)業(yè)務(wù)場景的?
本次分享對這些問題進(jìn)行了回答,同時重點分享了宜信敏捷數(shù)據(jù)中臺的設(shè)計、架構(gòu)以及應(yīng)用場景,提出一種敏捷數(shù)據(jù)中臺的建設(shè)思路,以供參考和探討。以下是本次分享的實錄。
分享實錄
一、導(dǎo)語
目前“中臺”的概念很火,包括數(shù)據(jù)中臺、AI中臺、業(yè)務(wù)中臺、技術(shù)中臺等。宜信技術(shù)學(xué)院第一期技術(shù)沙龍,井玉欣博士分享了宜信的AI中臺,本期技術(shù)沙龍,由我來為大家分享《宜信敏捷數(shù)據(jù)中臺建設(shè)實踐》。
本次分享分為三個部分:
宜信敏捷數(shù)據(jù)中臺的頂層設(shè)計。數(shù)據(jù)中臺是一個公司級的平臺系統(tǒng),所以不能只從技術(shù)層面去設(shè)計,還要考慮包括流程、標(biāo)準(zhǔn)化等在內(nèi)的頂層設(shè)計。
從中間件工具到平臺介紹宜信是如何設(shè)計建設(shè)敏捷數(shù)據(jù)中臺的。
結(jié)合典型案例介紹宜信敏捷數(shù)據(jù)中臺支持哪些數(shù)據(jù)方面的應(yīng)用和實踐。
二、宜信數(shù)據(jù)中臺頂層設(shè)計
2.1 特點和需求
關(guān)于數(shù)據(jù)中臺的建設(shè),目前并沒有一個標(biāo)準(zhǔn)的解決方案,也沒有一個數(shù)據(jù)中臺能適用于所有的公司,每個公司都應(yīng)該結(jié)合自己的業(yè)務(wù)規(guī)模及數(shù)據(jù)需求現(xiàn)狀來研發(fā)適合自己公司的數(shù)據(jù)中臺。
在介紹宜信敏捷數(shù)據(jù)中臺的頂層設(shè)計之前,我們先來了解其背景:
業(yè)務(wù)板塊和業(yè)務(wù)條線眾多。宜信的業(yè)務(wù)大體可分為四大板塊:普惠金融板塊、財富管理板塊、資產(chǎn)管理板塊、金融科技板塊,擁有近百條業(yè)務(wù)線和產(chǎn)品線。
技術(shù)選型眾多。不同業(yè)務(wù)方有不同的數(shù)據(jù)需求,技術(shù)選型時依據(jù)這些客觀需求及主觀偏好,會選擇不同的數(shù)據(jù)組件,包括 :MySQL、Oracle、HBase、KUDU、Cassandra、Elasticsearch、MongoDB、Hive、Spark、Presto、Impala、Clickhouse等。
數(shù)據(jù)需求多樣。業(yè)務(wù)線多樣,導(dǎo)致數(shù)據(jù)需求多樣,包括:報表、可視化、服務(wù)、推送、遷移、同步、數(shù)據(jù)應(yīng)用等。
數(shù)據(jù)需求多變。為順應(yīng)互聯(lián)網(wǎng)的快速變化,業(yè)務(wù)方的數(shù)據(jù)需求也是多變的,經(jīng)常有周級產(chǎn)出數(shù)據(jù)需求和數(shù)據(jù)應(yīng)用。
數(shù)據(jù)管理考慮。要求數(shù)據(jù)元信息可查,數(shù)據(jù)定義和流程標(biāo)準(zhǔn)化,數(shù)據(jù)管理可控等。
數(shù)據(jù)安全考慮。宜信作為一家同時擁有互聯(lián)網(wǎng)屬性和金融屬性的公司,對數(shù)據(jù)安全和權(quán)限的要求很高,我們在數(shù)據(jù)安全方面做了很多工作,包括:多級數(shù)據(jù)安全策略、數(shù)據(jù)鏈路可追溯、敏感數(shù)據(jù)不可泄露等。
數(shù)據(jù)權(quán)限考慮。在數(shù)據(jù)權(quán)限方面的工作包括:表級、列級、行級數(shù)據(jù)權(quán)限,組織架構(gòu)、角色、權(quán)限策略自動化。
數(shù)據(jù)成本考慮。包括集群成本、運(yùn)維成本、人力成本、時間成本、風(fēng)險成本等。
2.2 定位
關(guān)于數(shù)據(jù)中臺的定位,每個公司都不太一樣。有的公司業(yè)務(wù)比較專注,只有一條業(yè)務(wù)線,那它在建設(shè)數(shù)據(jù)中臺的時候,可能需要一個垂直的平臺,直達(dá)前線,更好地支持前線的運(yùn)作。
前文提到宜信業(yè)務(wù)線很多,且在眾多業(yè)務(wù)中沒有一個主體業(yè)務(wù),這就相當(dāng)于所有業(yè)務(wù)線都是主體?;谶@樣的背景,我們需要一個平臺化的數(shù)據(jù)中臺,來支撐所有業(yè)務(wù)線的需求和運(yùn)作。
圖1 定位
如上圖所示,綠色的部分是宜信敏捷數(shù)據(jù)中臺,我們稱之為“ADX數(shù)據(jù)中臺平臺”,“A”即“Agile(敏捷)”,之所以稱為“平臺”,是因為我們希望將其打造成一個服務(wù)于全業(yè)務(wù)線的平臺系統(tǒng),助力業(yè)務(wù)發(fā)展。
敏捷數(shù)據(jù)中臺處于中間位置,最底下是各種數(shù)據(jù)集群,最上端是各個業(yè)務(wù)領(lǐng)域數(shù)據(jù)團(tuán)隊。數(shù)據(jù)中臺通過整合處理數(shù)據(jù)集群的數(shù)據(jù),為業(yè)務(wù)領(lǐng)域數(shù)據(jù)團(tuán)隊提供自助化、實時化、統(tǒng)一化、服務(wù)化、管理化、可溯化的數(shù)據(jù)服務(wù)。
右邊三個藍(lán)色的板塊分別是數(shù)據(jù)管理委員會、數(shù)據(jù)運(yùn)維團(tuán)隊和數(shù)據(jù)安全團(tuán)隊。前文提到宜信對數(shù)據(jù)安全的要求非常高,所以設(shè)置了專門的數(shù)據(jù)安全團(tuán)隊來規(guī)劃公司數(shù)據(jù)安全的流程和策略;數(shù)據(jù)管理委員會負(fù)責(zé)數(shù)據(jù)的標(biāo)準(zhǔn)化、流程化,補(bǔ)齊技術(shù)型驅(qū)動的數(shù)據(jù)中臺的推動效率,保證有效沉淀和呈現(xiàn)數(shù)據(jù)資產(chǎn)。
我們對宜信敏捷數(shù)據(jù)中臺的定位是:從數(shù)據(jù)技術(shù)和計算能力復(fù)用,到數(shù)據(jù)資產(chǎn)和數(shù)據(jù)服務(wù)復(fù)用,敏捷數(shù)據(jù)中臺會以更大價值帶寬,快、準(zhǔn)、精讓數(shù)據(jù)直接賦能業(yè)務(wù)。
2.3 價值
宜信敏捷數(shù)據(jù)中臺的價值集中表現(xiàn)為三個方面:快、準(zhǔn)、省。
圖2 價值
2.4 模塊架構(gòu)維度
圖3 模塊架構(gòu)維度
如圖所示,宜信敏捷數(shù)據(jù)中臺的建設(shè)也是基于“小前臺,大中臺”的共識。整個中間部分都屬于敏捷數(shù)據(jù)中臺包含的內(nèi)容,左邊綠色部分是基于數(shù)據(jù)維度來看整個中臺,右邊藍(lán)色部分則是基于平臺維度來看中臺。
數(shù)據(jù)維度。各種內(nèi)部數(shù)據(jù)、外部數(shù)據(jù)先歸集到數(shù)據(jù)源層,再以統(tǒng)一化、實時化、標(biāo)準(zhǔn)化、安全化等方式存儲起來形成數(shù)據(jù)湖層,數(shù)據(jù)湖對這些原始數(shù)據(jù)進(jìn)行處理和體系化歸類,轉(zhuǎn)化為數(shù)據(jù)資產(chǎn);數(shù)據(jù)資產(chǎn)層包括數(shù)倉體系、指標(biāo)體系、標(biāo)簽體系、特征體系、主數(shù)據(jù)等;最后將沉淀的這些可復(fù)用的數(shù)據(jù)資產(chǎn)提供給數(shù)據(jù)應(yīng)用層,供BI、AI、數(shù)據(jù)產(chǎn)品應(yīng)用。
平臺維度。每個藍(lán)色的方框都代表一個技術(shù)模塊,整個宜信敏捷數(shù)據(jù)中臺就是由這些技術(shù)模塊組合而成。其中DataHub數(shù)據(jù)樞紐,可以幫助用戶完成自助數(shù)據(jù)申請、發(fā)布、脫敏、清洗和服務(wù)等;DataWorks數(shù)據(jù)工坊,可以對數(shù)據(jù)進(jìn)行自助查詢、作業(yè)、可視化等處理;還有DataStar數(shù)據(jù)模型、DataTag數(shù)據(jù)標(biāo)簽、DataMgt 數(shù)據(jù)管理、ADXMgt 中臺管理等。
值得一提的是,這些模塊都不是從0開發(fā)的,而是基于我們已有的開源工具。首先,基于成熟的中間件工具來進(jìn)行開發(fā),可以節(jié)約開發(fā)的時間和成本;其次,開源工具成為引擎,可以共同合力支撐更大的一站式平臺。
2.5 數(shù)據(jù)能力維度
圖4 數(shù)據(jù)能力維度
將上述架構(gòu)模塊重新按照能力維度劃分,可以分成若干層,每一層都包含若干能力。如圖所示,可以清晰地看到建設(shè)數(shù)據(jù)中臺需要具備哪些數(shù)據(jù)能力,這些能力都對應(yīng)哪些功能模塊,分別能解決什么問題。此處不再展開贅述。
三、從中間件工具到平臺
3.1 ABD總覽
圖5 ABD總覽
中間件工具指DBus、Wormhole、Moonbox、Davinci四大開源平臺,它們從敏捷大數(shù)據(jù)(ABD,Agile BigData)理念中抽象而出,組成ABD平臺棧,敏捷數(shù)據(jù)中臺則被我們稱為ADX(Agile Data X Platform)。也就是說我們經(jīng)歷了從ABD到ADX的過程。
一開始,基于對業(yè)務(wù)需求共性的抽象和總結(jié),我們孵化出若干個通用的中間件,去解決各種各樣的問題。當(dāng)出現(xiàn)更為復(fù)雜的需求,我們嘗試將這些通用的中間件進(jìn)行組合運(yùn)用。實踐中,我們發(fā)現(xiàn)經(jīng)常會使用到某些特定的組合,同時,從用戶角度來看,他們更希望能實現(xiàn)自助化,直接拿過來就能用,而不是每次都要自己去選擇和組合。基于這兩點,我們對這幾個開源工具進(jìn)行了封裝。
3.1.1 ABD-DBus
DBus(數(shù)據(jù)總線平臺),是一個DBaaS(Data Bus as a Service)平臺解決方案。
DBus面向大數(shù)據(jù)項目開發(fā)和管理運(yùn)維人員,致力于提供數(shù)據(jù)實時采集和分發(fā)解決方案。平臺采用高可用流式計算框架,提供海量數(shù)據(jù)實時傳輸,可靠多路消息訂閱分發(fā),通過簡單靈活的配置,無侵入接入源端數(shù)據(jù),對各個IT系統(tǒng)在業(yè)務(wù)流程中產(chǎn)生的數(shù)據(jù)進(jìn)行匯集,并統(tǒng)一處理轉(zhuǎn)換成通過JSON描述的UMS格式,提供給不同下游客戶訂閱和消費(fèi)。DBus可充當(dāng)數(shù)倉平臺、大數(shù)據(jù)分析平臺、實時報表和實時營銷等業(yè)務(wù)的數(shù)據(jù)源。
開源地址:https://github.com/BriData
圖6 DBus功能及定位
如圖所示,DBus可以無侵入地對接各種數(shù)據(jù)庫的數(shù)據(jù)源,實時抽取增量數(shù)據(jù),做統(tǒng)一清洗和處理,并以UMS的格式存儲到Kafka中。
DBus的功能還包括批量抽取、監(jiān)控、分發(fā)、多租戶,以及配置清晰規(guī)則等,具體功能特性如圖所示。
上圖右下角展示的是DBus的一個截圖,用戶在DBus上可以通過一個可視化頁面,拉取增量數(shù)據(jù),配置日志和清洗方式,完成實時數(shù)據(jù)抽取等工作。
圖7 DBus架構(gòu)
從如上架構(gòu)圖可以看到DBus包括若干不同的處理模塊,支持不同的功能。(GitHub有具體介紹,此處不作展開。)
3.1.2 ABD-Wormhole
Wormhole(流式處理平臺),是一個SPaaS(Stream Processing as a Service)平臺解決方案。
Wormhole面向大數(shù)據(jù)項目開發(fā)和管理運(yùn)維人員,致力于提供數(shù)據(jù)流式化處理解決方案。平臺專注于簡化和統(tǒng)一開發(fā)管理流程,提供可視化的操作界面,基于配置和SQL的業(yè)務(wù)開發(fā)方式,屏蔽底層技術(shù)實現(xiàn)細(xì)節(jié),極大的降低了開發(fā)門檻,使得大數(shù)據(jù)流式處理項目的開發(fā)和管理變得更加輕量敏捷、可控可靠。
開源地址:?https://github.com/edp963/wormhole
圖8 Wormhole功能及定位
DBus將實時數(shù)據(jù)以UMS的格式存儲到Kafka中,我們要使用這些實時的流式數(shù)據(jù),就要用到Wormhole這個工具。
Wormhole支持配置流式化的處理邏輯,同時可以把處理完之后的數(shù)據(jù)寫到不同的數(shù)據(jù)存儲中。上圖中展示了很多Wormhole的功能特性,我們還在開發(fā)更多新的功能。
上圖右下角是Wormhole的一個工作截圖,Wormhole作為流式平臺,自己不重新開發(fā)流式處理引擎,它主要依賴Spark Streaming 和Flink Streaming 這兩種流式計算引擎。用戶可以選擇其中一個流式計算引擎,比如Spark,配置流式處理邏輯,確定Lookup庫的方式,并通過寫SQL來表達(dá)這個邏輯。如果涉及CEP,當(dāng)然就是基于Flink。
由此可以看出,使用Wormhole的門檻就是配置加上SQL。這也符合我們一直秉承的理念,即用敏捷化的方式支持用戶自助玩轉(zhuǎn)大數(shù)據(jù)。
圖9 Wormhole架構(gòu)
上圖展示的是Wormhole的架構(gòu)圖,包含很多功能模塊。介紹其中的幾個功能:
Wormhole支持異構(gòu) Sink冪等,能幫助用戶解決數(shù)據(jù)一致性的問題。
用過 Spark Streaming的人都知道,發(fā)起一個 Spark Streaming可能只做一件事情。Wormhole在 Spark Streaming的物理計算管道中抽象出一層“邏輯的Flow”的概念,就是從什么地方到什么地方、中間做什么事,這是一個“邏輯的Flow”。做了這種解耦和抽象之后,Wormhole支持在一個物理的 Spark Streaming管道中同時跑多個不同業(yè)務(wù)邏輯的Flow。所以理論上講,比如有1000個不同的 Source表,經(jīng)過1000個不同的流式處理,最后要得出1000個不同的結(jié)果表,可以只在Wormhole中發(fā)起一個Spark Streaming ,在里面跑1000個邏輯的Flow來實現(xiàn)。當(dāng)然這樣做的話可能會導(dǎo)致每個Flow延遲加大,因為都擠在同一個管道里,但這里的設(shè)置是很靈活的,我可以讓某一個Flow獨占一個VIP的 Stream,如果有些Flow流量很小,或者延遲對其影響不那么大的話,可以讓它們共享一個Stream。靈活性是Wormhole一個很大的特點。
Wormhole有自己的一套指令和反饋體系,用戶不用重啟或停止流,就可以動態(tài)地在線更改邏輯,并且實時拿到作業(yè)和反饋結(jié)果等。
3.1.3 ABD-Moonbox
Moonbox(計算服務(wù)平臺),是一個DVtaaS(Data Virtualization as a Service)平臺解決方案。
Moonbox面向數(shù)據(jù)倉庫工程師/數(shù)據(jù)分析師/數(shù)據(jù)科學(xué)家等, 基于數(shù)據(jù)虛擬化設(shè)計思想,致力于提供批量計算服務(wù)解決方案。Moonbox負(fù)責(zé)屏蔽底層數(shù)據(jù)源的物理和使用細(xì)節(jié),為用戶帶來虛擬數(shù)據(jù)庫般使用體驗,用戶只需通過統(tǒng)一SQL語言,即可透明實現(xiàn)跨異構(gòu)數(shù)據(jù)系統(tǒng)混算和寫出。此外Moonbox還提供數(shù)據(jù)服務(wù)、數(shù)據(jù)管理、數(shù)據(jù)工具、數(shù)據(jù)開發(fā)等基礎(chǔ)支持,可支撐更加敏捷和靈活的數(shù)據(jù)應(yīng)用架構(gòu)和邏輯數(shù)倉實踐。
開源地址:?https://github.com/edp963/moonbox
圖10 Moonbox功能及定位
數(shù)據(jù)從DBus過來,經(jīng)過Wormhole的流式處理,可能落到不同的數(shù)據(jù)存儲中,我們需要對這些數(shù)據(jù)進(jìn)行混算,Moonbox支持多源異構(gòu)系統(tǒng)無縫混算。上圖展示了Moonbox的功能特性。
平時所說的即席查詢并沒有真正做到“即席”,因為需要用戶先手工地把數(shù)據(jù)導(dǎo)到Hive再做計算,這是一個預(yù)置的工作。Moonbox不需要事先把數(shù)據(jù)導(dǎo)到一個地方去,做到了真正的即席查詢。數(shù)據(jù)可以散落到不同的存儲中,當(dāng)用戶有需求時, 只需寫一個SQL,Moonbox可以自動拆分這個SQL,從而得知哪些表在哪里,然后規(guī)劃SQL的執(zhí)行計劃,最終拿到結(jié)果。
Moonbox對外提供標(biāo)準(zhǔn)的REST、API、JDBC、ODBC等,因此也可以將之看成一個虛擬數(shù)據(jù)庫。
圖11 Moonbox架構(gòu)
上圖展示的是Moonbox的架構(gòu)圖。可以看到Moonbox的計算引擎部分也是基于Spark引擎做的,并沒有自研。Moonbox對Spark進(jìn)行擴(kuò)展和優(yōu)化,增加了很多企業(yè)級的數(shù)據(jù)庫能力,比如用戶、租戶、權(quán)限、 類存儲過程等。
從上圖看,Moonbox整個服務(wù)端是一個分布式的架構(gòu),所以它也是高可用的。
3.1.4 ABD-Davinci
Davinci(可視應(yīng)用平臺),是一個DVaaS(Data Visualization as a Service)平臺解決方案。
Davinci面向業(yè)務(wù)人員/數(shù)據(jù)工程師/數(shù)據(jù)分析師/數(shù)據(jù)科學(xué)家,致力于提供一站式數(shù)據(jù)可視化解決方案。既可作為公有云/私有云獨立部署使用,也可作為可視化插件集成到三方系統(tǒng)。用戶只需在可視化UI上簡單配置即可服務(wù)多種數(shù)據(jù)可視化應(yīng)用,并支持高級交互/行業(yè)分析/模式探索/社交智能等可視化功能。
開源地址:https://github.com/edp963/davinci
圖12 Davinci功能及定位
Davinci是一個可視化工具,所具備的功能特性如圖所示。
圖13 Davinci架構(gòu)
從設(shè)計層面來看,Davinci有自己的完備和一致性的內(nèi)在邏輯。包括Source、View、Widget,支持各種數(shù)據(jù)可視化應(yīng)用。
圖14 Davinci富客戶端應(yīng)用
Davinci是一個富客戶端的應(yīng)用,所以主要還是看它前端的使用體驗、豐富性和易用性等。Davinci支持圖表驅(qū)動和透視驅(qū)動兩種模式編輯Widget。上圖是一個透視驅(qū)動的效果樣例,可以看到橫縱坐標(biāo)都是透視的,它們會將整個圖切成不同的單元格,每個單元格里可以選擇不同的圖。
3.2 ABD架構(gòu)
圖15 ABD架構(gòu)
在ABD時代,我們通過DIY組合四個開源工具來支持各種各樣的數(shù)據(jù)應(yīng)用需求。如上圖所示,將整個端到端的流程串起來,這個架構(gòu)圖展示了我們“有收有放把整個鏈路打通”的理念。
收。比如采集、架構(gòu)、流轉(zhuǎn)、注入、計算服務(wù)查詢等功能,需要收斂集合成一個平臺。
放。面對復(fù)雜的業(yè)務(wù)環(huán)境,數(shù)據(jù)源也是各種各樣的無法統(tǒng)一,很難有一個存儲或數(shù)據(jù)系統(tǒng)可以滿足所有的需求,使得大家不再需要選型。因此這一塊的實踐是開放的,大家可以自主選擇開源工具和組件來適配和兼容。
3.3 ADX總覽
發(fā)展到一定階段時,我們需要一個一站式的平臺,把基礎(chǔ)組件封裝起來,使得用戶可以在這個平臺上更簡單地完成數(shù)據(jù)相關(guān)的工作,于是進(jìn)入了ADX數(shù)據(jù)中臺建設(shè)階段。
圖16 ADX 總覽
上圖是ADX 總覽,相當(dāng)于一個一級功能菜單。用戶登錄到平臺,可以做以下事情:
項目看板:可以看到所在項目的看板,包括健康情況等各方面的統(tǒng)計情況。
項目管理:可以做項目相關(guān)的管理,包括資產(chǎn)管理、權(quán)限管理、審批管理等。
數(shù)據(jù)管理:可以做數(shù)據(jù)方面的管理,比如查看元數(shù)據(jù),查看數(shù)據(jù)血緣等。
數(shù)據(jù)申請:項目配置好了,數(shù)據(jù)也了解了,可以做實際工作了。基于安全和權(quán)限考慮,并不是誰都可以去用放在里面的數(shù)據(jù),因此首先要做數(shù)據(jù)申請。右邊藍(lán)色模塊是本次分享將重點介紹的ADX數(shù)據(jù)中臺的五大功能模塊。數(shù)據(jù)申請更多是由DataHub數(shù)據(jù)樞紐來實現(xiàn)的,它支持自助申請、發(fā)布、標(biāo)準(zhǔn)化、清洗、脫敏等。
即席查詢、批量作業(yè)、流式作業(yè)是基于DataWorks數(shù)據(jù)工坊實現(xiàn)的。
數(shù)據(jù)模型是基于DataStar這個模型管理平臺來實現(xiàn)的。
應(yīng)用市場,包括數(shù)據(jù)可視化(數(shù)據(jù)加工完之后可以配置最終展現(xiàn)樣式為圖或儀表板等,這里可能用到Davinci);標(biāo)簽畫像、行為分析等常見分析方法;智能工具箱(幫助數(shù)據(jù)科學(xué)家更好地做數(shù)據(jù)集分析、挖掘和算法模型的工作)以及智能服務(wù)、智能對話(比如智能聊天機(jī)器人)等。
3.3.1 ADX-DataHub數(shù)據(jù)樞紐
圖17 DataHub工作流程
上圖藍(lán)色虛線框顯示的是 DataHub的流程架構(gòu),橙色方塊是我們的開源工具,其中“tria”代表Triangle,是宜信另一個團(tuán)隊研發(fā)的作業(yè)調(diào)度工具。 DataHub不是簡單地封裝了鏈路,而是使得用戶可以在一個更高的level上得到更好的服務(wù)。比如用戶需要某一歷史時刻精確到秒的快照,或者希望拿到一個實時增量數(shù)據(jù)去做流式處理,DataHub都可以提供。
它是怎么做到的呢?通過將開源工具引擎化,然后進(jìn)行整合。舉個例子:不同數(shù)據(jù)源,通過DBus實時抽取出來,經(jīng)過Wormhole流式處理后落到 HDFS Log數(shù)據(jù)湖中,我們把所有實時增量數(shù)據(jù)都存儲在這里面,這就意味著我們可以從中拿到所有的歷史變更數(shù)據(jù),而且這些數(shù)據(jù)還是實時同步的。再通過Moonbox在上面定義一些邏輯,當(dāng)用戶提出想要某一歷史時刻的快照或者增量數(shù)據(jù),就可以即時計算并提供。如果想做實時報表,需要把數(shù)據(jù)實時快照維護(hù)到一個存儲里,這里我們選擇Kudu。
流式處理有很多好處,同時也有短板,比如運(yùn)維成本較高、穩(wěn)定性較差等??紤]到這些問題,我們在DataHub中設(shè)置了Sqoop作為Plan B。如果實時這條線晚上出現(xiàn)問題,可以自動切換到Plan B,通過傳統(tǒng)的Sqoop去支持第二天T+1的報表。等我們找到并解決問題之后,Plan B就會切換到暫停狀態(tài)。
假設(shè)用戶自己有數(shù)據(jù)源,放在Elasticsearch 或者M(jìn)ongo里,也希望通過DataHub發(fā)布出去共享給其他人使用。我們不應(yīng)該把Elasticsearch 數(shù)據(jù)或Mongo數(shù)據(jù)物理地拷貝到一個地方,因為首先這些數(shù)據(jù)是NoSQL的,數(shù)據(jù)量比較大;其次用戶可能希望別人通過模糊查詢的方式去使用Elasticsearch 數(shù)據(jù),那可能繼續(xù)將數(shù)據(jù)放在Elasticsearch 里更好。這時我們做的是通過Moonbox進(jìn)行一個邏輯的發(fā)布,但用戶不感知這個過程。
綜上可以看出,DataHub是在內(nèi)部把幾個開源平臺常用的模式進(jìn)行有機(jī)整合和封裝,對外提供一致性、便捷的數(shù)據(jù)獲取、發(fā)布等服務(wù)。其使用方也可以是各種不同的角色:
數(shù)據(jù)擁有方可以在這里做數(shù)據(jù)審批;
數(shù)據(jù)工程師可以申請數(shù)據(jù),申請完后可以在這里對數(shù)據(jù)進(jìn)行加工;
APP用戶可以查看Davinci報表;
數(shù)據(jù)分析師可以直接用自己的工具去接DataHub出來的數(shù)據(jù),然后做數(shù)據(jù)分析;
數(shù)據(jù)用戶可能希望自己做一個數(shù)據(jù)產(chǎn)品,DataHub可以為他提供接口。
圖18 DataHub架構(gòu)
如圖,將DataHub打開,來看其架構(gòu)設(shè)計。從功能模塊角度來看,DataHub基于不同開源組件,實現(xiàn)不同功能。包括批量采集、流式采集、脫敏、標(biāo)準(zhǔn)化等,還可以基于不同的協(xié)議輸出訂閱。
DataHub與其他幾個組件之間的關(guān)系也是非常緊密的。它輸出的數(shù)據(jù)給DataWorks使用,同時它又依賴中臺管理、數(shù)據(jù)管理來滿足其需求。
3.3.2 ADX-DataLake實時數(shù)據(jù)湖
廣義的數(shù)據(jù)湖,就是把所有數(shù)據(jù)都放在一起,先以存儲和歸集為主,使用的時候再根據(jù)不同數(shù)據(jù)提供不同使用方式。
我們這里提到的是一個狹義的數(shù)據(jù)湖,只支持結(jié)構(gòu)化數(shù)據(jù)源和自然語言文本這兩種類型的數(shù)據(jù)歸集,并且有統(tǒng)一的方式存儲。
圖19 DataLake
也就是說我們的實時數(shù)據(jù)湖加了限制,公司所有結(jié)構(gòu)化數(shù)據(jù)源和自然語言文本會統(tǒng)一實時匯總為UbiLog,并由ADX-DataHub統(tǒng)一對外提供訪問。UbiLog的訪問和使用只能通過ADX提供的能力輸出,因此確保了多租戶、安全、權(quán)限管控。
3.3.3 ADX-DataWorks數(shù)據(jù)工坊
主要的數(shù)據(jù)加工都是在DataWorks自助完成的。
圖20 DataWorks工作流程
如圖來看DataWorks的工作流程。首先DataHub數(shù)據(jù)出來之后,DataWorks必須去接DataHub的數(shù)據(jù)。DataWorks支持實時報表,我們內(nèi)部使用的是Kudu,所以把這個模式固化下來,用戶就不用自己去選型,直接在上面寫自己的邏輯就可以了。比如有一個實時DM或批量DM,我們覺得這是一個很好的數(shù)據(jù)資產(chǎn),有復(fù)用價值,希望別的業(yè)務(wù)能復(fù)用這個數(shù)據(jù),我們就可以通過DataHub把它發(fā)布出去,別的業(yè)務(wù)就可以申請使用。
所以DataHub和DataWorks等組件封裝而成的數(shù)據(jù)中臺可以達(dá)到數(shù)據(jù)共享和數(shù)據(jù)運(yùn)營的效果。中臺內(nèi)部包含Kudu、Kafka、Hive、MySQL等數(shù)據(jù)庫組件,但是用戶不需要自己去選型,我們已經(jīng)做出了最佳選擇,并將其封裝成一個可直接使用的平臺。
上圖左側(cè)有一個數(shù)據(jù)建模師的角色,他在DataStar中做模型管理和開發(fā)建設(shè),在DataWorks中主要是負(fù)責(zé)邏輯和模型的創(chuàng)建;數(shù)據(jù)工程師不用多說,是最常見的使用DataWorks的角色;終端用戶可以直接使用Davinci。
圖21 DataWorks架構(gòu)
如圖,將DataWorks打開來看它的架構(gòu),同樣DataWorks也是通過不同的模塊來支持各種不同的功能。關(guān)于這部分內(nèi)容以后會有更多的文章和分享,此處不詳細(xì)介紹。
3.3.4 ADX-DataStar數(shù)據(jù)模型
圖22 DataStar工作流程
DataStar跟數(shù)據(jù)指標(biāo)模型或數(shù)據(jù)資產(chǎn)相關(guān),每個公司都有自己內(nèi)部的數(shù)據(jù)建模流程和工具。DataStar可以分為兩個部分:
模型設(shè)計、管理創(chuàng)建。對模型生命周期的管理和工藝流程的沉淀。
從DW(數(shù)倉)層到DM(數(shù)據(jù)集市)層,支持配置化的方式,自動在底下生成對應(yīng)SQL邏輯,而不需要用戶自己去寫。
DataStar是DW層的事實和維度表組成的星型模型,可以最后沉淀下來。但我們認(rèn)為,從DW層到DM層或APP層,不需要寫SQL開發(fā)了,只需要通過選維度和配置指標(biāo)的方式,就可以自動可視化配置出來。
這樣的話對使用人的要求就發(fā)生了改變,需要一個建模師或者業(yè)務(wù)人員來做這個事情,給他一個基礎(chǔ)數(shù)據(jù)層,他根據(jù)自己的需求來配置想要的指標(biāo)。整個過程,數(shù)據(jù)實施人員只需要關(guān)注ODS層到DW層就可以了。
3.3.5 ADXMgt/DataMgt中臺管理/數(shù)據(jù)管理
圖23 ADXMgt/DataMgt
中臺管理模塊主要關(guān)注租戶管理、項目管理、資源管理、權(quán)限管理、審批管理等。數(shù)據(jù)管理模塊主要關(guān)注數(shù)據(jù)管理層或數(shù)據(jù)治理層的話題。這兩個模塊從不同的維度對中間的三個主要組件提供支持和產(chǎn)生規(guī)則制約。
3.4 ADX架構(gòu)
圖24 ADX架構(gòu)
ADX數(shù)據(jù)中臺平臺幾個模塊之間的關(guān)聯(lián)如圖所示。最底下是五個開源工具,每個模塊都是對這五個開源工具的有機(jī)整合和封裝。從圖中可以看出各組件之間的關(guān)聯(lián)非常緊密,其中黑色虛線代表的是依賴關(guān)系,綠色線條代表的是數(shù)據(jù)流轉(zhuǎn)的關(guān)系。
四、典型案例分析
如上所述,我們基于幾個開源工具進(jìn)行有機(jī)整合和封裝,打造了一個更加現(xiàn)代化、自助化、完備的一站式數(shù)據(jù)中臺平臺。那這個平臺是如何發(fā)揮其作用,為業(yè)務(wù)提供服務(wù)的呢?本節(jié)將列舉五個典型案例。
4.1 案例1 — 自助實時報表
【場景】
業(yè)務(wù)領(lǐng)域組數(shù)據(jù)團(tuán)隊需要緊急制作一批報表,不希望排期,希望可以自助完成,并且部分報表需要T+0時效性。
【挑戰(zhàn)】
業(yè)務(wù)組數(shù)據(jù)團(tuán)隊工程能力有限,只會簡單SQL,之前要么轉(zhuǎn)給BI排期,要么通過工具直連業(yè)務(wù)備庫制作報表,要么通過Excel制作。
數(shù)據(jù)來源可能來自異構(gòu)數(shù)據(jù)庫,沒有很好的平臺支持自助導(dǎo)數(shù)。
對數(shù)據(jù)時效性要求很高,需要流上做數(shù)據(jù)處理邏輯。
【方案】
圖25 自助實時報表工作流程
用ADX數(shù)據(jù)中臺解決自助實時報表的問題。
數(shù)據(jù)工程師登錄平臺,創(chuàng)建新的項目,申請數(shù)據(jù)資源。
數(shù)據(jù)工程師通過元數(shù)據(jù)查找選出表,選擇DataWorks方式使用,填寫其他信息,申請這些需要用到的表。比如我需要用到100張表,其中70張是通過T+1的方式使用,30張是通過實時方式使用。
默認(rèn)中臺會做標(biāo)準(zhǔn)化脫敏加密策略,收到這些申請之后,中臺管理員會按策略依次進(jìn)行審批。
審批通過后,中臺會自動準(zhǔn)備和輸出所申請的數(shù)據(jù)資源,數(shù)據(jù)工程師可以運(yùn)用拿到的數(shù)據(jù)資源進(jìn)行自助查詢、開發(fā)、配置、SQL編排、批量或流式處理、配置DV等。
最后將自助報表或儀表板提交給用戶使用。
【總結(jié)】
各個角色通過一站式數(shù)據(jù)中臺交互,統(tǒng)一流程,所有動作都記錄在案,可查詢。
平臺全自助能力,大大提高了業(yè)務(wù)數(shù)字化驅(qū)動進(jìn)程,無需排期等待,經(jīng)過短暫培訓(xùn),人均 3-5日可以自助完成一張實時報表,實時報表不再求人。
平臺支持人員也無需過多參與,不再成為進(jìn)度瓶頸。
【能力】
這個場景需要用到很多數(shù)據(jù)能力,包括:即席查詢能力、批量處理能力、實時處理能力、報表看板能力、數(shù)據(jù)權(quán)限能力、數(shù)據(jù)安全能力、數(shù)據(jù)管理能力、租戶管理能力、項目管理能力、作業(yè)管理能力、資源管理能力。
4.2 案例2 — 協(xié)作模型指標(biāo)
【場景】
業(yè)務(wù)線需要打造自己的基礎(chǔ)數(shù)據(jù)集市,以共享給其他業(yè)務(wù)或者前線系統(tǒng)使用。
【挑戰(zhàn)】
如何有效建設(shè)數(shù)據(jù)模型和管理數(shù)據(jù)模型。
如何既支持自己領(lǐng)域內(nèi)數(shù)據(jù)模型建設(shè),同時也支持?jǐn)?shù)據(jù)模型的共享。
數(shù)據(jù)的共享發(fā)布如何從流程上固化、并實現(xiàn)技術(shù)安全統(tǒng)一管控。
如何運(yùn)營數(shù)據(jù)以確保有效數(shù)據(jù)資產(chǎn)沉淀和管理。
【方案】
圖26 協(xié)作模型指標(biāo)工作流程
用ADX數(shù)據(jù)中臺解決協(xié)作模型指標(biāo)的問題。
數(shù)據(jù)建模師登錄平臺,創(chuàng)建新項目,申請資源。然后查找選出表,設(shè)計一個或若干個維度表的DW模型,推送到DataWorks項目。
數(shù)據(jù)工程師選擇需要的Source表,基于DataStar項目完成從ODS到DW之前的ETL 開發(fā),然后提交作業(yè),發(fā)布到DataHub跑起來。
數(shù)據(jù)建模師持續(xù)可視化配置維護(hù)和管理DW/APP層指標(biāo)集,包括維度的聚合、計算等。
【總結(jié)】
這是一個典型的數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)資產(chǎn)運(yùn)營的案例,通過統(tǒng)一的協(xié)作化的模型指標(biāo)管理,確保了模型可維護(hù)、指標(biāo)可配置、質(zhì)量可追溯。
DataStar也支持一致性維度共享、數(shù)據(jù)詞典標(biāo)準(zhǔn)化、業(yè)務(wù)線梳理等,可以進(jìn)一步柔性支持公司統(tǒng)一數(shù)據(jù)基礎(chǔ)層的建設(shè)和沉淀。
【能力】
本案例需要的能力包括:數(shù)據(jù)服務(wù)能力、即席查詢能力、批量處理能力、數(shù)據(jù)權(quán)限能力、數(shù)據(jù)安全能力、數(shù)據(jù)管理能力、數(shù)據(jù)資產(chǎn)能力、租戶管理能力、項目管理能力、作業(yè)管理能力、資源管理能力。
4.3 案例3 — 敏捷分析挖掘
【場景】
業(yè)務(wù)領(lǐng)域組數(shù)據(jù)分析團(tuán)隊需要自助的進(jìn)行快速數(shù)據(jù)分析挖掘。
【挑戰(zhàn)】
分析團(tuán)隊使用工具各異,如SAS、R、Python、SQL等。
分析團(tuán)隊往往需要原始數(shù)據(jù)進(jìn)行分析(非脫敏),并且需要全歷史數(shù)據(jù)。
分析團(tuán)隊希望可以快速拿到所需數(shù)據(jù)(往往并不知道需要什么數(shù)據(jù)),并敏捷高效專注于數(shù)據(jù)分析本身。
【方案】
圖27 敏捷分析挖掘工作流程
用ADX數(shù)據(jù)中臺解決敏捷分析挖掘的問題。
數(shù)據(jù)分析師登錄平臺,創(chuàng)建新項目,申請資源。根據(jù)需求查找選出表,選擇習(xí)慣的工具使用方法,填寫其他信息,申請使用。
各方按照策略依次審批。
審批通過后,數(shù)據(jù)分析師獲得資源,利用工具進(jìn)行自助分析。
【總結(jié)】
Moonbox本身是數(shù)據(jù)虛擬化解決方案,很適合進(jìn)行各種異構(gòu)數(shù)據(jù)源的即席數(shù)據(jù)讀取和計算,可以節(jié)省數(shù)據(jù)分析師很多數(shù)據(jù)工程方面的工作。
Datahub/DataLake提供了實時同步的全增量數(shù)據(jù)湖,還可以進(jìn)行配置化脫敏加密等安全策略,為數(shù)據(jù)分析場景提供了安全可靠全面的數(shù)據(jù)支持。
Moonbox還專門提供了 mbpy(Moonbox Python)庫,以支持Python用戶更容易的在安全管控下進(jìn)行快速無縫地數(shù)據(jù)查看、即席計算和常用算法運(yùn)算工作。
圖28 敏捷分析挖掘示例
舉個例子,一個用戶打開Jupyter,import一個mbpy的庫包,并以用戶身份登錄Moonbox,就可以查看管理員授權(quán)給他的表。他可以運(yùn)用拿到的數(shù)據(jù)和表進(jìn)行分析、計算等,而不需要關(guān)注這些數(shù)據(jù)來自哪里,這對用戶來說是一個無縫的體驗。
如上圖,有兩張表,一張表是5000多萬條數(shù)據(jù),存儲在Kudu里;另一張表是600萬多條數(shù)據(jù),存儲在Oracle里。數(shù)據(jù)存儲在異構(gòu)的系統(tǒng)中,且kudu本身不支持SQL。我們通過Moonbox制定邏輯,認(rèn)為數(shù)據(jù)都在一個虛擬數(shù)據(jù)庫中, 只用了1分40秒就計算出結(jié)果。
【能力】
本案例需要的能力包括:分析鉆取能力、數(shù)據(jù)服務(wù)能力、算法模型能力、即席查詢能力、多維分析能力、數(shù)據(jù)權(quán)限能力、數(shù)據(jù)安全能力、數(shù)據(jù)管理能力、租戶管理能力、項目管理能力、資源管理能力。
4.4 案例4 — 情景多屏聯(lián)動
【場景】
為了支持全方位的場景化和數(shù)字化驅(qū)動,有時會需要大中小智多屏聯(lián)動,大屏即為放映大屏,中屏即為電腦屏幕,小屏即為手機(jī)屏幕,智屏即為聊天客戶端屏幕。
【挑戰(zhàn)】
多屏由于定位不同,展示大小不同,操作不同,可以要求不同程度的可視化和定制化,帶來一定開發(fā)量。
多屏也需要在數(shù)據(jù)權(quán)限層面保持高度一致。
其中智屏更需要NLP、聊天機(jī)器人和任務(wù)機(jī)器人等智能能力,還需要有動態(tài)生成圖表能力。
【方案】
通過Davinci的Display功能,可以很好支持配置化滿足大小屏定制化需求。
通過Davinci統(tǒng)一數(shù)據(jù)權(quán)限體系,可以在多屏之間保持一致的數(shù)據(jù)權(quán)限條件。
通過ConvoAI的Chatbot/NLP能力,可以支持智能微BI能力,即為智屏。
圖29 Davinci的Display編輯頁面
上圖展示的是Davinci的Display編輯頁面,可以通過挑選不同的組件、調(diào)整透明度、任意擺放位置、調(diào)前景背景、顏色縮放比例等,自由地定義想要的展示樣式。
圖30 Davinci配置大屏
上圖是Davinci配置大屏的例子,(圖片來源于Davinci開源社區(qū)網(wǎng)友的實踐,數(shù)據(jù)經(jīng)過處理),可以看到通過Davinci可以自己配置大屏,不需要開發(fā)。
圖31 Davinci配置小屏
上圖展示的是Davinci配置小屏的示例。
圖32 智屏
上圖展示的是智屏的示例。我們公司內(nèi)部有一個基于ConvoAI的聊天機(jī)器人,可以通過一個聊天窗口,跟用戶互動,針對用戶需求返回結(jié)果,包括圖表等。
4.5 案例5 — 數(shù)據(jù)安全、管理
圖33 數(shù)據(jù)安全管理工作流程
這個案例比較簡單,一個完備的數(shù)據(jù)中臺,不僅有應(yīng)用客戶場景,還有管理客戶場景,管理客戶典型的比如數(shù)據(jù)安全團(tuán)隊和數(shù)據(jù)委員會。
數(shù)據(jù)安全團(tuán)隊需要管理安全策略、掃描敏感字段、審批數(shù)據(jù)資源申請等。宜信敏捷數(shù)據(jù)中臺提供自動掃描功能,及時將掃描結(jié)果返回給安全團(tuán)隊人員確認(rèn)。安全團(tuán)隊也可以定義幾層不同的安全策略、查看審計日志、調(diào)查數(shù)據(jù)流轉(zhuǎn)鏈路等。
數(shù)據(jù)委員會需要做數(shù)據(jù)調(diào)研、數(shù)據(jù)地圖查看、血緣分析、制定標(biāo)準(zhǔn)化和流程化的清洗規(guī)則等。他們同樣可以登錄數(shù)據(jù)中臺,完成這些工作。
五、總結(jié)
本次分享主要介紹了宜信敏捷數(shù)據(jù)中臺的頂層設(shè)計和定位、內(nèi)部的模塊架構(gòu)和功能、以及典型應(yīng)用場景與案例。我們立足于宜信業(yè)務(wù)需求現(xiàn)狀與數(shù)據(jù)平臺發(fā)展背景,基于五大開源工具進(jìn)行有機(jī)組合和封裝,結(jié)合敏捷大數(shù)據(jù)的理念,打造適合宜信自己業(yè)務(wù)的一站式敏捷數(shù)據(jù)中臺,并在業(yè)務(wù)及管理中得以應(yīng)用與落地,希望能為大家?guī)韱l(fā)和借鑒。
Q & A
Q:企業(yè)能純粹依靠開源社區(qū)的開源工具來搭建數(shù)據(jù)中臺嗎?
A:數(shù)據(jù)中臺是要切合企業(yè)實際情況和目標(biāo)去建設(shè)的,有些好的開源工具本身已經(jīng)很成熟,不需要重復(fù)造輪子,同時也有一些企業(yè)根據(jù)自身環(huán)境和需求,需要定制化開發(fā)。所以一般數(shù)據(jù)中臺都會既有開源工具選型,也會有結(jié)合自身情況的企業(yè)內(nèi)通用組件的開發(fā)。
Q:數(shù)據(jù)中臺建設(shè)中,需要避免哪些彎路、哪些坑?
A:數(shù)據(jù)中臺比純技術(shù)平臺要求更多直接賦能業(yè)務(wù)的能力建設(shè),如數(shù)據(jù)資產(chǎn)沉淀、數(shù)據(jù)服務(wù)建設(shè)、數(shù)據(jù)加工流程工藝抽象、企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)化安全化管理等,這些可能都無法依靠純技術(shù)驅(qū)動自下而上地推動,而是需要公司層面和業(yè)務(wù)層面達(dá)成一致認(rèn)識和支持,并且由業(yè)務(wù)實際需求驅(qū)動數(shù)據(jù)中臺迭代建設(shè)的。這樣的自上而下和自下而上相結(jié)合的迭代方式,可以有效避免不必要的短視和過度設(shè)計。
Q:數(shù)據(jù)中臺建設(shè)完畢,其成熟度和效果如何評估?
A:數(shù)據(jù)中臺的價值由驅(qū)動的業(yè)務(wù)目標(biāo)來衡量。定性來說,就是是否真正做到了快、準(zhǔn)、省的效果;定量來說,可以通過平臺組件復(fù)用度、數(shù)據(jù)資產(chǎn)復(fù)用度、數(shù)據(jù)服務(wù)復(fù)用度等指標(biāo)來評估成熟度。
Q:平臺的元數(shù)據(jù)是怎樣管理的?
A:元數(shù)據(jù)是一個獨立的大話題,從元數(shù)據(jù)類目劃分,到如何采集維護(hù)各種元數(shù)據(jù),再到如何基于元數(shù)據(jù)信息打造各種元數(shù)據(jù)應(yīng)用等,是可以單獨拿出一個完整的分享來探討的。具體到宜信ADX的元數(shù)據(jù)管理,我們也是按照上述思路進(jìn)行,先是整理出全景元數(shù)據(jù)類目劃分,然后很重要的一點是“業(yè)務(wù)痛點驅(qū)動元數(shù)據(jù)體系建設(shè)“,我們會根據(jù)目前公司對元數(shù)據(jù)最迫切的需求圈定優(yōu)先級,然后在技術(shù)層面可以通過Moonbox進(jìn)行各種數(shù)據(jù)源的基礎(chǔ)技術(shù)元數(shù)據(jù)采集,基于Moonbox的SQL解析能力來生成執(zhí)行血緣關(guān)系等,最后根據(jù)業(yè)務(wù)的實際痛點,比如上游源數(shù)據(jù)表結(jié)構(gòu)變更會如何影響下游數(shù)據(jù)應(yīng)用(血緣影響度分析),下游數(shù)據(jù)問題如何追溯上游數(shù)據(jù)流轉(zhuǎn)鏈路(數(shù)據(jù)質(zhì)量診斷分析)等,迭代的開發(fā)一個個元數(shù)據(jù)應(yīng)用模塊。
Q:數(shù)據(jù)建模師建模的方法論是什么?和數(shù)倉的維度建模有什么區(qū)別?
A:我們的建模方法論也是基于著名的《數(shù)據(jù)倉庫工具箱》來指導(dǎo)建設(shè)的,并且根據(jù)宜信實際情況,對Kimball的維度建模進(jìn)行了一定的簡化、標(biāo)準(zhǔn)化、通用化設(shè)計,同時也參考了阿里的OneData體系的經(jīng)驗,這塊我們并無太多獨創(chuàng)性。DataStar更重要的目標(biāo),還是如何易用、有效的吸引和幫到數(shù)據(jù)建模師,從流程上能夠讓模型建設(shè)統(tǒng)一化、線上化、管理化,同時力求減少ETL開發(fā)人員負(fù)擔(dān),將DW到DM/APP層的個性化指標(biāo)工作通過配置化下放給非數(shù)據(jù)開發(fā)人員自助完成。所以DataStar整體上還是以管理和提效為主要目標(biāo)的。
Q:Triangle任務(wù)調(diào)度系統(tǒng)是開源的么?
A:Triangle是另一個團(tuán)隊研發(fā)維護(hù)的,他們有開源計劃,具體何時開源我們還太確定。
Q:Davinci 何時發(fā)版?
A:這是個永恒的問題,感謝大家對Davinci的持續(xù)關(guān)注和認(rèn)可,我們有計劃將Davinci推到Apache孵化,所以希望大家可以一如既往地支持Davinci,讓Davinci成為最好的開源可視化工具選擇。
Q:數(shù)據(jù)服務(wù)是管控了所有的數(shù)據(jù)讀取寫入嗎?最好的情況是所有業(yè)務(wù)方都可通過數(shù)據(jù)服務(wù)訪問數(shù)據(jù),這樣的話數(shù)據(jù)管理、鏈路、地圖就比較容易做。問題是很多情況下知道連接信息的話,業(yè)務(wù)方是可以直連的,怎么避免業(yè)務(wù)方自己使用API直連?
A:是的,DataHub的目標(biāo)就是統(tǒng)一收口數(shù)據(jù)歸集、數(shù)據(jù)申請、數(shù)據(jù)發(fā)布、數(shù)據(jù)服務(wù),這樣像數(shù)據(jù)安全管理、鏈路管理、標(biāo)準(zhǔn)化管理等都更容易實現(xiàn)了。如何避免業(yè)務(wù)方繞過DataHub直連源庫,這個恐怕要在管理流程上管控了,對于DataHub本身,由于DataHub封裝了實時數(shù)據(jù)湖,使得DataHub擁有了直連業(yè)務(wù)備庫所有不具備的能力特性,加上持續(xù)提升DataHub使用體驗和功能,相信業(yè)務(wù)方會更加愿意從DataHub對接數(shù)據(jù)的。
Q:DBus支持Postgres數(shù)據(jù)源嗎?
A:DBus目前支持MySQL、Oracle、DB2、日志、Mongo數(shù)據(jù)源,其中Mongo由于本身日志的特點使得DBus只能接出非完整增量日志(只有更新的列會輸出),這樣對強(qiáng)順序消費(fèi)就提出了很高要求,內(nèi)部來說沒有太多DBus接Mongo的場景。社區(qū)有提出DBus對接PostgreSQL和SQLServer的需求,理論上都是可以擴(kuò)展對接的,但目前團(tuán)隊都投入在數(shù)據(jù)中臺建設(shè)上,更多數(shù)據(jù)源類型的對接,如果有需要的話,可以直接聯(lián)系我們團(tuán)隊討論。
Q:Moonbox的底層是用Spark SQL實現(xiàn)的這種混合計算,需要消耗很多資源,是怎么優(yōu)化的呢?
A:Moonbox的混算引擎是基于Spark的,并對Spark做了一些優(yōu)化工作,其中最大的一塊優(yōu)化就是支持了更多計算下推(Pushdown),Spark本身也具備數(shù)據(jù)聯(lián)邦混算能力,但Spark只支持部分算子下推,如Projection和Predict,Moonbox對Spark做了旁路擴(kuò)展,支持更多如Aggregation、Join、Union等算子下推,并且在解析SQL時會根據(jù)數(shù)據(jù)源計算特點進(jìn)行有策略的下推執(zhí)行計劃,盡量讓數(shù)據(jù)源做更適合的計算工作,減少在Spark里混算的計算成本。
Moonbox還支持如果SQL本身沒有混算邏輯,且數(shù)據(jù)源適合整個SQL計算,Moonbox可以繞過Spark直接將全SQL做整體下推到數(shù)據(jù)源。另外,Moonbox支持Batch計算、分布式Interactive計算和Local Interactive計算模式,每種都做了不同的優(yōu)化和策略。
Q:離線計算和實時計算是怎么配合的,離線計算可以做分層存儲,實時計算怎么實現(xiàn)分層存儲?
A:實時計算分層,有一種做法是通過Kafka來做,當(dāng)然如果對實時分層數(shù)據(jù)的時效性要求不太高(如分鐘級)的話,也可以選擇一些實時NoSQL存儲,如Kudu?!半x線計算和實時計算怎么配合“,有了Moonbox,其實不管批量計算和流式計算的數(shù)據(jù)存儲在哪里,都可以通過Moonbox做無縫混算的,可以說Moonbox簡化并抹平了很多數(shù)據(jù)流轉(zhuǎn)架構(gòu)的復(fù)雜性。
Q:中臺的定位是什么,會不會又是一個buzzword?在宜信內(nèi)部,數(shù)據(jù)中臺跟傳統(tǒng)后臺的關(guān)系是怎樣的?
A:宜信數(shù)據(jù)中臺的定位在演講開頭已經(jīng)談到了,簡單來說就是對下層做統(tǒng)一化管理化透明化,對中層做通用化標(biāo)準(zhǔn)化流程化,對上層做資產(chǎn)化服務(wù)化自助化。Buzzword這個也是要一分為二的看,有些浪潮留下的更多是教訓(xùn),有些浪潮帶來的更多是進(jìn)步?!皵?shù)據(jù)中臺跟傳統(tǒng)后臺的關(guān)系“,這里傳統(tǒng)后臺我理解是指業(yè)務(wù)后臺吧,好的業(yè)務(wù)后臺可以更好配合和支持?jǐn)?shù)據(jù)中臺,不好的業(yè)務(wù)后臺會把更多數(shù)據(jù)層面的挑戰(zhàn)留待數(shù)據(jù)中臺去面對和解決。
Q:數(shù)據(jù)異構(gòu)存儲在如此多的存儲組件中,如何保證個性化查詢的效率?
A:這個問題應(yīng)該是指Moonbox這種體系架構(gòu),如何保證即席查詢效率。純即席查詢(源數(shù)據(jù)直接計算出結(jié)果),查詢效率怎樣都不會拼過內(nèi)存型MPP查詢引擎的。對于我們來講,Moonbox主要用于統(tǒng)一批量計算入口、統(tǒng)一即席查詢?nèi)肟?、統(tǒng)一數(shù)據(jù)服務(wù)、統(tǒng)一元數(shù)據(jù)歸集、統(tǒng)一數(shù)據(jù)權(quán)限、統(tǒng)一血緣關(guān)系生成、統(tǒng)一數(shù)據(jù)工具箱等。如果追求毫秒級/秒級查詢效率,要么采用預(yù)計算引擎如Kylin、Druid等、要么ES、Clickhouse等,但這些都有個前提,就是基礎(chǔ)數(shù)據(jù)都已經(jīng)準(zhǔn)備好。因此我們的數(shù)據(jù)中臺鏈路,是支持ETL之后將DW/DM數(shù)據(jù)物理寫入ES、Clickhouse并統(tǒng)一DataHub發(fā)布的,這樣可以一定程度上保證“個性化“查詢效率。單純從Moonbox角度而言,在異構(gòu)存儲上進(jìn)行分鐘級/小時級的預(yù)計算并將結(jié)果寫入Clickhouse,可以支持分鐘級/小時級數(shù)據(jù)延遲,毫秒級/秒級查詢延遲。
Q:如果有新的數(shù)據(jù)進(jìn)入系統(tǒng),整個數(shù)據(jù)采集到進(jìn)入存儲的過程是由開發(fā)人員控制,還是專門的數(shù)據(jù)管理人員通過界面組合各個組件Pattern來控制?
A:如果新數(shù)據(jù)源來自業(yè)務(wù)數(shù)據(jù)庫備庫,DBus已經(jīng)對接了此備庫前提下,會有專門的數(shù)據(jù)中臺管理員在數(shù)據(jù)中臺管理界面上配置發(fā)布新的ODS,以供下游使用方在DataHub上申請并使用;如果新數(shù)據(jù)源來自業(yè)務(wù)自有NoSQL庫,業(yè)務(wù)人員可以自助地在DataHub上發(fā)起發(fā)布數(shù)據(jù)流程,然后下游使用方可以在元數(shù)據(jù)上看到并在DataHub上申請并使用。
所謂“數(shù)據(jù)采集到存儲“,也是分為實時采集、批量采集、邏輯采集等的,這些常用數(shù)據(jù)源類型、數(shù)據(jù)對接方式、用戶使用方式等都被DataHub封裝整合在內(nèi),不管是數(shù)據(jù)擁有方還是數(shù)據(jù)使用方面對的都是一站式的DataHub用戶界面,所有的數(shù)據(jù)鏈路Pattern、自動化流程和最佳技術(shù)選型和實踐都被透明化封裝在DataHub里,這也是工具化到平臺化的價值所在。
-
模塊
+關(guān)注
關(guān)注
7文章
2727瀏覽量
47614 -
數(shù)據(jù)安全
+關(guān)注
關(guān)注
2文章
682瀏覽量
29965 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8900瀏覽量
137580
原文標(biāo)題:數(shù)據(jù)中臺:宜信敏捷數(shù)據(jù)中臺建設(shè)實踐|分享實錄(附視頻+PPT)
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論