隨著互聯(lián)網(wǎng)的逐漸深入,各家企業(yè)的業(yè)務(wù)線不斷拓寬,用戶體量也隨之不斷擴(kuò)大,大數(shù)據(jù)逐漸進(jìn)入到企業(yè)的視野。大數(shù)據(jù)時(shí)代對(duì)人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。
大數(shù)據(jù)雖然起源在美國(guó),但是發(fā)展速度最迅猛的的確還是在中國(guó)。因?yàn)橹袊?guó)有著得天獨(dú)厚的條件,就是廣大的互聯(lián)網(wǎng)用戶群體,這些大量的用戶資源給中國(guó)企業(yè)制造了天然的、獨(dú)一無二大數(shù)據(jù)環(huán)境。
提起數(shù)據(jù)量,國(guó)內(nèi)除了互聯(lián)網(wǎng)那幾家巨頭,應(yīng)該就屬金融領(lǐng)域的數(shù)據(jù)量最大、數(shù)據(jù)價(jià)值最高。作為國(guó)內(nèi)大數(shù)據(jù)范疇內(nèi)最具代表性的行業(yè)之一,金融業(yè)無論是從用戶體量還是日成交量上看,都位居國(guó)內(nèi)前列。中國(guó)銀聯(lián)作為國(guó)內(nèi)金融領(lǐng)域的代表性企業(yè),其背后的大數(shù)據(jù)技術(shù)實(shí)力,在一定程度上也能反應(yīng)當(dāng)下國(guó)內(nèi)各家金融企業(yè)的大數(shù)據(jù)技術(shù)水平。今天,我們就以銀聯(lián)為例,看一下銀聯(lián)這些年來大數(shù)據(jù)技術(shù)的變革以及優(yōu)化。
那么關(guān)于大數(shù)據(jù),究竟什么是大數(shù)據(jù),這么些年喊了這么多的大數(shù)據(jù)轉(zhuǎn)型的口號(hào),究竟在大數(shù)據(jù)領(lǐng)域內(nèi)做了什么?帶著這些問題,InfoQ 記者采訪到了在 Kylin Data Summit 上做技術(shù)分享的中國(guó)銀聯(lián)科技事業(yè)部高級(jí)主管王穎卓。
1 銀聯(lián)大數(shù)據(jù)的歷程 2003-2007-2012,從報(bào)表到數(shù)倉(cāng),銀聯(lián)大數(shù)據(jù)轉(zhuǎn)型伊始
中國(guó)銀聯(lián)科技事業(yè)部高級(jí)主管王穎卓提到,金融界對(duì)于數(shù)據(jù)的認(rèn)識(shí)和使用,一直都是非常重視的。在大數(shù)據(jù)時(shí)代,如何利用工具更好地處理數(shù)據(jù),怎樣把數(shù)據(jù)更好的應(yīng)用在業(yè)務(wù)上,如何將數(shù)據(jù)變現(xiàn)等,是當(dāng)下眾多企業(yè)必須要思考的一個(gè)問題。
在 2003 年到 2007 年之間,銀聯(lián)的的數(shù)據(jù)一直是由需求驅(qū)動(dòng),業(yè)務(wù)部門有一個(gè)需求就做一張數(shù)據(jù)報(bào)表,特點(diǎn)是數(shù)據(jù)分散、按需定制、開發(fā)周期長(zhǎng)。
2007 年左右,中國(guó)銀聯(lián)開始進(jìn)入到數(shù)據(jù)倉(cāng)庫(kù)年代。相較于報(bào)表,數(shù)據(jù)倉(cāng)庫(kù)對(duì)于用戶體驗(yàn)來說是一個(gè)巨大的革新,基本上體現(xiàn)在數(shù)據(jù)發(fā)展以業(yè)務(wù)為驅(qū)動(dòng),主要有結(jié)構(gòu)化數(shù)據(jù)集中存儲(chǔ)、勾兌整合、服務(wù)業(yè)務(wù)等特點(diǎn)。也就是說,數(shù)據(jù)倉(cāng)庫(kù)還原了數(shù)據(jù)的本質(zhì),以數(shù)據(jù)本身的特性來處理數(shù)據(jù)。在建立數(shù)據(jù)倉(cāng)庫(kù)的過程中,更重要的是將以 Cognos 為核心的多維數(shù)據(jù)分析理念引入進(jìn)來,從而達(dá)到讓用戶能夠自主進(jìn)行數(shù)據(jù)分析的目的。
目前,銀聯(lián)的大數(shù)據(jù)架構(gòu)主要分為三條技術(shù)線,分別為基礎(chǔ)數(shù)據(jù)、數(shù)據(jù)應(yīng)用以及數(shù)據(jù)模型。首先制作報(bào)表的工作需要基礎(chǔ)數(shù)據(jù)和數(shù)據(jù)應(yīng)用兩者協(xié)同完成,數(shù)據(jù)的清洗、加工、預(yù)匯總等過程由基礎(chǔ)數(shù)據(jù)完成,報(bào)表的定制、查看、下載等功能由數(shù)據(jù)應(yīng)用完成。
2012 至今,向成熟的大數(shù)據(jù)體系進(jìn)發(fā),用數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)
2012 年,大數(shù)據(jù)技術(shù)逐漸進(jìn)入到國(guó)內(nèi),并開始在技術(shù)圈內(nèi)流行起來。同樣的問題又被擺在了舞臺(tái)之上,到底什么叫大數(shù)據(jù)?大數(shù)據(jù)跟報(bào)表的關(guān)系是什么?跟數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系又是什么?是不是數(shù)據(jù)大了才叫大數(shù)據(jù)?Hadoop 與大數(shù)據(jù)之間的強(qiáng)關(guān)聯(lián),是否代表著 Hadoop 就等同于大數(shù)據(jù)?
王穎卓首先提到,在數(shù)倉(cāng)向大數(shù)據(jù)平臺(tái)轉(zhuǎn)型時(shí),沒有考慮過 Hadoop 以外的框架。一方面銀聯(lián)從數(shù)倉(cāng)向大數(shù)據(jù)轉(zhuǎn)型是在 2012 年,業(yè)界已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代,幾乎沒有可以撼動(dòng) Hadoop 地位的大數(shù)據(jù)框架存在,同時(shí)代基于 MPP 架構(gòu)的數(shù)據(jù)倉(cāng)庫(kù)框架,如 GreenPlum 等,難以支撐 PB 級(jí)以上的數(shù)據(jù)規(guī)模;另一方面,銀聯(lián)研究院已搭建 Hadoop 平臺(tái)并開發(fā)了一些試驗(yàn)性的應(yīng)用,取得了較好的效果。因此,我們選擇 Hadoop 作為數(shù)倉(cāng)的替代者。
同時(shí)王穎卓從銀聯(lián)的角度出發(fā),解釋了他對(duì)于大數(shù)據(jù)的理解。他認(rèn)為在整個(gè)大數(shù)據(jù)年代,有兩個(gè)理念非常重要:
數(shù)據(jù)存儲(chǔ)層。應(yīng)該怎樣存放數(shù)據(jù)?銀聯(lián)做的首件事是在數(shù)據(jù)集中的基礎(chǔ)上,做到了數(shù)據(jù)融合——把整個(gè)企業(yè)級(jí)的數(shù)據(jù)做了有機(jī)融合?,F(xiàn)階段,銀聯(lián)大數(shù)據(jù)平臺(tái)里存在的最大體量的基礎(chǔ)表已經(jīng)有 1000 多個(gè)維度?;谶@張基礎(chǔ)表,再?gòu)臉I(yè)務(wù)視角對(duì)數(shù)據(jù)進(jìn)行高度匯總,最終給業(yè)務(wù)人員提供數(shù)據(jù)服務(wù)。因此,從數(shù)據(jù)存儲(chǔ)和加工方面,有別于過去的報(bào)表和數(shù)據(jù)倉(cāng)庫(kù)。
數(shù)據(jù)應(yīng)用層。報(bào)表系統(tǒng)的目的是滿足用戶需求,只有當(dāng)用戶有需求時(shí)才會(huì)做報(bào)表。在數(shù)據(jù)倉(cāng)庫(kù)時(shí)代,更多的是幫用戶設(shè)計(jì) Cube 和提供多維分析的服務(wù);而用戶在這一階段初步掌握了數(shù)據(jù)分析的能力。在大數(shù)據(jù)年代,伴隨著平臺(tái)化和開放化理念的影響,用戶開始在銀聯(lián)的大數(shù)據(jù)平臺(tái)上利用各種有效的工具、組織多元的數(shù)據(jù)來滿足自己的業(yè)務(wù)場(chǎng)景,在這個(gè)階段,用戶開始熟悉并習(xí)慣使用工具來做數(shù)據(jù)分析。
2 銀聯(lián)在轉(zhuǎn)型大數(shù)據(jù)的過程中,遇到了怎樣的問題?
在不同的場(chǎng)景里,大數(shù)據(jù)所造成的問題也不一樣。通常情況下,分為在線處理、離線處理以及數(shù)據(jù)服務(wù)系統(tǒng)這三大類問題。
在線處理所遇到的問題
中國(guó)銀聯(lián)這幾年的交易量在逐年猛增,一年的交易記錄數(shù)突破了千億。問題就出在這千億數(shù)據(jù)里面?,F(xiàn)在的用戶對(duì)于實(shí)時(shí)性的要求越來越高,要求能夠?qū)崟r(shí)查詢訂單信息、實(shí)時(shí)進(jìn)行線上的交易和退單等操作,這對(duì)交易數(shù)據(jù)庫(kù)來講毫無疑問是一個(gè)災(zāi)難。HBase 支持高并發(fā)寫入及查詢的特性,在一定程度上緩解了這個(gè)問題。
但是在使用過程中,HBase 不可避免的也會(huì)出現(xiàn)很多問題。第一點(diǎn)是便利性較差,HBase 基于 KV 模型和 Java API 進(jìn)行讀寫,用戶往往需要自行設(shè)計(jì)二級(jí)索引表和讀寫接口。
第二點(diǎn)是性能上的抖動(dòng),HBase 性能確實(shí)很好,但是在實(shí)際生產(chǎn)過程中往往存在著在查詢過程中出現(xiàn)性能抖動(dòng),如 73% 的查詢?cè)?10ms 返回, 27% 的查詢?cè)?10-100ms 內(nèi)返回,這就給實(shí)時(shí)的場(chǎng)景帶來風(fēng)險(xiǎn);其次 HBase 集群的穩(wěn)定性存在問題,其中一個(gè) Server 服務(wù)宕了,往往導(dǎo)致整個(gè)集群的響應(yīng)出現(xiàn)巨大波動(dòng)。
這些在實(shí)時(shí)場(chǎng)景中,都是無法容忍的問題。
離線分析場(chǎng)景問題
說完了在線實(shí)時(shí)處理,再回到離線分析場(chǎng)景下。在金融領(lǐng)域,應(yīng)用最廣的還是 Cognos。中國(guó)銀聯(lián)也算是資歷較深的 Cognos 用戶。
但是在用戶與數(shù)據(jù)體量飛漲的現(xiàn)在,Cognos 也存在著諸多問題。比如規(guī)模以及可擴(kuò)展性的問題,Cognos 的單 Cube 文件,大小限制在 2GB 以內(nèi)。隨著現(xiàn)在業(yè)務(wù)飛速增長(zhǎng),數(shù)據(jù)量是 PB 級(jí)別的增長(zhǎng)。Cube 的體積越來越大,Cube 的數(shù)量也越來越多,上千個(gè) Cube 如何管理也是一個(gè)問題。
其次是 Cube 構(gòu)建生成的時(shí)間越來越長(zhǎng),用戶能看到最新數(shù)據(jù)的時(shí)間越來越晚。其實(shí)銀聯(lián)的 Cognos 已經(jīng)做的很不錯(cuò)了,目前支撐著近 3000+ 人次使用,保持著日 Cube 1000+ 張報(bào)表以及月 Cube 5000+ 張報(bào)表的效率。
但是 Cognos 作為一個(gè)閉源產(chǎn)品,其自然也有閉源產(chǎn)品的弱點(diǎn),出現(xiàn)了一些產(chǎn)品級(jí)的問題,自主排查問題的能力較弱;用戶有一些個(gè)性化的需求,針對(duì)產(chǎn)品做二次的個(gè)性化定制開發(fā)的空間較小。
數(shù)據(jù)服務(wù)系統(tǒng)問題
隨著銀聯(lián)業(yè)務(wù)體量的增大,業(yè)務(wù)線的拓寬,產(chǎn)品種類和服務(wù)類型也隨之豐富起來。但是與此同時(shí),每一條產(chǎn)品線、每一條業(yè)務(wù)線,其中的數(shù)據(jù)甚至服務(wù)孤島現(xiàn)象越來越嚴(yán)重。由于各條產(chǎn)品線之間數(shù)據(jù)不通,形成了一個(gè)個(gè)“孤島”和“煙囪”。此外,不同的服務(wù)采用的數(shù)據(jù)口徑不同,數(shù)據(jù)質(zhì)量沒有形成統(tǒng)一標(biāo)準(zhǔn);還有就是用戶需要登錄不同的網(wǎng)頁(yè)使用不同的服務(wù),用戶體驗(yàn)較差。
3 銀聯(lián)大數(shù)據(jù)實(shí)時(shí)分析的探索與實(shí)踐
數(shù)據(jù)安全是金融企業(yè)的命門,金融企業(yè)有必要也要有實(shí)力來構(gòu)建這樣屬于自己的數(shù)據(jù)服務(wù)生態(tài)系統(tǒng)。
上文說到了問題,那就要解決問題。首先要解決的是,如何環(huán)節(jié) HBase 在聯(lián)機(jī)實(shí)時(shí)的業(yè)務(wù)場(chǎng)景下開發(fā)的便利性以及性能抖動(dòng)問題。金融行業(yè)有錢是公認(rèn)的,銀聯(lián)在整個(gè)系統(tǒng)穩(wěn)定、安全方面等金融科技層面的投入相當(dāng)大,就比如銀聯(lián)通過在大數(shù)據(jù)服務(wù)層次上,建立兩地三中心的 HBase 集群,來緩解 HBase 集群不穩(wěn)定的問題。
在服務(wù)層,通過聯(lián)機(jī)雙查方式,基本上有效解決和避免了因?yàn)槟骋粋€(gè)集群性能,從而帶來整個(gè)查詢效率的下降。其原理十分簡(jiǎn)單,即一個(gè)查詢被客戶端強(qiáng)行分為兩個(gè),分別訪問后臺(tái)兩個(gè)不同的 HBase 集群,然后再經(jīng)由 HBase 集群返回,誰速度快用誰的。
第二點(diǎn),關(guān)于銀聯(lián)離線計(jì)算服務(wù)的整體架構(gòu),架構(gòu)如下圖所示。
為什么要做銀聯(lián)的數(shù)據(jù)平臺(tái)分析架構(gòu)?從金融行業(yè)的角度來看,"自主可控"是金融領(lǐng)域?qū)τ诩夹g(shù)的一個(gè)硬性指標(biāo),畢竟數(shù)據(jù)安全是金融企業(yè)的命門。因此,金融企業(yè)有必要也要有實(shí)力來構(gòu)建這樣一個(gè)數(shù)據(jù)服務(wù)生態(tài)系統(tǒng)。
從整個(gè)外圍來看,藍(lán)色的這一圈是由銀聯(lián)自主開發(fā)的功能性產(chǎn)品,如控制服務(wù)、監(jiān)控、接入層等。中間三個(gè)核心模塊屬于驅(qū)動(dòng)層面。透過 Tornado 可以支持用戶級(jí)別的數(shù)據(jù)加工服務(wù),透過 Lightning 可以實(shí)現(xiàn) HBase 的實(shí)時(shí)數(shù)據(jù)查詢。中間最關(guān)鍵多維分析服務(wù),則使用了 Kylin 的商用產(chǎn)品 Kyligence。
在 Kylin Data Summit 上,Gartner 研究總監(jiān) Julian Sun 也提到了,未來的關(guān)鍵不是開源,而是商業(yè)化。這并非否定開源的重要性,開源對(duì)于技術(shù)的發(fā)展起到了至關(guān)重要的作用。前一段時(shí)間大家也看過,市面上有一些所謂的開源軟件已經(jīng)開始收費(fèi)了。比如免費(fèi)了 20 多年的 Java 開始收費(fèi)了,Hadoop、MongoDB 等開源項(xiàng)目也有存在了很長(zhǎng)時(shí)間的商用版本。商用版本相較于社區(qū)的開源版,更加符合企業(yè)的需求,降低了企業(yè)的使用門檻。
仍然以 Hadoop 為例,Hadoop 的技術(shù)偏底層,需要十分專業(yè)的技術(shù)基礎(chǔ),因此雖然是很好的技術(shù),但使用門檻過高,前期使用成本過大,缺乏應(yīng)用創(chuàng)新以及模式創(chuàng)新。并且在社區(qū)中,技術(shù)的發(fā)展方向往往是分散的,是根據(jù)社區(qū)內(nèi)的每一名成員的思考在前進(jìn),不能聚焦于一個(gè)領(lǐng)域下、專攻某一方面。
再回到 Kyligence 與 Kylin 上來,Kyligence 相較于開源版 Kylin,商業(yè)版在查詢系統(tǒng)設(shè)計(jì)、元數(shù)據(jù)設(shè)計(jì)、BI 兼容性、企業(yè)運(yùn)維等方面都有明顯的優(yōu)勢(shì)。并且基于 Kyligence 構(gòu)建 Cube,5 億的數(shù)據(jù)在短短 2 個(gè)小時(shí)之內(nèi)就能構(gòu)建好,相較于過去銀聯(lián)舊版的以“數(shù)據(jù)倉(cāng)庫(kù) ETL + Cognos“體系為核心的多維分析應(yīng)用,可以說是一個(gè)巨大的飛躍。
4 尾 聲
最后,再回到最開始的問題,什么是大數(shù)據(jù)?經(jīng)常有人問,很多公司喊大數(shù)據(jù)轉(zhuǎn)型喊了好多年,究竟做了什么?王穎卓最后提到:大數(shù)據(jù)的目的無非是提升服務(wù)性能,因此即便將整個(gè) BI 體系更換掉,將全部的 Cognos 拿掉,用戶在使用體驗(yàn)上也會(huì)完全無感,能感受到的只是性能以及效率的提升。從銀聯(lián)的角度看,用戶每天早上打開電腦就能看到最新的數(shù)據(jù),這就是做大數(shù)據(jù)實(shí)時(shí)分析平臺(tái)的目的。
隨著數(shù)據(jù)規(guī)模的持續(xù)增大,傳統(tǒng)的報(bào)表以及數(shù)據(jù)倉(cāng)庫(kù)技術(shù)已經(jīng)很難滿足業(yè)務(wù)的需求和查詢需要。因此,銀聯(lián)也在大數(shù)據(jù)的架構(gòu)和技術(shù)領(lǐng)域不斷的探索和創(chuàng)新,包括引入 Kyligence,以及開發(fā)自己全新的 BI 服務(wù)體系。所做的一切,最終的目的都是為了能夠讓數(shù)據(jù)更好的服務(wù)業(yè)務(wù)、更好的驅(qū)動(dòng)業(yè)務(wù)前進(jìn)。通過技術(shù)上的創(chuàng)新,提升業(yè)務(wù)人員使用數(shù)據(jù)、通過數(shù)據(jù)來創(chuàng)造價(jià)值的能力。
數(shù)據(jù)是不斷變化的,數(shù)據(jù)所產(chǎn)生的價(jià)值是不斷變化的,技術(shù)也是不斷變化的。Hadoop 自 2006 年發(fā)展至今,在大數(shù)據(jù)領(lǐng)域一路高歌猛進(jìn)。但是到了今天,大數(shù)據(jù)分析技術(shù)不會(huì)因?yàn)?Hadoop 面臨的挑戰(zhàn),而放緩前進(jìn)的腳步。我們?cè)谶@次 Kylin Data Summit 上看到,以 Kyligence 為代表的大數(shù)據(jù)企業(yè), 其產(chǎn)品架構(gòu)在不斷演進(jìn),迎合快速變化的大數(shù)據(jù)技術(shù)趨勢(shì),從原先的 Hadoop 依賴到全 Spark 技術(shù)棧,為的就是幫助企業(yè)快速應(yīng)用,迎接未來挑戰(zhàn)。
中國(guó)銀聯(lián)的大數(shù)據(jù)技術(shù)也是一樣,也在不斷通過自身技術(shù)上的創(chuàng)新,擁抱數(shù)據(jù),讓數(shù)據(jù)產(chǎn)生更多價(jià)值,讓中國(guó)銀聯(lián)的大數(shù)據(jù)發(fā)展,依然走在正確的路上。
-
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1451瀏覽量
34063 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8893瀏覽量
137464
原文標(biāo)題:中國(guó)銀聯(lián)大數(shù)據(jù)發(fā)展史
文章出處:【微信號(hào):infoqchina,微信公眾號(hào):InfoQ】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論