近些年來(lái),隨著企業(yè)數(shù)字化轉(zhuǎn)型持續(xù)推進(jìn),在數(shù)據(jù)的分析利用方面,其廣度和深度都在不斷向外延伸。在分析廣度方面,主要體現(xiàn)在所分析數(shù)據(jù)的類型以及分析場(chǎng)景更加多樣化、多元化;在分析深度方面,主要體現(xiàn)在更關(guān)注多源異構(gòu)數(shù)據(jù)的融合分析以及基于數(shù)據(jù)科學(xué)技術(shù)進(jìn)行數(shù)據(jù)價(jià)值的深度挖掘。
與此同時(shí),為了滿足多樣化的數(shù)據(jù)分析需求,企業(yè)數(shù)據(jù)平臺(tái)架構(gòu)也在持續(xù)演進(jìn)。單一數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)已不能順應(yīng)數(shù)據(jù)分析的發(fā)展趨勢(shì),越來(lái)越多企業(yè)開(kāi)始基于“湖(Hadoop技術(shù)體系)”+“倉(cāng)(MPP技術(shù)體系)”的混合架構(gòu)打造自己的企業(yè)級(jí)數(shù)據(jù)平臺(tái)。這種混合架構(gòu)融合了“湖”和“倉(cāng)”各自的技術(shù)優(yōu)勢(shì),可以在一定程度上支撐企業(yè)多樣化的數(shù)據(jù)分析場(chǎng)景,但是在數(shù)據(jù)平臺(tái)的易用性、可維護(hù)性、數(shù)據(jù)處理效率以及存儲(chǔ)成本方面都存在一定的不足。
星環(huán)科技政府與公共事業(yè)部系統(tǒng)架構(gòu)的負(fù)責(zé)人徐流明介紹說(shuō),“湖(Hadoop技術(shù)體系)”+“倉(cāng)(MPP技術(shù)體系)”的混合架構(gòu)是在數(shù)據(jù)平臺(tái)架構(gòu)演進(jìn)過(guò)程中技術(shù)向業(yè)務(wù)妥協(xié)的一個(gè)產(chǎn)物。Hadoop技術(shù)體系在設(shè)計(jì)之初主要是為了解決海量數(shù)據(jù)的離線批處理問(wèn)題,在高并發(fā)數(shù)據(jù)集市、即席查詢、事務(wù)一致性等方面存在先天不足;而MPP技術(shù)體系是從關(guān)系型數(shù)據(jù)庫(kù)演進(jìn)而來(lái),對(duì)事務(wù)一致性、OLAP分析性能都有比較好的支撐,但是在分析場(chǎng)景方面存在比較大的局限性,主要以結(jié)構(gòu)化數(shù)據(jù)分析為主,無(wú)法支撐半/非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)、實(shí)時(shí)計(jì)算、機(jī)器學(xué)習(xí)等場(chǎng)景。同時(shí),在前些年,業(yè)內(nèi)又沒(méi)有比較成熟的技術(shù)體系能夠同時(shí)滿足“湖”+“倉(cāng)”的所有場(chǎng)景,所以才催生了“Hadoop+MPP”的混合架構(gòu)。
然而,隨著多模型數(shù)據(jù)庫(kù)技術(shù)的興起,“湖”“倉(cāng)”之間的技術(shù)壁壘有望被打破,湖倉(cāng)一體的概念也應(yīng)運(yùn)而生。所謂湖倉(cāng)一體,就是融合數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的一種新型開(kāi)放式數(shù)據(jù)平臺(tái)架構(gòu),將數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)勢(shì)充分結(jié)合,構(gòu)建在數(shù)據(jù)湖低成本的數(shù)據(jù)存儲(chǔ)架構(gòu)之上,又繼承了數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)處理、分析和管理功能。
從技術(shù)角度看,“湖倉(cāng)一體”架構(gòu)是以多模型數(shù)據(jù)平臺(tái)技術(shù)為依托,打破傳統(tǒng)Hadoop+MPP混合部署模式,實(shí)現(xiàn)湖倉(cāng)技術(shù)架構(gòu)統(tǒng)一。未來(lái),湖倉(cāng)一體作為新一代大數(shù)據(jù)技術(shù)架構(gòu),將逐漸取代單一數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)。
以需求為牽引,湖倉(cāng)一體時(shí)代來(lái)臨
任何技術(shù)的更新迭代都是以需求為牽引的,數(shù)據(jù)平臺(tái)的建設(shè)也不例外。近年來(lái),數(shù)據(jù)分析需求的演進(jìn)趨勢(shì)體現(xiàn)在四個(gè)方面:
第一,數(shù)據(jù)類型多元化。由原來(lái)的以結(jié)構(gòu)化數(shù)據(jù)為主,轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化和實(shí)時(shí)消息數(shù)據(jù)共存的情況。
第二,分析場(chǎng)景多樣化。由原來(lái)的以統(tǒng)計(jì)分析為主,轉(zhuǎn)變?yōu)榻y(tǒng)計(jì)分析、標(biāo)簽分析、全文檢索、 預(yù)測(cè)分析、甚至是基于圖數(shù)據(jù)的推理分析等共存。
第三,分析時(shí)效實(shí)時(shí)化。由以離線分析為主,轉(zhuǎn)變?yōu)閷?shí)時(shí)分析、交互分析、自助分析等。
第四,數(shù)據(jù)管控統(tǒng)一化。由原來(lái)的弱管控模式轉(zhuǎn)變?yōu)榱藦?qiáng)管控,體現(xiàn)在統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)、統(tǒng)一數(shù)據(jù)存儲(chǔ)、統(tǒng)一數(shù)據(jù)治理以及統(tǒng)一數(shù)據(jù)視圖。
在需求演進(jìn)的趨勢(shì)下,企業(yè)級(jí)數(shù)據(jù)平臺(tái)架構(gòu)也進(jìn)行不斷迭代,主要經(jīng)歷了四個(gè)階段:
數(shù)據(jù)庫(kù)階段。在上個(gè)世紀(jì)80年代,數(shù)據(jù)分析主要是基于業(yè)務(wù)數(shù)據(jù)庫(kù),做一些單系統(tǒng)的簡(jiǎn)單分析。
數(shù)據(jù)倉(cāng)庫(kù)階段。到了90年代,數(shù)倉(cāng)的概念開(kāi)始興起,各個(gè)企業(yè)開(kāi)始構(gòu)建自己的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),把業(yè)務(wù)系統(tǒng)數(shù)據(jù)都抽取到數(shù)倉(cāng)之中,進(jìn)行一些多維的、關(guān)聯(lián)性的、融合性的BI分析,以輔助決策。
數(shù)據(jù)湖階段。到了2010年前后,隨著大數(shù)據(jù)技術(shù)的興起,數(shù)據(jù)湖的概念隨之而來(lái)。數(shù)據(jù)湖不僅支持結(jié)構(gòu)化數(shù)據(jù)的處理,同時(shí)還支持半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和查詢。同時(shí),在數(shù)據(jù)應(yīng)用場(chǎng)景上,也更加的多元化,出現(xiàn)了實(shí)時(shí)分析、全文檢索、機(jī)器學(xué)習(xí)等一些新型的分析場(chǎng)景。
在這一階段,大家的關(guān)注點(diǎn)在于用不同的技術(shù)棧來(lái)支撐不同的數(shù)據(jù)分析場(chǎng)景,對(duì)數(shù)據(jù)平臺(tái)架構(gòu)的易用性、可維護(hù)性卻沒(méi)有過(guò)多的關(guān)注,導(dǎo)致很多企業(yè)建設(shè)的數(shù)據(jù)平臺(tái)架構(gòu)非常之復(fù)雜,為后期平臺(tái)迭代以及運(yùn)維都造成了很大困擾。
湖倉(cāng)一體階段。近兩年來(lái),湖倉(cāng)一體的概念興起,企業(yè)開(kāi)始逐步關(guān)注數(shù)據(jù)平臺(tái)架構(gòu)問(wèn)題,更強(qiáng)調(diào)通過(guò)統(tǒng)一的架構(gòu),依托一個(gè)一站式的多模型數(shù)據(jù)平臺(tái)來(lái)解決數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)多樣化的數(shù)據(jù)分析場(chǎng)景。
技術(shù)向業(yè)務(wù)妥協(xié),“湖+倉(cāng)”混合架構(gòu)面臨多重挑戰(zhàn)
在湖倉(cāng)一體的概念出現(xiàn)之前,其實(shí)業(yè)內(nèi)湖+倉(cāng)的混合架構(gòu)已經(jīng)存在了多年,而且有些企業(yè)把這種湖+倉(cāng)的架構(gòu)也稱為湖倉(cāng)一體,實(shí)際上湖倉(cāng)一體并不等于簡(jiǎn)單的數(shù)據(jù)湖+數(shù)據(jù)倉(cāng)庫(kù)。
湖+倉(cāng)混合架構(gòu)有幾個(gè)比較典型的特點(diǎn):
數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)是兩套相對(duì)獨(dú)立的體系,混合部署在一個(gè)數(shù)據(jù)平臺(tái)上。數(shù)據(jù)湖是基于Hadoop技術(shù)來(lái)實(shí)現(xiàn),主要用于支撐多源異構(gòu)的數(shù)據(jù)存儲(chǔ),執(zhí)行批處理、流處理等工作負(fù)載。數(shù)據(jù)倉(cāng)庫(kù)主要基于MPP或者一些關(guān)系型數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn),主要支撐結(jié)構(gòu)化數(shù)據(jù)在OLAP場(chǎng)景下的BI分析和查詢需求。湖和倉(cāng)是互相獨(dú)立的,通過(guò)ETL實(shí)現(xiàn)數(shù)據(jù)的交換。
這種架構(gòu)可以在一定程度上解決企業(yè)多場(chǎng)景的數(shù)據(jù)分析需求,但是也有一些明顯的弊端。
第一,混合部署架構(gòu)較為復(fù)雜,導(dǎo)致架構(gòu)設(shè)計(jì)和項(xiàng)目實(shí)施交付成本較高,且后期平臺(tái)運(yùn)維難度較大。
第二,數(shù)據(jù)冗余非常明顯,增加存儲(chǔ)的成本。Hadoop和MPP都屬于分布式系統(tǒng),分布式系統(tǒng)為了保障數(shù)據(jù)的高可靠性,一般都是通過(guò)冗余備份的方式實(shí)現(xiàn)的。兩種技術(shù)本身都已經(jīng)做了數(shù)據(jù)的冗余備份,采用混合架構(gòu)又避免不了有部分的數(shù)據(jù)既存在Hadoop平臺(tái),又存在MPP平臺(tái),進(jìn)一步增加了數(shù)據(jù)冗余的比例,增加存儲(chǔ)的成本。
第三,數(shù)據(jù)處理的鏈路過(guò)長(zhǎng),影響查詢的時(shí)效性。通常數(shù)據(jù)處理要先入湖,進(jìn)行批處理后再入倉(cāng),在數(shù)倉(cāng)中進(jìn)行主題建模分析,最終為上層提供查詢服務(wù),整個(gè)加工鏈路相對(duì)比較長(zhǎng),而且中間有湖入倉(cāng)還要進(jìn)行一次ETL,影響查詢的時(shí)效性。
第四,數(shù)據(jù)的一致性問(wèn)題,增加了數(shù)據(jù)校驗(yàn)成本。無(wú)論是由湖入倉(cāng)還是由倉(cāng)入湖,實(shí)際上在混合架構(gòu)下都是在兩種數(shù)據(jù)平臺(tái)間的數(shù)據(jù)遷移,在遷移的過(guò)程當(dāng)中難免會(huì)出現(xiàn)數(shù)據(jù)一致性問(wèn)題,增加額外的數(shù)據(jù)校驗(yàn)成本。
湖+倉(cāng)的混合架構(gòu)是技術(shù)向業(yè)務(wù)妥協(xié)的一個(gè)產(chǎn)物,并不是真正意義上的湖倉(cāng)一體平臺(tái)。在前些年,業(yè)內(nèi)沒(méi)有比較成熟的技術(shù)體系能夠同時(shí)滿足“湖”+“倉(cāng)”的所有場(chǎng)景,所以才催生了“Hadoop+MPP”的混合架構(gòu)。
打破“湖”“倉(cāng)”技術(shù)壁壘,湖倉(cāng)一體是未來(lái)演進(jìn)趨勢(shì),其特點(diǎn)有幾個(gè)方面:
多模存儲(chǔ):湖倉(cāng)一體平臺(tái)具備統(tǒng)一數(shù)據(jù)存儲(chǔ)管理能力,支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)統(tǒng)一存儲(chǔ),同時(shí)支持多種數(shù)據(jù)存儲(chǔ)模型;
架構(gòu)統(tǒng)一:湖倉(cāng)一體具備4層統(tǒng)一架構(gòu)。在資源管理層可以實(shí)現(xiàn)統(tǒng)一的資源調(diào)度框架,支持計(jì)算和存儲(chǔ)單元彈性伸縮;在存儲(chǔ)層具備統(tǒng)一數(shù)據(jù)存儲(chǔ)能力,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)統(tǒng)一管理;在計(jì)算層支持統(tǒng)一計(jì)算引擎,可以實(shí)現(xiàn)跨模態(tài)數(shù)據(jù)的融合分析;在接口層支持統(tǒng)一數(shù)據(jù)接口,能夠?yàn)樯蠈討?yīng)用提供統(tǒng)一易用的查詢接口。湖倉(cāng)一體架構(gòu)統(tǒng)一,可以避免混合架構(gòu)帶來(lái)的開(kāi)發(fā)難、運(yùn)維難、存儲(chǔ)成本高、數(shù)據(jù)處理效率底等問(wèn)題。
性能卓越:湖倉(cāng)一體平臺(tái)性能更卓越。因?yàn)樵诮y(tǒng)一架構(gòu)下,數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)都是采用一體化設(shè)計(jì),減少了數(shù)據(jù)加工的鏈路,增加了資源的復(fù)用性,時(shí)效性更好。
全面賦能:通過(guò)湖倉(cāng)一體平臺(tái),可以同時(shí)滿足“湖”“倉(cāng)”的數(shù)據(jù)分析需求,支持多樣化的業(yè)務(wù)場(chǎng)景,能夠?yàn)槠髽I(yè)級(jí)各類業(yè)務(wù)系統(tǒng)、各種分析場(chǎng)景提供全面賦能。
“湖倉(cāng)一體”架構(gòu)以多模型數(shù)據(jù)平臺(tái)技術(shù)為依托,打破Hadoop+MPP混合部署模式,實(shí)現(xiàn)湖倉(cāng)技術(shù)架構(gòu)統(tǒng)一,屬于真正的湖倉(cāng)一體平臺(tái)。
自主可控,星環(huán)科技“湖倉(cāng)一體”的解決之道
星環(huán)科技推出的湖倉(cāng)一體解決方案,總體分為五層架構(gòu):
第一層是基礎(chǔ)設(shè)施層,可以兼容信創(chuàng)自主可控的硬件生態(tài),兼容主流X86及ARM架構(gòu)服務(wù)器,支持CentOS、Redhat、麒麟V10、統(tǒng)信UOS等主流操作系統(tǒng),同時(shí)支持ARM與X86架構(gòu)混合部署。
第二層是統(tǒng)一資源管理層,星環(huán)科技推出基于云原生技術(shù)的容器化操作系統(tǒng)TCOS,提供統(tǒng)一的資源調(diào)度框架,通過(guò)容器化編排,能夠統(tǒng)一調(diào)度計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等各類基礎(chǔ)資源。
第三層是統(tǒng)一存儲(chǔ)管理層,星環(huán)科技研發(fā)了統(tǒng)一的分布式數(shù)據(jù)管理系統(tǒng)TDDMS,為不同存儲(chǔ)引擎提供公共的存儲(chǔ)管理服務(wù),保障數(shù)據(jù)一致性,實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一管理運(yùn)維和高可用。目前分布式數(shù)據(jù)管理系統(tǒng)接入了9款存儲(chǔ)引擎,支持10種數(shù)據(jù)模型的存儲(chǔ)。用戶不需要為不同模型建立單獨(dú)的存儲(chǔ)系統(tǒng),而是通過(guò)統(tǒng)一的存儲(chǔ)管理,降低了運(yùn)維管理成本,也避免了數(shù)據(jù)孤島。同時(shí)分布式數(shù)據(jù)管理系統(tǒng)的插件特性,也方便后續(xù)業(yè)務(wù)的靈活擴(kuò)展,可以根據(jù)需要接入其他存儲(chǔ)引擎。
第四層是統(tǒng)一計(jì)算引擎層,基于分布式計(jì)算引擎Transwarp Nucleon可以根據(jù)不同的存儲(chǔ)引擎自動(dòng)匹配高性能算法,不僅可以支持批處理、流處理等不同類型計(jì)算任務(wù),還支持跨模態(tài)數(shù)據(jù)的融合分析,方便用戶在一個(gè)SQL中使用不同模型的數(shù)據(jù),降低開(kāi)發(fā)難度,提升開(kāi)發(fā)效率。
第五層是統(tǒng)一數(shù)據(jù)操作層,主要提供標(biāo)準(zhǔn)的SQL語(yǔ)法支持,可以實(shí)現(xiàn)統(tǒng)一接口處理不同的業(yè)務(wù)和不同數(shù)據(jù)模型,只需要簡(jiǎn)單的SQL語(yǔ)句即可完成各種復(fù)合跨模型數(shù)據(jù)查詢,無(wú)需訪問(wèn)不同接口即可操作不同的數(shù)據(jù)模型。對(duì)于場(chǎng)景切換、數(shù)據(jù)庫(kù)切換而造成接口、開(kāi)發(fā)語(yǔ)言切換的問(wèn)題就不存在了,開(kāi)發(fā)和遷移成本大大降低。
貫穿這五層架構(gòu),星環(huán)科技湖倉(cāng)一體平臺(tái)還提供了全生命周期的數(shù)據(jù)管控能力,可以實(shí)現(xiàn)多模態(tài)數(shù)據(jù)以及元數(shù)據(jù)的統(tǒng)一管控,同時(shí)還支持統(tǒng)一的多租戶管理,可確保在湖倉(cāng)一體平臺(tái)上的租戶從資源層、數(shù)據(jù)層、應(yīng)用層等都能實(shí)現(xiàn)完整隔離。
八大特點(diǎn)引領(lǐng),星環(huán)科技湖倉(cāng)一體平臺(tái)賦能用戶
那么星環(huán)科技的湖倉(cāng)一體平臺(tái)有什么特點(diǎn)呢?
云原生?;谠圃募軜?gòu),提供容器化的底座,可以根據(jù)業(yè)務(wù)負(fù)載自動(dòng)彈性擴(kuò)縮容,提高整體資源利用率。湖倉(cāng)一體平臺(tái)各組件采用微服務(wù)架構(gòu)設(shè)計(jì),按照功能模塊進(jìn)行切分,在橫向擴(kuò)展以及版本更新方面都具有更高的靈活性。
多模態(tài)異構(gòu)存儲(chǔ)。星環(huán)科技提供一個(gè)多模型的數(shù)據(jù)管理平臺(tái),能夠提升場(chǎng)景的查詢效率,針對(duì)同一份數(shù)據(jù)可以采用多種數(shù)據(jù)模型存放,解決不同場(chǎng)景的效率問(wèn)題。
1湖N倉(cāng)多租戶體系。面向集團(tuán)型企業(yè),可以提供1湖加N倉(cāng)的多租戶體系。在集團(tuán)本部構(gòu)建一個(gè)中心租戶,在中心租戶中建設(shè)集團(tuán)級(jí)數(shù)據(jù)湖,梳理統(tǒng)一的數(shù)據(jù)資產(chǎn)目錄,形成數(shù)據(jù)資產(chǎn)視圖,同時(shí)面向集團(tuán)層面業(yè)務(wù)分析需求,建設(shè)集團(tuán)級(jí)數(shù)據(jù)倉(cāng)庫(kù)。針對(duì)集團(tuán)下屬的業(yè)務(wù)部門、分子公司,或者一些數(shù)據(jù)創(chuàng)新團(tuán)隊(duì),可按需建立自有的租戶,在租戶內(nèi)有獨(dú)立的資源環(huán)境,有獨(dú)立的一套數(shù)據(jù)開(kāi)發(fā)平臺(tái)和工具,可以通過(guò)共享統(tǒng)一數(shù)據(jù)湖的數(shù)據(jù),建設(shè)面向自己業(yè)務(wù)和主題的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市,滿足個(gè)性化的數(shù)據(jù)分析需求。
自主可控。自主可控主要體現(xiàn)在兩個(gè)方面,對(duì)內(nèi),星環(huán)科技一直在堅(jiān)持技術(shù)創(chuàng)新,實(shí)現(xiàn)全面自主可控。對(duì)外,星環(huán)科技也在積極的和信創(chuàng)的上下游去做兼容適配,擁抱整個(gè)信創(chuàng)生態(tài)。
總體而言,星環(huán)科技湖倉(cāng)一體平臺(tái)的優(yōu)勢(shì)包括多模存儲(chǔ)、技術(shù)創(chuàng)新、批流協(xié)同、統(tǒng)一SQL、彈性伸縮、信創(chuàng)自主、全棧工具、降本增效等8大優(yōu)勢(shì)。
目前,星環(huán)科技湖倉(cāng)一體解決方案已經(jīng)在金融、政府、交通、郵政、醫(yī)療、能源等行業(yè)以及部分大型國(guó)有企業(yè)落地應(yīng)用,典型客戶包括中化集團(tuán)、中國(guó)郵政集團(tuán)、廣州農(nóng)商行等。
審核編輯:彭靜
-
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1449瀏覽量
34060 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8889瀏覽量
137444 -
星環(huán)科技
+關(guān)注
關(guān)注
0文章
36瀏覽量
2635
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論