數(shù)據(jù)湖,是一個(gè)并不新穎卻越來(lái)越被用戶看重的名詞。
從2010年P(guān)entaho公司的創(chuàng)始人兼首席技術(shù)官詹姆斯·狄克遜(James Dixon)首次提出數(shù)據(jù)湖的概念開(kāi)始,數(shù)據(jù)湖十年發(fā)展之路可謂是兜兜轉(zhuǎn)轉(zhuǎn)、起起伏伏。在這期間,既有開(kāi)源廠商們提出的各種營(yíng)銷理念,也有傳統(tǒng)存儲(chǔ)廠商打造的各類解決方案,更有業(yè)界對(duì)于數(shù)據(jù)湖帶來(lái)的數(shù)據(jù)沼澤、數(shù)據(jù)價(jià)值探索等問(wèn)題的深入思考。
時(shí)至如今,數(shù)據(jù)湖雖然經(jīng)歷了各種各樣的“挫折”,但是數(shù)據(jù)湖在數(shù)字化時(shí)代給用戶帶來(lái)的價(jià)值已經(jīng)愈發(fā)清晰。而率先幫助用戶走出數(shù)據(jù)湖價(jià)值落地之路的,不是開(kāi)源廠商,也不是傳統(tǒng)存儲(chǔ)廠商,恰恰是以AWS為代表的云服務(wù)提供商們。
這背后有何緣由?這一切還得從數(shù)據(jù)湖的本質(zhì)談起。
數(shù)據(jù)湖的價(jià)值凸顯
維基百科對(duì)于數(shù)據(jù)湖的定義是:“Data Lake是一個(gè)以原始格式存儲(chǔ)數(shù)據(jù)的存儲(chǔ)庫(kù)或系統(tǒng)。它按原樣存儲(chǔ)數(shù)據(jù),而無(wú)需事先對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理。一個(gè)數(shù)據(jù)湖可以存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及二進(jìn)制數(shù)據(jù)等?!?/p>
數(shù)據(jù)湖最大的價(jià)值在于可以幫助用戶梳理清楚從數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)匯聚到數(shù)據(jù)挖掘這些過(guò)程。比如,相比于數(shù)據(jù)倉(cāng)庫(kù)對(duì)于數(shù)據(jù)協(xié)作有規(guī)則限制,數(shù)據(jù)湖對(duì)于數(shù)據(jù)寫(xiě)入沒(méi)有限制,可以更容易的收集數(shù)據(jù);數(shù)據(jù)湖可以匯聚來(lái)自各種數(shù)據(jù)源的數(shù)據(jù),并進(jìn)行數(shù)據(jù)拉通,從而消除數(shù)據(jù)孤島的問(wèn)題;而數(shù)據(jù)湖中存放著最原始的數(shù)據(jù)則更加有利于數(shù)據(jù)價(jià)值的挖掘。
千萬(wàn)不要小看數(shù)據(jù)湖所能完成的這些數(shù)據(jù)處理過(guò)程。這些都是用戶們?cè)跀?shù)字化時(shí)代發(fā)揮數(shù)據(jù)價(jià)值所必不可少的基礎(chǔ)。時(shí)至今日,數(shù)據(jù)其實(shí)已經(jīng)成為數(shù)字化時(shí)代的一種最為重要的生產(chǎn)資料,數(shù)據(jù)正在加速重塑企業(yè)與組織的生產(chǎn)、經(jīng)營(yíng)、銷售、服務(wù)等流程,就如AWS首席云計(jì)算企業(yè)戰(zhàn)略顧問(wèn)張俠所指出的:“在當(dāng)今企業(yè)中,數(shù)據(jù)流就是企業(yè)的血液流,企業(yè)的數(shù)字化轉(zhuǎn)型很重要的一個(gè)方向就是把數(shù)字化的資產(chǎn)好好利用起來(lái)?!?/p>
數(shù)據(jù)湖成為大勢(shì)所趨
與此同時(shí),數(shù)據(jù)湖在過(guò)去十年并不缺乏產(chǎn)品與解決方案,為何數(shù)據(jù)湖失敗的案例依然不少,為何又是以AWS為代表的云服務(wù)提供商們率先走在數(shù)據(jù)湖解決方案落地的最前沿?
事實(shí)上,作為很早推動(dòng)數(shù)據(jù)湖服務(wù)的公司,AWS的數(shù)據(jù)湖解決方案成功并不是偶然。首先,Amazon作為全球最大的互聯(lián)網(wǎng)公司之一,其數(shù)據(jù)規(guī)模、數(shù)據(jù)復(fù)雜度、數(shù)據(jù)處理難度、數(shù)據(jù)價(jià)值挖掘在業(yè)界無(wú)出其右,由于背靠Amazon,AWS數(shù)據(jù)湖解決方案天然就得到了不斷的歷練,比如Amazon內(nèi)部一個(gè)數(shù)據(jù)湖部署--Galaxy,就存儲(chǔ)了超過(guò)50PB的數(shù)據(jù)量,每天進(jìn)行著多達(dá)60萬(wàn)的數(shù)據(jù)分析任務(wù)。
其次,AWS數(shù)據(jù)湖在產(chǎn)品技術(shù)層面進(jìn)行了持續(xù)的提升與完善,其產(chǎn)品組合的成熟度和豐富程度走在了業(yè)界的前列。舉個(gè)例子,大部分?jǐn)?shù)據(jù)湖解決方案都是基于開(kāi)源Hadoop的,但之前Hadoop集群的計(jì)算和存儲(chǔ)緊耦合架構(gòu),使得數(shù)據(jù)湖架構(gòu)的擴(kuò)展成本高、效率低;而AWS在構(gòu)建數(shù)據(jù)湖解決方案時(shí)候,很重要的一個(gè)選擇就是讓計(jì)算與存儲(chǔ)分離,在存儲(chǔ)上采用S3對(duì)象存儲(chǔ)服務(wù),從而讓數(shù)據(jù)湖解決方案可以更好地應(yīng)用在用戶業(yè)務(wù)領(lǐng)域。
另外,AWS作為云計(jì)算市場(chǎng)的龍頭,其公有云的環(huán)境也有利于數(shù)據(jù)湖解決方案的部署,在過(guò)去十年中為多個(gè)不同行業(yè)、不同規(guī)模的用戶提供相關(guān)的數(shù)據(jù)湖服務(wù),積累了豐富的用戶實(shí)踐經(jīng)驗(yàn)。
在產(chǎn)品、解決方案以及用戶實(shí)踐上的領(lǐng)先其實(shí)就是AWS在數(shù)據(jù)湖領(lǐng)域脫穎而出的秘訣所在。
十年之后,AWS描繪出數(shù)據(jù)湖全景圖
從十年前的概念到如今被越來(lái)越多行業(yè)用戶所認(rèn)同和采用,數(shù)據(jù)湖如今不再只是一個(gè)名詞,它更代表著一種進(jìn)化,它是過(guò)去十年數(shù)字化驅(qū)動(dòng)下,用戶在數(shù)據(jù)層面的需求、技術(shù)、產(chǎn)品不斷進(jìn)化的一個(gè)縮影。
過(guò)去十年移動(dòng)化、社交化帶來(lái)了數(shù)據(jù)指數(shù)級(jí)增長(zhǎng)、數(shù)據(jù)來(lái)源廣泛化、數(shù)據(jù)類型多元化,而像5G、物聯(lián)網(wǎng)、邊緣計(jì)算的興起,只會(huì)加劇數(shù)據(jù)應(yīng)用的趨勢(shì),并且會(huì)讓現(xiàn)代數(shù)據(jù)應(yīng)用的復(fù)雜性進(jìn)一步提升,這恰恰反映出用戶過(guò)去十年對(duì)數(shù)據(jù)應(yīng)用的需求不斷驅(qū)動(dòng)著數(shù)據(jù)湖走向落地。
在技術(shù)層面來(lái)看,云計(jì)算、大數(shù)據(jù)以及人工智能具備天然融合在一起的屬性,云計(jì)算無(wú)疑是過(guò)去十年對(duì)整個(gè)IT產(chǎn)業(yè)界帶來(lái)最大變革的技術(shù),它的彈性、靈活為數(shù)據(jù)湖帶來(lái)了堅(jiān)實(shí)的基礎(chǔ);而人工智能在過(guò)去幾年取得突破性的發(fā)展,使之成為驅(qū)動(dòng)數(shù)據(jù)湖發(fā)展的最大驅(qū)動(dòng)力之一。
而過(guò)去十年也是數(shù)據(jù)湖產(chǎn)品與解決方案不斷走向成熟的十年。像AWS這樣的供應(yīng)商已經(jīng)逐步打造出非常全面與完善的數(shù)據(jù)湖解決方案,可以涵蓋從數(shù)據(jù)收集、匯聚到分析、應(yīng)用、可視化等方方面面。“數(shù)據(jù)湖從2014年進(jìn)入了發(fā)展的第二個(gè)階段。以AWS為例,圍繞數(shù)據(jù)湖相關(guān)的技術(shù)、產(chǎn)品已經(jīng)基本成熟?!睆垈b如是說(shuō)。
根據(jù)介紹,AWS數(shù)據(jù)湖平臺(tái)包括了數(shù)據(jù)倉(cāng)庫(kù)、大數(shù)據(jù)處理、交互查詢、運(yùn)營(yíng)分析、數(shù)據(jù)交換、可視化、實(shí)時(shí)分析、推薦、預(yù)測(cè)分析。事實(shí)上,AWS這種全面的數(shù)據(jù)湖生態(tài)完整覆蓋了數(shù)據(jù)湖的數(shù)據(jù)收集、存儲(chǔ)、分析、應(yīng)用四個(gè)階段,并且這些產(chǎn)品、工具以及服務(wù)彼此之間并不是孤立的,互相配合可以達(dá)到更加出色效果,快速、便捷地幫助用戶構(gòu)建起數(shù)據(jù)湖相關(guān)應(yīng)用。
AWS擁有涵蓋全面的數(shù)據(jù)分析組件
在AWS 數(shù)據(jù)湖平臺(tái)中有很多非常出色的組件,可以幫助用戶解決數(shù)據(jù)湖中典型的挑戰(zhàn)。比如,Amazon EMR大數(shù)據(jù)處理組件,可以在AWS上輕松運(yùn)行Spark、Hadoop、Hive等大數(shù)據(jù)分析。EMR解決了開(kāi)源生態(tài)集群部署與維護(hù)升級(jí)繁雜的痛點(diǎn),這對(duì)于用戶快速應(yīng)用數(shù)據(jù)湖開(kāi)源產(chǎn)品與工具大有裨益,
而 Amazon Redshift是一款性能優(yōu)秀、強(qiáng)大、使用簡(jiǎn)單、全托管的數(shù)據(jù)倉(cāng)庫(kù)服務(wù),可以輕松進(jìn)行大規(guī)模并行處理,支持TB級(jí)規(guī)模數(shù)據(jù)的擴(kuò)展,可以通過(guò)Spectrum引起將查詢擴(kuò)展到Amazon S3,與數(shù)據(jù)湖集成可以進(jìn)行EB級(jí)的數(shù)據(jù)湖分析。
其他像Amazon Kinesis、AWS Lake Formation、Amazon Aurora、Amazon S3等都是AWS上深受用戶喜歡的產(chǎn)品與服務(wù)。張俠認(rèn)為:“數(shù)據(jù)湖在云計(jì)算時(shí)代得以快速發(fā)展,它發(fā)展到現(xiàn)在已經(jīng)包含了所有的數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)等服務(wù),是企業(yè)數(shù)據(jù)體系的基礎(chǔ)。數(shù)據(jù)湖其實(shí)比國(guó)內(nèi)流行的數(shù)據(jù)中臺(tái)更加全面,任何想構(gòu)建數(shù)據(jù)中臺(tái)的企業(yè)其實(shí)都可以在AWS找到全面的解決方案?!?/p>
多款新品落地,AWS加速中國(guó)數(shù)據(jù)湖應(yīng)用
在中國(guó)市場(chǎng),各個(gè)行業(yè)用戶對(duì)于數(shù)據(jù)湖也是經(jīng)歷了一個(gè)從認(rèn)知到認(rèn)可的過(guò)程。張俠坦言,當(dāng)前中國(guó)市場(chǎng)的數(shù)據(jù)湖應(yīng)用依然處于早期階段,整個(gè)市場(chǎng)有著非常大的潛力。
中國(guó)數(shù)據(jù)湖市場(chǎng)之所以是一個(gè)重要且廣闊的市場(chǎng),無(wú)外乎三點(diǎn):
首先,中國(guó)對(duì)于數(shù)字經(jīng)濟(jì)的重視程度超乎想象,從國(guó)家政策還是企業(yè)自身都對(duì)于發(fā)展數(shù)字經(jīng)濟(jì)有著廣泛的共識(shí),數(shù)字經(jīng)濟(jì)加速推動(dòng)了各個(gè)行業(yè)的數(shù)字化進(jìn)程。根據(jù)IDC《數(shù)據(jù)時(shí)代2025》白皮書(shū)預(yù)測(cè),中國(guó)數(shù)據(jù)量預(yù)計(jì)在未來(lái)7年將每年平均增長(zhǎng)30%,位居世界第一,隨之而來(lái)的就是對(duì)于數(shù)據(jù)存儲(chǔ)、匯聚、分析越來(lái)越多的需求。
其次,在經(jīng)歷了多年的“企業(yè)上云”之后,各行各業(yè)對(duì)于云計(jì)算的認(rèn)知和認(rèn)可已經(jīng)形成,在企業(yè)加速上云這個(gè)過(guò)程中,數(shù)據(jù)湖作為與云計(jì)算天然緊密聯(lián)系在一起的應(yīng)用,其實(shí)已經(jīng)具備了非常好的基礎(chǔ)設(shè)施環(huán)境,用戶在上云之后逐步采用數(shù)據(jù)湖服務(wù)也是順勢(shì)而為。
再次,中國(guó)市場(chǎng)在5G、人工智能、物聯(lián)網(wǎng)等領(lǐng)域的步伐快速,尤其是5G商用所帶來(lái)的云計(jì)算、通信、大數(shù)據(jù)、人工智能等多項(xiàng)技術(shù)走向融合,未來(lái)在各個(gè)行業(yè)中會(huì)催生出更多新的現(xiàn)代化數(shù)據(jù)應(yīng)用場(chǎng)景,數(shù)據(jù)湖在這個(gè)過(guò)程中將會(huì)起到重要的支撐作用。
AWS在數(shù)據(jù)湖領(lǐng)域深厚的積累有助于推動(dòng)中國(guó)數(shù)據(jù)湖應(yīng)用落地
據(jù)悉,針對(duì)中國(guó)市場(chǎng),AWS近期在中國(guó)兩個(gè)區(qū)域陸續(xù)上線了多款重磅級(jí)的新產(chǎn)品與新服務(wù),其中就包括AWS Glue和Amazon Athena兩款跟數(shù)據(jù)湖相關(guān)的服務(wù)。張俠透露:“AWS中國(guó)之后會(huì)陸續(xù)上線數(shù)據(jù)湖相關(guān)的產(chǎn)品與服務(wù)。隨著越來(lái)越多服務(wù)落地中國(guó),中國(guó)區(qū)用戶可以在短短幾天之內(nèi)完成數(shù)據(jù)湖的建立工作?!?/p>
例如,AWS Glue是數(shù)據(jù)湖應(yīng)用中一款非常重要的服務(wù),它可以幫助用戶建立起無(wú)服務(wù)器架構(gòu)的數(shù)據(jù)目錄和ETL服務(wù),自動(dòng)發(fā)現(xiàn)數(shù)據(jù)并存儲(chǔ)Schema,與AWS上運(yùn)行的Aurora、RDS、Redshift、S3和數(shù)據(jù)庫(kù)引擎天然集成,這將給用戶在使用數(shù)據(jù)湖帶來(lái)巨大好處。舉個(gè)例子,用戶之前想將數(shù)據(jù)導(dǎo)入Redshift云數(shù)據(jù)倉(cāng)庫(kù),之前需要自己寫(xiě)ETL管道,非常不方便,如今有了AWS Glue能夠快速完成數(shù)據(jù)的抽取、轉(zhuǎn)換和加載。
“中國(guó)市場(chǎng)的確是到了該好好研究與使用數(shù)據(jù)湖的階段了,尤其是5G、邊緣計(jì)算應(yīng)用上來(lái)之后,在數(shù)據(jù)層面更應(yīng)該匹配走數(shù)據(jù)湖這條路?!睆垈b最后表示道。
總體而言,數(shù)據(jù)湖一晃已經(jīng)走過(guò)了十年,從一個(gè)概念逐步走向落地。在這十年中,以AWS為代表云服務(wù)提供商們真是洞悉了用戶在數(shù)據(jù)湖上的需求,并且圍繞數(shù)據(jù)湖打造出來(lái)的一系列全面的產(chǎn)品體系,使得數(shù)據(jù)湖真正走出了一條價(jià)值之路。
十年意味著一個(gè)階段的結(jié)束,也預(yù)示著下一個(gè)階段的開(kāi)啟。數(shù)據(jù)湖在未來(lái)會(huì)有更大的舞臺(tái)。
-
AWS
+關(guān)注
關(guān)注
0文章
432瀏覽量
24392
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論