隨著計(jì)算機(jī)技術(shù),傳感器技術(shù)以及互聯(lián)網(wǎng)技術(shù)的發(fā)展,人類的數(shù)據(jù)總量已經(jīng)達(dá)到了前所未有的規(guī)模。數(shù)據(jù)充斥著每個(gè)人的日常生活,企業(yè)每天都面臨著管理數(shù)據(jù)以及使用數(shù)據(jù)的挑戰(zhàn)。目前,存儲(chǔ)數(shù)據(jù)的載體、數(shù)據(jù)的處理技術(shù)以及數(shù)據(jù)的使用的方式方法都在不斷的演進(jìn),企業(yè)用戶對(duì)數(shù)據(jù)價(jià)值的預(yù)期也不斷增加。企業(yè)用戶期望通過數(shù)據(jù)快速帶來商業(yè)價(jià)值,同時(shí)對(duì)數(shù)據(jù)的安全,數(shù)據(jù)隱私與合規(guī)等要求越來越高。
根據(jù)《哈佛商業(yè)評(píng)論》最近一份研究報(bào)告顯示,越來越多的企業(yè)在尋求企業(yè)級(jí)成熟穩(wěn)定的平臺(tái)解決方案,在完成基本的數(shù)據(jù)攝取、數(shù)據(jù)整合批量處理以及數(shù)據(jù)倉庫功能的基礎(chǔ)上,還能面向業(yè)務(wù)人員提供即時(shí)互動(dòng)的分析工具,以及提供建模、數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí),甚至是一些深度訓(xùn)練的平臺(tái)工具。
Cloudera持續(xù)推動(dòng)數(shù)據(jù)管理創(chuàng)新
Cloudera作為企業(yè)數(shù)據(jù)云的領(lǐng)導(dǎo)者,多年來一直致力于將復(fù)雜的數(shù)據(jù)轉(zhuǎn)換為清晰而可行的洞察力。2008 年,順應(yīng)技術(shù)發(fā)展潮流的Cloudera 成立,持續(xù)關(guān)注如何能讓用戶更快的從數(shù)據(jù)里獲取價(jià)值。2019 年,Cloudera 提出了全新利用數(shù)據(jù)的方式—— Cloudera Data Platform(以下簡稱 CDP),賦能企業(yè) IT 從而應(yīng)對(duì)新的商業(yè)挑戰(zhàn)。CDP 是世界上第一款企業(yè)數(shù)據(jù)云平臺(tái)產(chǎn)品,Cloudera 的開源的商業(yè)模式發(fā)展戰(zhàn)略以及新的開源許可模式,為 CDP 未來的發(fā)展提供原動(dòng)力。
本文將探討 Cloudera對(duì)于企業(yè)級(jí)數(shù)據(jù)管理的深刻理解,以及如何在數(shù)據(jù)管理需求不斷更替的今天推動(dòng)開源和創(chuàng)新。
企業(yè)的數(shù)據(jù)管理需求日新月異
以 2020 年為時(shí)間節(jié)點(diǎn),回看過去十年以及展望未來十年,企業(yè)對(duì)數(shù)據(jù)的應(yīng)用需求迥異。
過去的十年里,用戶需求主要集中在解決高效的存儲(chǔ),并且能夠同時(shí)處理大規(guī)模數(shù)據(jù)。通過分布式的方式把數(shù)據(jù)分散在不同的服務(wù)器上,以分而治之的方式來并發(fā)處理數(shù)據(jù),避免網(wǎng)絡(luò)傳輸帶來的消耗和延遲等。Hadoop 在過去十年里解決用戶需求的同時(shí)也在不斷自我演進(jìn)。Cloudera’s Distribution Including Apache Hadoop(CDH)作為眾多 Hadoop 分支的一種,得到了企業(yè)用戶廣泛的認(rèn)可和使用。
未來十年里,現(xiàn)有的數(shù)據(jù)管理使用架構(gòu)與解決方案面臨新的諸多挑戰(zhàn)。例如龐大集群規(guī)模部署時(shí)間長,企業(yè)實(shí)際應(yīng)用中缺乏高效數(shù)據(jù)隱私與安全管理,數(shù)據(jù)災(zāi)難恢復(fù)能力弱,多云及混合云跨云管理繁瑣等。都需要在現(xiàn)有技術(shù)架構(gòu)基礎(chǔ)上進(jìn)行延展從而來應(yīng)對(duì)這些新的挑戰(zhàn)。Cloudera 的全新 CDP 產(chǎn)品就是為了幫助用戶應(yīng)對(duì)未來的新挑戰(zhàn)。
從 Cloudera 數(shù)據(jù)架構(gòu)的迭代,看數(shù)據(jù)管理方式的轉(zhuǎn)變
Cloudera 在 Hadoop 基礎(chǔ)架構(gòu)下發(fā)展出的商業(yè)版 CDH,是第一代架構(gòu)的代表,主要關(guān)注在本地部署云上集中同位的存儲(chǔ)和計(jì)算以及大型共享集群;Cloudera 認(rèn)為的第二代架構(gòu),主要關(guān)注在公有云上的存儲(chǔ)與計(jì)算解耦和多集群,例如 Amazon EMR;Cloudera 目前提出的平臺(tái)方案 CDP 被認(rèn)為是第三代架構(gòu),主要關(guān)注在多云以及混合云上的存儲(chǔ)與計(jì)算解耦,多租戶以及容器化的 SaaS 體驗(yàn)。
去年年初,Cloudera 正式完成與 Hortonwork 的合并,新公司采用 Cloudera 品牌,新數(shù)據(jù)平臺(tái)將 HDP(Hortonworks 數(shù)據(jù)平臺(tái))和 CDH(Cloudera Distribution Hadoop)的功能進(jìn)行結(jié)合,加入安全治理堆棧,支持百分百開源,同時(shí)支持國際主流的五大公有云平臺(tái),這意味著Cloudera 開始全面轉(zhuǎn)變?yōu)橐患覕?shù)據(jù)云公司。
數(shù)據(jù)云公司Cloudera致力于建設(shè)多重能力
在任何云上面,不管是在公有云、私有云,混合云,還是公有云上的任何一朵云,都可以來運(yùn)行 Cloudera 的數(shù)據(jù)平臺(tái)。
提供全數(shù)據(jù)生命周期支持,不只是提供 Hadoop 技術(shù)本身的支持,還提供在整個(gè)數(shù)據(jù)生命周期所有使用到的工具和平臺(tái),包括數(shù)據(jù)采集、IoT、數(shù)據(jù)分析、BI、數(shù)據(jù)倉庫、機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)等。
在數(shù)據(jù)安全和治理上,提出了共享的數(shù)據(jù)體驗(yàn)架構(gòu),實(shí)現(xiàn)存儲(chǔ)層和計(jì)算層的解耦,更好的管理源數(shù)據(jù),同時(shí)實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)分離。對(duì)數(shù)據(jù)的安全、治理、血緣和審計(jì)方面,提供了單獨(dú)的 SDX 工具。
延續(xù) 100% 開源宗旨,保證產(chǎn)品開源開放。
多重能力轉(zhuǎn)化為Cloudera 云數(shù)據(jù)平臺(tái)軟件 CDP
Cloudera 的云數(shù)據(jù)平臺(tái)軟件 CDP可以為企業(yè)從數(shù)據(jù)戰(zhàn)略上提供完整的服務(wù),其多云和混合云的統(tǒng)一平臺(tái)解決方案,可以實(shí)現(xiàn)快速部署,并靈活適用于企業(yè)各自的云使用策略,節(jié)約成本同時(shí)實(shí)現(xiàn)快速上線。全數(shù)據(jù)生命周期的支持可以讓企業(yè)更加高效的使用數(shù)據(jù)和挖掘數(shù)據(jù),提升企業(yè)數(shù)據(jù)價(jià)值。同時(shí)數(shù)據(jù)安全治理為分布各種云上的數(shù)據(jù)提供有效管理。因此,現(xiàn)在的 CDP,既能提供多云與混合云的統(tǒng)一平臺(tái)解決方案,又可以支持企業(yè)全數(shù)據(jù)生命周期中提升數(shù)據(jù)價(jià)值,還能實(shí)現(xiàn)企業(yè)云上的數(shù)據(jù)安全治理。
管理多云、公有云、私有云與混合云的新理念
企業(yè)在使用云的策略上,通常會(huì)根據(jù)其業(yè)務(wù)特點(diǎn)選擇公有云或私有云,有的企業(yè)也會(huì)選擇公有云 + 私有云,并構(gòu)建混合云環(huán)境。Cloudera 在多云以及混合云的使用方面提出了很多新的理念和實(shí)踐。
私有云對(duì)象存儲(chǔ)標(biāo)準(zhǔn)
對(duì)公有云來說,原生云服務(wù)商建立了相關(guān)的對(duì)象存儲(chǔ)標(biāo)準(zhǔn),但私有云目前并沒有對(duì)應(yīng)的標(biāo)準(zhǔn)。Cloudera 通過主推 Ozone 為私有云提供未來的對(duì)象存儲(chǔ)標(biāo)準(zhǔn)。Ozone 是 Cloudera 在 2019 年創(chuàng)建并引入的一個(gè) Hadoop 子項(xiàng)目,是一個(gè)開源的對(duì)象存儲(chǔ)項(xiàng)目。引入 Ozone 是為了能夠徹底解決 HDFS 文件數(shù)量的限制的弱點(diǎn)。目前很多企業(yè)用戶在部署大規(guī)模集群的時(shí)候,都需要使用 HDFS 聯(lián)邦,而 HDFS 聯(lián)邦在實(shí)際應(yīng)用中也存在各種問題,并不是最佳的解決方案,隨著集群規(guī)模不斷的增長,局限性也日益突出。
Cloudera 在不斷研發(fā)一些底層的新的存儲(chǔ)技術(shù),計(jì)劃未來幾年能夠替換 HDFS,為企業(yè)用戶部署大規(guī)模集群提供更加優(yōu)化的解決方案。
數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)處理的集成
結(jié)合 CDP 存儲(chǔ)跟計(jì)算分離的概念,Cloudera 將 Ozone 定位為私有云的數(shù)據(jù)存儲(chǔ)引擎。Ozone 可以被理解為私有云里面的“S3”,所有數(shù)據(jù)都是存放在Ozone 里面,而分離的計(jì)算集群都是通過源數(shù)據(jù),網(wǎng)絡(luò)遠(yuǎn)程處理。未來規(guī)劃中,Hive、Spark、Impala 等一系列的處理引擎都會(huì)跟 Ozone 集成。
同時(shí)私有云版上跟公有云版進(jìn)行映射,從而使存儲(chǔ)的接口和計(jì)算引擎都可以在 Ozone 上實(shí)施。由此不但可以滿足用戶使用對(duì)象存儲(chǔ)接口的需求,而且可以靈活的去分配計(jì)算資源,為開發(fā)帶來便捷。
混合云體驗(yàn)
從不同云的使用上講,CDP 提供公有云、Data Center和私有云版本,并提供體驗(yàn)相同的各種數(shù)據(jù)服務(wù)。例如流式處理、Hive 批量處理、Spark 和即時(shí)查詢等,用戶在私有云環(huán)境里面,可以獲得跟公有云一樣的體驗(yàn)。用戶使用 CDP 在自己搭建部署的云和使用 CDP 在原生云服務(wù)商的公有云時(shí),CDP都會(huì)提供統(tǒng)一的用戶界面和相同的使用的方式,避免了用戶重復(fù)學(xué)習(xí),同時(shí)大大節(jié)約了運(yùn)維集群的時(shí)間。
開源商業(yè)模式及 CDP 發(fā)展戰(zhàn)略
開源是軟件技術(shù)創(chuàng)新的潮流,幾乎所有最新的技術(shù)都是以開源的形式在傳播和推廣。同時(shí)開源會(huì)成就技術(shù)的多樣化,一個(gè)百花齊放社區(qū)的文化可以持續(xù)不斷的發(fā)展。Cloudera 也會(huì)借助開源強(qiáng)大的創(chuàng)新能力,不斷提升對(duì)用戶的服務(wù)。
Cloudera作為一家開源公司,會(huì)延續(xù) 100% 開源的宗旨,并保證產(chǎn)品的持續(xù)開源開放。Cloudera 的新的授權(quán)許可方式整合了 Hortonworks 和 Cloudera各自在之前使用的授權(quán)許可方式,并在合并 Hortonworks 之后做出了一些新的改變:
在任何云上面,不管是在公有云、私有云,混合云,還是公有云上的任何一朵云,都可以來運(yùn)行 Cloudera 的數(shù)據(jù)平臺(tái)。
提供全數(shù)據(jù)生命周期支持,不只是提供 Hadoop 技術(shù)本身的支持,還提供在整個(gè)數(shù)據(jù)生命周期所有使用到的工具和平臺(tái),包括數(shù)據(jù)采集、IoT、數(shù)據(jù)分析、BI、數(shù)據(jù)倉庫、機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)等。
在數(shù)據(jù)安全和治理上,提出了共享的數(shù)據(jù)體驗(yàn)架構(gòu),實(shí)現(xiàn)存儲(chǔ)層和計(jì)算層的解耦,更好的管理源數(shù)據(jù),同時(shí)實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)分離。對(duì)數(shù)據(jù)的安全、治理、血緣和審計(jì)方面,提供了單獨(dú)的 SDX 工具。
延續(xù) 100% 開源宗旨,保證產(chǎn)品開源開放。
訂閱模式為客戶創(chuàng)造新價(jià)值
Cloudera 對(duì)以上新的開源許可策略與其業(yè)務(wù)模型進(jìn)行了有機(jī)的結(jié)合,在最終制定策略方向之前,與客戶、行業(yè)專家、律師、同行公司和員工等進(jìn)行了充分討論與咨詢。采用類似紅帽開源模式,是以更友好的開源軟件企業(yè)化商業(yè)模式服務(wù)于用戶,也突顯了軟件產(chǎn)品“面向服務(wù)”本質(zhì)。而Cloudera 的軟件產(chǎn)品按訂閱方式提供,則減少了購買軟件的麻煩。
購買訂閱服務(wù)與購買私有軟件許可相比,訂閱提供用戶所需的一切,不需要用戶端訪問許可,不需要持續(xù)為升級(jí)投入成本,沒有服務(wù)支持限制以及隱藏費(fèi)用。購買訂閱的用戶可以獲得諸多價(jià)值,例如:
訂閱使用戶可以持續(xù)訪問 Cloudera 的商業(yè)軟件,獲得更新與維護(hù),包括所有安全更新和漏洞修復(fù)。
訂閱不依賴于特定的版本或架構(gòu),讓用戶無需任何代價(jià)即可升級(jí)系統(tǒng),易于基于云的服務(wù)器上輕松部署。
購買訂閱可以獲得 Cloudera 的全球服務(wù)支持,解決用戶的后顧之憂。服務(wù)支持與用戶合作過程中,也打開了用戶與 Cloudera 研發(fā)團(tuán)隊(duì)的通道,在與用戶充分的溝通過程中,研發(fā)團(tuán)隊(duì)也能更好的根據(jù)用戶的反饋研發(fā)更加貼近用戶需求的產(chǎn)品。
Cloudera 擁有 700 多個(gè)研發(fā)工程師,其中大概 300 名左右的 committers,同時(shí)其系列產(chǎn)品在全球幾千個(gè)大型客戶經(jīng)過廣泛的驗(yàn)證,用戶的問題可以得到快速解決。因此企業(yè)用戶訂閱 Cloudera 的企業(yè)版產(chǎn)品,不需要建立各自的技術(shù)團(tuán)隊(duì)進(jìn)行平臺(tái)底層研發(fā)和日常維護(hù),讓企業(yè)最大限度的節(jié)省平臺(tái)成本投入。
用戶訂閱本質(zhì)上是購買 Cloudera 所提供的服務(wù),使用戶能夠釋放出維護(hù)軟件版本所需的大量寶貴的工程師資源,也不必?fù)?dān)心轉(zhuǎn)換平臺(tái)供應(yīng)商所帶來的成本投入,令用戶能將更多資源投入在能產(chǎn)生更多收入的應(yīng)用和產(chǎn)品服務(wù)上。
Cloudera 開發(fā)了諸多開源項(xiàng)目,這些項(xiàng)目已經(jīng)成為行業(yè)標(biāo)準(zhǔn),但是沒有一家公司可以成為創(chuàng)新唯一來源。通過投資Spark,Kbernetes和Kafka等開源項(xiàng)目,通過訂閱服務(wù),用戶可以獲得可持續(xù)發(fā)展的長期架構(gòu)。
通過更開放包容的商業(yè)策略,Cloudera最大限度的發(fā)揮開源社區(qū)創(chuàng)新的原動(dòng)力,持續(xù)為客戶提供更好的服務(wù)。
結(jié)語
在應(yīng)對(duì)企業(yè)用戶新需求方面,CDP 通過簡化操作,減少了在整個(gè)企業(yè)機(jī)構(gòu)內(nèi)上線新用例的時(shí)間。同時(shí)使用機(jī)器學(xué)習(xí)來智能地自動(dòng)調(diào)整工作負(fù)載,能更經(jīng)濟(jì)有效地使用云基礎(chǔ)架構(gòu)。CDP 還可以管理任何環(huán)境中的數(shù)據(jù),包括多種公共云、裸機(jī)、私有云和混合云環(huán)境。此外,借助共享數(shù)據(jù)體驗(yàn)技術(shù)(SDX)、CDP 中的安全和治理功能,IT 人員可以放心地在任何地方提供針對(duì)數(shù)據(jù)運(yùn)行的安全分析。
綜上,Cloudera的集成數(shù)據(jù)平臺(tái)解決方案能夠讓企業(yè)更加靈活的組建符合各自需求的云服務(wù),最終通過使用 CDP 進(jìn)行統(tǒng)一管理。同時(shí),其數(shù)據(jù)隱私以及安全管理方面的設(shè)計(jì),可以幫助企業(yè)保證日常的安全運(yùn)營。此外,Cloudera 在堅(jiān)持開源的基礎(chǔ)上,持續(xù)探索關(guān)于開源生態(tài)、商業(yè)模式的更多可能性。
責(zé)任編輯:gt
-
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4337瀏覽量
85991 -
數(shù)據(jù)采集
+關(guān)注
關(guān)注
39文章
6198瀏覽量
113828 -
IOT
+關(guān)注
關(guān)注
187文章
4221瀏覽量
197166
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論