av无码aV天天aV天天爽,国产精品一区理论片,亚洲AV无码专区电影在线观看

我們很榮幸能夠見證Hadoop十年從無到有，再到稱王。感動于技術(shù)的日新月異時，希望通過這篇內(nèi)容深入解讀Hadoop的昨天、今天和明天，憧憬下一個十年。

本文分為技術(shù)篇、產(chǎn)業(yè)篇、應(yīng)用篇、展望篇四部分

技術(shù)篇

2006年項目成立的一開始，“Hadoop”這個單詞只代表了兩個組件——HDFS和MapReduce。到現(xiàn)在的10個年頭，這個單詞代表的是“核心”（即Core Hadoop項目）以及與之相關(guān)的一個不斷成長的生態(tài)系統(tǒng)。這個和Linux非常類似，都是由一個核心和一個生態(tài)系統(tǒng)組成。

現(xiàn)在Hadoop在一月發(fā)布了2.7.2的穩(wěn)定版，已經(jīng)從傳統(tǒng)的Hadoop三駕馬車HDFS，MapReduce和HBase社區(qū)發(fā)展為60多個相關(guān)組件組成的龐大生態(tài)，其中包含在各大發(fā)行版中的組件就有25個以上，包括數(shù)據(jù)存儲、執(zhí)行引擎、編程和數(shù)據(jù)訪問框架等。

Hadoop在2.0將資源管理從MapReduce中獨立出來變成通用框架后，就從1.0的三層結(jié)構(gòu)演變?yōu)榱爽F(xiàn)在的四層架構(gòu)：

底層——存儲層，文件系統(tǒng)HDFS

中間層——資源及數(shù)據(jù)管理層，YARN以及Sentry等

上層——MapReduce、Impala、Spark等計算引擎

頂層——基于MapReduce、Spark等計算引擎的高級封裝及工具，如Hive、Pig、Mahout等等

存儲層

HDFS已經(jīng)成為了大數(shù)據(jù)磁盤存儲的事實標準，用于海量日志類大文件的在線存儲。經(jīng)過這些年的發(fā)展，HDFS的架構(gòu)和功能基本固化，像HA、異構(gòu)存儲、本地數(shù)據(jù)短路訪問等重要特性已經(jīng)實現(xiàn)，在路線圖中除了Erasure Code已經(jīng)沒什么讓人興奮的feature。

隨著HDFS越來越穩(wěn)定，社區(qū)的活躍度也越來越低，同時HDFS的使用場景也變得成熟和固定，而上層會有越來越多的文件格式封裝：列式存儲的文件格式，如Parquent，很好的解決了現(xiàn)有BI類數(shù)據(jù)分析場景；以后還會出現(xiàn)新的存儲格式來適應(yīng)更多的應(yīng)用場景，如數(shù)組存儲來服務(wù)機器學(xué)習(xí)類應(yīng)用等。未來HDFS會繼續(xù)擴展對于新興存儲介質(zhì)和服務(wù)器架構(gòu)的支持。

2015年HBase 發(fā)布了1.0版本，這也代表著 HBase 走向了穩(wěn)定。最新HBase新增特性包括：更加清晰的接口定義，多Region 副本以支持高可用讀，F(xiàn)amily粒度的Flush以及RPC讀寫隊列分離等。未來HBase不會再添加大的新功能，而將會更多的在穩(wěn)定性和性能方面進化，尤其是大內(nèi)存支持、內(nèi)存GC效率等。

Kudu是Cloudera在2015年10月才對外公布的新的分布式存儲架構(gòu)，與HDFS完全獨立。其實現(xiàn)參考了2012年Google發(fā)表的Spanner論文。鑒于Spanner在Google 內(nèi)部的巨大成功，Kudu被譽為下一代分析平臺的重要組成，用于處理快速數(shù)據(jù)的查詢和分析，填補HDFS和HBase之間的空白。其出現(xiàn)將進一步把Hadoop市場向傳統(tǒng)數(shù)據(jù)倉庫市場靠攏。

Apache Arrow項目為列式內(nèi)存存儲的處理和交互提供了規(guī)范。目前來自Apache Hadoop社區(qū)的開發(fā)者們致力于將它制定為大數(shù)據(jù)系統(tǒng)項目的事實性標準。

Arrow項目受到了Cloudera、Databricks等多個大數(shù)據(jù)巨頭公司支持，很多committer同時也是其他明星大數(shù)據(jù)項目（如HBase、Spark、Kudu等）的核心開發(fā)人員。再考慮到Tachyon等似乎還沒有找到太多實際接地氣的應(yīng)用場景，Arrow的高調(diào)出場可能會成為未來新的內(nèi)存分析文件接口標準。

管控層

管控又分為數(shù)據(jù)管控和資源管控。

隨著Hadoop集群規(guī)模的增大以及對外服務(wù)的擴展，如何有效可靠的共享利用資源是管控層需要解決的問題。脫胎于MapReduce1.0的YARN成為了Hadoop 2.0通用資源管理平臺。由于占據(jù)了Hadoop的地利，業(yè)界對其在資源管理領(lǐng)域未來的前景非?？春谩?/p>

傳統(tǒng)其他資源管理框架如Mesos，還有現(xiàn)在興起的Docker等都會對YARN未來的發(fā)展產(chǎn)生影響。如何提高YARN性能、如何與容器技術(shù)深度融合，如何更好的適應(yīng)短任務(wù)的調(diào)度，如何更完整的多租戶支持、如何細粒度的資源管控等都是企業(yè)實際生產(chǎn)中迫在眉睫的需求，需要YARN解決。要讓Hadoop走得更遠，未來YARN需要做的工作還很多。

另一方面大數(shù)據(jù)的安全和隱私越來越多的受到關(guān)注。Hadoop依靠且僅依靠Kerberos來實現(xiàn)安全機制，但每一個組件都將進行自己的驗證和授權(quán)策略。開源社區(qū)似乎從來不真正關(guān)心安全問題，如果不使用來自Hortonworks的Ranger或來自Cloudera 的Sentry這樣的組件，那么大數(shù)據(jù)平臺基本上談不上安全可靠。

Cloudera剛推出的RecordService組件使得Sentry在安全競賽中拔得先機。RecordService不僅提供了跨所有組件一致的安全顆粒度，而且提供了基于Record的底層抽象（有點像Spring，代替了原來Kite SDK的作用），讓上層的應(yīng)用和下層存儲解耦合的同時、提供了跨組件的可復(fù)用數(shù)據(jù)模型。

計算引擎層

Hadoop生態(tài)和其他生態(tài)最大的不同之一就是“單一平臺多種應(yīng)用”的理念了。傳的數(shù)據(jù)庫底層只有一個引擎，只處理關(guān)系型應(yīng)用，所以是“單一平臺單一應(yīng)用”；而NoSQL市場有上百個NoSQL軟件，每一個都針對不同的應(yīng)用場景且完全獨立，因此是“多平臺多應(yīng)用”的模式。而Hadoop在底層共用一份HDFS存儲，上層有很多個組件分別服務(wù)多種應(yīng)用場景，如：

確定性數(shù)據(jù)分析：主要是簡單的數(shù)據(jù)統(tǒng)計任務(wù)，例如OLAP，關(guān)注快速響應(yīng)，實現(xiàn)組件有Impala等；

探索性數(shù)據(jù)分析：主要是信息關(guān)聯(lián)性發(fā)現(xiàn)任務(wù)，例如搜索，關(guān)注非結(jié)構(gòu)化全量信息收集，實現(xiàn)組件有Search等；

預(yù)測性數(shù)據(jù)分析：主要是機器學(xué)習(xí)類任務(wù)，例如邏輯回歸等，關(guān)注計算模型的先進性和計算能力，實現(xiàn)組件有Spark、MapReduce等；

數(shù)據(jù)處理及轉(zhuǎn)化：主要是ETL類任務(wù)，例如數(shù)據(jù)管道等，關(guān)注IO吞吐率和可靠性，實現(xiàn)組件有MapReduce等

…

其中，最耀眼的就是Spark了。IBM宣布培養(yǎng)100萬名Spark開發(fā)人員，Cloudera在One Platform倡議中宣布支持Spark為Hadoop的缺省通用任務(wù)執(zhí)行引擎，加上Hortonworks全力支持Spark，我們相信Spark將會是未來大數(shù)據(jù)分析的核心。

雖然Spark很快，但現(xiàn)在在生產(chǎn)環(huán)境中仍然不盡人意，無論擴展性、穩(wěn)定性、管理性等方面都需要進一步增強。同時，Spark在流處理領(lǐng)域能力有限，如果要實現(xiàn)亞秒級或大容量的數(shù)據(jù)獲取或處理需要其他流處理產(chǎn)品。Cloudera宣布旨在讓Spark流數(shù)據(jù)技術(shù)適用于80%的使用場合，就考慮到了這一缺陷。我們確實看到實時分析（而非簡單數(shù)據(jù)過濾或分發(fā)）場景中，很多以前使用S4或Storm等流式處理引擎的實現(xiàn)已經(jīng)逐漸Kafka+Spark Streaming代替。

Spark的流行將逐漸讓MapReduce、Tez走進博物館。

服務(wù)層

服務(wù)層是包裝底層引擎的編程API細節(jié)，對業(yè)務(wù)人員提供更高抽象的訪問模型，如Pig、Hive等。

而其中最炙手可熱的就是OLAP的SQL市場了?，F(xiàn)在，Spark有70%的訪問量來自于SparkSQL！SQL on Hadoop到底哪家強？Hive、Facebook的Pheonix、Presto、SparkSQL、Cloudera推的Impala、MapR推的Drill、IBM的BigSQL、還是Pivital開源的HAWQ？

這也許是碎片化最嚴重的地方了，從技術(shù)上講幾乎每個組件都有特定的應(yīng)用場景，從生態(tài)上講各個廠家都有自己的寵愛，因此Hadoop上SQL引擎已經(jīng)不僅僅是技術(shù)上的博弈（也因此考慮到本篇中立性，此處不做評論）?？梢杂鲆姷氖?，未來所有的SQL工具都將被整合，有些產(chǎn)品已經(jīng)在競爭鐘逐漸落伍，我們期待市場的選擇。

周邊的工具更是百花齊放，最重要的莫過于可視化、任務(wù)管理和數(shù)據(jù)管理了。

有很多開源工具都支持基于Hadoop 的查詢程序編寫以及即時的圖形化表示，如HUE、Zeppelin等。用戶可以編寫一些SQL或Spark代碼以及描述代碼的一些標記，并指定可視化的模版，執(zhí)行后保存起來，就可供其他人復(fù)用，這鐘模式也被叫做“敏捷BI”。這個領(lǐng)域的商業(yè)產(chǎn)品更是競爭激烈，如Tableau、Qlik等。

調(diào)度類工具的鼻祖Oozie能實現(xiàn)幾個MapReduce任務(wù)串連運行的場景，后來的Nifi及Kettle等其他工具則提供了更加強大的調(diào)度實現(xiàn)，值得一試。

毫無疑問，相對與傳統(tǒng)的數(shù)據(jù)庫生態(tài)，Hadoop的數(shù)據(jù)治理相對簡單。Atlas是Hortonworks新的數(shù)據(jù)治理工具，雖然還談不上完全成熟，不過正取得進展。Cloudera的Navigator是Cloudera商業(yè)版本的核心，匯聚了生命周期管理、數(shù)據(jù)溯源、安全、審計、SQL遷移工具等一系列功能。Cloudera收購Explain.io以后將其產(chǎn)品整合為Navigator Optimizator組件，能幫助用戶把傳統(tǒng)的SQL應(yīng)用遷移到Hadoop平臺并提供優(yōu)化建議，可以節(jié)省數(shù)人月的工作量。

算法及機器學(xué)習(xí)

實現(xiàn)基于機器學(xué)習(xí)的自動的智能化數(shù)據(jù)價值挖掘是大數(shù)據(jù)和Hadoop最誘人的愿景了，也是很多企業(yè)對大數(shù)據(jù)平臺的最終期望。隨著可獲得的數(shù)據(jù)越來越多，未來大數(shù)據(jù)平臺的價值更多的取決于其計算人工智能的程度。

現(xiàn)在機器學(xué)習(xí)正慢慢跨出象牙塔，從一個少部分學(xué)術(shù)界人士研究的科技課題變成很多企業(yè)正在驗證使用的數(shù)據(jù)分析工具，而且已經(jīng)越來越多的進入我們的日常生活。

機器學(xué)習(xí)的開源項目除了之前的Mahout、MLlib、Oryx等，今年發(fā)生了很多令人矚目的大事，迎來了數(shù)個明星巨頭的重磅加入：

2015年1月，F(xiàn)acebook開源前沿深度學(xué)習(xí)工具“Torch”。

2015年4月，亞馬遜啟動其機器學(xué)習(xí)平臺Amazon Machine Learning，這是一項全面的托管服務(wù)，讓開發(fā)者能夠輕松使用歷史數(shù)據(jù)開發(fā)并部署預(yù)測模型。

2015年11月，谷歌開源其機器學(xué)習(xí)平臺TensorFlow。

同一月，IBM開源SystemML并成為Apache官方孵化項目。

同時，微軟亞洲研究院將分布式機器學(xué)習(xí)工具DMTK通過Github開源。DMTK由一個服務(wù)于分布式機器學(xué)習(xí)的框架和一組分布式機器學(xué)習(xí)算法組成，可將機器學(xué)習(xí)算法應(yīng)用到大數(shù)據(jù)中。

2015年12月，F(xiàn)acebook開源針對神經(jīng)網(wǎng)絡(luò)研究的服務(wù)器“Big Sur”，配有高性能圖形處理單元（GPUs），轉(zhuǎn)為深度學(xué)習(xí)方向設(shè)計的芯片。

產(chǎn)業(yè)篇

現(xiàn)在使用Hadoop的企業(yè)以及靠Hadoop賺錢的企業(yè)已經(jīng)成千上萬。幾乎大的企業(yè)或多或少的已經(jīng)使用或者計劃嘗試使用Hadoop技術(shù)。就對Hadoop定位和使用不同，可以將Hadoop業(yè)界公司劃分為四類：

第一梯隊：這類公司已經(jīng)將Hadoop當作大數(shù)據(jù)戰(zhàn)略武器。

第二梯隊：這類公司將Hadoop 產(chǎn)品化。

第三梯隊：這類公司創(chuàng)造對Hadoop整體生態(tài)系統(tǒng)產(chǎn)生附加價值的產(chǎn)品。

第四梯隊：這類公司消費Hadoop，并給規(guī)模比第一類和第二類小的公司提供基于Hadoop的服務(wù)。

時至今日，Hadoop雖然在技術(shù)上已經(jīng)得到驗證、認可甚至已經(jīng)到了成熟期。其中最能代表Hadoop發(fā)展軌跡的莫過于商業(yè)公司推出的Hadoop發(fā)行版了。自從2008年Cloudera成為第一個Hadoop商業(yè)化公司，并在2009年推出第一個Hadoop發(fā)行版后，很多大公司也加入了做Hadoop產(chǎn)品化的行列。

“發(fā)行版”這個詞是開源文化特有的符號，看起來任何一個公司只要將開源代碼打個包，再多多少少加個佐料就能有一個“發(fā)行版”，然而背后是對海量生態(tài)系統(tǒng)組件的價值篩選、兼容和集成保證以及支撐服務(wù)。

2012年以前的發(fā)行版基本為對Hadoop打補丁為主，出現(xiàn)了好幾個私有化Hadoop版本，所折射的是Hadoop產(chǎn)品在質(zhì)量上的缺陷。同期HDFS、HBase等社區(qū)的超高活躍度印證了這個事實。

而之后的公司更多是工具、集成、管理，所提供的不是“更好的Hadoop”而是如何更好的用好“現(xiàn)有”的Hadoop。

2014年以后，隨著Spark和其他OLAP產(chǎn)品的興起，折射出來是Hadoop善長的離線場景等已經(jīng)能夠很好的解決，希望通過擴大生態(tài)來適應(yīng)新的硬件和拓展新的市場。

Cloudera提出了Hybrid Open Source的架構(gòu)：核心組件名稱叫CDH（Cloudera's Distribution including Apache Hadoop），開源免費并與Apache社區(qū)同步，用戶無限制使用，保證Hadoop基本功能持續(xù)可用，不會被廠家綁定；數(shù)據(jù)治理和系統(tǒng)管理組件閉源且需要商業(yè)許可，支持客戶可以更好更方便的使用Hadoop技術(shù)，如部署安全策略等。Cloudera也在商業(yè)組件部分提供在企業(yè)生產(chǎn)環(huán)境中運行Hadoop所必需的運維功能，而這些功能并不被開源社區(qū)所覆蓋，如無宕機滾動升級、異步災(zāi)備等。

Hortonworks采用了100%完全開源策略，產(chǎn)品名稱為HDP（Hortonworks Data Platform）。所有軟件產(chǎn)品開源，用戶免費使用，Hortonworks提供商業(yè)的技術(shù)支持服務(wù)。與CDH相比，管理軟件使用開源Ambari，數(shù)據(jù)治理使用Atlas，安全組件使用Ranger而非Sentry，SQL繼續(xù)緊抱Hive大腿。

MapR采用了傳統(tǒng)軟件廠商的模式，使用私有化的實現(xiàn)。用戶購買軟件許可后才能使用。其OLAP產(chǎn)品主推Drill，又不排斥Impala。

現(xiàn)在主流的公有云如AWS、Azure等都已經(jīng)在原有提供虛擬機的IaaS服務(wù)之外，提供基于Hadoop的PaaS云計算服務(wù)。未來這塊市場的發(fā)展將超過私有Hadoop部署。

應(yīng)用篇

Hadoop平臺釋放了前所未有的計算能力，同時大大降低了計算成本。底層核心基礎(chǔ)架構(gòu)生產(chǎn)力的發(fā)展，必然帶來的是大數(shù)據(jù)應(yīng)用層的迅速建立。

對于Hadoop上的應(yīng)用大致可以分為這兩類：

IT優(yōu)化

將已經(jīng)實現(xiàn)的應(yīng)用和業(yè)務(wù)搬遷到Hadoop平臺，以獲得更多的數(shù)據(jù)、更好的性能或更低的成本。通過提高產(chǎn)出比、降低生產(chǎn)和維護成本等方式為企業(yè)帶來好處。

這幾年Hadoop在數(shù)個此類應(yīng)用場景中已經(jīng)被證明是非常適合的解決方案，包括：

歷史日志數(shù)據(jù)在線查詢：傳統(tǒng)的解決方案將數(shù)據(jù)存放在昂貴的關(guān)系型數(shù)據(jù)庫中，不僅成本高、效率低，而且無法滿足在線服務(wù)時高并發(fā)的訪問量。以HBase為底層存儲和查詢引擎的架構(gòu)非常適合有固定場景（非ad hoc）的查詢需求，如航班查詢、個人交易記錄查詢等等?，F(xiàn)在已經(jīng)成為在線查詢應(yīng)用的標準方案，中國移動在企業(yè)技術(shù)指導(dǎo)意見中明確指明使用HBase技術(shù)來實現(xiàn)所有分公司的清賬單查詢業(yè)務(wù)。

ETL任務(wù)：不少廠商已經(jīng)提供了非常優(yōu)秀的ETL產(chǎn)品和解決方案，并在市場中得到了廣泛的應(yīng)用。然而在大數(shù)據(jù)的場景中，傳統(tǒng)ETL遇到了性能和QoS保證上的嚴重挑戰(zhàn)。多數(shù)ETL任務(wù)是輕計算重IO類型的，而傳統(tǒng)的IT硬件方案，如承載數(shù)據(jù)庫的小型計算機，都是為計算類任務(wù)設(shè)計的，即使使用了最新的網(wǎng)絡(luò)技術(shù)，IO也頂多到達幾十GB。

采用分布式架構(gòu)的Hadoop提供了完美的解決方案，不僅使用share-nothing的scale-out架構(gòu)提供了能線性擴展的無限IO，保證了ETL任務(wù)的效率，同時框架已經(jīng)提供負載均衡、自動FailOver等特性保證了任務(wù)執(zhí)行的可靠性和可用性。

數(shù)據(jù)倉庫offload：傳統(tǒng)數(shù)據(jù)倉庫中有很多離線的批量數(shù)據(jù)處理業(yè)務(wù)，如日報表、月報表等，占用了大量的硬件資源。而這些任務(wù)通常又是Hadoop所善長的

經(jīng)常被問到的一個問題就是，Hadoop是否可以代替數(shù)據(jù)倉庫，或者說企業(yè)是否可以使用免費的Hadoop來避免采購昂貴的數(shù)據(jù)倉庫產(chǎn)品。數(shù)據(jù)庫界的泰斗Mike Stonebroker在一次技術(shù)交流中說：數(shù)據(jù)倉庫和Hadoop所針對的場景重合型非常高，未來這兩個市場一定會合并。

我們相信在數(shù)據(jù)倉庫市場Hadoop會遲早替代到現(xiàn)在的產(chǎn)品，只不過，那時候的Hadoop已經(jīng)又不是現(xiàn)在的樣子了。就現(xiàn)在來講，Hadoop還只是數(shù)據(jù)倉庫產(chǎn)品的一個補充，和數(shù)據(jù)倉庫一起構(gòu)建混搭架構(gòu)為上層應(yīng)用聯(lián)合提供服務(wù)。

業(yè)務(wù)優(yōu)化

在Hadoop上實現(xiàn)原來尚未實現(xiàn)的算法、應(yīng)用，從原有的生產(chǎn)線中孵化出新的產(chǎn)品和業(yè)務(wù)，創(chuàng)造新的價值。通過新業(yè)務(wù)為企業(yè)帶來新的市場和客戶，從而增加企業(yè)收入。

Hadoop提供了強大的計算能力，專業(yè)大數(shù)據(jù)應(yīng)用已經(jīng)在幾乎任何垂直領(lǐng)域都很出色，從銀行業(yè)（反欺詐、征信等）、醫(yī)療保?。ㄌ貏e是在基因組學(xué)和藥物研究），到零售業(yè)、服務(wù)業(yè)（個性化服務(wù)、智能服務(wù)，如UBer的自動派車功能等）。

在企業(yè)內(nèi)部，各種工具已經(jīng)出現(xiàn)，以幫助企業(yè)用戶操作核心功能。例如，大數(shù)據(jù)通過大量的內(nèi)部和外部的數(shù)據(jù)，實時更新數(shù)據(jù)，可以幫助銷售和市場營銷弄清楚哪些客戶最有可能購買。客戶服務(wù)應(yīng)用可以幫助個性化服務(wù); HR應(yīng)用程序可幫助找出如何吸引和留住最優(yōu)秀的員工等。

為什么Hadoop如此成功？這個問題似乎是個馬后炮，但當我們今天驚嘆于Hadoop在短短10年時間取得如此統(tǒng)治性地位的時候，確實會自然而然地思考為什么這一切會發(fā)生?；谂c同期其他項目的比較，我們認為有很多因素的綜合作用造就了這一奇跡：

技術(shù)架構(gòu)：Hadoop推崇的本地化計算理念，其實現(xiàn)在可擴展性、可靠性上的優(yōu)勢，以及有彈性的多層級架構(gòu)等都是領(lǐng)先其他產(chǎn)品而獲得成功的內(nèi)在因素。沒有其他任何一個這樣復(fù)雜的系統(tǒng)能快速的滿足不斷變化的用戶需求。

硬件發(fā)展：摩爾定律為代表的scale up架構(gòu)遇到了技術(shù)瓶頸，不斷增加的計算需求迫使軟件技術(shù)不得不轉(zhuǎn)到分布式方向?qū)ふ医鉀Q方案。同時，PC服務(wù)器技術(shù)的發(fā)展使得像Hadoop這樣使用廉價節(jié)點組群的技術(shù)變?yōu)榭尚校瑫r還具有很誘人的性價比優(yōu)勢。

工程驗證：Google發(fā)表GFS和MapReduce論文時已經(jīng)在內(nèi)部有了可觀的部署和實際的應(yīng)用，而Hadoop在推向業(yè)界之前已經(jīng)在Yahoo等互聯(lián)網(wǎng)公司驗證了工程上的可靠性和可用性，極大的增加了業(yè)界信心，從而迅速被接納流行。而大量的部署實例又促進了Hadoop的發(fā)展喝成熟。

社區(qū)推動：Hadoop生態(tài)一直堅持開源開放，友好的Apache許可基本消除了廠商和用戶的進入門檻，從而構(gòu)建了有史以來最大最多樣化最活躍的開發(fā)者社區(qū)，持續(xù)地推動著技術(shù)發(fā)展，讓Hadoop超越了很多以前和同期的項目。

關(guān)注底層：Hadoop 的根基是打造一個分布式計算框架，讓應(yīng)用程序開發(fā)人員更容易的工作。業(yè)界持續(xù)推動的重點一直在不斷夯實底層，并在諸如資源管理和安全領(lǐng)域等領(lǐng)域不斷開花結(jié)果，為企業(yè)生產(chǎn)環(huán)境部署不斷掃清障礙。

下一代分析平臺

過去的十年中Apache Hadoop社區(qū)以瘋狂的速度發(fā)展，現(xiàn)在儼然已經(jīng)是事實上的大數(shù)據(jù)平臺標準。但仍有更多的工作要做！大數(shù)據(jù)應(yīng)用未來的價值在于預(yù)測，而預(yù)測的核心是分析。下一代的分析平臺會是什么樣呢？它必定會面臨、同時也必須要解決以下的問題：

更多更快的數(shù)據(jù)。

更新的硬件特性及架構(gòu)。

更高級的分析。

更安全。

因此，未來的幾年，我們會繼續(xù)見證“后Hadoop時代”的下一代企業(yè)大數(shù)據(jù)平臺：

內(nèi)存計算時代的來臨。隨著高級分析和實時應(yīng)用的增長，對處理能力提出了更高的要求，數(shù)據(jù)處理重點從IO重新回到CPU。以內(nèi)存計算為核心的Spark將代替以IO吞吐為核心的MapReduce成為分布式大數(shù)據(jù)處理的缺省通用引擎。做為既支持批處理有支持準實時流處理的通用引擎，Spark將能滿足80%以上的應(yīng)用場景。

然而，Spark畢竟核心還是批處理，擅長迭代式的計算，但并不能滿足所有的應(yīng)用場景。其他為特殊應(yīng)用場景設(shè)計的工具會對其補充，包括：

a) OLAP。OLAP，尤其是聚合類的在線統(tǒng)計分析應(yīng)用，對于數(shù)據(jù)的存儲、組織和處理都和單純離線批處理應(yīng)用有很大不同。

b) 知識發(fā)現(xiàn)。與傳統(tǒng)應(yīng)用解決已知問題不同，大數(shù)據(jù)的價值在于發(fā)現(xiàn)并解決未知問題。因此，要最大限度地發(fā)揮分析人員的智能，將數(shù)據(jù)檢索變?yōu)閿?shù)據(jù)探索。

統(tǒng)一數(shù)據(jù)訪問管理?，F(xiàn)在的數(shù)據(jù)訪問由于數(shù)據(jù)存儲的格式不同、位置不同，用戶需要使用不同的接口、模型甚至語言。同時，不同的數(shù)據(jù)存儲粒度都帶來了在安全控制、管理治理上的諸多挑戰(zhàn)。未來的趨勢是將底層部署運維細節(jié)和上層業(yè)務(wù)開發(fā)進行隔離，因此，平臺需要系統(tǒng)如下的功能保證：

a) 安全。能夠大數(shù)據(jù)平臺上實現(xiàn)和傳統(tǒng)數(shù)據(jù)管理系統(tǒng)中相同口徑的數(shù)據(jù)管理安全策略，包括跨組件和工具的一體化的用戶權(quán)利管理、細粒度訪問控制、加解密和審計。

b) 統(tǒng)一數(shù)據(jù)模型。通過抽象定義的數(shù)據(jù)描述，不僅可以統(tǒng)一管理數(shù)據(jù)模型、復(fù)用數(shù)據(jù)解析代碼，還可以對于上層處理屏蔽底層存儲的細節(jié)，從而實現(xiàn)開發(fā)/處理與運維/部署的解偶。

簡化實時應(yīng)用?，F(xiàn)在用戶不僅關(guān)心如何實時的收集數(shù)據(jù)，而且關(guān)心同時盡快的實現(xiàn)數(shù)據(jù)可見和分析結(jié)果上線。無論是以前的delta架構(gòu)還是現(xiàn)在lambda架構(gòu)等，都希望能夠有一種解決快速數(shù)據(jù)的方案。Cloudera最新公開的Kudu雖然還沒有進入產(chǎn)品發(fā)布，但卻是現(xiàn)在解決這個問題可能的最佳方案：采用了使用單一平臺簡化了快速數(shù)據(jù)的“存取用”實現(xiàn)，是未來日志類數(shù)據(jù)分析的新的解決方案。

翹首展望，下一個十年

10年以后的Hadoop應(yīng)該只是一個生態(tài)和標準的“代名詞”了，下層的存儲層不只是HDFS、HBase和Kudu等現(xiàn)有的存儲架構(gòu)，上層的處理組件更會像app store里的應(yīng)用一樣多，任何第三方都可以根據(jù)Hadoop的數(shù)據(jù)訪問和計算通信協(xié)議開發(fā)出自己的組件，用戶在市場中根據(jù)自己數(shù)據(jù)的使用特性和計算需求選擇相應(yīng)的組件自動部署。

當然，有一些明顯的趨勢必然影響著Hadoop的前進：

云計算

現(xiàn)在50%的大數(shù)據(jù)任務(wù)已經(jīng)運行在云端，在3年以后這個比例可能會上升到80%。Hadoop在公有云的發(fā)展要求更加有保障的本地化支持。

硬件

快速硬件的進步會迫使社區(qū)重新審視Hadoop的根基，Hadoop社區(qū)絕不會袖手旁觀。

物聯(lián)網(wǎng)

物聯(lián)網(wǎng)的發(fā)展會帶來海量的、分布的和分散的數(shù)據(jù)源。Hadoop將適應(yīng)這種發(fā)展。

以后的十年會發(fā)生什么？以下是筆者的一些猜想：

SQL和NoSQL市場會合并，NewSQL和Hadoop技術(shù)相互借鑒而最終走向統(tǒng)一，Hadoop市場和數(shù)據(jù)倉庫市場會合并，然而產(chǎn)品碎片化會繼續(xù)存在。

Hadoop與其他資源管理技術(shù)和云平臺集成，融合docker和unikernal等技術(shù)統(tǒng)一資源調(diào)度管理，提供完整多租戶和QoS能力，企業(yè)數(shù)據(jù)分析中心合并為單一架構(gòu)。

企業(yè)大數(shù)據(jù)產(chǎn)品場景化。以后直接提供產(chǎn)品和技術(shù)的公司趨于成熟并且轉(zhuǎn)向服務(wù)。越來越多的新公司提供的是行業(yè)化、場景化的解決方案，如個人網(wǎng)絡(luò)征信套件以及服務(wù)。

大數(shù)據(jù)平臺的場景“分裂”。與現(xiàn)在談及大數(shù)據(jù)言必稱Hadoop以及某某框架不同，未來的數(shù)據(jù)平臺將根據(jù)不同量級的數(shù)據(jù)（從幾十TB到ZB）、不同的應(yīng)用場景（各種專屬應(yīng)用集群）出現(xiàn)細分的階梯型的解決方案和產(chǎn)品，甚至出現(xiàn)定制化一體化產(chǎn)品。

后記

現(xiàn)在Hadoop儼然已經(jīng)成為企業(yè)數(shù)據(jù)平臺的“新常態(tài)”。我們很榮幸能夠見證Hadoop十年從無到有，再到稱王。在我們感動于技術(shù)的日新月異時，希望能通過本文能為Hadoop的昨天、今天和明天做出一點自己的解讀，算是為Hadoop慶祝10歲生日獻上的禮物。

筆者水平有限，加之時間緊迫，膚淺粗糙之處，還請各位讀者原諒和指教。文中有些內(nèi)容引自網(wǎng)絡(luò)，某些出處未能找到，還請原作者原諒。

大數(shù)據(jù)的明天是美好的，未來Hadoop一定是企業(yè)軟件的必備技能，希望我們能一起見證。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

核心

核心

+關(guān)注

關(guān)注
0

文章
44

瀏覽量
15028
物聯(lián)網(wǎng)

物聯(lián)網(wǎng)

+關(guān)注

關(guān)注
2909

文章
44635

瀏覽量
373390
大數(shù)據(jù)

大數(shù)據(jù)

+關(guān)注

關(guān)注
64

文章
8889

瀏覽量
137444