來源:ST社區(qū)
技術(shù)型的高科技創(chuàng)業(yè)公司都喜歡閃閃發(fā)光的新東西,而“大數(shù)據(jù)”跟3年前火熱程度相比反而有些凄慘。雖然Hadoop創(chuàng)建于2006年,在“大數(shù)據(jù)”的概念興起到達(dá)白熱化是在2011年至2014年期間,當(dāng)時(shí)在媒體和行業(yè)面前,大數(shù)據(jù)就是“黑金石油”。2015年數(shù)據(jù)世界中時(shí)尚年輕人喜歡轉(zhuǎn)移到AI的相關(guān)概念,他們口味變成:機(jī)器智能,深度學(xué)習(xí)等。
企業(yè)級技術(shù) = 艱苦的工作
其實(shí)大數(shù)據(jù)有趣的是它不是直接可以炒作的東西。
能夠獲得廣泛興趣的產(chǎn)品和服務(wù)往往是那些人們可以觸摸和感受到的,比如:移動(dòng)應(yīng)用,社交網(wǎng)絡(luò),可穿戴設(shè)備,虛擬現(xiàn)實(shí)等。
但大數(shù)據(jù),從根本上說是“管道”。當(dāng)然,大數(shù)據(jù)支持許多消費(fèi)者或企業(yè)用戶體驗(yàn),但其核心是企業(yè)的技術(shù):數(shù)據(jù)庫,分析等:而這后面幾乎沒人能看到東西運(yùn)行。
而且如果大家真正工作過的都知道,在企業(yè)中改造新技術(shù)并不大可能在一夜之間發(fā)生。
早年的大數(shù)據(jù)是在大型互聯(lián)網(wǎng)公司中(特別是谷歌,雅虎,F(xiàn)acebook,Twitter,LinkedIn等),它們重度使用和推動(dòng)大數(shù)據(jù)技術(shù)。這些公司突然面臨著前所未有的數(shù)據(jù)量,沒有以前的基礎(chǔ)設(shè)施,并能招到一些最好的工程師,所以他們基本上是從零開始搭建他們所需要的技術(shù)。開源的風(fēng)氣迅速蔓延,大量的新技術(shù)與更廣闊的世界共享。隨著時(shí)間推移,其中一些工程師離開了大型網(wǎng)絡(luò)公司,開始自己的大數(shù)據(jù)初創(chuàng)公司。其他的“數(shù)字原生”的公司,其中包括許多獨(dú)角獸,開始面臨跟大型互聯(lián)網(wǎng)公司同樣需求,無論有沒有基礎(chǔ)設(shè)施,它們都是這些大數(shù)據(jù)技術(shù)的早期采用者。而早期的成功導(dǎo)致更多的創(chuàng)業(yè)和風(fēng)險(xiǎn)投資。
現(xiàn)在一晃幾年了,我們現(xiàn)在是有大得多而棘手的機(jī)會(huì):數(shù)據(jù)技術(shù)通過更廣泛從中型企業(yè)到非常大的跨國公司。不同的是“數(shù)字原生”的公司,不必從頭開始做。他們也有很多損失:在絕大多數(shù)的公司,現(xiàn)有的技術(shù)基礎(chǔ)設(shè)施“夠用”。這些組織也明白,宜早不宜遲需要進(jìn)化,但他們不會(huì)一夜之間淘汰并更換關(guān)鍵任務(wù)的系統(tǒng)。任何發(fā)展都需要過程,預(yù)算,項(xiàng)目管理,導(dǎo)航,部門部署,全面的安全審計(jì)等。大型企業(yè)會(huì)小心謹(jǐn)慎地讓年輕的創(chuàng)業(yè)公司處理他們的基礎(chǔ)設(shè)施的關(guān)鍵部分。而且,一些(大多數(shù)?)企業(yè)家壓根不想把他們的數(shù)據(jù)遷移到云中,至少不是公有云。
大數(shù)據(jù)分析的基本流程
從另一個(gè)關(guān)鍵點(diǎn)大家就明白了:大數(shù)據(jù)的成功是不是實(shí)現(xiàn)一小片技術(shù)(如Hadoop的或其他任何東西),而是需要放在一起的技術(shù),人員,流程的流水線。你需要采集數(shù)據(jù),存儲(chǔ)數(shù)據(jù),清理數(shù)據(jù),查詢數(shù)據(jù),分析數(shù)據(jù),可視化數(shù)據(jù)。這將由產(chǎn)品來完成,有些由人力來完成。一切都需要無縫集成。歸根結(jié)底,對于這一切工作,整個(gè)公司,從高級管理人員開始,需要致力于建立一個(gè)數(shù)據(jù)驅(qū)動(dòng)的文化,大數(shù)據(jù)不是小事,而是全局的事。
換句話說:這是大量艱苦的工作。
部署階段
以上解釋了為什么幾年后,雖然很多高調(diào)的創(chuàng)業(yè)公司上線也拿到引人注目的風(fēng)險(xiǎn)投資,但只是到達(dá)大數(shù)據(jù)部署和早期成熟階段。
更有遠(yuǎn)見的大公司(稱他們?yōu)椤皣L鮮者”在傳統(tǒng)的技術(shù)采用周期),在2011 - 2013年開始早期實(shí)驗(yàn)大數(shù)據(jù)技術(shù),推出Hadoop系統(tǒng),或嘗試單點(diǎn)解決方案。他們招聘了形形色色的人,可能工作頭銜以前不存在(如“數(shù)據(jù)科學(xué)家”或“首席數(shù)據(jù)官”)。他們通過各種努力,包括在一個(gè)中央儲(chǔ)存庫或“數(shù)據(jù)湖”傾倒所有的數(shù)據(jù),有時(shí)希望魔術(shù)隨之而來(通常沒有)。他們逐步建立內(nèi)部競爭力,與不同廠商嘗試,部署到線上,討論在企業(yè)范圍內(nèi)實(shí)施推廣。在許多情況下,他們不知道下一個(gè)重要的拐點(diǎn)在哪里,經(jīng)過幾年建設(shè)大數(shù)據(jù)基礎(chǔ)架構(gòu),從他們公司業(yè)務(wù)用戶的角度來看,也沒有那么多東西去顯示它。但很多吃力不討好的工作已經(jīng)完成,而部署在核心架構(gòu)之上的應(yīng)用程序又要開始做了。
下一組的大公司(稱他們?yōu)椤霸缙诖蟊姟痹趥鹘y(tǒng)的技術(shù)采用周期)一直呆在場邊,還在迷惑的望著這整個(gè)大數(shù)據(jù)這玩意。直到最近,他們希望大供應(yīng)商(例如IBM)提供一個(gè)一站式的解決方案,但它們知道不會(huì)很快出現(xiàn)。他們看大數(shù)據(jù)全局圖很恐怖,就真的想知道是否要跟那些經(jīng)常發(fā)音相同,也就湊齊解決方案的創(chuàng)業(yè)公司一起做。他們試圖弄清楚他們是否應(yīng)該按順序并逐步工作,首先構(gòu)建基礎(chǔ)設(shè)施,然后再分析應(yīng)用層,或在同一時(shí)間做所有的,還是等到更容易做的東西出現(xiàn)。
生態(tài)系統(tǒng)正在走向成熟
同時(shí),創(chuàng)業(yè)公司/供應(yīng)商方面,大數(shù)據(jù)公司整體第一波(那些成立于2009年至2013)現(xiàn)在已經(jīng)融資多輪,擴(kuò)大他們的規(guī)模,積累了早期部署的成功與失敗教訓(xùn),也提供更成熟,久經(jīng)考驗(yàn)的產(chǎn)品?,F(xiàn)在有少數(shù)是上市公司(包括HortonWorks和New Relic 它們的IPO在2014年12月),而其他(Cloudera,MongoDB的,等等)都融了數(shù)億美元。
VC投資仍然充滿活力,2016年前幾個(gè)星期看到一些巨額融資的晚期大數(shù)據(jù)初創(chuàng)公司:DataDog(9400萬),BloomReach(5600萬),Qubole(3000萬), PlaceIQ( 2500萬)這些大數(shù)據(jù)初創(chuàng)公司在2015年收到的$ 66.4億創(chuàng)業(yè)投資,占高科技投資總額的11%。
并購活動(dòng)仍然不高(35次)。
隨創(chuàng)業(yè)活動(dòng)和資金的持續(xù)涌入,有些不錯(cuò)的資本退出,日益活躍的高科技巨頭(亞馬遜,谷歌和IBM),公司數(shù)量不斷增加
很顯然這里密密麻麻很多公司,從基本走勢方面,動(dòng)態(tài)的(創(chuàng)新,推出新的產(chǎn)品和公司)已逐漸從左向右移動(dòng),從基礎(chǔ)設(shè)施層(開發(fā)人員/工程師)到分析層(數(shù)據(jù)科學(xué)家和分析師的世界)到應(yīng)用層(商業(yè)用戶和消費(fèi)者),其中“大數(shù)據(jù)的本地應(yīng)用程序”已經(jīng)迅速崛起- 這是我們預(yù)計(jì)的格局。
大數(shù)據(jù)基礎(chǔ)架構(gòu):創(chuàng)新仍然有很多
正是因?yàn)楣雀枋昵暗腗apReduce和BigTable的論文,Doug Cutting, Mike Cafarella開發(fā) 創(chuàng)建Hadoop的,所以大數(shù)據(jù)的基礎(chǔ)架構(gòu)層成熟了,也解決了一些關(guān)鍵問題。
而基礎(chǔ)設(shè)施領(lǐng)域的不斷創(chuàng)新蓬勃發(fā)展還是通過大量的開源活動(dòng)。
Spark帶著Hadoop飛
2015年毫無疑問是Apache Spark最火的一年,這是一個(gè)開源框架,利用內(nèi)存中做處理。這開始得到了不少爭論,從我們發(fā)布了前一版本以來,Spark被各個(gè)對手采納,從IBM到Cloudera都給它相當(dāng)?shù)闹С帧?Spark的意義在于它有效地解決了一些使用Hadoop很慢的關(guān)鍵問題:它的速度要快得多(基準(zhǔn)測試表明:Spark比Hadoop的MapReduce的快10到100倍),更容易編寫,并非常適用于機(jī)器學(xué)習(xí)。
其他令人興奮的框架的不斷涌現(xiàn),并獲得新的動(dòng)力,如Flink,Ignite,Samza,Kudu等。一些思想領(lǐng)袖認(rèn)為Mesos的出現(xiàn)(一個(gè)框架以“對你的數(shù)據(jù)中心編程就像是單一的資源池”),不需要完全的Hadoop。即使是在數(shù)據(jù)庫的世界,這似乎已經(jīng)看到了更多的新興的玩家讓市場持續(xù),大量令人興奮的事情正在發(fā)生,從圖形數(shù)據(jù)庫的成熟(Neo4j),此次推出的專業(yè)數(shù)據(jù)庫(時(shí)間序列數(shù)據(jù)庫InfluxDB),CockroachDB,(受到谷歌Spanner啟發(fā)出現(xiàn),號稱提供二者最好的SQL和NoSQL),數(shù)據(jù)倉庫演變(Snowflake)。
大數(shù)據(jù)分析:現(xiàn)在的AI
在過去幾個(gè)月的大趨勢上,大數(shù)據(jù)分析已經(jīng)越來越注重人工智能(各種形式和接口),去幫助分析海量數(shù)據(jù),得出預(yù)測的見解。
最近AI的復(fù)活就好比大數(shù)據(jù)生的一個(gè)孩子。深度學(xué)習(xí)(獲取了最多的人工智能關(guān)注的領(lǐng)域)背后的算法大部分在幾十年前,但直到他們可以應(yīng)用于代價(jià)便宜而速度夠快的大量數(shù)據(jù)來充分發(fā)揮其潛力(Yann LeCun, Facebook深度學(xué)習(xí)研究員主管)。 AI和大數(shù)據(jù)之間的關(guān)系是如此密切,一些業(yè)內(nèi)專家現(xiàn)在認(rèn)為,AI已經(jīng)遺憾地“愛上了大數(shù)據(jù)”(Geometric Intelligence)。
反過來,AI現(xiàn)在正在幫助大數(shù)據(jù)實(shí)現(xiàn)承諾。AI /機(jī)器學(xué)習(xí)的分析重點(diǎn)變成大數(shù)據(jù)進(jìn)化邏輯的下一步:現(xiàn)在我有這些數(shù)據(jù),我該怎么從中提取哪些洞察?當(dāng)然,這其中的數(shù)據(jù)科學(xué)家們 - 從一開始他們的作用就是實(shí)現(xiàn)機(jī)器學(xué)習(xí)和做出有意義的數(shù)據(jù)模型。但漸漸地機(jī)器智能正在通過獲得數(shù)據(jù)去協(xié)助數(shù)據(jù)科學(xué)家。新興產(chǎn)品可以提取數(shù)學(xué)公式(Context Relevant)或自動(dòng)構(gòu)建和建議數(shù)據(jù)的科學(xué)模式,有可能產(chǎn)生最好的結(jié)果(DataRobot)。新的AI公司提供自動(dòng)完成復(fù)雜的實(shí)體的標(biāo)識(MetaMind,Clarifai,Dextro),或者提供強(qiáng)大預(yù)測分析(HyperScience)。
由于無監(jiān)督學(xué)習(xí)的產(chǎn)品傳播和提升,我們有趣的想知道AI與數(shù)據(jù)科學(xué)家的關(guān)系如何演變 - 朋友還是敵人? AI是肯定不會(huì)在短期內(nèi)很快取代數(shù)據(jù)科學(xué)家,而是希望看到數(shù)據(jù)科學(xué)家通常執(zhí)行的簡單任務(wù)日益自動(dòng)化,最后生產(chǎn)率大幅提高。
通過一切手段,AI /機(jī)器學(xué)習(xí)不是大數(shù)據(jù)分析的唯一趨勢。令人興奮的趨勢是大數(shù)據(jù)BI平臺的成熟及其日益增強(qiáng)的實(shí)時(shí)能力(SiSense,Arcadia)。
大數(shù)據(jù)應(yīng)用:一個(gè)真正的加速度
由于一些核心基礎(chǔ)架構(gòu)難題都已解決,大數(shù)據(jù)的應(yīng)用層迅速建立。
在企業(yè)內(nèi)部,各種工具已經(jīng)出現(xiàn),以幫助企業(yè)用戶操作核心功能。例如,大數(shù)據(jù)通過大量的內(nèi)部和外部的數(shù)據(jù),實(shí)時(shí)更新數(shù)據(jù),可以幫助銷售和市場營銷弄清楚哪些客戶最有可能購買??蛻舴?wù)應(yīng)用可以幫助個(gè)性化服務(wù); HR應(yīng)用程序可幫助找出如何吸引和留住最優(yōu)秀的員工;等
專業(yè)大數(shù)據(jù)應(yīng)用已經(jīng)在幾乎任何垂直領(lǐng)域都很出色,從醫(yī)療保健(特別是在基因組學(xué)和藥物研究),到財(cái)經(jīng)到時(shí)尚到司法(Mark43)。
兩個(gè)趨勢值得關(guān)注。
首先,很多這些應(yīng)用都是“大數(shù)據(jù)同鄉(xiāng)”,因?yàn)樗麄儽旧砭褪墙⒃?a href="http://wenjunhu.com/article/zt/" target="_blank">最新的大數(shù)據(jù)技術(shù),并代表客戶能夠充分利用大數(shù)據(jù)的有效方式,無需部署底層的大數(shù)據(jù)技術(shù),因?yàn)檫@些已“在一個(gè)盒子“,至少是對于那些特定功能 - 例如,ActionIQ是建立在Spark上,因此它的客戶可以充分利用他們的營銷部門Spark的權(quán)力,而無需實(shí)際部署Spark自己 - 在這種情況下,沒有“流水線”。
第二,人工智能同樣在應(yīng)用程序級別有強(qiáng)大吸引力。例如,在貓捉老鼠的游戲,安全上,AI被廣泛利用,它可以識別黑客和打擊網(wǎng)絡(luò)攻擊。 “人工智能”對沖基金也開始出現(xiàn)。全部由AI驅(qū)動(dòng)數(shù)字助理行業(yè)已經(jīng)去年出現(xiàn),從自動(dòng)安排會(huì)議(x.ai)任務(wù),到購物為您帶來一切。這些解決方案依賴人工智能的程度差別很大,從接近100%的自動(dòng)化,到個(gè)人的能力被AI增強(qiáng) - 但是,趨勢是明確的。
在許多方面,我們?nèi)蕴幱诖髷?shù)據(jù)的早期。盡管它發(fā)展了幾年,建設(shè)存儲(chǔ)和數(shù)據(jù)的過程只是第一階段的基礎(chǔ)設(shè)施。 AI /機(jī)器學(xué)習(xí)出現(xiàn)在大數(shù)據(jù)的應(yīng)用層的趨勢。大數(shù)據(jù)和AI的結(jié)合將推動(dòng)幾乎每一個(gè)行業(yè)的創(chuàng)新,這令人難以置信。從這個(gè)角度來看,大數(shù)據(jù)機(jī)會(huì)甚至可能比人們認(rèn)為的還大。
審核編輯黃昊宇
-
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8894瀏覽量
137483
發(fā)布評論請先 登錄
相關(guān)推薦
評論