“大數(shù)據(jù) ”這個(gè)概念火了很久,但又很不容易說得清楚(不然呢?怎么會(huì)是個(gè)位數(shù)的回答),這時(shí)候買本書來看看可能會(huì)更香。
先說結(jié)論——大數(shù)據(jù)技術(shù),其實(shí)就是一套完整的“數(shù)據(jù)+業(yè)務(wù)+需求”的解決方案。
它其實(shí)是一個(gè)很寬泛的概念,涉及五個(gè)領(lǐng)域:
- 業(yè)務(wù)分析;2.數(shù)據(jù)分析;3.數(shù)據(jù)挖掘;4.機(jī)器學(xué)習(xí);5.人工智能。
從1到5,越來越需要技術(shù)背景;從5到1,越來越貼近具體業(yè)務(wù)。
其實(shí),除了像搜索引擎這樣依靠數(shù)據(jù)技術(shù)而誕生的產(chǎn)品外,大部分互聯(lián)網(wǎng)產(chǎn)品在生存期,即一個(gè)產(chǎn)品從0到1的階段,并不是特別需要大數(shù)據(jù)技術(shù)的。而在產(chǎn)品的發(fā)展期,也就是從“1”到“無窮”的階段,“大數(shù)據(jù)技術(shù)”對(duì)產(chǎn)品的作用才會(huì)逐漸體現(xiàn)。
主要原因是初期產(chǎn)品的功能和服務(wù)較少,也沒有“積累的用戶數(shù)據(jù)”用于模型研發(fā)。所以,我們常聽說“構(gòu)建大數(shù)據(jù)的壁壘”,這里面,“數(shù)據(jù)技術(shù)”是小壁壘,“大數(shù)據(jù)”本身才是大壁壘。
這里就從“大數(shù)據(jù)”開始說起。
什么是大數(shù)據(jù)?
“大數(shù)據(jù) ”從字面上看,就是很“大”的“數(shù)據(jù)”。先別急著打我。有多大呢?
早N多年前,百度首頁(yè)導(dǎo)航每天需要提供的數(shù)據(jù)超過1.5PB(1PB=1024TB),這些數(shù)據(jù)如果打印出來將超過5千億張A4紙。
5千億張,是不是很暴力了。
再來兩個(gè)不暴力的:
“廣西人最愛點(diǎn)贊,河北人最愛看段子,最關(guān)心時(shí)政的是山西人,最關(guān)注八卦的是天津。”
這組有趣的數(shù)據(jù),是今日頭條根據(jù)用戶閱讀大數(shù)據(jù)得出的結(jié)論。
而比這個(gè)更精準(zhǔn)的數(shù)據(jù),是三年前美國(guó)明尼蘇達(dá)州的一則八卦新聞:
一位氣勢(shì)洶洶的老爸沖進(jìn)Target的一家連鎖超市,質(zhì)問超市為什么把嬰兒用品的廣告發(fā)給他正在念高中的女兒。
但非常打臉的是,這位父親跟他女兒溝通后發(fā)現(xiàn)女兒真的懷孕了。
在大數(shù)據(jù)的世界里,事情的原理很簡(jiǎn)單——這位姑娘搜尋商品的關(guān)鍵詞,以及她在社交網(wǎng)站所顯露的行為軌跡,使超市的營(yíng)銷系統(tǒng)捕捉到了她懷孕的信息。
你看,單個(gè)的數(shù)據(jù)并沒有價(jià)值,但越來越多的數(shù)據(jù)累加,量變會(huì)產(chǎn)生質(zhì)的飛躍。
腦補(bǔ)一下上面這個(gè)事件中的“女兒”,她在網(wǎng)絡(luò)營(yíng)銷系統(tǒng)中的用戶畫像標(biāo)準(zhǔn)可能包括:用戶ID、性別 、性格描述、資產(chǎn)狀況、信用狀況、喜歡的顏色、鐘愛的品牌、大姨媽的日期、上周購(gòu)物清單等等,有了這些信息,系統(tǒng)就可以針對(duì)這個(gè)用戶,進(jìn)行精準(zhǔn)的廣告營(yíng)銷和個(gè)性化購(gòu)物推薦。
當(dāng)然,除了獲得大數(shù)據(jù)的個(gè)性化推薦,一不留神也容易被大數(shù)據(jù)割一波韭菜。
亞馬遜在一次新碟上市時(shí),根據(jù)潛在客戶的人口信息、購(gòu)物歷史、上網(wǎng)記錄等,給同一張碟片報(bào)出了不同的價(jià)格。這場(chǎng)“殺熟事件”的結(jié)局就是:亞馬遜的 CEO 貝索斯不得不親自出來道歉,解釋只是在進(jìn)行價(jià)格測(cè)試。
大數(shù)據(jù) ,說白了,就是巨量數(shù)據(jù)集合。
大數(shù)據(jù)來源于海量用戶的一次次的行為數(shù)據(jù),是一個(gè)數(shù)據(jù)集合;但大數(shù)據(jù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。
在電影《美國(guó)隊(duì)長(zhǎng)2》里,系統(tǒng)能把一個(gè)人從出生開始的所有行為特征,如消費(fèi)行為,生活行為等,作為標(biāo)簽存入數(shù)據(jù)庫(kù)中,最后推測(cè)出未來這個(gè)人是否會(huì)對(duì)組織產(chǎn)生威脅,然后使用定位系統(tǒng),把這些預(yù)測(cè)到有威脅的人殺死。
而在《點(diǎn)球成金》里,球隊(duì)用數(shù)據(jù)建模的方式,挖掘潛在的明星隊(duì)員(但其實(shí)這個(gè)案例并非典型的大數(shù)據(jù)案例,因?yàn)橛玫降氖窃缫汛嬖诘臄?shù)據(jù)思維和方法)。
麥肯錫全球研究所曾給出過大數(shù)據(jù)一個(gè)相當(dāng)規(guī)矩的定義:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。
上面這四個(gè)特征,也就是人們常說的大數(shù)據(jù)的4V特征(volume,variety,value,velocity),即大量,多樣性,價(jià)值,及時(shí)性。
具體來說就是:
- 數(shù)據(jù)體量巨大(這是大數(shù)據(jù)最明顯的特征),有人認(rèn)為,大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)T)、E(100萬個(gè)T)或Z(10億個(gè)T);這里按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB(進(jìn)率2^10)。
不過,數(shù)據(jù)的體量有時(shí)可能并沒那么重要。比如13億人口的名字,只占硬盤幾百M(fèi)空間的數(shù)據(jù),但已經(jīng)是這個(gè)領(lǐng)域里非常大的數(shù)據(jù)。
- 數(shù)據(jù)類型繁多(也就是多維度的表現(xiàn)形式)。比如,網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。
- 價(jià)值密度低,商業(yè)價(jià)值高。以視頻為例,一小時(shí)的視頻,在不間斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。因此,如何結(jié)合業(yè)務(wù)邏輯并通過強(qiáng)大的機(jī)器算法來挖掘數(shù)據(jù)價(jià)值(所謂“浪里淘金”吧),是最需要解決的問題。
- 處理速度快且及時(shí)。數(shù)據(jù)處理遵循“1秒定律”,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息。
事實(shí)上,關(guān)于這個(gè)“4V”,業(yè)界還是有不少爭(zhēng)議的。比如阿里技術(shù)委員會(huì)的王堅(jiān)博士,就直接把4V“扔”進(jìn)了***堆。王堅(jiān)在《在線》這本書里說過:“我分享時(shí)說‘大數(shù)據(jù)’這個(gè)名字叫錯(cuò)了,它沒有反映出數(shù)據(jù)最本質(zhì)的東西。”
他認(rèn)為,今天數(shù)據(jù)的意義并不在于有多“大”,真正有意思的是數(shù)據(jù)變得“在線”了,這恰恰是互聯(lián)網(wǎng)的特點(diǎn)。所有東西都能“在線”這件事(數(shù)據(jù)隨時(shí)能調(diào)用和計(jì)算),遠(yuǎn)比“大”更能反映本質(zhì)。
什么是大數(shù)據(jù)技術(shù)?
對(duì)于一個(gè)從事大數(shù)據(jù)行業(yè)人來說,一切數(shù)據(jù)都是有意義的。因?yàn)橥ㄟ^數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理、數(shù)據(jù)分析與挖掘、數(shù)據(jù)展現(xiàn)等,我們可以發(fā)現(xiàn)很多有用的或有意思的規(guī)律和結(jié)論。
比如,北京公交一卡通每天產(chǎn)生4千萬條刷卡記錄,分析這些刷卡記錄,可以清晰了解北京市民的出行規(guī)律,來有效改善城市交通。
但這4千萬條刷卡數(shù)據(jù) ,不是想用就能用的,需要通過“存儲(chǔ)”“計(jì)算”“智能”來對(duì)數(shù)據(jù)進(jìn)行加工和支撐,從而實(shí)現(xiàn)數(shù)據(jù)的增值。
而在這其中,最關(guān)鍵的問題不在于數(shù)據(jù)技術(shù)本身,而在于是否實(shí)現(xiàn)兩個(gè)標(biāo)準(zhǔn):第一,這4千萬條記錄,是否足夠多,足夠有價(jià)值;第二,是否找到適合的數(shù)據(jù)技術(shù)的業(yè)務(wù)應(yīng)用。
下面就來簡(jiǎn)單說說上述提到的一些和“大數(shù)據(jù)“”形影不離的“小伙伴們”——
1.云計(jì)算
由于大數(shù)據(jù)的采集、存儲(chǔ)和計(jì)算的量都非常大,所以大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的數(shù)據(jù)。
從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)無法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)和云存儲(chǔ)、虛擬化技術(shù)。
可以說,大數(shù)據(jù)相當(dāng)于海量數(shù)據(jù)的“數(shù)據(jù)庫(kù)”,云計(jì)算相當(dāng)于計(jì)算機(jī)和操作系統(tǒng),將大量的硬件資源虛擬化后再進(jìn)行分配使用。
整體來看,未來的趨勢(shì)是,云計(jì)算作為計(jì)算資源的底層,支撐著上層的大數(shù)據(jù)處理,而大數(shù)據(jù)的發(fā)展趨勢(shì)是,實(shí)時(shí)交互式的查詢效率和分析能力, “動(dòng)一下鼠標(biāo)就可以在秒級(jí)操作PB級(jí)別的數(shù)據(jù)”。
2.Hadoop/HDFS /Mapreduce/Spark
除了云計(jì)算,分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop的出現(xiàn),為大數(shù)據(jù)帶來了新的曙光。
Hadoop是Apache軟件基金會(huì)旗下的一個(gè)分布式計(jì)算平臺(tái),為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的開源分布式基礎(chǔ)架構(gòu)。它是一款用Java編寫的開源軟件框架,用于分布式存儲(chǔ),并對(duì)非常大的數(shù)據(jù)集進(jìn)行分布式處理,用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序,現(xiàn)在Hadoop被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件。
而HDFS為海量的數(shù)據(jù)提供了存儲(chǔ);Mapreduce則為海量的數(shù)據(jù)提供了并行計(jì)算,從而大大提高計(jì)算效率。它是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算,能允許開發(fā)者在不具備開發(fā)經(jīng)驗(yàn)的前提下也能夠開發(fā)出分布式的并行程序,并讓其運(yùn)行在數(shù)百臺(tái)機(jī)器上,在短時(shí)間完成海量數(shù)據(jù)的計(jì)算。
在使用了一段時(shí)間的 MapReduce 以后,程序員發(fā)現(xiàn) MapReduce 的程序?qū)懫饋硖闊?,希望能夠封裝出一種更簡(jiǎn)單的方式去完成 MapReduce 程序,于是就有了 Pig 和 Hive。
同時(shí)Spark/storm/impala等各種各樣的技術(shù)也相繼進(jìn)入數(shù)據(jù)科學(xué)的視野。比如Spark是Apache Software Foundation中最活躍的項(xiàng)目,是一個(gè)開源集群計(jì)算框架,也是一個(gè)非常看重速度的大數(shù)據(jù)處理平臺(tái)。
打個(gè)比方,如果我們把上面提到的4千萬條記錄比喻成“米”,那么,我們可以用“HDFS”儲(chǔ)存更多的米,更豐富的食材;如果我們有了“Spark”這些組件(包括深度學(xué)習(xí)框架Tensorflow),就相當(dāng)于有了“鍋碗瓢盆”,基本上就能做出一頓可口的飯菜了。
其實(shí),大數(shù)據(jù)火起來的時(shí)候,很多做統(tǒng)計(jì)出身的人心里曾經(jīng)是有一萬個(gè)***的——因?yàn)榇髷?shù)據(jù)實(shí)在太火,以至于很多公司在招人的時(shí)候,關(guān)注的是這個(gè)人對(duì)計(jì)算工具的使用,而忽略了人對(duì)數(shù)據(jù)價(jià)值和行業(yè)的理解。
但目前統(tǒng)計(jì)學(xué)專業(yè)人士確實(shí)面臨的一個(gè)現(xiàn)實(shí)問題是:隨著客戶企業(yè)的數(shù)據(jù)量逐漸龐大,不用編程的方式很難做數(shù)據(jù)分析。所以,越來越多的統(tǒng)計(jì)學(xué)家也拿自己開涮:“統(tǒng)計(jì)學(xué)要被計(jì)算機(jī)學(xué)替代了,因?yàn)楝F(xiàn)在幾乎沒有非大數(shù)據(jù)量的統(tǒng)計(jì)應(yīng)用”。
總之,掌握編程的基礎(chǔ),大量的項(xiàng)目實(shí)踐,是從事大數(shù)據(jù)技術(shù)領(lǐng)域的必要條件。
-
云計(jì)算
+關(guān)注
關(guān)注
39文章
7916瀏覽量
138376 -
數(shù)據(jù)庫(kù)
+關(guān)注
關(guān)注
7文章
3868瀏覽量
65025 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8929瀏覽量
138323
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論