大數(shù)據(jù)概念
大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。 大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”
隨著云時代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關(guān)注?!吨婆_》的分析師團隊認為,大數(shù)據(jù)(Big data)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
大數(shù)據(jù)結(jié)構(gòu)
大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越成為數(shù)據(jù)的主要部分。據(jù)IDC的調(diào)查報告顯示:企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長60%。[7] 大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒有必要神話它或?qū)λ3志次分?,在以云計算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本看起來很難收集和使用的數(shù)據(jù)開始容易被利用起來了,通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會逐步為人類創(chuàng)造更多的價值。
其次,想要系統(tǒng)的認知大數(shù)據(jù),必須要全面而細致的分解它,著手從三個層面來展開:
第一層面是理論,理論是認知的必經(jīng)途徑,也是被廣泛認同和傳播的基線。在這里從大數(shù)據(jù)的特征定義理解行業(yè)對大數(shù)據(jù)的整體描繪和定性;從對大數(shù)據(jù)價值的探討來深入解析大數(shù)據(jù)的珍貴所在;洞悉大數(shù)據(jù)的發(fā)展趨勢;從大數(shù)據(jù)隱私這個特別而重要的視角審視人和數(shù)據(jù)之間的長久博弈。
第二層面是技術(shù),技術(shù)是大數(shù)據(jù)價值體現(xiàn)的手段和前進的基石。在這里分別從云計算、分布式處理技術(shù)、存儲技術(shù)和感知技術(shù)的發(fā)展來說明大數(shù)據(jù)從采集、處理、存儲到形成結(jié)果的整個過程。
第三層面是實踐,實踐是大數(shù)據(jù)的最終價值體現(xiàn)。在這里分別從互聯(lián)網(wǎng)的大數(shù)據(jù),政府的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)和個人的大數(shù)據(jù)四個方面來描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實現(xiàn)的藍圖。
大數(shù)據(jù)特點
大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點。《計算機學(xué)報》刊登的“架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望”一文列舉了大數(shù)據(jù)分析平臺需要具備的幾個重要特性,對當前的主流實現(xiàn)平臺——并行數(shù)據(jù)庫、MapReduce及基于兩者的混合架構(gòu)進行了分析歸納,指出了各自的優(yōu)勢及不足,同時也對各個方向的研究現(xiàn)狀及作者在大數(shù)據(jù)分析方面的努力進行了介紹,對未來研究做了展望。
大數(shù)據(jù)的4個“V”,或者說特點有四個層面:第一,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,數(shù)據(jù)的來源,直接導(dǎo)致分析結(jié)果的準確性和真實性。若數(shù)據(jù)來源是完整的并且真實最終的分析結(jié)果以及決定將更加準確。第四,處理速度快,1秒定律。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將其歸納為4個“V”——Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(真實性)
從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力,就是大數(shù)據(jù)技術(shù)。明白這一點至關(guān)重要,也正是這一點促使該技術(shù)具備走向眾多企業(yè)的潛力。
大數(shù)據(jù)技術(shù)十大核心原理
1.數(shù)據(jù)核心原理:從“流程”核心轉(zhuǎn)變?yōu)椤皵?shù)據(jù)”核心
大數(shù)據(jù)時代,計算模式也發(fā)生了轉(zhuǎn)變,從“流程”核心轉(zhuǎn)變?yōu)椤皵?shù)據(jù)”核心。Hadoop體系的分布式計算框架已經(jīng)是“數(shù)據(jù)”為核心的范式。非結(jié)構(gòu)化數(shù)據(jù)及分析需求,將改變IT系統(tǒng)的升級方式:從簡單增量到架構(gòu)變化。大數(shù)據(jù)下的新思維——計算模式的轉(zhuǎn)變。
科學(xué)進步越來越多地由數(shù)據(jù)來推動,海量數(shù)據(jù)給數(shù)據(jù)分析既帶來了機遇,也構(gòu)成了新的挑戰(zhàn)。大數(shù)據(jù)往往是利用眾多技術(shù)和方法,綜合源自多個渠道、不同時間的信息而獲得的。為了應(yīng)對大數(shù)據(jù)帶來的挑戰(zhàn),我們需要新的統(tǒng)計思路和計算方法。
2.據(jù)價值原理:有功能是價值轉(zhuǎn)變?yōu)閿?shù)據(jù)是價值
大數(shù)據(jù)真正有意思的是數(shù)據(jù)變得在線了,這個恰恰是互聯(lián)網(wǎng)的特點。非互聯(lián)網(wǎng)時期的產(chǎn)品,功能一定是它的價值,今天互聯(lián)網(wǎng)的產(chǎn)品,數(shù)據(jù)一定是它的價值。
數(shù)據(jù)能告訴我們,每一個客戶的消費傾向,他們想要什么,喜歡什么,每個人的需求有哪些區(qū)別,哪些又可以被集合到一起來進行分類。大數(shù)據(jù)是數(shù)據(jù)數(shù)量上的增加,以至于我們能夠?qū)崿F(xiàn)從量變到質(zhì)變的過程。
3.全樣本原理:從抽樣轉(zhuǎn)變?yōu)樾枰繑?shù)據(jù)樣本
需要全部數(shù)據(jù)樣本而不是抽樣,你不知道的事情比你知道的事情更重要,但如果現(xiàn)在數(shù)據(jù)足夠多,它會讓人能夠看得見、摸得著規(guī)律。
數(shù)據(jù)這么大、這么多,所以人們覺得有足夠的能力把握未來,對不確定狀態(tài)的一種判斷,從而做出自己的決定。這些東西我們聽起來都是非常原始的,但是實際上背后的思維方式,和我們今天所講的大數(shù)據(jù)是非常像的。
4.關(guān)注效率原理:由關(guān)注精確度轉(zhuǎn)變?yōu)殛P(guān)注效率
關(guān)注效率而不是精確度,大數(shù)據(jù)標志著人類在尋求量化和認識世界的道路上前進了一大步,過去不可計量、存儲、分析和共享的很多東西都被數(shù)據(jù)化了,擁有大量的數(shù)據(jù)和更多不那么精確的數(shù)據(jù)為我們理解世界打開了一扇新的大門。大數(shù)據(jù)能提高生產(chǎn)效率和銷售效率,原因是大數(shù)據(jù)能夠讓我們知道市場的需要,人的消費需要。大數(shù)據(jù)讓企業(yè)的決策更科學(xué),由關(guān)注精確度轉(zhuǎn)變?yōu)殛P(guān)注效率的提高,大數(shù)據(jù)分析能提高企業(yè)的效率。
競爭是企業(yè)的動力,而效率是企業(yè)的生命,效率低與效率高是衡量企來成敗的關(guān)鍵。一般來講,投入與產(chǎn)出比是效率,追求高效率也就是追求高價值。手工、機器、自動機器、智能機器之間效率是不同的,智能機器效率更高,已能代替人的思維勞動。智能機器核心是大數(shù)據(jù)制動,而大數(shù)據(jù)制動的速度更快。在快速變化的市場,快速預(yù)測、快速決策、快速創(chuàng)新、快速定制、快速生產(chǎn)、快速上市成為企業(yè)行動的準則,也就是說,速度就是價值,效率就是價值,而這一切離不開大數(shù)據(jù)思維。
5.關(guān)注相關(guān)性原理:由因果關(guān)系轉(zhuǎn)變?yōu)殛P(guān)注相關(guān)性
關(guān)注相關(guān)性而不是因果關(guān)系,社會需要放棄它對因果關(guān)系的渴求,而僅需關(guān)注相關(guān)關(guān)系,也就是說只需要知道是什么,而不需要知道為什么。這就推翻了自古以來的慣例,而我們做決定和理解現(xiàn)實的最基本方式也將受到挑戰(zhàn)。
6.預(yù)測原理:從不能預(yù)測轉(zhuǎn)變?yōu)榭梢灶A(yù)測
大數(shù)據(jù)的核心就是預(yù)測,大數(shù)據(jù)能夠預(yù)測體現(xiàn)在很多方面。大數(shù)據(jù)不是要教機器像人一樣思考,相反,它是把數(shù)學(xué)算法運用到海量的數(shù)據(jù)上來預(yù)測事情發(fā)生的可能性。正因為在大數(shù)據(jù)規(guī)律面前,每個人的行為都跟別人一樣,沒有本質(zhì)變化,所以商家會比消費者更了消費者的行為。
7.信息找人原理:從人找信息,轉(zhuǎn)變?yōu)樾畔⒄胰?/strong>
互聯(lián)網(wǎng)和大數(shù)據(jù)的發(fā)展,是一個從人找信息,到信息找人的過程。先是人找信息,人找人,信息找信息,現(xiàn)在是信息找人的這樣一個時代。信息找人的時代,就是說一方面我們回到了一種最初的,廣播模式是信息找人,我們聽收音機,我們看電視,它是信息推給我們的,但是有一個缺陷,不知道我們是誰,后來互聯(lián)網(wǎng)反其道而行,提供搜索引擎技術(shù),讓我知道如何找到我所需要的信息,所以搜索引擎是一個很關(guān)鍵的技術(shù)。
大數(shù)據(jù)還改變了信息優(yōu)勢。按照循證醫(yī)學(xué),現(xiàn)在治病的第一件事情不是去研究病理學(xué),而是拿過去的數(shù)據(jù)去研究,相同情況下是如何治療的。這導(dǎo)致專家和普通人之間的信息優(yōu)勢沒有了。原來我相信醫(yī)生,因為醫(yī)生知道的多,但現(xiàn)在我可以到谷歌上查一下,知道自己得了什么病。
8.機器懂人原理:由人懂機器轉(zhuǎn)變?yōu)闄C器更懂人
不是讓人更懂機器,而是讓機器更懂人,或者說是能夠在使用者很笨的情況下,仍然可以使用機器。甚至不是讓人懂環(huán)境,而是讓我們的環(huán)境來懂我們,環(huán)境來適應(yīng)人,某種程度上自然環(huán)境不能這樣講,但是在數(shù)字化環(huán)境中已經(jīng)是這樣的一個趨勢,就是我們所在的生活世界,越來越趨向于它更適應(yīng)于我們,更懂我們。哪個企業(yè)能夠真正做到讓機器更懂人,讓環(huán)境更懂人,讓我們隨身攜帶的整個的生活世界更懂得我們的話,那他一定是具有競爭力的了,而“大數(shù)據(jù)”技術(shù)能夠助我們一臂之力。
9.電子商務(wù)智能原理:大數(shù)據(jù)改變了電子商務(wù)模式,讓電子商務(wù)更智能
商務(wù)智能,在今天大數(shù)據(jù)時代它獲得的重新的定義。例如:傳統(tǒng)企業(yè)進入互聯(lián)網(wǎng),在掌握了“大數(shù)據(jù)”技術(shù)應(yīng)用途徑之后,會發(fā)現(xiàn)有一種豁然開朗的感覺,就像在黑屋子里面找東西,找不著,突然碰到了一個開關(guān),發(fā)現(xiàn)那么費力的找東西,原來很容易找得到。大數(shù)據(jù)思維,事實上它不是一個全稱的判斷,只是對我們所處的時代某一個緯度的描述。
大數(shù)據(jù)時代不是說我們這個時代除了大數(shù)據(jù)什么都沒有,哪怕是在互聯(lián)網(wǎng)和IT領(lǐng)域,它也不是一切,只是說在我們的時代特征里面加上這么一道很明顯的光,從而導(dǎo)致我們對以前的生存狀態(tài),以及我們個人的生活狀態(tài)的一個差異化的一種表達。
10.定制產(chǎn)品原理:由企業(yè)生產(chǎn)產(chǎn)品轉(zhuǎn)變?yōu)橛煽蛻舳ㄖ飘a(chǎn)品
下一波的改革是大規(guī)模定制,為大量客戶定制產(chǎn)品和服務(wù),成本低、又兼具個性化。比如消費者希望他買的車有紅色、綠色,廠商有能力滿足要求,但價格又不至于像手工制作那般讓人無法承擔。因此,在廠家可以負擔得起大規(guī)模定制帶去的高成本的前提下,要真正做到個性化產(chǎn)品和服務(wù),就必須對客戶需求有很好的了解,這背后就需要依靠大數(shù)據(jù)技術(shù)。
在互聯(lián)網(wǎng)大數(shù)據(jù)的時代,商家最后很可能可以針對每一個顧客進行精準的價格歧視。我們現(xiàn)在很多的行為都是比較粗放的,航空公司會給我們里程卡,根據(jù)飛行公里數(shù)來累計里程,但其實不同顧客所飛行的不同里程對航空公司的利潤貢獻是不一樣的。所以有一天某位顧客可能會收到一封信,“恭喜先生,您已經(jīng)被我們選為幸運顧客,我們提前把您升級到白金卡?!边@說明這個顧客對航空公司的貢獻已經(jīng)夠多了。有一天銀行說“恭喜您,您的額度又被提高了,”就說明錢花得已經(jīng)太多了。
大數(shù)據(jù)用途
大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學(xué)問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運營管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運營過程中發(fā)現(xiàn)和驗證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關(guān)系。
物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
有些例子包括網(wǎng)絡(luò)日志,RFID,傳感器網(wǎng)絡(luò),社會網(wǎng)絡(luò),社會數(shù)據(jù)(由于數(shù)據(jù)革命的社會),互聯(lián)網(wǎng)文本和文件;互聯(lián)網(wǎng)搜索索引;呼叫詳細記錄,天文學(xué),大氣科學(xué),基因組學(xué),生物地球化學(xué),生物,和其他復(fù)雜和/或跨學(xué)科的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;和大規(guī)模的電子商務(wù)
評論
查看更多