“大數(shù)據(jù)時代”的概念最早由世界著名的咨詢公司麥肯錫提出。麥肯錫說:“數(shù)據(jù)已滲透到今天的每個行業(yè)和業(yè)務功能領域,并已成為重要的生產(chǎn)要素”。
本文引自:《數(shù)據(jù)技術基礎》(作者:張潔、呂佑龍、張朋、汪俊亮)。
隨著互聯(lián)網(wǎng)技術的發(fā)展,現(xiàn)有計算機擁有了在極短時間內(nèi)處理海量數(shù)據(jù)的能力,進而催生了一大批企業(yè)利用大量的數(shù)據(jù),將傳統(tǒng)的企業(yè)運營方式進行顛覆,使得企業(yè)實現(xiàn)了從靠人力決策到靠數(shù)據(jù)決策的轉(zhuǎn)變,這意味著更少的決策失誤和更大的利潤,而對于普通民眾而言則能享受到更好的服務質(zhì)量和辦事效率。 在以上過程中,大量的企業(yè)決策與服務提供需要依靠大數(shù)據(jù)技術支撐,并且大數(shù)據(jù)帶來的經(jīng)濟效益已經(jīng)大于開發(fā)成本,由此進入大數(shù)據(jù)時代。
內(nèi)涵與特征 1)大數(shù)據(jù)的內(nèi)涵
大數(shù)據(jù)的定義方法有很多種,如果仔細觀察,會發(fā)現(xiàn)不同領域?qū)<覍W者給出了不同的定義。通常所說的“大數(shù)據(jù)”往往指的是“大數(shù)據(jù)現(xiàn)象”。
(1)計算機科學與技術:當數(shù)據(jù)量、數(shù)據(jù)的復雜程度、數(shù)據(jù)處理的任務要求等超出了傳統(tǒng)數(shù)據(jù)存儲與計算能力時,稱之為大數(shù)據(jù)(現(xiàn)象)??梢?,計算機科學與技術中是從存儲和計算能力視角理解大數(shù)據(jù)——大數(shù)據(jù)不僅是“數(shù)據(jù)存量”的問題,還與數(shù)據(jù)增量、復雜度和處理要求(如實時分析)有關。
(2)統(tǒng)計學:當能夠收集足夠的全部(總體中的絕大部分)個體的數(shù)據(jù),且計算能力足夠強,可以不用抽樣,直接在總體上就可以進行統(tǒng)計分析時,稱之為大數(shù)據(jù)(現(xiàn)象)??梢?,統(tǒng)計學主要從所處理的問題和總體的規(guī)模之間的相對關系視角理解“大數(shù)據(jù)”。
(3)機器學習:當訓練集足夠大,且計算能力足夠強,只需要通過對已有的實例進行簡單查詢即可達到“智能計算的效果”時,稱之為大數(shù)據(jù)(現(xiàn)象)??梢?,機器學習主要從“智能的實現(xiàn)方式”理解大數(shù)據(jù)-智能可以通過簡單的實例學習和機械學習的方式來實現(xiàn)。
(4)社會科學家:當多數(shù)人的大部分社會行為可以被記錄下來時,稱之為大數(shù)據(jù)(現(xiàn)象)。可見,社會科學家眼里的大數(shù)據(jù)主要是從“數(shù)據(jù)規(guī)模與價值密度角度”談的,即數(shù)據(jù)規(guī)模過大導致的價值密度過低。
總之,術語大數(shù)據(jù)的內(nèi)涵已超出了數(shù)據(jù)本身,代表的是數(shù)據(jù)帶來的機遇與挑戰(zhàn),可以總結(jié)如下。
(1)機遇:原先無法(或不可能)找到的數(shù)據(jù),現(xiàn)在可能找到;原先無法實現(xiàn)的計算目的(如數(shù)據(jù)的實時分析),現(xiàn)在可以實現(xiàn)。
(2)挑戰(zhàn):原先一直認為正確或最佳的理念、理論、方法、技術和工具越來越凸現(xiàn)出其局限性,在大數(shù)據(jù)時代需要改變思考模式。
2)大數(shù)據(jù)的特征
通常,用4V來表示大數(shù)據(jù)的基本特征。但是,建議讀者結(jié)合上述對大數(shù)據(jù)的內(nèi)涵的討論,靈活理解大數(shù)據(jù)的特征。
(1)Volume(數(shù)據(jù)量大):數(shù)據(jù)量大是一個相對于計算和存儲能力的說法,就目前而言,當數(shù)據(jù)量達到PB級以上,一般稱為“大”的數(shù)據(jù)。但是,應該注意到,大數(shù)據(jù)的時間分布往往不均勻,近幾年所生成的數(shù)據(jù),相對占比最高。
(2)Variety(類型多):數(shù)據(jù)類型多是指大數(shù)據(jù)存在多種類型的數(shù)據(jù),不僅包括結(jié)構(gòu)化數(shù)據(jù),還包括非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。有統(tǒng)計顯示,在未來,非結(jié)構(gòu)化數(shù)據(jù)的占比將達到90%以上。非結(jié)構(gòu)化數(shù)據(jù)所包括的數(shù)據(jù)類型很多,例如網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等。數(shù)據(jù)類型的多樣性往往導致數(shù)據(jù)的異構(gòu)性,進而加大了數(shù)據(jù)處理的復雜性,對數(shù)據(jù)處理能力提出了更高要求。
(3)Value(價值密度低):在大數(shù)據(jù)中,價值密度的高低與數(shù)據(jù)總量的大小之間并不存在線性關系,有價值的數(shù)據(jù)往往被淹沒在海量無用數(shù)據(jù)之中,也就是人們常說的“我們淹沒在數(shù)據(jù)的海洋,卻又在忍受著知識的饑渴(We are drowning in a sea of data and thirsting for knowledge)”。例如,一段長達120min連續(xù)不間斷的監(jiān)控視頻中,有用數(shù)據(jù)可能僅有幾秒。因此,如何在海量數(shù)據(jù)中洞見有價值的數(shù)據(jù)成為數(shù)據(jù)科學的重要課題。
(4)Velocity(速度快):大數(shù)據(jù)中所說的“速度”包括兩種——增長速度和處理速度。一方面,大數(shù)據(jù)增長速度快。有統(tǒng)計顯示,2009—2020年期間的數(shù)字宇宙的年均增長率將達到41%,另一方面,對大數(shù)據(jù)處理的時間(計算速度)要求也越來越高,“大數(shù)據(jù)的實時分析”成為熱門話題。
業(yè)務數(shù)據(jù)化
隨著互聯(lián)網(wǎng)的快速發(fā)展,企業(yè)逐漸面臨越來越多大數(shù)據(jù)時代的不確定性和挑戰(zhàn),很可能因為成本高居不下而逐漸失去份額,被競爭對手超越并最終出局。企業(yè)每天都會產(chǎn)生大量的業(yè)務數(shù)據(jù),通過實現(xiàn)業(yè)務數(shù)據(jù)化可以幫助企業(yè)經(jīng)營者對尚未掌握的商業(yè)機遇進行理性評估判斷,實現(xiàn)業(yè)務增值,同時幫助企業(yè)提升內(nèi)部運營效率,降低成本。因此業(yè)務數(shù)據(jù)化是未來發(fā)展的一大趨勢。
1)設計目標和原則
業(yè)務數(shù)據(jù)化的設計目標是要從大量的、可能是雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導出對于某些特定的人或事物來說有價值、有異議的數(shù)據(jù)。設計原則包括簡約原則、綜觀原則、解釋原則以及智慧原則。
(1)簡約原則:簡化現(xiàn)有的數(shù)據(jù)集,使得一種小規(guī)模的數(shù)據(jù)就能夠產(chǎn)生同樣的分析效果。通過一些數(shù)據(jù)規(guī)約方法獲取可靠數(shù)據(jù),減少數(shù)據(jù)集規(guī)模,提高數(shù)據(jù)抽象程度,提升數(shù)據(jù)挖掘效率,使之在實際工作中,可以根據(jù)需要選用合適的處理方法,以達到操作上的簡單、簡潔、簡約和高效。
(2)綜觀原則:對認知對象進行綜合性的觀察、分析和探索,以求得解決問題的策略和戰(zhàn)略。它堅持整體的具體統(tǒng)一性,凸顯認知對象的具體實在性。
(3)解釋性原則:針對提取的數(shù)據(jù)究竟表達什么或意味什么,很大程度上,并不取決于數(shù)據(jù)信息自身所標明的“客觀實在性”,而是取決于認知主體對數(shù)據(jù)進行解讀時的主觀評價,以此揭示數(shù)據(jù)的本質(zhì)。
(4)智慧原則:在對數(shù)據(jù)的處理挖掘過程中既要兼具數(shù)據(jù)處理能力,也要具備應用算法和編寫代碼的經(jīng)驗。在大數(shù)據(jù)時代,不僅要關注數(shù)據(jù)的多樣性、差異性、精確性和實效性;還要深入挖掘各類數(shù)據(jù),并在此基礎上在不同的數(shù)據(jù)集成中分析不同的假設情境,建構(gòu)不同的可視化圖像,揭示數(shù)據(jù)集成的變化及其產(chǎn)生的效用。
2)數(shù)據(jù)線程
數(shù)據(jù)線程是指以價值鏈活動為脈絡,以業(yè)務為中心,構(gòu)建的數(shù)據(jù)建模、關聯(lián)、因果、集成、演化等全主線流程。數(shù)據(jù)線程通過建立面向業(yè)務應用的數(shù)據(jù)模型,實現(xiàn)各種信息化業(yè)務系統(tǒng)數(shù)據(jù)源的統(tǒng)一建模需求;針對設計、制造、運行、維護等生產(chǎn)環(huán)節(jié),發(fā)掘數(shù)據(jù)資源間的復雜關聯(lián)關系和因果關系;通過描述業(yè)務驅(qū)動的數(shù)據(jù)動態(tài)演化過程,提升對產(chǎn)品迭代、工藝更新、設備維護等業(yè)務決策問題的適應能力。數(shù)據(jù)線程圍繞數(shù)據(jù)生成、匯聚、存儲、歸檔、分析、使用和銷毀等全過程,實現(xiàn)了產(chǎn)品研發(fā)設計、生產(chǎn)制造、經(jīng)營管理和銷售服務等全價值鏈活動中業(yè)務數(shù)據(jù)的有效組織,為業(yè)務數(shù)據(jù)化提供了良好的基礎。
3)業(yè)務數(shù)據(jù)系統(tǒng)
業(yè)務數(shù)據(jù)系統(tǒng)主要包括業(yè)務數(shù)據(jù)集成系統(tǒng)、業(yè)務數(shù)據(jù)管理系統(tǒng)、業(yè)務數(shù)據(jù)分析系統(tǒng)、業(yè)務數(shù)據(jù)可視化系統(tǒng)等多個子系統(tǒng)。
(1)業(yè)務數(shù)據(jù)集成系統(tǒng):是面向業(yè)務的數(shù)據(jù)集成系統(tǒng)。隨著企業(yè)信息化建設的發(fā)展,企業(yè)建立了眾多的信息系統(tǒng),以幫助企業(yè)進行內(nèi)外部業(yè)務的管理。但是,企業(yè)各系統(tǒng)的數(shù)據(jù)是分布的、異構(gòu)的,為了共享這些業(yè)務數(shù)據(jù),需要一個業(yè)務數(shù)據(jù)集成系統(tǒng)來完成數(shù)據(jù)的共享與轉(zhuǎn)換。業(yè)務數(shù)據(jù)集成系統(tǒng)通過對具體的數(shù)據(jù)庫業(yè)務數(shù)據(jù)進行訪問,實現(xiàn)了基于變量的增量數(shù)據(jù)的獲取和發(fā)送,不僅解決了分布式環(huán)境下異構(gòu)數(shù)據(jù)的集成,還具有良好的擴展性及部署的簡單性。
(2)業(yè)務數(shù)據(jù)管理系統(tǒng):是業(yè)務數(shù)據(jù)系統(tǒng)的核心組成部分,主要完成對業(yè)務數(shù)據(jù)的操縱與管理功能,實現(xiàn)數(shù)據(jù)對象的創(chuàng)建、數(shù)據(jù)存儲數(shù)據(jù)的查詢、添加、修改與刪除操作和數(shù)據(jù)庫的用戶管理、權限管理等。業(yè)務數(shù)據(jù)管理系統(tǒng)可以依據(jù)它所支持的數(shù)據(jù)庫模型來做分類,例如關系式、XML;或依據(jù)所支持的計算機類型來做分類,例如服務器群集、移動電話;或依據(jù)所用查詢語言來做分類,例如SQL、XQuery;或依據(jù)性能沖量重點來做分類,例如最大規(guī)模、最高運行速度。
(3)業(yè)務數(shù)據(jù)分析系統(tǒng):主要功能是從眾多外部系統(tǒng)中,采集相關的業(yè)務數(shù)據(jù),集中存儲到系統(tǒng)的數(shù)據(jù)庫中。系統(tǒng)內(nèi)部對所有的原始數(shù)據(jù)通過一系列處理轉(zhuǎn)換之后,存儲到數(shù)據(jù)倉庫的基礎庫中;然后,通過業(yè)務需要進行一系列的數(shù)據(jù)轉(zhuǎn)換到相應的數(shù)據(jù)集市,供其他上層數(shù)據(jù)應用組件進行專題分析或者展示,并將數(shù)據(jù)加以匯總和理解并消化,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。
(3)業(yè)務數(shù)據(jù)可視化系統(tǒng):將數(shù)據(jù)進行更清晰的展示,能夠準確而高效、精簡而全面地傳遞信息和知識??梢暬軐⒉豢梢姷臄?shù)據(jù)現(xiàn)象轉(zhuǎn)化為可見的圖形符號,能將錯綜復雜、看起來沒法解釋和關聯(lián)的數(shù)據(jù),建立起聯(lián)系和關聯(lián),發(fā)現(xiàn)規(guī)律和特征,獲得更有商業(yè)價值的洞見和價值。
4)智能制造業(yè)務數(shù)據(jù)
智能制造業(yè)務數(shù)據(jù)主要包括以下6個方面。
(1)從底層的設備控制系統(tǒng)中采集的數(shù)據(jù),包括設備的狀態(tài)數(shù)據(jù)、設備參數(shù)等,如數(shù)控系統(tǒng)、產(chǎn)線控制系統(tǒng)等。
(2)直接采集各類終端及傳感器的數(shù)據(jù),如溫度傳感器、振動傳感器、噪聲傳感器、手持終端等。
(3)從各類業(yè)務應用信息系統(tǒng)中獲取數(shù)據(jù),如MES系統(tǒng)從PDM系統(tǒng)獲取BOM數(shù)據(jù),從ERP系統(tǒng)獲取訂單數(shù)據(jù)等。
(4)從各類業(yè)務運行過程中獲取的樣本數(shù)據(jù)集,是指以業(yè)務為中心,積累的歷史樣本數(shù)據(jù),可用于智能制造過程中模型的訓練。
(5)指算法和模型數(shù)據(jù),是指機器學習、深度學習、強化學習等算法和已訓練好的模型,用戶可以直接從業(yè)務數(shù)據(jù)系統(tǒng)中調(diào)用這些算法和模型數(shù)據(jù),用于制造大數(shù)據(jù)分析、預測、決策等。
(6)從互聯(lián)網(wǎng)獲取數(shù)據(jù),如獲取市場信息數(shù)據(jù)、環(huán)境數(shù)據(jù),上下游供應商數(shù)據(jù)等。還包括來源于人類軌跡產(chǎn)生的數(shù)據(jù),包括在現(xiàn)代工業(yè)制造鏈中,從采購,生產(chǎn),物流與銷售市場的內(nèi)部流程等。通過行為軌跡數(shù)據(jù)與設備數(shù)據(jù)的結(jié)合,可以幫助我們實現(xiàn)客戶的分析和挖掘。
大數(shù)據(jù)時代的新理念
大數(shù)據(jù)時代的到來改變了人們的生活方式、思維模式和研究范式,也帶來了很多全新的理念。
(1)研究范式的新認識——從第三范式到第四范式:2007年,圖靈獎獲得者Jim Gray提出了科學研究的第四范式——數(shù)據(jù)密集型科學發(fā)現(xiàn)(Data-intensive Scientific Discovery)。在他看來,人類科學研究活動已經(jīng)歷過3種不同范式的演變過程(原始社會的實驗科學范式、以模型和歸納為特征的理論科學范式和以模擬仿真為特征的計算科學范式),目前正在從計算科學范式轉(zhuǎn)向數(shù)據(jù)密集型科學發(fā)現(xiàn)范式。第四范式,即數(shù)據(jù)密集型科學發(fā)現(xiàn)范式的主要特點是科學研究人員只需要從大數(shù)據(jù)中查找和挖掘所需要的信息和知識,無須直接面對所研究的物理對象。
(2)數(shù)據(jù)重要性的新認識——從數(shù)據(jù)資源到數(shù)據(jù)資產(chǎn):在大數(shù)據(jù)時代,數(shù)據(jù)不僅是一種資源,而更是一種重要的資產(chǎn)。因此,數(shù)據(jù)科學應把數(shù)據(jù)當作一種資產(chǎn)來管理,而不能僅僅當作資源來對待。也就是說,與其他類型的資產(chǎn)相似,數(shù)據(jù)也具有財務價值,且需要作為獨立實體進行組織與管理。
(3)對方法論的新認識——從基于知識解決問題到基于數(shù)據(jù)解決問題:傳統(tǒng)方法論往往是基于知識的,即從大量實踐(數(shù)據(jù))中總結(jié)和提煉出一般性知識(定理、模式、模型、函數(shù)等)之后,用知識去解決(或解釋)問題。因此,傳統(tǒng)的問題解決思路是問題→知識→問題,即根據(jù)問題找知識,并用知識解決問題。然而,數(shù)據(jù)科學中興起了另一種方法論——問題→數(shù)據(jù)→問題,即根據(jù)問題找數(shù)據(jù),并直接用數(shù)據(jù)(不需要把數(shù)據(jù)轉(zhuǎn)換成知識的前提下)解決問題。
(4)對數(shù)據(jù)分析的新認識——從統(tǒng)計學到數(shù)據(jù)科學:在傳統(tǒng)科學中,數(shù)據(jù)分析主要以數(shù)學和統(tǒng)計學為直接理論工具。但是,云計算等計算模式的出現(xiàn)以及大數(shù)據(jù)時代的到來,提升了人們對數(shù)據(jù)的獲取、存儲、計算與管理能力。在海量、動態(tài)、異構(gòu)的數(shù)據(jù)環(huán)境中,人們開始重視相關分析,而不僅僅是因果分析。人們更加關注的是數(shù)據(jù)計算的“效率”而不再盲目追求其精準度。
(5)對計算智能的新認識——從復雜算法到簡單算法:“只要擁有足夠多的數(shù)據(jù),我們可以變得更聰明”是大數(shù)據(jù)時代的一個新認識。因此,在大數(shù)據(jù)時代,原本復雜的智能問題變成簡單的數(shù)據(jù)問題——只要對大數(shù)據(jù)的進行簡單查詢就可以達到“基于復雜算法的智能計算的效果”。
(6)對數(shù)據(jù)管理重點的新認識——從業(yè)務數(shù)據(jù)化到數(shù)據(jù)業(yè)務化:在大數(shù)據(jù)時代,企業(yè)需要重視一個新的課題——數(shù)據(jù)業(yè)務化,即如何基于數(shù)據(jù)動態(tài)地定義、優(yōu)化和重組業(yè)務及其流程,進而提升業(yè)務的敏捷性,降低風險和成本。
(7)對決策方式的新認識——從目標驅(qū)動型決策到數(shù)據(jù)驅(qū)動型決策:傳統(tǒng)科學思維中,決策制定往往是目標或模型驅(qū)動的——根據(jù)目標(或模型)進行決策。在大數(shù)據(jù)時代出現(xiàn)了另一種思維模式,即數(shù)據(jù)驅(qū)動型決策,數(shù)據(jù)成為決策制定的主要觸發(fā)條件和重要依據(jù)。
(8)對產(chǎn)業(yè)競合關系的新認識——從以戰(zhàn)略為中心競合關系到以數(shù)據(jù)為中心競合關系:在大數(shù)據(jù)時代,企業(yè)之間的競合關系發(fā)生了變化,原本相互激烈競爭,甚至不愿合作的企業(yè),不得不開始合作,形成新的業(yè)態(tài)和產(chǎn)業(yè)鏈。
(9)對數(shù)據(jù)復雜性的新認識——從不接受到接受數(shù)據(jù)的復雜性:在傳統(tǒng)科學看來,數(shù)據(jù)需要徹底凈化和集成,計算目的是需要找出精確答案,其背后的哲學是“不接受數(shù)據(jù)的復雜性”。然而,大數(shù)據(jù)中更加強調(diào)的是數(shù)據(jù)的動態(tài)性、異構(gòu)性和跨域等復雜性——彈性計算、魯棒性、虛擬化和快速響應,開始把復雜性當作數(shù)據(jù)的一個固有特征來對待,組織數(shù)據(jù)生態(tài)系統(tǒng)的管理目標轉(zhuǎn)向?qū)⒔M織處于混沌邊緣狀態(tài)。
(10)對數(shù)據(jù)處理模式的新認識——從小眾參與到大眾協(xié)同:傳統(tǒng)科學中,數(shù)據(jù)的分析和挖掘都是基于專家經(jīng)驗,但在大數(shù)據(jù)時代,基于專家經(jīng)驗的創(chuàng)新工作成本和風險越來越大,而基于專家-業(yè)余相結(jié)合(Pro-Am)的大規(guī)模協(xié)作日益受到重視,正成為解決數(shù)據(jù)規(guī)模與形式化之間矛盾的重要手段。
大數(shù)據(jù)時代的新術語
大數(shù)據(jù)時代的到來,為業(yè)務活動提出了一些新的任務和挑戰(zhàn),同時出現(xiàn)了很多全新術語。
(1)數(shù)據(jù)化(datafication):捕獲人們的生活與業(yè)務活動,并將其轉(zhuǎn)換為數(shù)據(jù)的過程。
(2)數(shù)據(jù)柔術(data jiu-jitsu):數(shù)據(jù)科學家將大數(shù)據(jù)轉(zhuǎn)換具有立即產(chǎn)生商業(yè)價值的數(shù)據(jù)產(chǎn)品(data product)的能力,如圖1所示。數(shù)據(jù)產(chǎn)品是指在零次數(shù)據(jù)或一次數(shù)據(jù)的基礎上,通過數(shù)據(jù)加工活動形成的二次或三次數(shù)據(jù),數(shù)據(jù)產(chǎn)品的特點包括:高層次性,其一般為二次數(shù)據(jù)或三次數(shù)據(jù);成品性,數(shù)據(jù)產(chǎn)品往往不需要(或不需要大量的)進一步處理即可直接應用;商品性,數(shù)據(jù)產(chǎn)品可以直接用于銷售或交易;易于定價,相對于原始數(shù)據(jù),數(shù)據(jù)產(chǎn)品的定價更為容易。
? ? 圖1數(shù)據(jù)柔術
(3)數(shù)據(jù)改寫(data munging):帶有一定的創(chuàng)造力和想象力的數(shù)據(jù)再加工行為,主要涉及數(shù)據(jù)的解析(parsing)、提煉(scraping)、格式化(formatting)和形式化(formalization)處理。與一般數(shù)據(jù)處理不同的是,數(shù)據(jù)再加工強調(diào)的是數(shù)據(jù)加工過程中的創(chuàng)造力和想象力。
(4)數(shù)據(jù)打磨(data wrangling):采用全手工或半自動化的方式,通過多次反復調(diào)整與優(yōu)化過程,即將原始數(shù)據(jù)轉(zhuǎn)換為一次數(shù)據(jù)(或二次數(shù)據(jù))的過程。其特殊性表現(xiàn)在不是完全自動化方式實現(xiàn),一般用手工或半自動化工具;不是一次即可完成,需要多次反復調(diào)整與優(yōu)化。
(5)數(shù)據(jù)分析式思維模式(data-analytic thinking):一種從數(shù)據(jù)視角分析問題,并基于數(shù)據(jù)來解決問題的思維模式。數(shù)據(jù)分析思維模式與傳統(tǒng)思維模式不同。前者,主要從數(shù)據(jù)入手,最終改變業(yè)務;后者從業(yè)務或決策等要素入手,最終改變數(shù)據(jù)。從分析對象和目的看,數(shù)據(jù)分析可以分為3個不同層次,如圖2所示。
圖2數(shù)據(jù)分析的層次
(6)描述性分析( descriptive analysis):采用數(shù)據(jù)統(tǒng)計中的描述統(tǒng)計量、數(shù)據(jù)可視化等方法描述數(shù)據(jù)的基本特征,如總和、均值、標準差等。描述性分析可以實現(xiàn)從數(shù)據(jù)到信息的轉(zhuǎn)化。
(7)預測性分析(predictive analysis):通過因果分析、相關分析等方法,基于過去/當前的數(shù)據(jù)得出潛在模式、共性規(guī)律或未來趨勢。預測性分析可以實現(xiàn)從信息到知識的轉(zhuǎn)化。
(8)規(guī)范性分析(normative analysis):不僅要利用當前和過去的數(shù)據(jù),而且還會綜合考慮期望結(jié)果、所處環(huán)境、資源條件等更多影響因素,在對比分析所有可能方案的基礎上,提出可以直接用于決策的建議或方案。規(guī)范性分析可實現(xiàn)從知識到智慧的轉(zhuǎn)變。
(9)數(shù)據(jù)洞見(data insights):采用機器學習、數(shù)據(jù)統(tǒng)計和數(shù)據(jù)可視化等方法從海量數(shù)據(jù)中找到人們并未發(fā)現(xiàn)的且有價值的信息的能力。數(shù)據(jù)科學強調(diào)的是數(shù)據(jù)洞見——發(fā)現(xiàn)數(shù)據(jù)背后的信息、知識和智慧以及找到“被淹沒在海量數(shù)據(jù)中的未知數(shù)據(jù)”。與數(shù)據(jù)挖掘不同的是,數(shù)據(jù)科學項目的成果可以直接用于決策支持。數(shù)據(jù)洞見力的高低主要取決于主體的數(shù)據(jù)意識、經(jīng)驗積累和分析處理能力。
(10)數(shù)據(jù)驅(qū)動(data-driven):是相對于決策驅(qū)動、目標驅(qū)動、業(yè)務驅(qū)動和模型驅(qū)動的一種提法。數(shù)據(jù)驅(qū)動主要以數(shù)據(jù)為觸發(fā)器(出發(fā)點)、視角和依據(jù),進行觀測、控制、調(diào)整和整合其他要素——決策、目標、業(yè)務和模型等,如圖3所示。數(shù)據(jù)驅(qū)動是大數(shù)據(jù)時代的一種重要思維模式,也是業(yè)務數(shù)據(jù)化之后實現(xiàn)數(shù)據(jù)業(yè)務化的關鍵所在。
圖3常用的驅(qū)動方式
(11)數(shù)據(jù)密集型(data-intensive)應用:是相對于計算密集型應用、I/O密集型應用的一種提法,如圖4所示。也就是說,數(shù)據(jù)密集型應用中數(shù)據(jù)成為應用系統(tǒng)研發(fā)的主要焦點和挑戰(zhàn)。通常,數(shù)據(jù)密集型應用的計算比較容易,但數(shù)據(jù)具有顯著的復雜性(異構(gòu)、動態(tài)、跨域和海量等)和海量性。例如,當對PB級復雜性數(shù)據(jù)進行簡單查詢時,計算不再是最主要的挑戰(zhàn),而最主要挑戰(zhàn)來自于數(shù)據(jù)本身的復雜性。
圖4計算密集型應用與數(shù)據(jù)密集型應用的區(qū)別
(12)數(shù)據(jù)空間(data space):主體的數(shù)據(jù)空間——與主體相關的數(shù)據(jù)及其關系的集合。主體相關性和可控性是數(shù)據(jù)空間中數(shù)據(jù)項的基本屬性。
(13)關聯(lián)數(shù)據(jù)(linked data):一種數(shù)據(jù)發(fā)布和關聯(lián)的方法。其中,數(shù)據(jù)發(fā)布是指采用資源描述框架(resource definition framework,RDF)和超文本傳輸協(xié)議(hypertext transfer protocol,HTTP)技術在Web上發(fā)布結(jié)構(gòu)化信息;數(shù)據(jù)關聯(lián)是指采用RDF鏈接技術在不同數(shù)據(jù)源中的數(shù)據(jù)之間建立計算機可理解的互連關系。2006年, Tim Berners Lee首次提出了關聯(lián)數(shù)據(jù)的理念,目的在于不同資源之間建立計算機可理解的關聯(lián)信息,最終形成全球性大數(shù)據(jù)空間。Tim Berners Lee進一步明確提出了關聯(lián)數(shù)據(jù)技術中的數(shù)據(jù)發(fā)布和數(shù)據(jù)關聯(lián)的4項原則:采用統(tǒng)一資源標識符(uniform resource identifier, URI)技術統(tǒng)一標識事物;通過HTTP URI訪問URI標識;當URI被訪問時,采用RDF和SPARQL(Simple Protocol and RDF Query Language)標準,提供有用信息;提供信息時,也提供指向其他事物的URI,以便發(fā)現(xiàn)更多事物。
除了上述概念之外,還有數(shù)據(jù)消減(data reduction)、數(shù)據(jù)新聞(data journalism)、數(shù)據(jù)的開放獲取(open access)、數(shù)據(jù)質(zhì)量、特征提取等傳統(tǒng)概念也重新備受關注。
大數(shù)據(jù)生命周期管理
在大數(shù)據(jù)平臺下,預處理的數(shù)據(jù)量非常大,而處理后的有效數(shù)據(jù)量往往比較小,因此,數(shù)據(jù)的生命周期管理顯得非常重要。數(shù)據(jù)生命周期管理(data life-cycle management,DLM)是一種基于策略的方法,用于管理信息系統(tǒng)的數(shù)據(jù)在整個生命周期內(nèi)的流動:從創(chuàng)建和初始存儲,到它過時被刪除。(圖5)
圖5大數(shù)據(jù)生命周期管理概述圖
DLM產(chǎn)品將涉及的過程自動化,通常根據(jù)指定的策略將數(shù)據(jù)組織成各個不同的層,并基于那些關鍵條件自動地將數(shù)據(jù)從一個層移動到另一個層。作為一項規(guī)則,較新的數(shù)據(jù)和那些很可能被更加頻繁訪問的數(shù)據(jù),應該存儲在更快的,并且更昂貴的存儲媒介上,而那些不是很重要的數(shù)據(jù)則存儲在比較便宜的,稍微慢些的媒介上。數(shù)據(jù)生命周期管理的總體原則在數(shù)據(jù)的整個生命周期中,不同階段的數(shù)據(jù)其性能、可用性、保存等要求也不一樣。通常情況下,在其生命周期初期,數(shù)據(jù)的使用頻率較高,需要使用高速存儲,確保數(shù)據(jù)的高可用性。隨著時間的推移,數(shù)據(jù)重要性會逐漸降低,使用頻率會隨之下降,應將數(shù)據(jù)進行不同級別的存儲,為其提供適當?shù)目捎眯浴⒋鎯臻g,以降低管理成本和資源開銷。最終大部分數(shù)據(jù)將不再會被使用,可以將數(shù)據(jù)清理后歸檔保存,以備臨時需要時使用。
編輯:黃飛
-
數(shù)據(jù)
+關注
關注
8文章
7030瀏覽量
89038 -
大數(shù)據(jù)
+關注
關注
64文章
8889瀏覽量
137444
原文標題:數(shù)據(jù)的基本概念!
文章出處:【微信號:數(shù)字化企業(yè),微信公眾號:數(shù)字化企業(yè)】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論