大數(shù)據(jù)的出現(xiàn)給許多企業(yè)對(duì)尋找未來(lái)的方向帶來(lái)了巨大的幫助,許多企業(yè)開(kāi)始關(guān)注大數(shù)據(jù),現(xiàn)在很多人開(kāi)始關(guān)注大數(shù)據(jù),大數(shù)據(jù)可以給每個(gè)人帶來(lái)幫助,但你知道大數(shù)據(jù)的特點(diǎn)和功能嗎?
大數(shù)據(jù)的特性都有哪些
一、體量(Volume)
大數(shù)據(jù)由大量數(shù)據(jù)組成,從幾個(gè)TB到幾個(gè)ZB。這些數(shù)據(jù)可能會(huì)分布在許多地方,通常是在一些連入因特網(wǎng)的計(jì)算網(wǎng)絡(luò)中。一般來(lái)說(shuō),凡是滿足大數(shù)據(jù)的幾個(gè)V的條件的數(shù)據(jù)都會(huì)因?yàn)樘蠖鵁o(wú)法被單獨(dú)的計(jì)算機(jī)處理。單單這一個(gè)問(wèn)題就需要一種不同的數(shù)據(jù)處理思路,這也使得并行計(jì)算技術(shù)(例如MapReduce)得以迅速崛起。
二、高速(Velocity)
大數(shù)據(jù)是在運(yùn)動(dòng)著的,通常處于很高的傳輸速度之下。它經(jīng)常被認(rèn)為是數(shù)據(jù)流,而數(shù)據(jù)流通常是很難被歸檔的(考慮到有限的網(wǎng)絡(luò)存儲(chǔ)空間,單單是高速就已經(jīng)是一個(gè)巨大的問(wèn)題)。這就是為什么只能收集到數(shù)據(jù)其中的某些部分。如果我們有能力收集數(shù)據(jù)的全部,長(zhǎng)時(shí)間存儲(chǔ)大量數(shù)據(jù)也會(huì)顯得非常昂貴,所以周期性的收集數(shù)據(jù)遺棄一部分?jǐn)?shù)據(jù)以節(jié)省空間,僅保留數(shù)據(jù)摘要(如平均值和方差)。這個(gè)問(wèn)題在未來(lái)會(huì)顯得更為嚴(yán)重,因?yàn)樵絹?lái)越多的數(shù)據(jù)正以越來(lái)越快的速度所產(chǎn)生。
三、多樣(Variety)
在過(guò)去,數(shù)據(jù)或多或少是同構(gòu)的,這種特點(diǎn)也使得它更易于管理。這種情況并不出現(xiàn)在大數(shù)據(jù)中,由于數(shù)據(jù)的來(lái)源各異,因此形式各異。這體現(xiàn)為各種不同的數(shù)據(jù)結(jié)構(gòu)類型,半結(jié)構(gòu)化以及完全非結(jié)構(gòu)化的數(shù)據(jù)類型。結(jié)構(gòu)化數(shù)據(jù)多被發(fā)現(xiàn)在傳統(tǒng)數(shù)據(jù)庫(kù)中,數(shù)據(jù)的類型被預(yù)定義在定長(zhǎng)的列字段中。半結(jié)構(gòu)化數(shù)據(jù)有一些結(jié)構(gòu)特征,但不總是保持一致(舉例來(lái)說(shuō),看一看JSON文件),使得這種類型難以處理。更富于挑戰(zhàn)的是非結(jié)構(gòu)化數(shù)據(jù)(例如純文本文件)毫無(wú)結(jié)構(gòu)特征可言。在大數(shù)據(jù)中,更常見(jiàn)的是半結(jié)構(gòu)化數(shù)據(jù),而且這些數(shù)據(jù)源的數(shù)據(jù)格式還各不相同。
在過(guò)去的幾年里,半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)成為了大數(shù)據(jù)的主體數(shù)據(jù)類型。
四、準(zhǔn)確(Veracity)
這是一個(gè)在討論大數(shù)據(jù)時(shí)時(shí)常被忽略的一個(gè)屬性,部分原因是這個(gè)屬性相對(duì)來(lái)說(shuō)比較新,盡管它與其他的屬性同樣重要。這是一個(gè)與數(shù)據(jù)是否可靠相關(guān)的屬性,也就是那些在數(shù)據(jù)科學(xué)流程中會(huì)被用于決策的數(shù)據(jù)。
五、精確性與信噪比(signal-to-noiseratio)
在大數(shù)據(jù)中發(fā)現(xiàn)哪些數(shù)據(jù)對(duì)商業(yè)是真正有效的,這在信息理論中是個(gè)十分重要的概念。由于并不是所有的數(shù)據(jù)源都具有相等的可靠性,在這個(gè)過(guò)程中,大數(shù)據(jù)的精確性會(huì)趨于變化。如何增加可用數(shù)據(jù)的精確性是大數(shù)據(jù)的主要挑戰(zhàn)。注意,即使有些數(shù)據(jù)擁有這4種屬性中的一種或多種,也不能被歸類為大數(shù)據(jù)。大數(shù)據(jù)擁有以上全部4種特性。大數(shù)據(jù)是一個(gè)重要課題,因?yàn)樗⒉蝗菀滋幚?,即使是?duì)于一臺(tái)超級(jí)計(jì)算機(jī),也很難獨(dú)自有效地展開(kāi)分析。
大數(shù)據(jù)的特性優(yōu)勢(shì)有哪些.中琛魔方大數(shù)據(jù)分析平臺(tái)表示大數(shù)據(jù)的處理和分析正在成為新一代信息技術(shù)融合和應(yīng)用的節(jié)點(diǎn),大數(shù)據(jù)是信息產(chǎn)業(yè)持續(xù)快速增長(zhǎng)的新引擎,大數(shù)據(jù)利用將成為提高核心競(jìng)爭(zhēng)力的關(guān)鍵因素。
責(zé)任編輯:gt
-
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7570瀏覽量
88833 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8893瀏覽量
137464
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論