0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)的特征及技術(shù)關(guān)鍵

jf_78858299 ? 來源:計(jì)算機(jī)大學(xué)生 ? 作者:史愛武 ? 2023-05-10 15:32 ? 次閱讀

大數(shù)據(jù)的特征

大數(shù)據(jù)的定義多而雜,不同企業(yè)、行業(yè)等都從自身角度來定義大數(shù)據(jù),意思都差不多,就一句話,大數(shù)據(jù)由巨型數(shù)據(jù)集組成,這些數(shù)據(jù)集規(guī)模超出了常用軟件在可接受時(shí)間下的收集、管理、處理和使用能力。

雖然大數(shù)據(jù)的定義沒有統(tǒng)一,但是國際知名咨詢公司IDC定義的大數(shù)據(jù)四個(gè)特征卻受到業(yè)界的廣泛接受,也就是4V特征——數(shù)據(jù)量大(Volume)、數(shù)據(jù)種類多(Variety)、數(shù)據(jù)價(jià)值密度低(Value) 以及數(shù)據(jù)產(chǎn)生和處理速度快(Velocity)。

01

數(shù)據(jù)量大(Volume)

傳感器、物聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦等等,無一不是數(shù)據(jù)來源或者承載的方式。當(dāng)今的數(shù)字時(shí)代,人們?nèi)粘I睿ㄎ⑿?、QQ、上網(wǎng)搜索與購物等)都在產(chǎn)生著數(shù)量龐大的數(shù)據(jù)。

大數(shù)據(jù)不再以GB或TB為單位來衡量,而是以PB(1000個(gè)T)、EB(100萬個(gè)T)或ZB(10億個(gè)T)為計(jì)量單位,從TB躍升到PB、EB乃至ZB級(jí)別。顧名思義,這就是大數(shù)據(jù)的首要特征。

02

數(shù)據(jù)種類多(Variety)

大數(shù)據(jù)不僅體現(xiàn)在量的急劇增長(zhǎng),數(shù)據(jù)類型亦是多樣,可分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在多年來一直主導(dǎo)著IT應(yīng)用的關(guān)系型數(shù)據(jù)庫中;半結(jié)構(gòu)化數(shù)據(jù)包括電子郵件、文字處理文件以及大量的網(wǎng)絡(luò)新聞等,以內(nèi)容為基礎(chǔ),這也是谷歌和百度存在的理由;而非結(jié)構(gòu)化數(shù)據(jù)隨著社交網(wǎng)絡(luò)、移動(dòng)計(jì)算和傳感器等新技術(shù)應(yīng)用不斷產(chǎn)生,廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)之中。

有報(bào)告稱,全世界結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)率分別是32%、63%,網(wǎng)絡(luò)日志、音視頻、圖片、地理位置信息等非結(jié)構(gòu)化數(shù)據(jù)量占比達(dá)到80%左右,并在逐步提升。然而,產(chǎn)生人類智慧的大數(shù)據(jù)往往就是這些非結(jié)構(gòu)化數(shù)據(jù)。

03

數(shù)據(jù)價(jià)值密度低(Value)

大數(shù)據(jù)的重點(diǎn)不在于其數(shù)據(jù)量的增長(zhǎng),而是在信息爆炸時(shí)代對(duì)數(shù)據(jù)價(jià)值的再挖掘,如何挖掘出大數(shù)據(jù)的有效信息,才是至關(guān)重要。

價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。雖然價(jià)值密度低是日益凸顯的一個(gè)大數(shù)據(jù)特性,但是對(duì)大數(shù)據(jù)進(jìn)行研究、分析挖掘仍然是具有深刻意義的,大數(shù)據(jù)的價(jià)值依然是不可估量的。畢竟,價(jià)值是推動(dòng)一切技術(shù)(包括大數(shù)據(jù)技術(shù))研究和發(fā)展的內(nèi)生決定性動(dòng)力。

04

數(shù)據(jù)產(chǎn)生和處理速度快(Velocity)

美國互聯(lián)網(wǎng)數(shù)據(jù)中心指出,企業(yè)數(shù)據(jù)正在以55%的速度逐年增長(zhǎng),互聯(lián)網(wǎng)數(shù)據(jù)每年將增長(zhǎng)50%,每?jī)赡瓯銓⒎环?。IBM研究表明,整個(gè)人類文明所獲得的全部數(shù)據(jù)中,90%是過去兩年內(nèi)產(chǎn)生的。

要求數(shù)據(jù)處理速度快也是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘技術(shù)的本質(zhì)特征。有學(xué)者提出了與之相關(guān)的“一秒定律”,意思就是在這一秒有用的數(shù)據(jù),下一秒可能就失效。數(shù)據(jù)價(jià)值除了與數(shù)據(jù)規(guī)模相關(guān),還與數(shù)據(jù)處理速度成正比關(guān)系,也就是,數(shù)據(jù)處理速度越快、越及時(shí),其發(fā)揮的效能就越大、價(jià)值越大。

大數(shù)據(jù)的關(guān)鍵技術(shù)

大數(shù)據(jù)技術(shù)是IT領(lǐng)域新一代的技術(shù)與架構(gòu),是從各種類型的數(shù)據(jù)中快速獲得有價(jià)值信息的技術(shù)。大數(shù)據(jù)本質(zhì)也是數(shù)據(jù),其關(guān)鍵技術(shù)依然不外乎:大數(shù)據(jù)采集和預(yù)處理;大數(shù)據(jù)存儲(chǔ)與管理;大數(shù)據(jù)分析和挖掘;大數(shù)據(jù)展現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)安全等)。

01

大數(shù)據(jù)采集和預(yù)處理技術(shù)

大數(shù)據(jù)技術(shù)的意義確實(shí)不在于掌握規(guī)模龐大的數(shù)據(jù)信息,而在于對(duì)這些數(shù)據(jù)進(jìn)行智能處理,從中分析和挖掘出有價(jià)值的信息,但前提是得擁有大量的數(shù)據(jù)。

采集是大數(shù)據(jù)價(jià)值挖掘最重要的一環(huán),一般通過傳感器、通信網(wǎng)絡(luò)、智能識(shí)別系統(tǒng)及軟硬件資源接入系統(tǒng),實(shí)現(xiàn)對(duì)各種類型海量數(shù)據(jù)的智能化識(shí)別、定位、跟蹤、接入、傳輸、信號(hào)轉(zhuǎn)換等。為了快速分析處理,大數(shù)據(jù)預(yù)處理技術(shù)要對(duì)多種類型的數(shù)據(jù)進(jìn)行抽取、清洗、轉(zhuǎn)換等操作,將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為有效的、單一的或者便于處理的數(shù)據(jù)類型。

就算是大數(shù)據(jù)服務(wù)企業(yè)也很難就“哪些數(shù)據(jù)未來將成為資產(chǎn)”這個(gè)問題給出確切的答案。但可以肯定的是,誰掌握了足夠的數(shù)據(jù),誰就有可能掌握未來,現(xiàn)在的數(shù)據(jù)采集就是將來的流動(dòng)資產(chǎn)積累。

02

大數(shù)據(jù)存儲(chǔ)與管理技術(shù)

數(shù)據(jù)有多種分類方法,有結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化;也有元數(shù)據(jù)、主數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù);還可以分為GIS、視頻、文本、語音、業(yè)務(wù)交易類各種數(shù)據(jù)。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已經(jīng)無法滿足數(shù)據(jù)多樣性的存儲(chǔ)要求。除了關(guān)系型數(shù)據(jù)庫,還有兩種存儲(chǔ)類型,一種是以HDFS為代表的可以直接應(yīng)用于非結(jié)構(gòu)化文件存儲(chǔ)的分布式存儲(chǔ)系統(tǒng),另一種是NoSQL數(shù)據(jù)庫,可以存儲(chǔ)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)存儲(chǔ)與管理就是要用這些存儲(chǔ)技術(shù)把采集到的數(shù)據(jù)存儲(chǔ)起來,并進(jìn)行管理和調(diào)用。

在一般的大數(shù)據(jù)存儲(chǔ)層,關(guān)系型數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫和分布式存儲(chǔ)系統(tǒng)三種存儲(chǔ)方式都可能存在,業(yè)務(wù)應(yīng)用根據(jù)實(shí)際的情況選擇不同的存儲(chǔ)模式。為了提高業(yè)務(wù)的存儲(chǔ)和讀取便捷性,存儲(chǔ)層可能封裝成為一套統(tǒng)一訪問的數(shù)據(jù)服務(wù)(Data as a Service,DaaS)。DaaS可以實(shí)現(xiàn)業(yè)務(wù)應(yīng)用和存儲(chǔ)基礎(chǔ)設(shè)施的徹底解耦,用戶并不需要關(guān)心底層存儲(chǔ)細(xì)節(jié),只關(guān)心數(shù)據(jù)的存取。

03

大數(shù)據(jù)分析和挖掘技術(shù)

大數(shù)據(jù)分析和挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的、有用的信息和知識(shí)的過程。大數(shù)據(jù)分析和挖掘涉及的技術(shù)方法很多:根據(jù)挖掘任務(wù)可分為分類或預(yù)測(cè)模型發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等;根據(jù)挖掘方法可分為機(jī)器學(xué)習(xí)、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)等。其中,機(jī)器學(xué)習(xí)又可細(xì)分為歸納學(xué)習(xí)、遺傳算法等;統(tǒng)計(jì)方法可細(xì)分為回歸分析、聚類分析、探索性分析等;神經(jīng)網(wǎng)絡(luò)可細(xì)分為前饋網(wǎng)絡(luò)、反饋網(wǎng)絡(luò)等。

面對(duì)不同的分析或預(yù)測(cè)需求,所需要的分析挖掘算法和模型是完全不同的。上面提到的各種技術(shù)方法只是一個(gè)處理問題的思路,面對(duì)真正的應(yīng)用場(chǎng)景時(shí),都得按需求來調(diào)整這些算法和模型。

04

大數(shù)據(jù)展現(xiàn)和應(yīng)用技術(shù)

大數(shù)據(jù)的使用對(duì)象遠(yuǎn)遠(yuǎn)不只是程序員和專業(yè)工程師,如何將大數(shù)據(jù)技術(shù)的分析成果展現(xiàn)給普通用戶或者公司決策者,這就要看數(shù)據(jù)展現(xiàn)的可視化技術(shù)了,它是目前解釋大數(shù)據(jù)最有效的手段之一。在數(shù)據(jù)可視化中,數(shù)據(jù)結(jié)果以簡(jiǎn)單形象的可視化、圖形化、智能化的形式呈現(xiàn)給用戶供其分析使用。常見的大數(shù)據(jù)可視化技術(shù)有標(biāo)簽云、歷史流、空間信息流等。

我國的大數(shù)據(jù)應(yīng)用廣泛存在于商業(yè)智能、政府決策和公共服務(wù)等重點(diǎn)領(lǐng)域,疫情防控、反電信詐騙、智能交通、環(huán)境監(jiān)測(cè)等日常生活場(chǎng)景都有大數(shù)據(jù)的功勞。

大數(shù)據(jù)時(shí)代對(duì)我們駕馭數(shù)據(jù)的能力提出了新挑戰(zhàn),也為獲得更全面、睿智的洞察力提供了空間和潛力。大數(shù)據(jù)領(lǐng)域已經(jīng)涌現(xiàn)出了大量新技術(shù),它們成為大數(shù)據(jù)采集、存儲(chǔ)、處理和展現(xiàn)的有力武器。隨著大數(shù)據(jù)等新興技術(shù)的發(fā)展和應(yīng)用,我國“十四五”規(guī)劃提出的碳達(dá)峰碳中和、數(shù)字化轉(zhuǎn)型、數(shù)字經(jīng)濟(jì)等一系列戰(zhàn)略目標(biāo)將獲得更大的技術(shù)支撐。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • IDC
    IDC
    +關(guān)注

    關(guān)注

    4

    文章

    391

    瀏覽量

    37262
  • Value
    +關(guān)注

    關(guān)注

    0

    文章

    11

    瀏覽量

    8664
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8899

    瀏覽量

    137575
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    工業(yè)大數(shù)據(jù)

    工業(yè)大數(shù)據(jù)是未來工業(yè)在全球市場(chǎng)競(jìng)爭(zhēng)中發(fā)揮優(yōu)勢(shì)的關(guān)鍵。無論是德國工業(yè)4.0、美國工業(yè)互聯(lián)網(wǎng)還是《中國制造2025》,各國制造業(yè)創(chuàng)新戰(zhàn)略的實(shí)施基礎(chǔ)都是工業(yè)大數(shù)據(jù)的搜集和特征分析,及以此為未
    發(fā)表于 06-19 17:43

    常用大數(shù)據(jù)處理技術(shù)歸類

    “21世紀(jì)最缺的是什么?人才!”。在大數(shù)據(jù)發(fā)展如此之快的今天,大數(shù)據(jù)工程師已經(jīng)成為一個(gè)新興職業(yè)。大數(shù)據(jù)是信息技術(shù),是人和人、人和機(jī)器、機(jī)器和機(jī)器交互的內(nèi)容
    發(fā)表于 02-28 17:02

    常見大數(shù)據(jù)應(yīng)用有哪些?

    以及亞馬遜等大型企業(yè)也將大數(shù)據(jù)技術(shù)列為未來發(fā)展的關(guān)鍵籌碼,可見,大數(shù)據(jù)技術(shù)在當(dāng)今乃至未來的重要性!大數(shù)據(jù)
    發(fā)表于 03-13 16:50

    大數(shù)據(jù)運(yùn)用的技術(shù)

    大數(shù)據(jù)是對(duì)海量數(shù)據(jù)進(jìn)行存儲(chǔ)、計(jì)算、統(tǒng)計(jì)、分析處理的一系列處理手段,處理的數(shù)據(jù)量通常是TB級(jí),甚至是PB或EB級(jí)的數(shù)據(jù),這是傳統(tǒng)數(shù)據(jù)處理手段所
    發(fā)表于 04-08 16:50

    大數(shù)據(jù)開發(fā)核心技術(shù)詳解

    ,cube等。由此可以看來大數(shù)據(jù)兩大核心為云技術(shù)和BI,離開云技術(shù)大數(shù)據(jù)沒有根基和落地可能,離開BI和價(jià)值,大數(shù)據(jù)又變化為舍本逐末,丟棄
    發(fā)表于 07-26 16:26

    NLPIR系統(tǒng)KGB知識(shí)圖譜技術(shù)助力大數(shù)據(jù)深度挖掘

    大數(shù)據(jù)技術(shù)不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的
    發(fā)表于 12-05 11:49

    NLPIR-Parser大數(shù)據(jù)技術(shù)實(shí)現(xiàn)深度文本語義理解

    、可計(jì)算的基礎(chǔ);在確定了特征表示方式的基礎(chǔ)上,從文本大數(shù)據(jù)中學(xué)習(xí)能夠精確表達(dá)文本語義的特征是實(shí)現(xiàn)內(nèi)容理解的關(guān)鍵。  近年來,表示學(xué)習(xí)(representation?learning)或
    發(fā)表于 12-18 11:58

    4G移動(dòng)通信關(guān)鍵技術(shù)特征是什么?

    4G移動(dòng)通信關(guān)鍵技術(shù)特征是什么?
    發(fā)表于 05-26 06:37

    大數(shù)據(jù)的定義及其應(yīng)用

    目錄1、大數(shù)據(jù)概述1.1. 概述1.2. 大數(shù)據(jù)定義1.3. 大數(shù)據(jù)技術(shù)發(fā)展2、大數(shù)據(jù)應(yīng)用2.1. 大數(shù)
    發(fā)表于 07-12 06:12

    什么是大數(shù)據(jù)?大數(shù)據(jù)的特點(diǎn)有哪些

    大數(shù)據(jù)(big data)目錄1什么是大數(shù)據(jù)2大數(shù)據(jù)的定義3大數(shù)據(jù)的特點(diǎn)[1]4大數(shù)據(jù)的作用[2]5大數(shù)
    發(fā)表于 07-12 06:52

    大數(shù)據(jù)技術(shù)與應(yīng)用是學(xué)什么的?

    大數(shù)據(jù)技術(shù)與應(yīng)用是學(xué)什么的?大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)
    發(fā)表于 07-27 07:47

    貴州省大數(shù)據(jù)領(lǐng)域技術(shù)榜單“大數(shù)據(jù)安全與隱私保護(hù)關(guān)鍵技術(shù)”項(xiàng)目啟動(dòng)

    記者從貴州省科技廳獲悉,日前,貴州省大數(shù)據(jù)領(lǐng)域技術(shù)榜單“大數(shù)據(jù)安全與隱私保護(hù)關(guān)鍵技術(shù)”項(xiàng)目啟動(dòng),將對(duì)公共大數(shù)據(jù)安全、隱私保護(hù)等課題開展研究。
    發(fā)表于 05-09 16:08 ?1753次閱讀

    工業(yè)大數(shù)據(jù)特征、方法與價(jià)值創(chuàng)造

    工業(yè)大數(shù)據(jù)特征、方法與價(jià)值創(chuàng)造分析。
    發(fā)表于 05-06 16:03 ?9次下載

    大數(shù)據(jù)的4v特征有哪些 大數(shù)據(jù)技術(shù)包括哪些技術(shù)

    大數(shù)據(jù)的4V特征是指數(shù)據(jù)的特點(diǎn),主要包括以下四個(gè)方面:   1. Volume(數(shù)據(jù)量):所謂大數(shù)據(jù),就是指
    的頭像 發(fā)表于 04-16 16:08 ?1.7w次閱讀

    大數(shù)據(jù)的4個(gè)關(guān)鍵技術(shù)

    Volume 大數(shù)據(jù)數(shù)據(jù)量大,數(shù)據(jù)量單位為T 或者P級(jí) * Variety 數(shù)據(jù)類型多,大數(shù)據(jù)包含多種
    的頭像 發(fā)表于 05-10 15:30 ?2857次閱讀
    <b class='flag-5'>大數(shù)據(jù)</b>的4個(gè)<b class='flag-5'>關(guān)鍵技術(shù)</b>