0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)分析是如何進(jìn)行數(shù)據(jù)采集?

如意 ? 來源:DataFocus ? 作者:DataFocus ? 2020-07-05 09:37 ? 次閱讀

大數(shù)據(jù)的發(fā)展越來越貼近我們的生活,但是很多卻依然不是很了解什么是大數(shù)據(jù),大數(shù)據(jù)有什么作用。現(xiàn)在大數(shù)據(jù)不僅僅是網(wǎng)絡(luò)資訊,技術(shù)論壇甚至新聞上都有它的身影。說明不僅僅是企業(yè),連國家都在部署大數(shù)據(jù)戰(zhàn)略,但是很多人卻依然云里霧里不清楚這個到底是個啥?直到有一天發(fā)現(xiàn),只要你無意中搜索過什么,那么網(wǎng)頁、APP等都會跳出你搜索過得相關(guān)產(chǎn)品或者關(guān)聯(lián)事物,淘寶推薦商品也越來越符合你的心意。

其實大數(shù)據(jù),就是算法!它可以“算”出你的“心意”。

那么問題來了,大數(shù)據(jù)技術(shù)是怎么樣采集到信息的呢?

數(shù)據(jù)采集,又稱數(shù)據(jù)獲取,是通過一種設(shè)備,從系統(tǒng)外部采集到數(shù)據(jù)輸入到系統(tǒng)內(nèi)部的一種技術(shù)。

在如今互聯(lián)網(wǎng)行業(yè)技術(shù)快速發(fā)展的今天,數(shù)據(jù)采集廣泛應(yīng)用于互聯(lián)網(wǎng)及分布式領(lǐng)域,例如攝像頭、麥克風(fēng)等,都是數(shù)據(jù)采集的工具。數(shù)據(jù)采集系統(tǒng)還集合了信號、傳感器、激勵器、信號調(diào)理、數(shù)據(jù)采集設(shè)備和軟件應(yīng)用。

現(xiàn)在是一個數(shù)據(jù)大爆炸的互聯(lián)網(wǎng)時代,數(shù)據(jù)類型同樣也是復(fù)雜多樣的,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化最常見,就是具有模式的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,包括所有格式的辦公文檔、文本、圖片、XML, HTML、各類報表、圖像和音頻/視頻信息等等。

大數(shù)據(jù)采集是大數(shù)據(jù)分析至關(guān)重要的的一個環(huán)節(jié),也是大數(shù)據(jù)分析的入口。

我們首先來了解一下數(shù)據(jù)采集的三大要點:

(1)全面性:數(shù)據(jù)量足夠具有分析價值、數(shù)據(jù)面足夠支撐分析需求。

比如對于“查看商品詳情”這一行為,需要采集用戶觸發(fā)時的環(huán)境信息、會話、以及背后的用戶id,最后需要統(tǒng)計這一行為在某一時段觸發(fā)的人數(shù)、次數(shù)、人均次數(shù)、活躍比等。

(2)多維性:數(shù)據(jù)更重要的是能滿足分析需求。

靈活、快速自定義數(shù)據(jù)的多種屬性和不同類型,從而滿足不同的分析目標(biāo)。比如“查看商品詳情”這一行為,通過埋點,我們才能知道用戶查看的商品是什么、價格、類型、商品id等多個屬性。從而知道用戶看過哪些商品、什么類型的商品被查看的多、某一個商品被查看了多少次。而不僅僅是知道用戶進(jìn)入了商品詳情頁。

(3)高效性:高效性包含技術(shù)執(zhí)行的高效性、團(tuán)隊內(nèi)部成員協(xié)同的高效性以及數(shù)據(jù)分析需求和目標(biāo)實現(xiàn)的高效性。

也就是說采集數(shù)據(jù)一定要明確采集目的,帶著問題搜集信息,使信息采集更高效、更有針對性。

此外,還要考慮數(shù)據(jù)的及時性。不同應(yīng)用領(lǐng)域的大數(shù)據(jù)其特點、數(shù)據(jù)量、用戶群體均不相同,不同領(lǐng)域根據(jù)數(shù)據(jù)源的物理性質(zhì)及數(shù)據(jù)分析的目標(biāo)采取不同的數(shù)據(jù)采集方法。

下面我們來了解一下常用的數(shù)據(jù)采集方法:

1.傳感器采集方法

傳感器通常用于測量物理變量,一般包括聲音、溫濕度、距離、電流等,將測量值轉(zhuǎn)化為數(shù)字信號,傳送到數(shù)據(jù)采集點,讓物體有了觸覺、味覺和嗅覺等感官,讓物體慢慢變得活了起來。

2.網(wǎng)絡(luò)爬蟲采集方法

網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOFA社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引模擬程序或者蠕蟲。(百度百科)最常見的爬蟲便是我們經(jīng)常使用的搜索引擎,如百度,360搜索等。此類爬蟲統(tǒng)稱為通用型爬蟲,對于所有的網(wǎng)頁進(jìn)行無條件采集。

3.系統(tǒng)日志采集方法

很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具,多用于系統(tǒng)日志采集,如Hadoop的Chukwa,Cloudera的Flume,F(xiàn)acebook的Scribe等,這些工具均采用分布式架構(gòu),能滿足每秒數(shù)百MB的日志數(shù)據(jù)采集和傳輸需求。

4.其他數(shù)據(jù)采集方法

對于企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過與企業(yè)或研究機(jī)構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù)。

數(shù)據(jù)分析數(shù)據(jù)的采集是挖掘數(shù)據(jù)“石油”的第一步,當(dāng)數(shù)據(jù)量越來越大時,可發(fā)掘的有價值的信息也就更多,反應(yīng)信息也就越加全面。只有更加充分的利用數(shù)據(jù)化處理平臺,便可以保證分析結(jié)果的有效性和準(zhǔn)確性,只有這樣才能更加有效的助力企業(yè)實現(xiàn)驅(qū)動的數(shù)據(jù)化。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關(guān)推薦

    OPA132進(jìn)行數(shù)據(jù)采集,采集到的一直都是fff,為什么?

    按照datasheet中的典型應(yīng)用電路,用一塊OPA132運放,完成±10V的模擬輸入,用一塊有源晶振輸出4MHz和200khz分別作為CLK和convst,IO口模擬RD和CS,進(jìn)行數(shù)據(jù)采集
    發(fā)表于 01-01 07:06

    當(dāng)ADC08D1520評估板在外部信號觸發(fā)下進(jìn)行數(shù)據(jù)采集時,wavevison5能自動保存采集到的數(shù)據(jù)嗎?

    當(dāng)ADC08D1520評估板在外部信號觸發(fā)下進(jìn)行數(shù)據(jù)采集時,wavevison5能自動保存采集到的數(shù)據(jù)嗎?
    發(fā)表于 12-26 06:31

    使用CAN總線進(jìn)行數(shù)據(jù)采集的方法

    使用CAN總線進(jìn)行數(shù)據(jù)采集的方法通常涉及一系列步驟,這些步驟確保了數(shù)據(jù)的準(zhǔn)確采集、處理和存儲。以下是一個詳細(xì)的方法指南: 一、了解CAN總線系統(tǒng) 首先,需要對CAN總線系統(tǒng)有一定的了解。CAN總線
    的頭像 發(fā)表于 12-20 18:18 ?926次閱讀

    zeta的定義和應(yīng)用 如何使用zeta進(jìn)行數(shù)據(jù)分析

    Zeta(ζ)電位是描述懸浮粒子在液體中移動時所產(chǎn)生的電位差的一個物理量,以下是對其定義、應(yīng)用以及如何進(jìn)行數(shù)據(jù)分析的詳細(xì)解釋: Zeta電位的定義 Zeta電位是通過理論推導(dǎo)和實驗測量得到的,它反映
    的頭像 發(fā)表于 12-19 18:10 ?1326次閱讀

    可與MES系統(tǒng)集成的數(shù)據(jù)采集監(jiān)控平臺

    和協(xié)同。 數(shù)據(jù)安全與合規(guī): 采取加密技術(shù)、訪問控制等安全措施,保護(hù)數(shù)據(jù)的機(jī)密性和完整性。 遵守相關(guān)標(biāo)準(zhǔn),確保數(shù)據(jù)的合規(guī)性。 數(shù)據(jù)采集監(jiān)控平臺提高了生產(chǎn)效率,通過實時監(jiān)控和
    發(fā)表于 12-16 15:08

    如何使用SQL進(jìn)行數(shù)據(jù)分析

    使用SQL進(jìn)行數(shù)據(jù)分析是一個強(qiáng)大且靈活的過程,它涉及從數(shù)據(jù)庫中提取、清洗、轉(zhuǎn)換和聚合數(shù)據(jù),以便進(jìn)行進(jìn)一步的分析和洞察。 1.
    的頭像 發(fā)表于 11-19 10:26 ?411次閱讀

    為什么選擇eda進(jìn)行數(shù)據(jù)分析

    數(shù)據(jù)科學(xué)領(lǐng)域,數(shù)據(jù)分析是一個復(fù)雜且多步驟的過程,它涉及到數(shù)據(jù)的收集、清洗、探索、建模和解釋。在這些步驟中,探索性數(shù)據(jù)分析(EDA)扮演著至關(guān)重要的角色。 1. 理解
    的頭像 發(fā)表于 11-13 10:41 ?298次閱讀

    raid 在大數(shù)據(jù)分析中的應(yīng)用

    RAID(Redundant Array of Independent Disks,獨立磁盤冗余陣列)在大數(shù)據(jù)分析中的應(yīng)用主要體現(xiàn)在提高存儲系統(tǒng)的性能、可靠性和容量上。以下是RAID在大數(shù)據(jù)分析
    的頭像 發(fā)表于 11-12 09:44 ?296次閱讀

    云計算在大數(shù)據(jù)分析中的應(yīng)用

    和處理大規(guī)模的數(shù)據(jù)集。通過云計算平臺,用戶可以快速構(gòu)建數(shù)據(jù)倉庫,將海量數(shù)據(jù)進(jìn)行存儲、管理和分析。這種能力使得企業(yè)能夠高效地處理PB級別的
    的頭像 發(fā)表于 10-24 09:18 ?580次閱讀

    使用AI大模型進(jìn)行數(shù)據(jù)分析的技巧

    使用AI大模型進(jìn)行數(shù)據(jù)分析的技巧涉及多個方面,以下是一些關(guān)鍵的步驟和注意事項: 一、明確任務(wù)目標(biāo)和需求 在使用AI大模型之前,首先要明確數(shù)據(jù)分析的任務(wù)目標(biāo),這將直接影響模型的選擇、數(shù)據(jù)收集和處理方式
    的頭像 發(fā)表于 10-23 15:14 ?1059次閱讀

    IP 地址大數(shù)據(jù)分析何進(jìn)行網(wǎng)絡(luò)優(yōu)化?

    一、大數(shù)據(jù)分析在網(wǎng)絡(luò)優(yōu)化中的作用 1.流量分析 大數(shù)據(jù)分析可以對網(wǎng)絡(luò)中的流量進(jìn)行實時監(jiān)測和分析,了解網(wǎng)絡(luò)的使用情況和流量趨勢。通過對流量
    的頭像 發(fā)表于 10-09 15:32 ?287次閱讀
    IP 地址<b class='flag-5'>大數(shù)據(jù)分析</b>如<b class='flag-5'>何進(jìn)行</b>網(wǎng)絡(luò)優(yōu)化?

    大數(shù)據(jù)采集系統(tǒng)分為幾類

    和應(yīng)用場景. 1. 概述 大數(shù)據(jù)采集系統(tǒng)是實現(xiàn)數(shù)據(jù)收集、處理和存儲的關(guān)鍵環(huán)節(jié)。隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,大數(shù)據(jù)采集系統(tǒng)也在不斷演進(jìn)和創(chuàng)新。本文將從以下幾個方面對
    的頭像 發(fā)表于 07-01 15:44 ?1684次閱讀

    plc物聯(lián)網(wǎng)數(shù)據(jù)采集平臺是什么

    PLC物聯(lián)網(wǎng)數(shù)據(jù)采集平臺是基于物聯(lián)網(wǎng)技術(shù),將多個PLC設(shè)備連接到云端的數(shù)據(jù)采集與管理系統(tǒng)。通過采集分析PLC產(chǎn)生的數(shù)據(jù),實現(xiàn)對生產(chǎn)過程的實
    的頭像 發(fā)表于 06-24 15:18 ?875次閱讀

    求助,關(guān)于AD采集到的數(shù)據(jù)分析問題

    問題描述:使用AD采集一個10Hz到2MHz的脈沖,脈沖底部可能大于零,由采集到的數(shù)據(jù)分析出該脈沖的上升時間,幅值和占空比。 備注:在分析的時候已經(jīng)知道脈沖的頻率,精度為2X10^-
    發(fā)表于 05-09 07:40

    物聯(lián)網(wǎng)智能工廠中的PLC如何進(jìn)行數(shù)據(jù)采集與遠(yuǎn)程維護(hù)

    數(shù)據(jù)采集與實時通信對于企業(yè)工廠進(jìn)行后續(xù)的分析和決策是十分重要的,可以從效率、能耗、物料等多個角度提升管理員對生產(chǎn)的認(rèn)識度,從而采取更加精準(zhǔn)高效的措施,實現(xiàn)產(chǎn)能提升、節(jié)能降耗、減少故障等目標(biāo),助力實現(xiàn)
    的頭像 發(fā)表于 03-05 10:34 ?566次閱讀