0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)技術(shù)成為企業(yè)長(zhǎng)遠(yuǎn)發(fā)展的驅(qū)動(dòng)力量?

我快閉嘴 ? 來源:精英數(shù)智科技股份有限公 ? 作者:侯宇輝 ? 2020-09-15 17:47 ? 次閱讀

在互聯(lián)網(wǎng)領(lǐng)域,大數(shù)據(jù)應(yīng)用十分廣泛,尤其以企業(yè)為主,企業(yè)作為大數(shù)據(jù)應(yīng)用的主體,數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)可視化、數(shù)據(jù)特征提取、數(shù)據(jù)特征選擇、數(shù)據(jù)清洗、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)倉庫、數(shù)據(jù)安全等圍繞大數(shù)據(jù)商業(yè)價(jià)值的利用焦點(diǎn)已備受關(guān)注。

一、數(shù)據(jù)采集

從數(shù)據(jù)采集層面來看,分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),來源于物聯(lián)網(wǎng)的設(shè)備采集數(shù)據(jù)由于成本低、獲取方式容易,成為企業(yè)大數(shù)據(jù)采集數(shù)據(jù)的主要來源之一,實(shí)時(shí)性相對(duì)強(qiáng),數(shù)據(jù)量從GB、TB、PB、ZB級(jí)擴(kuò)增。然而對(duì)于中小企業(yè)或許會(huì)受困于沒有數(shù)據(jù)卻又想轉(zhuǎn)型通過搭建大數(shù)據(jù)平臺(tái)來提升競(jìng)爭(zhēng)力,企業(yè)可以研發(fā)符合市場(chǎng)需求的產(chǎn)品,從新用戶、活躍用戶、粘性用戶到留存用戶,獲取用戶的行為數(shù)據(jù)之后可以進(jìn)行數(shù)據(jù)分析。此外數(shù)據(jù)采集可以有網(wǎng)絡(luò)爬蟲、ETL抽取等。

二、數(shù)據(jù)存儲(chǔ)

有了大量數(shù)據(jù)之后,對(duì)于數(shù)據(jù)存儲(chǔ)方式也提出了要求。數(shù)據(jù)存儲(chǔ)分為關(guān)系型數(shù)據(jù)庫存儲(chǔ)、分布式數(shù)據(jù)存儲(chǔ),數(shù)據(jù)級(jí)別較大時(shí)可以存儲(chǔ)在分布式文件存儲(chǔ)系統(tǒng)中。對(duì)于搭建大數(shù)據(jù)平臺(tái)的企業(yè)來說,通常是對(duì)業(yè)務(wù)結(jié)果的數(shù)據(jù)存儲(chǔ)于關(guān)系型系統(tǒng),對(duì)于TB級(jí)及以上數(shù)據(jù)量存儲(chǔ)至分布式系統(tǒng)中,這兩種數(shù)據(jù)可以使用Sqoop等類似的工具進(jìn)行數(shù)據(jù)導(dǎo)入導(dǎo)出。

三、數(shù)據(jù)可視化

在實(shí)際工業(yè)生產(chǎn)實(shí)踐中,對(duì)于待處理的大數(shù)據(jù),首先是數(shù)據(jù)特征探索階段,也就是做數(shù)據(jù)可視化,對(duì)數(shù)據(jù)有個(gè)初步的了解,才會(huì)知道所拿到的數(shù)據(jù)能否解決面臨的實(shí)際問題,適用于什么算法。對(duì)于無編程能力的人,只需要掌握數(shù)據(jù)分析和處理的能力,即可靈活使用可視化類工具如Tableau,通過拖拉拽形成聯(lián)動(dòng),大大縮短數(shù)據(jù)分析流程。從連接數(shù)據(jù)源、建立工作表、構(gòu)建各種圖表、儀表板進(jìn)行可視化展示,進(jìn)行交叉分析。對(duì)于有編程能力的人可以使用R、Python進(jìn)行數(shù)據(jù)可視化。

四、數(shù)據(jù)特征提取及清洗

數(shù)據(jù)可視化之后,需要對(duì)數(shù)據(jù)進(jìn)行清洗,對(duì)數(shù)據(jù)中的噪聲進(jìn)行處理以支持后續(xù)數(shù)據(jù)建模。常見的比如進(jìn)行降維,提取出對(duì)實(shí)際問題相關(guān)性較高的特征因子后,再回歸到大數(shù)據(jù),或者做相關(guān)性分析、主成分分析等。

五、數(shù)據(jù)分析及挖掘

數(shù)據(jù)統(tǒng)計(jì)及分析主要是基于存儲(chǔ)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總,以滿足大多數(shù)常見的分析需求。數(shù)據(jù)挖掘一般沒有預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(cè)的效果,實(shí)現(xiàn)高級(jí)別的數(shù)

據(jù)分析的需求,豐富的歷史數(shù)據(jù)是數(shù)據(jù)挖掘的先決條件。比較典型的算法有回歸、分類、聚類、關(guān)聯(lián)分析。機(jī)器學(xué)習(xí)正是如此,分為監(jiān)督式學(xué)習(xí)算法、無監(jiān)督式學(xué)習(xí)算法、半監(jiān)督式學(xué)習(xí)算法。

六、機(jī)器學(xué)習(xí)

監(jiān)督式學(xué)習(xí)算法是從帶標(biāo)簽(標(biāo)注)的訓(xùn)練樣本中建立的訓(xùn)練樣本中建立模式,并依此推測(cè)新的數(shù)據(jù)標(biāo)簽的算法。比如回歸、神經(jīng)網(wǎng)絡(luò)、決策樹、支持向量機(jī)、貝葉斯、隨機(jī)森林。無監(jiān)督式學(xué)習(xí)算法是在學(xué)習(xí)時(shí)并不知道其分類結(jié)果,目的是去對(duì)原始資料進(jìn)行分類,以便了解資料內(nèi)部結(jié)構(gòu)的算法。比如聚類、主成分分析、線性判別分析降維。半監(jiān)督式學(xué)習(xí)算法是利用少量標(biāo)注樣本和大量未標(biāo)注樣本進(jìn)行機(jī)器學(xué)習(xí),利用數(shù)據(jù)分布上的模型假設(shè),建立學(xué)習(xí)器對(duì)未標(biāo)簽樣本進(jìn)行標(biāo)簽。

機(jī)器學(xué)習(xí)正被廣泛應(yīng)用于計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理等方面。其中深度學(xué)習(xí)強(qiáng)調(diào)模型深度,通過逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新特征空間,從而使分類或預(yù)測(cè)更容易準(zhǔn)確,更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息,其實(shí)際應(yīng)用對(duì)象不僅包含語音、圖像、視頻,同樣也包含文本、語言和語義信息。另外,卷積神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)的一種,為識(shí)別二維形狀而特殊設(shè)計(jì)的多層感知器,擅長(zhǎng)處理圖像特別是大圖像的相關(guān)機(jī)器學(xué)習(xí)問題,對(duì)圖像平移、比例縮放、傾斜或者其他形式的變形具有高度不變性,它的布局更接近于實(shí)際的生物神經(jīng)網(wǎng)絡(luò),被廣泛應(yīng)用。當(dāng)前實(shí)現(xiàn)機(jī)器學(xué)習(xí)比較常見的兩種主流方式是Spark和Tensorflow框架。機(jī)器學(xué)習(xí)作為人工智能的核心,是企業(yè)搭建大數(shù)據(jù)平臺(tái)的重要節(jié)點(diǎn),需要結(jié)合業(yè)務(wù)邏輯,按需選擇合適的算法模型,不斷調(diào)參調(diào)優(yōu),使機(jī)器學(xué)習(xí)服務(wù)于企業(yè)經(jīng)營(yíng)。

七、數(shù)據(jù)倉庫

數(shù)據(jù)倉庫是為了便于多維分析和多角度展示數(shù)據(jù)按特定模式進(jìn)行存儲(chǔ)所建立起來的關(guān)系型數(shù)據(jù)庫。在商業(yè)智能系統(tǒng)的設(shè)計(jì)中,數(shù)據(jù)倉庫的構(gòu)建是關(guān)鍵,是商業(yè)智能系統(tǒng)的基礎(chǔ),承擔(dān)對(duì)業(yè)務(wù)系統(tǒng)數(shù)據(jù)整合的任務(wù),為商業(yè)智能系統(tǒng)提供數(shù)據(jù)抽取、轉(zhuǎn)換和加載(ETL),并按主題對(duì)數(shù)據(jù)進(jìn)行查詢和訪問,為聯(lián)機(jī)數(shù)據(jù)分析和數(shù)據(jù)挖掘提供數(shù)據(jù)平臺(tái)。海量的數(shù)據(jù)包括社交網(wǎng)絡(luò)、移動(dòng)設(shè)備和傳感器等新渠道以及新技術(shù)使用所帶來的半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)。大數(shù)據(jù)技術(shù)架構(gòu)可分為存儲(chǔ)、處理、應(yīng)用、展示以及整合5個(gè)部分,并可根據(jù)數(shù)據(jù)的結(jié)構(gòu)化程度對(duì)相關(guān)技術(shù)進(jìn)行選擇和組合。每個(gè)部分包含一些技術(shù)要素,而某些要素又可根據(jù)結(jié)構(gòu)化程度共同作用形成特定的功能。

從企業(yè)角度來說,無論是數(shù)據(jù)庫、數(shù)據(jù)倉庫還是大數(shù)據(jù)都是解決不同需求、處理不同級(jí)別數(shù)據(jù)量的技術(shù),它們之間并無沖突。針對(duì)不同需求和現(xiàn)狀進(jìn)行技術(shù)選擇,各種技術(shù)相互補(bǔ)充、相互協(xié)作。目前階段對(duì)于大部分企業(yè)來說,想要開展一個(gè)全新的大數(shù)據(jù)項(xiàng)目似乎無從下手。從現(xiàn)有數(shù)據(jù)倉庫建設(shè)理論和經(jīng)驗(yàn)入手,引入部分大數(shù)據(jù)技術(shù),特別是實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的收集、存儲(chǔ)和處理是一種比較可行的方法。

基于云計(jì)算的Hadoop大數(shù)據(jù)框架,利用集群的威力高速運(yùn)算和存儲(chǔ),實(shí)現(xiàn)了一個(gè)分布式運(yùn)行系統(tǒng),以流的形式提供高傳輸率來訪問數(shù)據(jù),適應(yīng)了大數(shù)據(jù)的應(yīng)用程序。將Hadoop技術(shù)應(yīng)用于對(duì)數(shù)據(jù)的采集、ETL、存儲(chǔ)、處理,開發(fā)提供給傳統(tǒng)的數(shù)據(jù)倉庫BI工具,其架構(gòu)如圖所示。利用Hadoop強(qiáng)大的數(shù)據(jù)處理能力,將各類數(shù)據(jù)處理成結(jié)構(gòu)化數(shù)據(jù),向上提供給傳統(tǒng)BI工具,對(duì)數(shù)據(jù)進(jìn)行分析和結(jié)果展示。

八、數(shù)據(jù)安全

大數(shù)據(jù)蘊(yùn)藏著價(jià)值信息,但數(shù)據(jù)安全面臨著嚴(yán)峻挑戰(zhàn)。一方面,大數(shù)據(jù)本身的安全防護(hù)存在漏洞。雖然云計(jì)算對(duì)大數(shù)據(jù)提供了便利,但對(duì)大數(shù)據(jù)的安全控制力度不夠,API訪問權(quán)限控制以及密鑰生產(chǎn),存儲(chǔ)和管理方面的不足都可能造成數(shù)據(jù)泄露。另一方面,在用數(shù)據(jù)挖掘和數(shù)據(jù)分析等大數(shù)據(jù)技術(shù)獲取價(jià)值信息的同時(shí),攻擊者也在利用這些大數(shù)據(jù)技術(shù)進(jìn)行攻擊。

當(dāng)然大數(shù)據(jù)也為數(shù)據(jù)安全的發(fā)展提供了機(jī)會(huì),對(duì)海量數(shù)據(jù)的分析有助于更好的跟蹤網(wǎng)絡(luò)異常行為,對(duì)實(shí)時(shí)安全和應(yīng)用數(shù)據(jù)結(jié)合在一起的數(shù)據(jù)進(jìn)行預(yù)防性分析,可防止詐騙和黑客入侵。網(wǎng)絡(luò)攻擊行為留下的痕跡數(shù)據(jù)以數(shù)據(jù)的形式隱藏在大數(shù)據(jù)中,從大數(shù)據(jù)的存儲(chǔ),應(yīng)用和管理方面把關(guān),可以有針對(duì)性的應(yīng)對(duì)數(shù)據(jù)安全威脅。企業(yè)需要將大數(shù)據(jù)技術(shù)和安全并行,大數(shù)據(jù)才可以真正成為企業(yè)長(zhǎng)遠(yuǎn)發(fā)展的驅(qū)動(dòng)力量。
責(zé)任編輯:tzh

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    驅(qū)動(dòng)鈦絲(SMA)的可靠性設(shè)計(jì)(4) 力量設(shè)計(jì)

    結(jié)構(gòu)設(shè)計(jì)第二個(gè)要點(diǎn),力量設(shè)計(jì)。為了方便描述,我們先做如下定義:鈦絲驅(qū)動(dòng)力,鈦絲通電后產(chǎn)生的收縮力:Fq鈦絲應(yīng)變力,鈦絲未通電前自身的應(yīng)力:F0初始載荷力,提前給鈦絲配置的初始拉力:F1鈦絲執(zhí)行后的載荷力量
    發(fā)表于 11-27 17:49

    速程精密直線旋轉(zhuǎn)執(zhí)行器:工業(yè)自動(dòng)化的核心驅(qū)動(dòng)力

    速程精密直線旋轉(zhuǎn)執(zhí)行器:工業(yè)自動(dòng)化的核心驅(qū)動(dòng)力 在快速發(fā)展的工業(yè)4.0時(shí)代,自動(dòng)化與智能化已成為推動(dòng)制造業(yè)轉(zhuǎn)型升級(jí)的關(guān)鍵力量。而在這一變革的浪潮中,速程精密直線旋轉(zhuǎn)執(zhí)行器以其卓越的性能
    的頭像 發(fā)表于 09-13 18:04 ?220次閱讀

    摩爾線程GPU算力底座助力大模型產(chǎn)業(yè)發(fā)展

    以大模型為代表的新一代人工智能技術(shù)是引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù)和重要驅(qū)動(dòng)力量,隨著對(duì)算力需求的日益高漲,人工智能算力底座公司日益成為新一波人工智能
    的頭像 發(fā)表于 08-27 16:15 ?611次閱讀

    PD協(xié)議芯片:快充技術(shù)的核心驅(qū)動(dòng)力

    PD協(xié)議芯片作為快充技術(shù)的核心驅(qū)動(dòng)力,正以其卓越的性能和廣泛的應(yīng)用前景引領(lǐng)著行業(yè)的發(fā)展。通過不斷的技術(shù)創(chuàng)新和應(yīng)用拓展,PD芯片將繼續(xù)為用戶帶來更加高效、安全、便捷的充電體驗(yàn)。隨著物聯(lián)網(wǎng)
    的頭像 發(fā)表于 08-14 09:35 ?552次閱讀

    歐姆龍自動(dòng)化攜手格力智能裝備賦能多行業(yè)發(fā)展新契機(jī)

    當(dāng)前,“智改數(shù)轉(zhuǎn)”正成為眾多工業(yè)制造企業(yè)實(shí)現(xiàn)打通生產(chǎn)“快車道”、促進(jìn)自身產(chǎn)業(yè)升級(jí)發(fā)展的核心驅(qū)動(dòng)力。
    的頭像 發(fā)表于 08-05 10:39 ?565次閱讀

    AI時(shí)代創(chuàng)新潮涌,從探路到引路,螢石云引領(lǐng)千行百業(yè)創(chuàng)新

    步入AI新時(shí)代,AI、云計(jì)算、大數(shù)據(jù)技術(shù)迅速迭代,并日益融入經(jīng)濟(jì)社會(huì)發(fā)展各領(lǐng)域全過程,數(shù)字經(jīng)濟(jì)成為推動(dòng)千行百業(yè)轉(zhuǎn)型升級(jí)的重要驅(qū)動(dòng)力量。今年
    的頭像 發(fā)表于 07-01 15:17 ?425次閱讀
    AI時(shí)代創(chuàng)新潮涌,從探路到引路,螢石云引領(lǐng)千行百業(yè)創(chuàng)新

    虹科技術(shù) 跨越距離障礙:PCAN系列網(wǎng)關(guān)在遠(yuǎn)程CAN網(wǎng)絡(luò)通信的應(yīng)用潛力

    在智能化技術(shù)的迅猛發(fā)展浪潮中,遠(yuǎn)程控制與數(shù)據(jù)傳輸?shù)母咝宰兊弥陵P(guān)重要,它們已成為現(xiàn)代自動(dòng)化和物聯(lián)網(wǎng)領(lǐng)域的關(guān)鍵驅(qū)動(dòng)力。
    的頭像 發(fā)表于 06-28 13:36 ?315次閱讀
    虹科<b class='flag-5'>技術(shù)</b> 跨越距離障礙:PCAN系列網(wǎng)關(guān)在遠(yuǎn)程CAN網(wǎng)絡(luò)通信的應(yīng)用潛力

    數(shù)據(jù)中臺(tái)在制造業(yè)中的應(yīng)用及其轉(zhuǎn)型價(jià)值

    在數(shù)字化時(shí)代,制造業(yè)正面臨前所未有的挑戰(zhàn)與機(jī)遇。隨著大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等技術(shù)發(fā)展,數(shù)據(jù)中臺(tái)已經(jīng)成為制造業(yè)
    的頭像 發(fā)表于 05-17 17:20 ?490次閱讀

    數(shù)據(jù)中臺(tái):企業(yè)數(shù)字化轉(zhuǎn)型的驅(qū)動(dòng)力量

    在當(dāng)今數(shù)字化快速發(fā)展的時(shí)代,企業(yè)正積極尋求轉(zhuǎn)型升級(jí)的新路徑。在這個(gè)過程中,數(shù)據(jù)中臺(tái)以其獨(dú)特的功能和價(jià)值,逐漸成為企業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵
    的頭像 發(fā)表于 05-08 17:00 ?300次閱讀

    第二集 知語云智能科技無人機(jī)反制技術(shù)與應(yīng)用--無人機(jī)的發(fā)展歷程

    了一系列問題,其中最為突出的便是無人機(jī)安全問題。知語云智能科技作為一家專注于無人機(jī)反制技術(shù)企業(yè),致力于解決這一難題,為無人機(jī)行業(yè)的健康發(fā)展貢獻(xiàn)力量。 無人機(jī)的
    發(fā)表于 03-12 10:56

    薩科微slkor金航標(biāo)kinghelm一直在技術(shù)上不斷創(chuàng)新,并將這些新技術(shù)應(yīng)用于公司的產(chǎn)品中,推出的新產(chǎn)品

    創(chuàng)新,營(yíng)造了公平開放的氛圍,還設(shè)立了專門的獎(jiǎng)項(xiàng),每周評(píng)選出一位“創(chuàng)新之星”,給予通報(bào)表揚(yáng)和現(xiàn)金獎(jiǎng)勵(lì)!我們保持高速發(fā)展驅(qū)動(dòng)力技術(shù)、產(chǎn)品和品牌。技術(shù)是金航標(biāo)的核心競(jìng)爭(zhēng)力之一,金航標(biāo)一直
    發(fā)表于 01-31 11:38

    大數(shù)據(jù)技術(shù)是干嘛的 大數(shù)據(jù)核心技術(shù)有哪些

    大數(shù)據(jù)技術(shù)是指用來處理和存儲(chǔ)海量、多類型、高速的數(shù)據(jù)的一系列技術(shù)和工具?,F(xiàn)如今,大數(shù)據(jù)已經(jīng)滲透到各個(gè)行業(yè)和領(lǐng)域,對(duì)
    的頭像 發(fā)表于 01-31 11:07 ?3476次閱讀

    薩科微/金航標(biāo)之所以能夠保持高速發(fā)展邏輯

    ,就有錢繼續(xù)投資研發(fā)新技術(shù)新產(chǎn)品,會(huì)帶來新一輪的增長(zhǎng)。公司內(nèi)部也鼓勵(lì)員工創(chuàng)新,營(yíng)造了公平開放的氛圍,還設(shè)立了專門的獎(jiǎng)項(xiàng),每周評(píng)選出一位“創(chuàng)新之星”,給予通報(bào)表揚(yáng)和現(xiàn)金獎(jiǎng)勵(lì)!我們保持高速發(fā)展驅(qū)動(dòng)力
    發(fā)表于 01-31 09:14

    中央控制系統(tǒng):未來多媒體發(fā)展的核心驅(qū)動(dòng)力

    隨著科技的飛速發(fā)展,多媒體設(shè)備在各個(gè)領(lǐng)域中的應(yīng)用越來越廣泛。而中央控制系統(tǒng)作為其核心組成部分,正在成為未來多媒體發(fā)展的核心驅(qū)動(dòng)力。本文將深入探討中央控制系統(tǒng)在未來多媒體
    的頭像 發(fā)表于 01-23 14:42 ?472次閱讀

    脈沖電源技術(shù):革新能源行業(yè)的關(guān)鍵驅(qū)動(dòng)力

    脈沖電源技術(shù)是當(dāng)今能源行業(yè)中的一項(xiàng)關(guān)鍵驅(qū)動(dòng)力,它正在以前所未有的方式改變著我們對(duì)能源的生產(chǎn)、轉(zhuǎn)換和利用方式。脈沖電源技術(shù)通過其高效能源轉(zhuǎn)換和精確控制的特性,為可再生能源、電力系統(tǒng)和能源轉(zhuǎn)換領(lǐng)域帶來了革命性的變革。本文將深入探討脈
    的頭像 發(fā)表于 01-05 13:53 ?1082次閱讀