0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

深入研究數(shù)據(jù)分析技術

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:Seth DeLand ? 2022-07-06 14:17 ? 次閱讀

數(shù)據(jù)的海嘯為企業(yè)提供了優(yōu)化流程和提供差異化??產(chǎn)品的機會。一套新的算法??和基礎設施已經(jīng)出現(xiàn),允許企業(yè)使用大數(shù)據(jù)或機器學習等關鍵數(shù)據(jù)分析技術來利用這些機會。

此外,大數(shù)據(jù)或機器學習背后的這種新基礎設施導致了許多不同的技術,這些技術支持構建數(shù)據(jù)分析算法的迭代過程。正是構建算法的迭代過程的這個開始階段可以讓企業(yè)走向成功。這個迭代過程涉及嘗試多種策略,例如尋找其他數(shù)據(jù)源以及不同的機器學習方法和特征轉換。

鑒于要嘗試的組合可能無限多,因此快速迭代至關重要。領域專家非常適合快速迭代,因為他們可以利用他們的知識和直覺來避免不太可能產(chǎn)生強大結果的方法。具有領域知識的工程師越快將他們的知識應用到支持快速迭代的工具中,企業(yè)就能越快獲得競爭優(yōu)勢。

但在深入研究支持這項活動的技術之前,讓我們先來看看這個迭代過程的一個例子,以及在此過程中要問的一些問題。

迭代數(shù)據(jù)集

假肢公司知道,如果它知道客戶會做什么活動(站立、坐著、走路等),它可以制造更智能的假肢。因此,它提出的第一個問題是:我們可以使用哪些數(shù)據(jù)來確定這一點?

該公司的工程師知道他們的大多數(shù)客戶都有智能手機,因此他們希望使用來自智能手機傳感器的數(shù)據(jù)來確定他們的活動。該公司的工程師首先記錄加速度計的數(shù)據(jù)。他們將機器學習算法直接應用于數(shù)據(jù),但學習結果不如他們希望的那么好。迭代過程開始了,工程師接著問:我們是否有其他方法可以為機器學習準備數(shù)據(jù),從而產(chǎn)生更好的結果?

該公司的工程師應用信號處理技術從傳感器數(shù)據(jù)中提取頻率內(nèi)容,并再次嘗試機器學習技術。結果更好,但還沒有完全達到,所以他們問:我們可以使用其他數(shù)據(jù)來源來改進我們的預測嗎?

他們決定還記錄來自智能手機的陀螺儀數(shù)據(jù),并將其與加速度計數(shù)據(jù)相結合。再次訓練他們的機器學習模型,他們現(xiàn)在對結果感到滿意,并開始生產(chǎn)。

工程師在迭代過程中可能會問的其他問題包括:

有哪些可用數(shù)據(jù)?

還有其他數(shù)據(jù)源嗎?

可以使用哪些類型的流程從數(shù)據(jù)中提取高級信息?

該模型將在哪里運行?

某些類型的錯誤分類是否比其他類型的錯誤分類成本更高?

我們?nèi)绾尾拍芸焖龠M行實驗來驗證想法并回答上述問題?

既然您已經(jīng)看到了迭代過程的示例和要問的問題,那么這個過程背后的技術呢?

大數(shù)據(jù)迭代

隨著越來越多的數(shù)據(jù)產(chǎn)生,系統(tǒng)需要發(fā)展以處理所有數(shù)據(jù)。在這個“大數(shù)據(jù)”領域,兩個大型項目重塑了格局:Hadoop 和 Spark。這兩個項目都是 Apache 軟件基金會的一部分。它們共同使存儲和分析大量數(shù)據(jù)變得更容易、更便宜。

這些技術可以極大地影響工程師的工作。對于習慣于在臺式機、網(wǎng)絡驅動器或傳統(tǒng)數(shù)據(jù)庫中處理文件中數(shù)據(jù)的工程師來說,這些新工具需要一種不同的方式來訪問數(shù)據(jù),然后才能考慮進行分析。在許多情況下,可能會造成人為的數(shù)據(jù)孤島和低效率,例如每次執(zhí)行新分析時都需要聯(lián)系某人將數(shù)據(jù)從大數(shù)據(jù)系統(tǒng)中提取出來。

工程師在處理大數(shù)據(jù)時面臨的另一個挑戰(zhàn)是需要改變他們的計算方法。當數(shù)據(jù)小到足以放入內(nèi)存時,標準的工作流程是加載數(shù)據(jù)并執(zhí)行計算;計算通常會很快,因為數(shù)據(jù)已經(jīng)在內(nèi)存中。但是對于大數(shù)據(jù),通常會有磁盤讀/寫,以及跨網(wǎng)絡的數(shù)據(jù)傳輸,這會減慢計算速度。

當工程師設計一種新算法時,他們需要能夠快速迭代許多設計。結果是一個新的工作流程,包括獲取數(shù)據(jù)樣本并在本地使用它,從而實現(xiàn)快速迭代和輕松使用有用的開發(fā)工具,如調試器。一旦算法在樣本上經(jīng)過審查,它就會針對大數(shù)據(jù)系統(tǒng)中的完整數(shù)據(jù)集運行。

這些挑戰(zhàn)的解決方案是一個系統(tǒng),讓工程師可以使用熟悉的環(huán)境編寫代碼,該代碼既可以在本地數(shù)據(jù)樣本上運行,也可以在大數(shù)據(jù)系統(tǒng)中的完整數(shù)據(jù)集上運行。MATLAB 等工具與 Hadoop 等大數(shù)據(jù)系統(tǒng)建立連接??梢?a href="http://www.wenjunhu.com/soft/special/" target="_blank">下載數(shù)據(jù)樣本,并在本地制作算法原型。利用延遲評估框架的新計算模型用于以性能優(yōu)化的方式在完整數(shù)據(jù)集上運行算法。對于工程和數(shù)據(jù)科學工作流程中常見的迭代分析,這種延遲評估模型是減少完成完整數(shù)據(jù)集分析所需時間的關鍵,這通??赡苁菐追昼娀驇仔r的數(shù)量級。

大數(shù)據(jù)技術一直是數(shù)據(jù)科學發(fā)展的關鍵推動力。隨著大量數(shù)據(jù)的收集,需要新的算法來對這些數(shù)據(jù)進行推理,這導致了機器學習的使用熱潮。

機器學習

機器學習用于識別數(shù)據(jù)中的潛在趨勢和結構。機器學習分為無監(jiān)督學習和監(jiān)督學習。

在無監(jiān)督學習中,我們試圖發(fā)現(xiàn)數(shù)據(jù)中的關系,例如所有相似的數(shù)據(jù)點組。例如,我們可能想查看駕駛數(shù)據(jù),以了解人們駕駛汽車的模式是否不同。通過聚類分析,我們可能會發(fā)現(xiàn)不同的趨勢,例如城市駕駛與高速公路駕駛,或者更有趣的是,不同風格的駕駛員(例如,激進的司機)。

在監(jiān)督學習中,我們得到輸入和輸出數(shù)據(jù),目標是訓練一個模型,該模型在給定新輸入的情況下可以預測新輸出。監(jiān)督學習通常用于圖像中的預測性維護、欺詐檢測和面部識別等應用。

機器學習的每個領域——無監(jiān)督學習和監(jiān)督學習——都有幾十種流行的算法(還有數(shù)百種不太流行的算法)。但是,很難知道這些算法中的哪一種最適合您正在處理的特定問題。通常,最好的辦法就是嘗試一下并比較結果。這在某些環(huán)境中可能是相當大的挑戰(zhàn),因為研究人員根據(jù)他們的問題和偏好構建具有不同接口的算法。

成熟的機器學習工具為各種算法提供一致的界面,并且可以輕松快速地嘗試不同的方法。這對于執(zhí)行數(shù)據(jù)科學的領域專家來說至關重要,因為它使他們能夠識別機器學習比傳統(tǒng)方法提供改進的“速贏”。這種方法還可以防止他們花費數(shù)天或數(shù)周的時間將機器學習模型調整為不適合機器學習的數(shù)據(jù)集。MATLAB 等工具通過提供訓練和比較多個機器學習模型的點擊式應用??程序來解決這個問題。

迭代更快

大數(shù)據(jù)和機器學習相結合,有望為長期存在的業(yè)務問題帶來新的解決方案。底層技術掌握在非常熟悉這些業(yè)務問題的領域專家手中,可以產(chǎn)生顯著的成果。例如,貝克休斯的工程師使用機器學習技術來預測他們的天然氣和石油開采卡車上的泵何時會出現(xiàn)故障。他們從這些卡車上收集了近 1 TB 的數(shù)據(jù),然后使用信號處理技術來識別相關的頻率內(nèi)容。領域知識在這里至關重要,因為他們需要了解卡車上可能出現(xiàn)在傳感器讀數(shù)中的其他系統(tǒng),但這對預測泵故障沒有幫助。他們應用了機器學習技術,可以區(qū)分健康的泵和不健康的泵。由此產(chǎn)生的系統(tǒng)預計將減少 1000 萬美元的總成本。在整個過程中,他們對泵車系統(tǒng)的了解使他們能夠深入挖掘數(shù)據(jù)并快速迭代。

利用處理大數(shù)據(jù)和應用機器學習的工具,貝克休斯的工程師能夠很好地解決改善業(yè)務成果的問題。憑借對這些復雜系統(tǒng)的領域知識,工程師們將這些工具遠遠超出了網(wǎng)絡和營銷應用程序的傳統(tǒng)用途。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • matlab
    +關注

    關注

    185

    文章

    2979

    瀏覽量

    230649
  • 機器學習
    +關注

    關注

    66

    文章

    8425

    瀏覽量

    132770
  • 大數(shù)據(jù)

    關注

    64

    文章

    8897

    瀏覽量

    137523
收藏 人收藏

    評論

    相關推薦

    Mathematica 在數(shù)據(jù)分析中的應用

    數(shù)據(jù)分析是現(xiàn)代科學研究和商業(yè)決策中不可或缺的一部分。隨著數(shù)據(jù)量的爆炸性增長,對數(shù)據(jù)分析工具的需求也在不斷增加。Mathematica,作為一種強大的計算軟件,以其獨特的符號計算能力和廣
    的頭像 發(fā)表于 12-26 15:41 ?121次閱讀

    數(shù)據(jù)可視化與數(shù)據(jù)分析的關系

    在當今這個信息爆炸的時代,數(shù)據(jù)無處不在。無論是企業(yè)運營、科學研究還是個人決策,我們都需要從海量的數(shù)據(jù)中提取有價值的信息。數(shù)據(jù)分析數(shù)據(jù)可視化
    的頭像 發(fā)表于 12-06 17:09 ?361次閱讀

    深入解析:海外IP代理在跨境電商與數(shù)據(jù)分析中的應用

    海外IP代理在跨境電商與數(shù)據(jù)分析中的應用廣泛,其重要性不容忽視。
    的頭像 發(fā)表于 11-20 08:27 ?304次閱讀

    LLM在數(shù)據(jù)分析中的作用

    隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)分析已經(jīng)成為企業(yè)和組織決策的關鍵工具。數(shù)據(jù)科學家和分析師需要從海量數(shù)據(jù)中提取有價值的信息,以支持業(yè)務決策。在這個過
    的頭像 發(fā)表于 11-19 15:35 ?325次閱讀

    eda與傳統(tǒng)數(shù)據(jù)分析的區(qū)別

    EDA(Exploratory Data Analysis,探索性數(shù)據(jù)分析)與傳統(tǒng)數(shù)據(jù)分析之間存在顯著的差異。以下是兩者的主要區(qū)別: 一、分析目的和方法論 EDA 目的 :EDA的主要目的是對
    的頭像 發(fā)表于 11-13 10:52 ?364次閱讀

    raid 在大數(shù)據(jù)分析中的應用

    的具體應用: 一、提高性能 并行讀寫 :RAID技術通過并行讀寫多個磁盤,可以顯著提高數(shù)據(jù)的讀寫速度。在大數(shù)據(jù)分析環(huán)境中,數(shù)據(jù)讀寫速度是影響分析
    的頭像 發(fā)表于 11-12 09:44 ?265次閱讀

    SUMIF函數(shù)在數(shù)據(jù)分析中的應用

    在商業(yè)和科學研究中,數(shù)據(jù)分析是一項基本且關鍵的技能。Excel作為最常用的數(shù)據(jù)分析工具之一,提供了多種函數(shù)來幫助用戶處理和分析數(shù)據(jù)。SUMI
    的頭像 發(fā)表于 11-11 09:14 ?332次閱讀

    云計算在大數(shù)據(jù)分析中的應用

    云計算在大數(shù)據(jù)分析中的應用廣泛且深入,它為用戶提供了存儲、計算、分析和預測的強大能力。以下是對云計算在大數(shù)據(jù)分析中應用的介紹: 一、存儲和處理海量數(shù)
    的頭像 發(fā)表于 10-24 09:18 ?509次閱讀

    數(shù)據(jù)分析除了spss還有什么

    數(shù)據(jù)分析是當今世界中一個非常重要的領域,它涉及到從大量數(shù)據(jù)中提取有用信息、發(fā)現(xiàn)模式和趨勢,并為決策提供支持。SPSS(Statistical Package for the Social
    的頭像 發(fā)表于 07-05 15:01 ?648次閱讀

    數(shù)據(jù)分析的工具有哪些

    數(shù)據(jù)分析是一個涉及收集、處理、分析和解釋數(shù)據(jù)以得出有意義見解的過程。在這個過程中,使用正確的工具至關重要。以下是一些主要的數(shù)據(jù)分析工具,以及它們的功能和用途的介紹。 Excel Exc
    的頭像 發(fā)表于 07-05 14:54 ?889次閱讀

    數(shù)據(jù)分析有哪些分析方法

    數(shù)據(jù)分析是一種重要的技能,它可以幫助我們從大量的數(shù)據(jù)中提取有價值的信息,從而做出更明智的決策。在這篇文章中,我們將介紹數(shù)據(jù)分析的各種方法,包括描述性分析、診斷性
    的頭像 發(fā)表于 07-05 14:51 ?626次閱讀

    倫敦商學院深入研究中國神州數(shù)碼戰(zhàn)略轉型

    China)數(shù)字化轉型歷程的深入研究為基礎,共同撰寫了案例研究「神州數(shù)碼的轉型:駕馭數(shù)據(jù)、云和人工智能的潛力(The Transformation of Digital China
    的頭像 發(fā)表于 07-02 11:25 ?524次閱讀
    倫敦商學院<b class='flag-5'>深入研究</b>中國神州數(shù)碼戰(zhàn)略轉型

    機器學習在數(shù)據(jù)分析中的應用

    隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)量的爆炸性增長對數(shù)據(jù)分析提出了更高的要求。機器學習作為一種強大的工具,通過訓練模型從數(shù)據(jù)中學習規(guī)律,為企業(yè)和組織提供了更高效、更準確的
    的頭像 發(fā)表于 07-02 11:22 ?656次閱讀

    求助,關于AD采集到的數(shù)據(jù)分析問題

    問題描述:使用AD采集一個10Hz到2MHz的脈沖,脈沖底部可能大于零,由采集到的數(shù)據(jù)分析出該脈沖的上升時間,幅值和占空比。 備注:在分析的時候已經(jīng)知道脈沖的頻率,精度為2X10^-5. 在分析
    發(fā)表于 05-09 07:40

    態(tài)勢數(shù)據(jù)分析系統(tǒng)軟件

    智慧華盛恒輝態(tài)勢分析軟件系統(tǒng)的功能描述、部署環(huán)境、界面使用、技術支持及一些常見問題及其解決辦法等。為數(shù)據(jù)態(tài)勢分析軟件系統(tǒng)的管理人員和使用人員提供說明。 智慧華盛恒輝態(tài)勢
    的頭像 發(fā)表于 04-22 11:36 ?458次閱讀