国产免费无遮挡吸乳视频App,国产原创精品,男女男精品免费视频网站

深度學習這幾年特別火，就像5年前的大數(shù)據(jù)一樣，不過深度學習其主要還是屬于機器學習的范疇領(lǐng)域內(nèi)，所以這篇文章里面我們來嘮一嘮機器學習和深度學習的算法流程區(qū)別。

機器學習和深度學習算法流程

終于考上人工智能的研究僧啦，不知道機器學習和深度學習有啥區(qū)別，感覺一切都是深度學習。

挖槽，聽說學長已經(jīng)調(diào)了10個月的參數(shù)準備發(fā)有2000億參數(shù)的T9開天霹靂模型，我要調(diào)參發(fā)T10準備拿個Best Paper。

現(xiàn)在搞傳統(tǒng)機器學習相關(guān)的研究論文確實占比不太高，有的人吐槽深度學習就是個系統(tǒng)工程而已，沒有數(shù)學含金量。

但是無可否認的是深度學習實在太好用啦！極大地簡化了傳統(tǒng)機器學習的整體算法分析和學習流程，更重要的是在一些通用的領(lǐng)域任務(wù)刷新了傳統(tǒng)機器學習算法達不到的精度和準確率。

—01—機器學習的算法流程

實際上機器學習研究的就是數(shù)據(jù)科學（聽上去有點無聊），下面是機器學習算法的主要流程：

（1）數(shù)據(jù)集準備

（2）探索性地對數(shù)據(jù)進行分析

（3）數(shù)據(jù)預(yù)處理

（4）數(shù)據(jù)分割

（5）機器學習算法建模

（6）選擇機器學習任務(wù)

（7）最后就是評價機器學習算法對實際數(shù)據(jù)的應(yīng)用情況如何

1.1數(shù)據(jù)集

首先我們要研究的是數(shù)據(jù)的問題，數(shù)據(jù)集是構(gòu)建機器學習模型流程的起點。簡單來說，數(shù)據(jù)集本質(zhì)上是一個M×N矩陣，其中M代表列（特征），N代表行（樣本）。

列可以分解為X和Y，X是可以指特征、獨立變量或者是輸入變量。Y也是可以指類別標簽、因變量和輸出變量。

1.2數(shù)據(jù)分析進行探索性數(shù)據(jù)分析（Exploratorydata analysis, EDA）是為了獲得對數(shù)據(jù)的初步了解。EDA主要的工作是：對數(shù)據(jù)進行清洗，對數(shù)據(jù)進行描述（描述統(tǒng)計量，圖表），查看數(shù)據(jù)的分布，比較數(shù)據(jù)之間的關(guān)系，培養(yǎng)對數(shù)據(jù)的直覺，對數(shù)據(jù)進行總結(jié)等。探索性數(shù)據(jù)分析方法簡單來說就是去了解數(shù)據(jù)，分析數(shù)據(jù)，搞清楚數(shù)據(jù)的分布。主要注重數(shù)據(jù)的真實分布，強調(diào)數(shù)據(jù)的可視化，使分析者能一目了然看出數(shù)據(jù)中隱含的規(guī)律，從而得到啟發(fā)，以此幫助分析者找到適合數(shù)據(jù)的模型。在一個典型的機器學習算法流程和數(shù)據(jù)科學項目里面，我做的第一件事就是通過 "盯住數(shù)據(jù)"，以便更好地了解數(shù)據(jù)。個人通常使用的三大EDA方法包括：描述性統(tǒng)計平均數(shù)、中位數(shù)、模式、標準差。

數(shù)據(jù)可視化

熱力圖（辨別特征內(nèi)部相關(guān)性）、箱形圖（可視化群體差異）、散點圖（可視化特征之間的相關(guān)性）、主成分分析（可視化數(shù)據(jù)集中呈現(xiàn)的聚類分布）等。

數(shù)據(jù)整形

對數(shù)據(jù)進行透視、分組、過濾等。

1.3數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理，其實就是對數(shù)據(jù)進行清理、數(shù)據(jù)整理或普通數(shù)據(jù)處理。指對數(shù)據(jù)進行各種檢查和校正過程，以糾正缺失值、拼寫錯誤、使數(shù)值正?；?標準化以使其具有可比性、轉(zhuǎn)換數(shù)據(jù)(如對數(shù)轉(zhuǎn)換)等問題。

例如對圖像進行resize成統(tǒng)一的大小或者分辨率。

數(shù)據(jù)的質(zhì)量將對機器學習算法模型的質(zhì)量好壞產(chǎn)生很大的影響。因此，為了達到最好的機器學習模型質(zhì)量，傳統(tǒng)的機器學習算法流程中，其實很大一部分工作就是在對數(shù)據(jù)進行分析和處理。

一般來說，數(shù)據(jù)預(yù)處理可以輕松地占到機器學習項目流程中80%的時間，而實際的模型建立階段和后續(xù)的模型分析大概僅占到剩余的20%。

1.4數(shù)據(jù)分割訓練集 & 測試集

在機器學習模型的開發(fā)流程中，希望訓練好的模型能在新的、未見過的數(shù)據(jù)上表現(xiàn)良好。為了模擬新的、未見過的數(shù)據(jù)，對可用數(shù)據(jù)進行數(shù)據(jù)分割，從而將已經(jīng)處理好的數(shù)據(jù)集分割成2部分：訓練集合測試集。

第一部分是較大的數(shù)據(jù)子集，用作訓練集（如占原始數(shù)據(jù)的80%）；第二部分通常是較小的子集，用作測試集（其余20%的數(shù)據(jù)）。

接下來，利用訓練集建立預(yù)測模型，然后將這種訓練好的模型應(yīng)用于測試集（即作為新的、未見過的數(shù)據(jù)）上進行預(yù)測。根據(jù)模型在測試集上的表現(xiàn)來選擇最佳模型，為了獲得最佳模型，還可以進行超參數(shù)優(yōu)化。

訓練集 & 驗證集 & 測試集

另一種常見的數(shù)據(jù)分割方法是將數(shù)據(jù)分割成3部分：

（1）訓練集

（2）驗證集

（3）測試集

訓練集用于建立預(yù)測模型，同時對驗證集進行評估，據(jù)此進行預(yù)測，可以進行模型調(diào)優(yōu)（如超參數(shù)優(yōu)化），并根據(jù)驗證集的結(jié)果選擇性能最好的模型。

驗證集的操作方式跟訓練集類似。不過值得注意的是，測試集不參與機器學習模型的建立和準備，是機器學習模型訓練過程中單獨留出的樣本集，用于調(diào)整模型的超參數(shù)和對模型的能力進行初步評估。通常邊訓練邊驗證，這里的驗證就是用驗證集來檢驗?zāi)Ｐ偷某醪叫Ч?/p>

交叉驗證

實際上數(shù)據(jù)是機器學習流程中最寶貴的，為了更加經(jīng)濟地利用現(xiàn)有數(shù)據(jù)，通常使用N倍交叉驗證，將數(shù)據(jù)集分割成N個。在這樣的N倍數(shù)據(jù)集中，其中一個被留作測試數(shù)據(jù)，而其余的則被用作建立模型的訓練數(shù)據(jù)。通過反復交叉迭代的方式來對機器學習流程進行驗證。

這種交叉驗證的方法在機器學習流程中被廣泛的使用，但是深度學習中使用得比較少哈。

1.5機器學習算法建模下面是最有趣的部分啦，數(shù)據(jù)篩選和處理過程其實都是很枯燥乏味的，現(xiàn)在可以使用精心準備的數(shù)據(jù)來建模。根據(jù)taget變量（通常稱為Y變量）的數(shù)據(jù)類型，可以建立一個分類或回歸模型。機器學習算法

機器學習算法可以大致分為以下三種類型之一：

（1）監(jiān)督學習

是一種機器學習任務(wù)，建立輸入X和輸出Y變量之間的數(shù)學（映射）關(guān)系。這樣的(X、Y)對構(gòu)成了用于建立模型的標簽數(shù)據(jù)，以便學習如何從輸入中預(yù)測輸出。

（2）無監(jiān)督學習

是一種只利用輸入X變量的機器學習任務(wù)。X變量是未標記的數(shù)據(jù)，學習算法在建模時使用的是數(shù)據(jù)的固有結(jié)構(gòu)。

（3）強化學習

是一種決定下一步行動方案的機器學習任務(wù)，它通過試錯學習（trial and error learning）來實現(xiàn)這一目標，努力使reward回報最大化。

參數(shù)調(diào)優(yōu)

傳說中的調(diào)參俠主要干的就是這個工作啦。超參數(shù)本質(zhì)上是機器學習算法的參數(shù)，直接影響學習過程和預(yù)測性能。由于沒有萬能的超參數(shù)設(shè)置，可以普遍適用于所有數(shù)據(jù)集，因此需要進行超參數(shù)優(yōu)化。

以隨機森林為例。在使用randomForest時，通常會對兩個常見的超參數(shù)進行優(yōu)化，其中包括mtry和ntree參數(shù)。mtry（maxfeatures）代表在每次分裂時作為候選變量隨機采樣的變量數(shù)量，而ntree（nestimators）代表要生長的樹的數(shù)量。

另一種在10年前仍然非常主流的機器學習算法是支持向量機SVM。需要優(yōu)化的超參數(shù)是徑向基函數(shù)(RBF)內(nèi)核的C參數(shù)和gamma參數(shù)。C參數(shù)是一個限制過擬合的懲罰項，而gamma參數(shù)則控制RBF核的寬度。

調(diào)優(yōu)通常是為了得出超參數(shù)的較佳值集，很多時候不要去追求找到超參一個最優(yōu)值，其實調(diào)參俠只是調(diào)侃調(diào)侃，真正需要理解掌握算法原理，找到適合數(shù)據(jù)和模型的參數(shù)就可以啦。

特征選擇

特征選擇從字面上看就是從最初的大量特征中選擇一個特征子集的過程。除了實現(xiàn)高精度的模型外，機器學習模型構(gòu)建最重要的一個方面是獲得可操作的見解，為了實現(xiàn)這一目標，能夠從大量的特征中選擇出重要的特征子集非常重要。

特征選擇的任務(wù)本身就可以構(gòu)成一個全新的研究領(lǐng)域，在這個領(lǐng)域中，大量的努力都是為了設(shè)計新穎的算法和方法。從眾多可用的特征選擇算法中，一些經(jīng)典的方法是基于模擬退火和遺傳算法。除此之外，還有大量基于進化算法（如粒子群優(yōu)化、蟻群優(yōu)化等）和隨機方法（如蒙特卡洛）的方法。

1.6機器學習任務(wù)在監(jiān)督學習中，兩個常見的機器學習任務(wù)包括分類和回歸。分類一個訓練好的分類模型將一組變量作為輸入，并預(yù)測輸出的類標簽。下圖是由不同顏色和標簽表示的三個類。每一個小的彩色球體代表一個數(shù)據(jù)樣本。三類數(shù)據(jù)樣本在二維中的顯示，這種可視化圖可以通過執(zhí)行PCA分析并顯示前兩個主成分（PC）來創(chuàng)建；或者也可以選擇兩個變量的簡單散點圖可視化。

性能指標如何知道訓練出來的機器學習模型表現(xiàn)好或壞？就是使用性能評價指標（metrics），一些常見的評估分類性能的指標包括準確率（AC）、靈敏度（SN）、特異性（SP）和馬太相關(guān)系數(shù)（MCC）?；貧w最簡單的回歸模式，可以通過以下簡單等式很好地總結(jié)：Y = f(X)。其中，Y對應(yīng)量化輸出變量，X指輸入變量，f指計算輸出值作為輸入特征的映射函數(shù)（從機器學習模型中得到）。

上面的回歸例子公式的實質(zhì)是，如果X已知，就可以推導出Y。一旦Y被計算（預(yù)測）出來，一個流行的可視化方式是將實際值與預(yù)測值做一個簡單的散點圖，如下圖所示。對回歸模型的性能進行評估，以評估擬合模型可以準確預(yù)測輸入數(shù)據(jù)值的程度。評估回歸模型性能的常用指標是確定系數(shù)（R2）。此外，均方誤差（MSE）以及均方根誤差（RMSE）也是衡量殘差或預(yù)測誤差的常用指標。 —02—深度學習算法流程

深度學習實際上是機器學習中的一種范式，所以他們的主要流程是差不多的。深度學習則是優(yōu)化了數(shù)據(jù)分析，建模過程的流程也是縮短了，由神經(jīng)網(wǎng)絡(luò)統(tǒng)一了原來機器學習中百花齊放的算法。

在深度學習正式大規(guī)模使用之前呢，機器學習算法流程中要花費很多時間去收集數(shù)據(jù)，然后對數(shù)據(jù)進行篩選，嘗試各種不同的特征提取機器學習算法，或者結(jié)合多種不同的特征對數(shù)據(jù)進行分類和回歸。

下面是機器學習算法的主要流程：主要從

（1）數(shù)據(jù)集準備（2）數(shù)據(jù)預(yù)處理（3）數(shù)據(jù)分割（4）定義神經(jīng)網(wǎng)絡(luò)模型（5）訓練網(wǎng)絡(luò) 深度學習不需要我們自己去提取特征，而是通過神經(jīng)網(wǎng)絡(luò)自動對數(shù)據(jù)進行高維抽象學習，減少了特征工程的構(gòu)成，在這方面節(jié)約了很多時間。但是同時因為引入了更加深、更復雜的網(wǎng)絡(luò)模型結(jié)構(gòu)，所以調(diào)參工作變得更加繁重啦。例如：定義神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)、確認損失函數(shù)、確定優(yōu)化器，最后就是反復調(diào)整模型參數(shù)的過程。

審核編輯：李倩

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4796

瀏覽量
102178
機器學習

機器學習

+關(guān)注

關(guān)注
66

文章
8478

瀏覽量
133804
深度學習

深度學習

+關(guān)注

關(guān)注
73

文章
5544

瀏覽量
122271

原文標題：機器學習和深度學習的區(qū)別到底是什么?

文章出處：【微信號：cserversoft，微信公眾號：中服云工業(yè)新風向】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

傳統(tǒng)機器學習方法和應(yīng)用指導

用于開發(fā)生物學數(shù)據(jù)的機器學習方法。盡管深度學習（一般指神經(jīng)網(wǎng)絡(luò)算法）是一個強大的工具，目前也非常流行，但它的應(yīng)用領(lǐng)域仍然有限。與

發(fā)表于 12-30 09:16 ?856次閱讀

傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應(yīng)用指導

NPU與機器學習算法的關(guān)系

在人工智能領(lǐng)域，機器學習算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復雜度的提升，對計算資源的需求也在不斷增長。NPU作為一種專門為深度

發(fā)表于 11-15 09:19 ?965次閱讀

NPU在深度學習中的應(yīng)用

設(shè)計的硬件加速器，它在深度學習中的應(yīng)用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對深度學習算法優(yōu)化的處理器，它與傳統(tǒng)的CPU和G

發(fā)表于 11-14 15:17 ?1522次閱讀

人工智能、機器學習和深度學習存在什么區(qū)別

人工智能指的是在某種程度上顯示出類似人類智能的設(shè)備。AI有很多技術(shù)，但其中一個很大的子集是機器學習——讓算法從數(shù)據(jù)中學習。

發(fā)表于 10-24 17:22 ?2665次閱讀

人工智能、<b class='flag-5'>機器</b><b class='flag-5'>學習</b>和<b class='flag-5'>深度</b><b class='flag-5'>學習</b>存在什么區(qū)別

AI大模型與深度學習的關(guān)系

AI大模型與深度學習之間存在著密不可分的關(guān)系，它們互為促進，相輔相成。以下是對兩者關(guān)系的介紹：一、深度學習是AI大模型的基礎(chǔ) 技術(shù)支撐：深度

發(fā)表于 10-23 15:25 ?2387次閱讀

深度學習算法在嵌入式平臺上的部署

隨著人工智能技術(shù)的飛速發(fā)展，深度學習算法在各個領(lǐng)域的應(yīng)用日益廣泛。然而，將深度學習算法部署到資源

發(fā)表于 07-15 10:03 ?2398次閱讀

利用Matlab函數(shù)實現(xiàn)深度學習算法

在Matlab中實現(xiàn)深度學習算法是一個復雜但強大的過程，可以應(yīng)用于各種領(lǐng)域，如圖像識別、自然語言處理、時間序列預(yù)測等。這里，我將概述一個基本的流程，包括環(huán)境設(shè)置、數(shù)據(jù)準備、模型設(shè)計、訓

發(fā)表于 07-14 14:21 ?3049次閱讀

深度學習中的無監(jiān)督學習方法綜述

深度學習作為機器學習領(lǐng)域的一個重要分支，近年來在多個領(lǐng)域取得了顯著的成果，特別是在圖像識別、語音識別、自然語言處理等領(lǐng)域。然而，深度

發(fā)表于 07-09 10:50 ?1332次閱讀

深度學習在工業(yè)機器視覺檢測中的應(yīng)用

識別等任務(wù)。傳統(tǒng)的機器視覺檢測方法通常依賴于手工設(shè)計的特征和固定的算法，難以應(yīng)對復雜多變的工業(yè)環(huán)境。而深度學習的引入，為工業(yè)機器視覺檢測帶來

發(fā)表于 07-08 10:40 ?1554次閱讀

深度學習的基本原理與核心算法

隨著大數(shù)據(jù)時代的到來，傳統(tǒng)機器學習方法在處理復雜模式上的局限性日益凸顯。深度學習（Deep Learning）作為一種新興的人工智能技術(shù)，以其強大的非線性表達能力和自

發(fā)表于 07-04 11:44 ?3136次閱讀

人工智能、機器學習和深度學習是什么

在科技日新月異的今天，人工智能（Artificial Intelligence, AI）、機器學習（Machine Learning, ML）和深度學習（Deep Learning,

發(fā)表于 07-03 18:22 ?2187次閱讀

機器學習算法原理詳解

機器學習作為人工智能的一個重要分支，其目標是通過讓計算機自動從數(shù)據(jù)中學習并改進其性能，而無需進行明確的編程。本文將深入解讀幾種常見的機器學習

發(fā)表于 07-02 11:25 ?1958次閱讀

深度學習模型訓練過程詳解

深度學習模型訓練是一個復雜且關(guān)鍵的過程，它涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓練一個深度學習模型，本質(zhì)上是通過優(yōu)化

發(fā)表于 07-01 16:13 ?2097次閱讀

深度學習與傳統(tǒng)機器學習的對比

在人工智能的浪潮中，機器學習和深度學習無疑是兩大核心驅(qū)動力。它們各自以其獨特的方式推動著技術(shù)的進步，為眾多領(lǐng)域帶來了革命性的變化。然而，盡管它們都屬于

發(fā)表于 07-01 11:40 ?1986次閱讀

機器學習的經(jīng)典算法與應(yīng)用

關(guān)于數(shù)據(jù)機器學習就是喂入算法和數(shù)據(jù)，讓算法從數(shù)據(jù)中尋找一種相應(yīng)的關(guān)系。Iris鳶尾花數(shù)據(jù)集是一個經(jīng)典數(shù)據(jù)集，在統(tǒng)計學習和

發(fā)表于 06-27 08:27 ?1868次閱讀

搜索歷史

機器學習和深度學習算法流程

評論

傳統(tǒng)機器學習方法和應(yīng)用指導

NPU與機器學習算法的關(guān)系

NPU在深度學習中的應(yīng)用

人工智能、機器學習和深度學習存在什么區(qū)別

AI大模型與深度學習的關(guān)系

深度學習算法在嵌入式平臺上的部署

利用Matlab函數(shù)實現(xiàn)深度學習算法

深度學習中的無監(jiān)督學習方法綜述

深度學習在工業(yè)機器視覺檢測中的應(yīng)用

深度學習的基本原理與核心算法

人工智能、機器學習和深度學習是什么

機器學習算法原理詳解

深度學習模型訓練過程詳解

深度學習與傳統(tǒng)機器學習的對比

機器學習的經(jīng)典算法與應(yīng)用

電子發(fā)燒友