0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

關于機器學習的超全總結(jié)

nlfO_thejiangme ? 來源:未知 ? 作者:李倩 ? 2018-11-10 10:55 ? 次閱讀

時光飛逝,學習機器學習已四年有余,深感機器學習之博大精深,可能不斷學習數(shù)十年也無法窮盡。但從另一方面考慮,我也學了很多,也有一些自己的感悟。本文謹代表我個人的觀點和感悟,希望對大家(尤其是初學者)有所幫助,歡迎大家一起討論與學習~

本文的目錄如下:

1. 綜述

1.1機器學習是什么

1.2 機器學習的過程

1.3監(jiān)督學習VS無監(jiān)督學習

根據(jù)訓練數(shù)據(jù)是否有標記,機器學習任務大致分為兩大類:監(jiān)督學習和非監(jiān)督學習,監(jiān)督學習主要包括分類和回歸等,非監(jiān)督學習主要包括聚類和頻繁項集挖掘等。

監(jiān)督學習的過程如下:

無監(jiān)督學習的過程如下:

監(jiān)督學習算法VS無監(jiān)督學習算法:

1.4輸入空間、特征空間、輸出空間、假設空間

輸入空間:在監(jiān)督學習中,將輸入所有可能取值的集合稱為輸入空間。

特征空間:每個具體輸入是一實例,通常用特征向量表示,所有特征向量存在的

空間為特征空間。有時輸入空間和特征空間為相同的空間,有時為不同的空間,需要將實例從輸入空間映射到輸出空間。

輸出空間:在監(jiān)督學習中,將輸出所有可能取值的集合稱為輸出空間。

假設空間:監(jiān)督學習的目的在于學習一個由輸入到輸出的映射,這一映射由模型來表示。由輸入空間到輸出空間的映射的集合,稱為假設空間。舉個簡單的例子,在一元線性回歸中,假設空間即所有的直線y=ax+b組成的集合,我們的目標就是找到一條y=a'x+b',使得損失最小。

1.5生成模型和判別模型

生成模型:生成模型由數(shù)據(jù)學習聯(lián)合概率分布P(X,Y),然后求出條件概率分布P(Y|X)作為預測的模型。之所以被稱為生成方法,是因為模型表示了給定輸入X產(chǎn)生輸出Y的關系。典型的模型有樸素貝葉斯(NB)和隱馬爾可夫模型(HMM)等。

判別模型:判別模型由數(shù)據(jù)直接學習決策函數(shù)f(X),或條件概率分布P(Y|X)。判別方法關心的是對給定的輸入X,應預測什么樣的輸出Y。典型的判別模型包括k近鄰算法(KNN)、決策樹(DT)、邏輯回歸(LR)、支持向量機(SVM)等。

1.6 過擬合VS欠擬合

解決過擬合:重新清洗數(shù)據(jù)、增大樣本量、減少特征的量、增強正則化作用、dropout(適用于神經(jīng)網(wǎng)絡)等。

解決欠擬合:使用更復雜的模型、更有效的特征選擇、減少正則化作用等。

1.7 特征選擇

特征選擇對機器學習至關重要,個人認為在大部分機器學習任務中特征就決定了效果的上限,模型的選擇與組合只是無限逼近于這個上限。

特征選擇的主要作用包括:減少特征數(shù)量會防止維度災難,減少訓練時間;增強模型泛化能力,減少過擬合;增強對特征和特征值的理解。

常見的特征選擇方法如下:

去除取值變化小的特征:如果絕大部分實例的某個特征取值一樣,那這個特征起到的作用可能就比較有限,極端情況下如果所有實例的某特征取值都一樣,那該特征基本就不起作用。

單變量特征選擇法:能夠?qū)γ恳粋€特征進行測試,衡量該特征和響應變量之間的關系,根據(jù)得分扔掉不好的特征。常見方法包括卡法檢驗、互信息、皮爾森相關系數(shù)、距離相關系數(shù)、基于學習模型的特征排序(Model based ranking)等。

正則化:L1正則化、L2正則化。

隨機森林特征選擇:這類方法主要包括平均不純度減少(mean decrease impurity)和平均精確率減少(Mean decrease accuracy)兩種方法。

頂層特征選擇法:這類方法主要包括穩(wěn)定性選擇(Stability selection)和遞歸特征消除(Recursive feature elimination)兩種方法。

1.8 方差vs偏差

偏差描述的是算法預測的平均值和真實值的差距(算法的擬合能力),低偏差對應于模型復雜化,但模型過于復雜容易過擬合。

而方差描述的是同一個算法在不同數(shù)據(jù)集上的預測值和所有數(shù)據(jù)集上的平均預測值之間的關系(算法的穩(wěn)定性),低方差對應于模型簡單化,但模型過于簡單容易欠擬合。

高偏差(一般是欠擬合,注意跟上面低偏差時模型復雜化做區(qū)別)是模型在訓練集和驗證集上的誤差都比較大,隨著數(shù)據(jù)集的增加,模型在訓練集和驗證集上的誤差表現(xiàn)如下:

解決高偏差的方法:使用更多特征,增加多項式特征,減少正則化程度λ。

高方差是針對不同的訓練集,其擬合得到的參數(shù)相差很大(一般是過擬合,注意跟上面低方差時模型簡單化做區(qū)別)。隨著數(shù)據(jù)集的增加,模型在訓練集和驗證集上的誤差表現(xiàn)如下:

解決高偏差的方法:增加訓練樣本,減少特征數(shù)量,增加正則化程度λ

2. 機器學習任務分類

2.1 按學習方式分類

2.2 按算法思想分類

3. 損失函數(shù)

損失函數(shù)用來評價模型的預測值和真實值不一樣的程度,損失函數(shù)越好,通常模型的性能越好。不同的模型用的損失函數(shù)一般也不一樣。

損失函數(shù)分為經(jīng)驗風險損失函數(shù)和結(jié)構風險損失函數(shù)。經(jīng)驗風險損失函數(shù)指預測結(jié)果和實際結(jié)果的差別,結(jié)構風險損失函數(shù)是指經(jīng)驗風險損失函數(shù)加上正則項。通常表示為如下:

3.1 0-1損失函數(shù)

0-1損失是指預測值和目標值不相等為1,否則為0:

3.2 絕對值損失函數(shù)

絕對值損失函數(shù)是計算預測值與目標值的差的絕對值:

3.3 log對數(shù)損失函數(shù)

log損失函數(shù)的標準形式如下:

3.4 平方損失函數(shù)

平方損失函數(shù)經(jīng)常應用于回歸問題,它的標準形式如下:

3.5 指數(shù)損失函數(shù)

指數(shù)損失函數(shù)的標準形式如下:

3.6 Hinge損失函數(shù)

Hinge損失函數(shù)標準形式如下:

損失函數(shù)的選擇,對一般機器學習任務非常重要。很多任務就是難在不太容易確定一個比較好的損失函數(shù)。

4.監(jiān)督學習

4.1監(jiān)督學習的任務分類

常見監(jiān)督學習任務的分類以及他們之間的對比如下;

4.2 監(jiān)督學習算法

監(jiān)督學習的算法非常多,后續(xù)也會有選擇的分享我對一些常見算法的感悟。常見的監(jiān)督學習算法具體如下:

4.3 監(jiān)督學習的評估

監(jiān)督學習的效果評估如下:

5.無監(jiān)督學習

5.1 無監(jiān)督學習的任務分類

常見的無監(jiān)督學習的任務分類如下:

5.2 聚類

無監(jiān)督學習—聚類

5.3 推薦

無監(jiān)督學習—推薦

5.4 頻繁項集挖掘

無監(jiān)督學習—頻繁項集挖掘

6.總結(jié)與思考

6.1總結(jié)

6.2 思考

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 函數(shù)
    +關注

    關注

    3

    文章

    4341

    瀏覽量

    62797
  • 機器學習
    +關注

    關注

    66

    文章

    8428

    瀏覽量

    132832

原文標題:知識點 | 關于機器學習的超全總結(jié)

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Wifi模塊全總結(jié)

    Wifi模塊全總結(jié)
    發(fā)表于 08-23 10:03

    機器學習參數(shù)的如何選擇

    機器學習參數(shù)的選擇,余弦距離vs歐式距離vs曼哈頓距離
    發(fā)表于 04-24 07:58

    機器學習之高級算法課程學習總結(jié)

    機器學習:高級算法課程學習總結(jié)
    發(fā)表于 05-05 17:17

    改善深層神經(jīng)網(wǎng)絡--參數(shù)優(yōu)化、batch正則化和程序框架 學習總結(jié)

    《深度學習工程師-吳恩達》02改善深層神經(jīng)網(wǎng)絡--參數(shù)優(yōu)化、batch正則化和程序框架 學習總結(jié)
    發(fā)表于 06-16 14:52

    機器學習小白的總結(jié)

    機器學習小白第一周自我總結(jié)
    發(fā)表于 07-08 08:27

    模擬電子電路全總結(jié)

    模擬電子的相關知識學習教材資料——模擬電子電路全總結(jié)
    發(fā)表于 09-20 16:10 ?0次下載

    基于Android安全總結(jié)與分析

    ,Android智能手機的日益流行也吸引了黑客,導致Android惡意軟件應用的大量增加,從Android體系結(jié)構、設計原則、安全機制、主要威脅、惡意軟件分類與檢測、靜態(tài)分析與動態(tài)分析、機器學習方法、安全擴展方案等多維角度對Android安全的最新研究進展進行了
    發(fā)表于 01-18 16:58 ?3次下載

    關于Linux下多線程編程技術學習總結(jié)

    Linux下多線程編程技術 作為一個IT人員,不斷的學習總結(jié)是我們這個職業(yè)習慣,所以我會將每個階段的學習都會通過一點的總結(jié)來記錄和檢測自己的學習
    發(fā)表于 04-22 03:12 ?2216次閱讀
    <b class='flag-5'>關于</b>Linux下多線程編程技術<b class='flag-5'>學習</b><b class='flag-5'>總結(jié)</b>

    機器學習的12大經(jīng)驗總結(jié)

    本文整理了關于機器學習研究者和從業(yè)者的 12 個寶貴經(jīng)驗,包括需要避免的陷阱、需要關注的重點問題、常見問題的答案。希望這些經(jīng)驗對機器學習愛好
    的頭像 發(fā)表于 12-13 15:29 ?2694次閱讀

    機器學習的logistic函數(shù)和softmax函數(shù)總結(jié)

    本文簡單總結(jié)機器學習最常見的兩個函數(shù),logistic函數(shù)和softmax函數(shù)。首先介紹兩者的定義和應用,最后對兩者的聯(lián)系和區(qū)別進行了總結(jié)
    的頭像 發(fā)表于 12-30 09:04 ?9813次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>的logistic函數(shù)和softmax函數(shù)<b class='flag-5'>總結(jié)</b>

    機器學習研究中常見的七大謠傳總結(jié)

    學習深度學習的過程中,我們常會遇到各種謠傳,也會遇到各種想當然的「執(zhí)念」。在本文中,作者總結(jié)機器學習研究中常見的七大謠傳,他們很多都是我
    的頭像 發(fā)表于 02-26 14:05 ?2865次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>研究中常見的七大謠傳<b class='flag-5'>總結(jié)</b>

    關于STM32的FLASH程序(實用)

    關于STM32的FLASH程序(實用)(嵌入式開發(fā)應用培訓)-關于STM32的FLASH程序(實用),適合感興趣的學習
    發(fā)表于 08-04 12:03 ?24次下載
    <b class='flag-5'>關于</b>STM32的FLASH程序(<b class='flag-5'>超</b>實用)

    RT-Thread學習筆記 --(6)RT-Thread線程間通信學習過程總結(jié)

    前兩篇文章總結(jié)了RT-Thread多線程以及多線程同步的學習過程,關于前兩篇學習總結(jié),可以查看之前的文章。
    發(fā)表于 01-25 18:50 ?7次下載
    RT-Thread<b class='flag-5'>學習</b>筆記 --(6)RT-Thread線程間通信<b class='flag-5'>學習</b>過程<b class='flag-5'>總結(jié)</b>

    機器學習算法總結(jié) 機器學習算法是什么 機器學習算法優(yōu)缺點

    機器學習算法總結(jié) 機器學習算法是什么?機器學習算法優(yōu)
    的頭像 發(fā)表于 08-17 16:11 ?1981次閱讀

    機器學習8大調(diào)參技巧

    今天給大家一篇關于機器學習調(diào)參技巧的文章。參數(shù)調(diào)優(yōu)是機器學習例程中的基本步驟之一。該方法也稱為
    的頭像 發(fā)表于 03-23 08:26 ?651次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>8大調(diào)參技巧