0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

由淺入深的對(duì)其降維原理進(jìn)行了詳細(xì)總結(jié)

lviY_AI_shequ ? 來(lái)源:lp ? 2019-03-22 14:01 ? 次閱讀

主成分分析(Principal components analysis,以下簡(jiǎn)稱PCA)是最常用的降維方法之一,在數(shù)據(jù)壓縮和消除冗余方面具有廣泛的應(yīng)用,本文由淺入深的對(duì)其降維原理進(jìn)行了詳細(xì)總結(jié)。

目錄

1.向量投影和矩陣投影的含義

2. 向量降維和矩陣降維的含義

3. 基向量選擇算法

4. 基向量個(gè)數(shù)的確定

5. 中心化的作用

6. PCA算法流程

7. PCA算法總結(jié)

1. 向量投影和矩陣投影的含義

如下圖:

向量a在向量b的投影為:

其中,θ是向量間的夾角 。

向量a在向量b的投影表示向量a在向量b方向的信息,若θ=90°時(shí),向量a與向量b正交,向量a無(wú)向量b信息,即向量間無(wú)冗余信息 。因此,向量最簡(jiǎn)單的表示方法是用基向量表示,如下圖:

向量表示方法:

其中,c1是在e1方向的投影,c2是在e2方向的投影,e1和e2是基向量

我們用向量的表示方法擴(kuò)展到矩陣,若矩陣的秩r(A)=n,

,其中ai(i=1,2,...,n)為n個(gè)維度的列向量,那么矩陣A的列向量表示為:

其中,e1,e2,...,en為矩陣A的特征向量 。

若矩陣A是對(duì)稱矩陣,那么特征向量為正交向量,我們對(duì)上式結(jié)合成矩陣的形式:

由上式可知,對(duì)稱矩陣A在各特征向量的投影等于矩陣列向量展開(kāi)后的系數(shù),特征向量可理解為基向量。

2. 向量降維和矩陣降維含義

向量降維可以通過(guò)投影的方式實(shí)現(xiàn),N維向量映射為M維向量轉(zhuǎn)換為N維向量在M個(gè)基向量的投影,如N維向量,M個(gè)基向量分別為,在基向量的投影:

通過(guò)上式完成了降維,降維后的坐標(biāo)為:

矩陣是由多個(gè)列向量組成的,因此矩陣降維思想與向量降維思想一樣,只要求得矩陣在各基向量的投影即可,基向量可以理解為新的坐標(biāo)系,投影就是降維后的坐標(biāo),那么問(wèn)題來(lái)了,如何選擇基向量?

3. 基向量選擇算法

已知樣本集的分布,如下圖:

樣本集共有兩個(gè)特征x1和x2,現(xiàn)在對(duì)該樣本數(shù)據(jù)從二維降到一維,圖中列了兩個(gè)基向量u1和u2,樣本集在兩個(gè)向量的投影表示了不同的降維方法,哪種方法好,需要有評(píng)判標(biāo)準(zhǔn):(1)降維前后樣本點(diǎn)的總距離足夠近,即最小投影距離;(2)降維后的樣本點(diǎn)(投影)盡可能的散開(kāi),即最大投影方差 。因此,根據(jù)上面兩個(gè)評(píng)判標(biāo)準(zhǔn)可知選擇基向量u1較好。

我們知道了基向量的選擇標(biāo)準(zhǔn),下面介紹基于這兩個(gè)評(píng)判標(biāo)準(zhǔn)來(lái)推導(dǎo)基向量:

(1)基于最小投影距離

假設(shè)有n個(gè)n維數(shù)據(jù),記為X?,F(xiàn)在對(duì)該數(shù)據(jù)從n維降到m維,關(guān)鍵是找到m個(gè)基向量,假設(shè)基向量為{w1,w2,...,wm},記為矩陣W,矩陣W的大小是n×m。

原始數(shù)據(jù)在基向量的投影:

投影坐標(biāo)計(jì)算公式:

根據(jù)投影坐標(biāo)和基向量,得到該樣本的映射點(diǎn):

最小化樣本和映射點(diǎn)的總距離:

推導(dǎo)上式,得到最小值對(duì)應(yīng)的基向量矩陣W,推導(dǎo)過(guò)程如下:

所以我們選擇的特征向量作為投影的基向量?。

(2) 基于最大投影方差

我們希望降維后的樣本點(diǎn)盡可能分散,方差可以表示這種分散程度。

如上圖所示,表示原始數(shù)據(jù),表示投影數(shù)據(jù),表示投影數(shù)據(jù)的平均值。所以最大化投影方差表示為:

下面推導(dǎo)上式,得到相應(yīng)的基向量矩陣W,推導(dǎo)過(guò)程如下:

我們發(fā)現(xiàn)(4)式與上一節(jié)的(13)式是相同的。

因此,基向量矩陣W滿足下式:

小結(jié):降維通過(guò)樣本數(shù)據(jù)投影到基向量實(shí)現(xiàn)的,基向量的個(gè)數(shù)等于降維的個(gè)數(shù),基向量是通過(guò)上式求解的。

4. 基向量個(gè)數(shù)的確定

我們知道怎么求解基向量,但是我們事先確定了基向量的個(gè)數(shù),如上節(jié)的m個(gè)基向量,那么怎么根據(jù)樣本數(shù)據(jù)自動(dòng)的選擇基向量的個(gè)數(shù)了?在回答這一問(wèn)題前,簡(jiǎn)單闡述下特征向量和特征值的意義。

假設(shè)向量wi,λi分別為的特征向量和特征值,表達(dá)式如下:

對(duì)應(yīng)的圖:

由上圖可知,沒(méi)有改變特征向量wi的方向,只在wi的方向上伸縮或壓縮了λi倍。特征值代表了在該特征向量的信息分量。特征值越大,包含矩陣的信息分量亦越大。因此,我們可以用λi去選擇基向量個(gè)數(shù)。我們?cè)O(shè)定一個(gè)閾值threshold,該閾值表示降維后的數(shù)據(jù)保留原始數(shù)據(jù)的信息量,假設(shè)降維后的特征個(gè)數(shù)為m,降維前的特征個(gè)數(shù)為n,m應(yīng)滿足下面條件:

因此,通過(guò)上式可以求得基向量的個(gè)數(shù)m,即取前m個(gè)最大特征值對(duì)應(yīng)的基向量。

投影的基向量:

投影的數(shù)據(jù)集:

5. 中心化的作用

我們?cè)谟?jì)算協(xié)方差矩陣的特征向量前,需要對(duì)樣本數(shù)據(jù)進(jìn)行中心化,中心化的算法如下:

中心化數(shù)據(jù)各特征的平均值為0,計(jì)算過(guò)程如下:

對(duì)上式求平均:

中心化的目的是簡(jiǎn)化算法,我們重新回顧下協(xié)方差矩陣,以說(shuō)明中心化的作用 。

,X表示共有n個(gè)樣本數(shù)。

每個(gè)樣本包含n個(gè)特征,即:

展開(kāi):

為了閱讀方便,我們只考慮兩個(gè)特征的協(xié)方差矩陣:

由(3)式推導(dǎo)(2)式得:

所以是樣本數(shù)據(jù)的協(xié)方差矩陣,但是,切記必須事先對(duì)數(shù)據(jù)進(jìn)行中心化處理?。

6. PCA算法流程

1)樣本數(shù)據(jù)中心化。

2)計(jì)算樣本的協(xié)方差矩陣。

3)求協(xié)方差矩陣的特征值和特征向量,并對(duì)該向量進(jìn)行標(biāo)準(zhǔn)化(基向量)。

3)根據(jù)設(shè)定的閾值,求滿足以下條件的降維數(shù)m。

4)取前m個(gè)最大特征值對(duì)應(yīng)的向量,記為W。

5)對(duì)樣本集的每一個(gè)樣本,映射為新的樣本。

6)得到映射后的樣本集D'。

7. 核主成分分析(KPCA)介紹

因?yàn)?img src="http://file.elecfans.com/web1/M00/8B/47/o4YBAFyUemCAMDGdAAABOtHwDZ4189.png" />可以用樣本數(shù)據(jù)內(nèi)積表示:

由核函數(shù)定義可知,可通過(guò)核函數(shù)將數(shù)據(jù)映射成高維數(shù)據(jù),并對(duì)該高維數(shù)據(jù)進(jìn)行降維:

KPCA一般用在數(shù)據(jù)不是線性的,無(wú)法直接進(jìn)行PCA降維,需要通過(guò)核函數(shù)映射成高維數(shù)據(jù),再進(jìn)行PCA降維。

8. PCA算法總結(jié)

PCA是一種非監(jiān)督學(xué)習(xí)的降維算法,只需要計(jì)算樣本數(shù)據(jù)的協(xié)方差矩陣就能實(shí)現(xiàn)降維的目的,其算法較易實(shí)現(xiàn),但是降維后特征的可解釋性較弱,且通過(guò)降維后信息會(huì)丟失一些,可能對(duì)后續(xù)的處理有重要影響。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • PCA
    PCA
    +關(guān)注

    關(guān)注

    0

    文章

    90

    瀏覽量

    29808
  • 向量
    +關(guān)注

    關(guān)注

    0

    文章

    55

    瀏覽量

    11739
  • 降維
    +關(guān)注

    關(guān)注

    0

    文章

    10

    瀏覽量

    7686

原文標(biāo)題:主成分分析(PCA)原理總結(jié)

文章出處:【微信號(hào):AI_shequ,微信公眾號(hào):人工智能愛(ài)好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    求助,SVM分類時(shí)要不要先進(jìn)行PCA呢?

    大家知道,既然SVM可以較好地解決小樣本、非線性、高數(shù)等分類問(wèn)題,那對(duì)于高樣本輸入,需不需要提前進(jìn)行PCA呢?PCA
    發(fā)表于 10-27 20:13

    請(qǐng)問(wèn)OSTickISR在UCOSII哪個(gè)文件進(jìn)行了定義?

    OSTickISR在UCOSII哪個(gè)文件進(jìn)行了定義,怎么沒(méi)有找到?
    發(fā)表于 04-02 06:36

    HV857已針對(duì)各種應(yīng)用進(jìn)行了優(yōu)化

    EL燈驅(qū)動(dòng)器,它采用Supertex HV857集成電路提供六個(gè)EL驅(qū)動(dòng)電路。它們已針對(duì)各種應(yīng)用進(jìn)行了優(yōu)化,可以按原樣使用,也可以作為設(shè)計(jì)特定應(yīng)用電路的起點(diǎn)
    發(fā)表于 07-26 08:39

    對(duì)結(jié)構(gòu)體成員進(jìn)行了賦值

    \n",L->c);為什么這種方式對(duì)結(jié)構(gòu)體成員進(jìn)行了賦值tt *L=aa;這里L(fēng)除了指向數(shù)組首地址為什么還指向結(jié)構(gòu)體的首地址tt aa[]={10,25,34,4,5,88,75};這個(gè)數(shù)組有沒(méi)有指向結(jié)構(gòu)體的首地址
    發(fā)表于 03-23 01:11

    使用STlinkUtility v 4.5.0對(duì)閃存進(jìn)行了不受保護(hù)的讀取和寫(xiě)入操作,無(wú)法擦除閃存怎么解決?

    您好,我是從事 STM32G07 系列開(kāi)發(fā)板的固件工程師。在使用閃存時(shí),我使用 STlinkUtility v 4.5.0 對(duì)閃存進(jìn)行了不受保護(hù)的讀取和寫(xiě)入操作,此后我無(wú)法擦除閃存,因此無(wú)法調(diào)試和加
    發(fā)表于 12-30 08:23

    基于圖論的人臉圖像數(shù)據(jù)方法綜述

    近幾年基于圖論的方法越來(lái)越得到人們的關(guān)注,本文針對(duì)人臉識(shí)別中的核心問(wèn)題即對(duì)高數(shù)據(jù)進(jìn)行
    發(fā)表于 09-03 16:13 ?0次下載

    C語(yǔ)言字符串操作總結(jié)大全(超詳細(xì)

    本文對(duì)c語(yǔ)言字符串的操作進(jìn)行了詳細(xì)總結(jié)分析,需要的朋友可以參考。
    發(fā)表于 11-15 14:19 ?2130次閱讀

    對(duì)國(guó)內(nèi)的大硅片項(xiàng)目進(jìn)行了整理核分析

    《推進(jìn)綱要》發(fā)布以來(lái),我國(guó)各地開(kāi)始大興晶圓制造項(xiàng)目。時(shí)值歲未,筆者對(duì)我國(guó)的大硅片項(xiàng)目進(jìn)行了整理。
    的頭像 發(fā)表于 12-27 10:57 ?1.9w次閱讀
    對(duì)國(guó)內(nèi)的大硅片項(xiàng)目<b class='flag-5'>進(jìn)行了</b>整理核分析

    最全最詳細(xì)LTC6803使用筆記總結(jié)

    本文首先介紹了LTC6803主要特點(diǎn),其次介紹了LTC6803典型應(yīng)用電路與指令格式,最后對(duì)LTC6803的使用進(jìn)行了詳細(xì)總結(jié)。
    發(fā)表于 05-15 15:37 ?1.9w次閱讀
    最全最<b class='flag-5'>詳細(xì)</b>LTC6803使用筆記<b class='flag-5'>總結(jié)</b>

    美格智能已對(duì)官方網(wǎng)站進(jìn)行了全新的改版和升級(jí)

    目前,全新官網(wǎng)已正式上線啟用,并以客戶需求為導(dǎo)向,對(duì)網(wǎng)站整體風(fēng)格、界面顯示模式、信息展示和資料下載等方面的交互體驗(yàn)進(jìn)行了全方位的改進(jìn)和優(yōu)化,為用戶帶來(lái)實(shí)用性與美觀性兼具的人性化視覺(jué)感受。
    的頭像 發(fā)表于 03-26 08:47 ?3012次閱讀

    Google對(duì)Google Camera進(jìn)行了改進(jìn)

    工作人員表示,他們已經(jīng)改善了JIT,OTA速度,甚至對(duì)內(nèi)核調(diào)度程序進(jìn)行了一些更改。他們希望用戶在Android Nougat中注意到所有這些。此外,他們強(qiáng)調(diào),Android Nougat中的Doze light和背景限制將在不久的將來(lái)實(shí)施。
    的頭像 發(fā)表于 04-22 09:27 ?1914次閱讀

    Ascent和IBM合作進(jìn)行了一項(xiàng)人工智能試驗(yàn)

    概念驗(yàn)證采用了AI和自然語(yǔ)言處理功能,“使用了超過(guò)23萬(wàn)個(gè)法規(guī)字詞,并對(duì)進(jìn)行了解釋并轉(zhuǎn)換為一系列可口的可操作任務(wù)”。
    的頭像 發(fā)表于 07-22 09:37 ?1771次閱讀

    三星對(duì)Bixby服務(wù)進(jìn)行了重大改進(jìn)

    同樣,三星還展示了主動(dòng)降噪技術(shù),該技術(shù)再次使用預(yù)測(cè)分析來(lái)消除環(huán)境噪聲。在語(yǔ)音助手方面,三星對(duì)Bixby服務(wù)進(jìn)行了重大改進(jìn)。該公司去年推出了可進(jìn)行智能對(duì)話的人類數(shù)字化身Neon。
    的頭像 發(fā)表于 09-16 17:02 ?2168次閱讀

    TDK Corporation對(duì)Micronas嵌入式電機(jī)控制器系列產(chǎn)品進(jìn)行了擴(kuò)展

    TDK Corporation 對(duì) Micronas 嵌入式電機(jī)控制器系列產(chǎn)品進(jìn)行了擴(kuò)展,以實(shí)現(xiàn)高溫環(huán)境應(yīng)用。HVC 4222F 和 HVC 4422F 專門(mén)針對(duì)環(huán)境溫度要求高達(dá) 150 °C 的應(yīng)用中智能執(zhí)行器的操作開(kāi)發(fā)研制而成。
    的頭像 發(fā)表于 03-05 10:22 ?2387次閱讀

    淺析卷積與池化的對(duì)比

    在學(xué)習(xí)深度學(xué)習(xí)中卷積網(wǎng)絡(luò)過(guò)程中,有卷積層,池化層,全連接層等等,其中卷積層與池化層均可以對(duì)特征圖,本次實(shí)驗(yàn)針對(duì)控制其他層次一致的情況下,使用卷積與池化
    的頭像 發(fā)表于 02-17 14:58 ?1287次閱讀
    淺析卷積<b class='flag-5'>降</b><b class='flag-5'>維</b>與池化<b class='flag-5'>降</b><b class='flag-5'>維</b>的對(duì)比