0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

PCA和KPCA傻傻分不清楚?戳進(jìn)來教你如何區(qū)分

格創(chuàng)東智 ? 2019-01-28 13:02 ? 次閱讀

在格物匯之前的文章中,我們討論了特征抽取的經(jīng)典算法——主成分分析PCA與線性判別分析LDA的原理與應(yīng)用場景。PCA是一種無監(jiān)督的降維方法,尋找的是讓數(shù)據(jù)方差最大的一種映射;LDA是一種有監(jiān)督的降維方法,尋找的是讓數(shù)據(jù)分類效果最好的一種映射。但是它們?nèi)匀挥袘?yīng)用的局限性,今天我們就一起來了解下。


PCA的局限性

我們先來回顧一下PCA的降維原理:PCA試圖通過旋轉(zhuǎn)找到新的正交基,滿足這樣的兩條性質(zhì):

1、最近重構(gòu)性:樣本點到新映射的正交基距離足夠接近。

2、最大可分性:樣本點在新正交基上方差最大。

最后我們推導(dǎo)得到:

1.jpg

我們只需要對協(xié)方差矩陣XX^T 進(jìn)行特征值分解,得到的特征值和特征向量即是變換矩陣w的解和改主成分所解釋的方差量。這樣的降維方法是線性的降維方法,即從高維空間到低維空間的函數(shù)映射是線性的。然而在不少應(yīng)用場景中,線性映射可能不能得到想要的結(jié)果,例如如下的例子:S型曲線的本真二維結(jié)構(gòu)是其低維空間的原本形狀,通過線性降維后得到的結(jié)果明顯并不是我們所期望的。

2.jpg

核方法

我們介紹SVM的時候所介紹的核方法是一種可以進(jìn)行升維來生成一些非線性的映射。這個方法我們可以同樣使用在PCA降維分析中。

假設(shè)我們有一個樣本集:

x1,x2?xn

假設(shè)映射函數(shù)為,那么映射到高維以后,數(shù)據(jù)變成:

3.jpg

類似于PCA的求解方法, XX^T經(jīng)過高維映射后得到

補(bǔ).jpg,

故:

4.jpg

我們把λ 移動到等號左邊得到:

5.jpg

我們令:

6.jpg

做一個簡單的替換,得到:

7.jpg

代入等式1,得到:

8.jpg

我們在左右兩邊同時乘上

bu2.jpg

得到:

9.jpg

做一下簡單的改變:

10.jpg

非常幸運(yùn)的是,我們設(shè)計出了

bu3.jpg

是否還記得我們在SVM的核函數(shù)中曾經(jīng)驗證過,在低維空間計算(+1)^2得到的結(jié)果與高維空間上計算

11.jpg

的結(jié)果相似,只是系數(shù)略有不同。因此我們也可以在此應(yīng)用核方法來計算。我們在此定義核函數(shù)矩陣:

12.jpg

代入上面等式2,便可得到:

13.jpg


14.jpg

很明顯,這又回到了特征值分解的問題,取K最大的d個特征值所對應(yīng)的特征向量即可。

小結(jié)

我們通過將數(shù)據(jù)映射到高維以后,巧妙的構(gòu)建出了

bu3.jpg

目的是為了通過在低維空間上應(yīng)用核函數(shù),計算得到跟高維空間上差不多的效果。PCA所做的是對坐標(biāo)軸線性變換,即變換后的新基還是一條直線。而KPCA對坐標(biāo)軸做了非線性變換,數(shù)據(jù)所映射的新基就不再是一條直線了,而是一條曲線或者曲面,如下圖所示:

15.jpg

通過上面這個圖,大家應(yīng)該了解了KPCA和PCA區(qū)別了吧?好了,本期格物匯的內(nèi)容就到這里,我們下期再見。

本文作者:格創(chuàng)東智OT團(tuán)隊(轉(zhuǎn)載請注明作者及來源)



聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • PCA
    PCA
    +關(guān)注

    關(guān)注

    0

    文章

    89

    瀏覽量

    29638
  • KPCA
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    9144
  • LDA
    LDA
    +關(guān)注

    關(guān)注

    0

    文章

    29

    瀏覽量

    10631
  • 智能制造
    +關(guān)注

    關(guān)注

    48

    文章

    5596

    瀏覽量

    76420
  • 工業(yè)互聯(lián)網(wǎng)

    關(guān)注

    28

    文章

    4326

    瀏覽量

    94187
收藏 人收藏

    評論

    相關(guān)推薦

    碲化鉍和碲鋅鎘別傻傻分不清

    重要的半導(dǎo)體材料碲是非金屬元素中金屬屬性最強(qiáng)的元素,是戰(zhàn)略性新興產(chǎn)業(yè)七大領(lǐng)域中不可缺少的重要材料:在新能源、信息科技、冶金、化工、電子、醫(yī)藥、國防航空航天等部門有著廣泛而獨(dú)特的用途。碲化鉍和碲鋅鎘都是重要的碲化合物材料。碲化鉍是一種化合物半導(dǎo)體材料,具有較好的導(dǎo)電性,通常為灰色。碲鋅鎘是由鎘(Cd)、鋅(Zn)和碲(Te)三種元素組成的化合物半導(dǎo)體。通常情況
    的頭像 發(fā)表于 11-24 01:01 ?347次閱讀
    碲化鉍和碲鋅鎘別<b class='flag-5'>傻傻</b><b class='flag-5'>分不清</b>

    模擬信號、數(shù)字信號、ADC與DAC傻傻分不清楚?一文了解,收藏再看

    汽車轟鳴聲、動物的叫喚、人們的交談聲、學(xué)校的讀書聲、耳機(jī)里的音樂……聲音可以說無處不在。我們把人類能夠聽到的所有聲音都稱之為音頻。我們還可以將現(xiàn)實世界的聲音錄制儲存,“變”成數(shù)字信號;反過來,我們也可以把儲存下來的音頻文件通過聲卡及音頻軟件播放,還原以前錄下的聲音。這兩個過程的實現(xiàn),與模擬信號、數(shù)字信號、模數(shù)轉(zhuǎn)換器(ADC)和數(shù)模轉(zhuǎn)換器(DAC)有著緊密的關(guān)
    的頭像 發(fā)表于 11-14 01:09 ?1274次閱讀
    模擬信號、數(shù)字信號、ADC與DAC<b class='flag-5'>傻傻</b><b class='flag-5'>分不清楚</b>?一文了解,收藏再看

    Java中時間的使用

    Java中時間的使用
    的頭像 發(fā)表于 11-06 16:04 ?239次閱讀
    Java中時間<b class='flag-5'>戳</b>的使用

    Pcm1861里面有寄存器要配置嗎?

    Pcm1861里面有寄存器要配置嗎,pcm 1861與pcm1865的資料放在一塊分不清楚
    發(fā)表于 10-28 07:59

    PLC多種通訊方式匯總學(xué)習(xí)~

    PLC的通訊功能是其連接設(shè)備、控制系統(tǒng)和外部系統(tǒng)的重要組成部分。PLC支持多種通訊方式,本文將講述PLC常見的通訊方式及其優(yōu)缺點,別再傻傻分不清楚~ 一.點對點通訊(P2P) 點對點通訊是一種簡單
    的頭像 發(fā)表于 09-25 09:09 ?402次閱讀
    PLC多種通訊方式匯總學(xué)習(xí)~

    如果在不清楚適配器的是否支持QC3.0的情況下,嘗試切換至QC3.0協(xié)議,該如何判斷是否成功切換至QC3.0協(xié)議?

    如果在不清楚適配器的是否支持QC3.0的情況下,嘗試切換至QC3.0協(xié)議,該如何判斷是否成功切換至QC3.0協(xié)議? 因為QC2.0協(xié)議的class B支持的20V的切換方式和QC3.0的升壓的方式是一樣的
    發(fā)表于 07-20 11:56

    menucofig在win11下指令無法被識別是什么原因?

    。 問題有兩個,如下: 1.一個是工具啟動時出現(xiàn) \"\\e was unexpected at this time.\" 這段話,不清楚什么意思? 2.menuconfig指令無法被識別,不清楚原因?
    發(fā)表于 07-15 06:20

    頻段、信道、帶寬和傳輸速率,還傻傻分不清楚?

    無線電通信涉及幾個重要參數(shù),分別是頻段、信道、信道帶寬和傳輸速率,它們在無線網(wǎng)絡(luò)配置中扮演著重要角色。頻段:“不同的高速公路”頻段(FrequencyBand)指的是無線電波的一個特定頻率范圍,這個范圍被分配給無線通信使用。不同的無線通信技術(shù)會使用不同的頻段,避免相互之間的干擾。如最常見的Wi-Fi頻段有兩個:2.4GHz和5GHz。這兩個頻段就像是兩條不同
    的頭像 發(fā)表于 06-21 08:21 ?4243次閱讀
    頻段、信道、帶寬和傳輸速率,還<b class='flag-5'>傻傻</b><b class='flag-5'>分不清楚</b>?

    LDO和DCDC還傻傻分不清?快來搞懂它

    線性穩(wěn)壓器(LDO)和直流-直流轉(zhuǎn)換器(DC-DC)是兩種常用的電壓調(diào)整設(shè)備,它們各自有獨(dú)特的工作原理和特點,適用于不同的應(yīng)用場景。一、LDO(線性穩(wěn)壓器)工作原理LDO是一種線性穩(wěn)壓器,它通過一個晶體管(通常是場效應(yīng)管或雙極型晶體管)來調(diào)控輸出電壓,使其保持穩(wěn)定。晶體管的導(dǎo)通程度會根據(jù)輸入電壓和負(fù)載的變化而調(diào)整,以維持恒定的輸出電壓。LDO的關(guān)鍵優(yōu)點是簡單
    的頭像 發(fā)表于 05-22 08:10 ?3981次閱讀
    LDO和DCDC還<b class='flag-5'>傻傻</b><b class='flag-5'>分不清</b>?快來搞懂它

    一文介紹:UWB-AOA產(chǎn)品特點及其應(yīng)用

    寫在前面:好多朋友經(jīng)常把藍(lán)牙AOA和UWB-AOA混淆,傻傻分不清楚。UWB和藍(lán)牙分屬兩種無線電技術(shù),AOA指的是測量無線電到達(dá)信號的角度,UWB-AOA和藍(lán)牙AOA是兩種完全不同的產(chǎn)品,相較于藍(lán)牙AOA UWB-AOA定位精度更高、覆蓋范圍更廣、適用場景更加豐富。
    的頭像 發(fā)表于 05-09 17:07 ?2012次閱讀
    一文介紹:UWB-AOA產(chǎn)品特點及其應(yīng)用

    芯片、半導(dǎo)體、集成電路傻傻分不清?芯片和集成電路有什么區(qū)別?

    芯片,又稱微電路(microcircuit)、微芯片(microchip)、集成電路(英語:integrated circuit, IC)。
    的頭像 發(fā)表于 04-02 16:13 ?4313次閱讀

    如何解決隧道廣播聽不清楚的問題

    1、隧道廣播的設(shè)置標(biāo)準(zhǔn) 根據(jù)交通運(yùn)輸部 2012 年第 3 號公告發(fā)布的《高速公路通信技術(shù)要求》有線廣播設(shè)計原則為:隧道監(jiān)控等級為 A + 、A、B 等級的隧道應(yīng)設(shè)置有線廣播系統(tǒng),隧道監(jiān)控等級為 C等級的隧道可設(shè)置有線廣播系統(tǒng), 隧道段有線廣播揚(yáng)聲器設(shè)置在隧道洞外入、出口,洞內(nèi)宜每隔50m設(shè)置1臺。 隧道廣播與緊急電話分機(jī)的一般布設(shè)形式:在隧道內(nèi)沿行車方向右側(cè)每隔約200m左右布設(shè)一部隧道廣播與緊急電話分機(jī),隧道外距隧道洞口約5m左右布設(shè)一部緊
    的頭像 發(fā)表于 03-15 13:18 ?518次閱讀
    如何解決隧道廣播聽<b class='flag-5'>不清楚</b>的問題

    什么是鎖存器?數(shù)字IC設(shè)計中為什么要避免鎖存器?

    數(shù)字IC設(shè)計里,常會出現(xiàn)鎖存器,D觸發(fā)器和寄存器,很多人(比如我)老傻傻分不清,搞不懂他們的區(qū)別是什么。
    的頭像 發(fā)表于 02-17 15:04 ?2365次閱讀
    什么是鎖存器?數(shù)字IC設(shè)計中為什么要避免鎖存器?

    藍(lán)牙適配器、藍(lán)牙接收器和藍(lán)牙發(fā)射器傻傻分不清?

    藍(lán)牙接收器是一種設(shè)備,通常用于將非藍(lán)牙設(shè)備轉(zhuǎn)換為藍(lán)牙設(shè)備。藍(lán)牙接收器通常連接到音頻設(shè)備(如音箱、耳機(jī)、汽車音響等),以使它們能夠接收通過藍(lán)牙傳輸?shù)囊纛l信號。
    發(fā)表于 02-02 10:23 ?8951次閱讀
    藍(lán)牙適配器、藍(lán)牙接收器和藍(lán)牙發(fā)射器<b class='flag-5'>傻傻</b><b class='flag-5'>分不清</b>?

    傻傻分不清?射頻模擬信號源和矢量信號源的區(qū)別

    傻傻分不清?射頻模擬信號源和矢量信號源的區(qū)別? 射頻模擬信號源和矢量信號源是測試和測量領(lǐng)域中常見的兩種信號源。它們在信號產(chǎn)生原理、輸出信號特性、使用場景等方面有很大區(qū)別。本文將從原理、特性和應(yīng)用場
    的頭像 發(fā)表于 01-19 15:54 ?7404次閱讀