0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機器學(xué)習(xí)特征選擇的三種方法

倩倩 ? 來源:云溪初閣 ? 2020-04-15 15:56 ? 次閱讀

特征選擇,這是一個在機器學(xué)習(xí)中非常重要的東西,那些好的特征可以從整體上來提升模型的性能,可以幫助我們更加清晰的理解真?zhèn)€數(shù)據(jù)的特點及底層結(jié)構(gòu),對于后面的模型,算法有著非常重要的作用。

備注:在很多情況下,特征選擇并非必要的,業(yè)務(wù)特征的選擇有很強烈的業(yè)務(wù)契合度在里面,代表著這些特征在業(yè)務(wù)中的重要性也是很高,如果去掉,很有可能會有一定的副作用,但是無法說清這個副作用,這個需要進入到訓(xùn)練中去訓(xùn)練數(shù)據(jù)來驗證這個效果。

特征選擇作用

這里有些同學(xué)可能是剛開始接觸做特征選擇,并不是很了解為什么要做特征選擇,做了有什么作用?是否只是簡單地減少特征?是否這樣子做了,對結(jié)果有沒有影響?

這里每個人都有自己的理解,小編根據(jù)自己的經(jīng)驗,總結(jié)有兩個,參考一下:

1、減少特征的數(shù)量,降低維度,這樣子可以在一定程度上加強模型的泛化能力,從而盡可能地減少過擬合,這里要注意一下:過擬合只能減少,無法消滅,好比這個世上,其實沒有最優(yōu)解的一樣,擁有的只有不滿足。

2、在一定程度上降低特征后,從直觀上來看,很多時候可以一目了然看到特征與特征值之間的關(guān)聯(lián),這個場景,需要實際業(yè)務(wù)的支撐,生產(chǎn)上的業(yè)務(wù)數(shù)據(jù)更加明顯,有興趣的同學(xué)可以私信我加群,一起研究。

特征選擇從何入手

這是一個非常重要的問題,有很多同學(xué)可能剛開始接觸或者想往這方面發(fā)展,拿到了一組數(shù)組,很多時候就是直接拿了一個算法,直接做分類或者做回歸或者做聚類,但是這樣子正常情況下,數(shù)據(jù)會存在很多噪音(科普:噪音可以理解為一些垃圾數(shù)據(jù),對我們的結(jié)果或者期望造成了干擾),這樣子的數(shù)據(jù)不會很好。

那如果我要特征選擇呢,又不知從何入手?

這里有兩個方法,可以作為參考:

1、從業(yè)務(wù)范圍分析,直接觀察特征與業(yè)務(wù)的相關(guān)性,這點非常重要,那些對業(yè)務(wù)有著直接指標(biāo)的數(shù)據(jù),建議保留,否則,可以考慮手動刪除掉。

2、從發(fā)散特性分析,這個很多同學(xué)畢業(yè)后,就忘了這個東西,簡單用成語一個成語來理解一下:一成不變。如果這個特征滿足這種條件,那證明不發(fā)散,其實在數(shù)學(xué)中,用方差來計算的,這種不發(fā)散的特征,基本就沒有什么差異性了,例如某一項特征都是0,怎么有影響呢,這樣子的特征其實就沒什么用。

特征選擇的三種方法

進行特征選擇的時候,其實有一定的方法或者規(guī)律可言,總結(jié)起來有三個

1、過濾法:目前這是小編用的最普遍的方法,因為最簡單,與業(yè)務(wù)契合度最高,操作過程就是我可以設(shè)定某一個閾值,然后根據(jù)數(shù)據(jù)的發(fā)散情況或者與業(yè)務(wù)是否相關(guān)來打分,一般都是當(dāng)?shù)陀谶@個閾值的時候,就可以考慮過濾掉。

2、嵌入法:這個方法無法直接從字面來理解,但是其實也是很好的東西,小編把它叫做過濾法的進化版。如何理解這個進化版,原先我們采用過濾法的時候,很多時候是人肉直接擼一擼,但是這時候特征多呢,給你200個特征,然后我就可能瞎了或者手廢掉了,此時的做法是此案用機器學(xué)習(xí)的算法或者模型來訓(xùn)練,然后可以得到各個特征的權(quán)重值,做個排序,干掉那些排序地的,例如樹的特征選擇,這些算法,后面會逐一介紹。

3、包裝法:聽這個名字,是不是也是很迷糊,其實這個也比較好理解,不斷循環(huán)訓(xùn)練模型,進行目標(biāo)函數(shù)的計算,一般我們是采用預(yù)測的效果來評分,逐一選擇一定量的特征來做,不斷循環(huán),得到結(jié)果進行對比,這樣就可以看到哪些特征不好。不過這個小編比較少用,計算上比較費時費力,后面的具體算法也會介紹到。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4623

    瀏覽量

    93102
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8428

    瀏覽量

    132831
收藏 人收藏

    評論

    相關(guān)推薦

    FPGA頻率測量的三種方法

    1、FPGA頻率測量? 頻率測量在電子設(shè)計和測量領(lǐng)域中經(jīng)常用到,因此對頻率測量方法的研究在實際工程應(yīng)用中具有重要意義。 通常的頻率測量方法三種:直接測量法,間接測量法,等精度測量法。 2、直接
    的頭像 發(fā)表于 01-09 09:37 ?91次閱讀
    FPGA頻率測量的<b class='flag-5'>三種方法</b>

    傳統(tǒng)機器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章中,我們介紹了機器學(xué)習(xí)的關(guān)鍵概念術(shù)語。在本文中,我們會介紹傳統(tǒng)機器學(xué)習(xí)的基礎(chǔ)知識和多種算法特征,供各位老師
    的頭像 發(fā)表于 12-30 09:16 ?293次閱讀
    傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)方法</b>和應(yīng)用指導(dǎo)

    光纖測試方法有哪三種

    光纖測試是確保光纖通信系統(tǒng)性能和可靠性的重要環(huán)節(jié)。光纖測試方法多樣,主要包括插入損耗測試、回波損耗測試和光纖端面檢查。以下是對這三種測試方法的介紹: 1. 插入損耗測試 插入損耗測試是測量光纖鏈路中
    的頭像 發(fā)表于 09-24 09:31 ?1025次閱讀

    單片機的三種總線結(jié)構(gòu)

    、控制信號傳遞和地址選擇中發(fā)揮著至關(guān)重要的作用。下面將詳細(xì)闡述這三種總線結(jié)構(gòu)的特點及其在單片機系統(tǒng)中的應(yīng)用。
    的頭像 發(fā)表于 09-10 11:32 ?3487次閱讀

    MCUXpresso IDE下在線聯(lián)合調(diào)試雙核MCU工程的三種方法

    大家好,我是痞子衡,是正經(jīng)搞技術(shù)的痞子。今天痞子衡給大家分享的是MCUXpresso IDE下在線聯(lián)合調(diào)試i.MXRT1170雙核工程的三種方法。
    的頭像 發(fā)表于 08-08 15:18 ?635次閱讀
    MCUXpresso IDE下在線聯(lián)合調(diào)試雙核MCU工程的<b class='flag-5'>三種方法</b>

    數(shù)字示波器的測量方法有哪三種

    數(shù)字示波器是一廣泛應(yīng)用于電子測量領(lǐng)域的儀器,它能夠?qū)崟r顯示電壓波形,幫助工程師和技術(shù)人員對電子信號進行分析和測量。數(shù)字示波器的測量方法有很多種,不同的測量方法適用于不同的應(yīng)用場景。以下是三種
    的頭像 發(fā)表于 07-17 18:02 ?1806次閱讀

    機器學(xué)習(xí)中的數(shù)據(jù)預(yù)處理與特征工程

    機器學(xué)習(xí)的整個流程中,數(shù)據(jù)預(yù)處理與特征工程是兩個至關(guān)重要的步驟。它們直接決定了模型的輸入質(zhì)量,進而影響模型的訓(xùn)練效果和泛化能力。本文將從數(shù)據(jù)預(yù)處理和特征工程的基本概念出發(fā),詳細(xì)探討這
    的頭像 發(fā)表于 07-09 15:57 ?514次閱讀

    人臉檢測的五種方法各有什么特征和優(yōu)缺點

    人臉檢測是計算機視覺領(lǐng)域的一個重要研究方向,主要用于識別和定位圖像中的人臉。以下是五常見的人臉檢測方法及其特征和優(yōu)缺點的介紹: 基于膚色的方法
    的頭像 發(fā)表于 07-03 14:47 ?912次閱讀

    abb工業(yè)機器人手動操作有哪三種模式?

    插補模式和手動重定位模式。下面,我們將詳細(xì)介紹這三種模式的特點、操作方法以及應(yīng)用場景。 一、手動單軸移動模式 模式特點 手動單軸移動模式是ABB工業(yè)機器人最基本的手動操作模式。在這種模式下,操作者可以通過控制
    的頭像 發(fā)表于 06-16 16:44 ?4754次閱讀

    通過強化學(xué)習(xí)策略進行特征選擇

    來源:DeepHubIMBA特征選擇是構(gòu)建機器學(xué)習(xí)模型過程中的決定性步驟。為模型和我們想要完成的任務(wù)選擇好的
    的頭像 發(fā)表于 06-05 08:27 ?384次閱讀
    通過強化<b class='flag-5'>學(xué)習(xí)</b>策略進行<b class='flag-5'>特征</b><b class='flag-5'>選擇</b>

    信號調(diào)制的三種基本方法

    號調(diào)制的三種基本方法:調(diào)幅(AM)、調(diào)頻(FM)和調(diào)相(PM),并分析它們的優(yōu)缺點及應(yīng)用場景。 調(diào)幅(AM) 2.1 調(diào)幅原理 調(diào)幅(Amplitude Modulation,AM)是一將低頻信號的幅度變化映射到高頻載波信號的
    的頭像 發(fā)表于 06-03 09:38 ?4532次閱讀

    三種常見的光纖光纜鏈接方法

    三種常見的光纖光纜鏈接方法分別是: 永久性光纖連接(又叫熱熔):這種連接是用放電的方法將兩根光纖的連接點熔化并連接在一起。一般用在長途接續(xù)、永久或半永久固定連接。其主要特點是連接衰減在所有的連接
    的頭像 發(fā)表于 03-01 13:47 ?2808次閱讀

    菱M70 PLC增加注解的三種方法簡析

    菱M70 PLC增加注解的三種方法
    的頭像 發(fā)表于 02-26 09:59 ?1124次閱讀
    <b class='flag-5'>三</b>菱M70 PLC增加注解的<b class='flag-5'>三種方法</b>簡析

    放大電路有哪三種基本分析方法?舉例說明

    放大電路是電子電路的重要組成部分,它起到放大信號的作用。在設(shè)計和分析放大電路時,有三種基本的分析方法:傳輸特性分析、小信號分析和大信號分析。接下來,我將詳細(xì)介紹這三種分析方法,并舉例說
    的頭像 發(fā)表于 02-25 15:56 ?3368次閱讀

    傳統(tǒng)激光功率衰減的三種方法

    傳統(tǒng)激光功率衰減通常使用以下三種方法,分別為中性密度衰減片衰減法、偏振衰減法、鍍膜光學(xué)鏡片衰減法。
    的頭像 發(fā)表于 01-20 10:42 ?1811次閱讀
    傳統(tǒng)激光功率衰減的<b class='flag-5'>三種方法</b>