0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)處理數(shù)據(jù)為什么把連續(xù)性特征離散化

Dbwd_Imgtec ? 來(lái)源:未知 ? 作者:易水寒 ? 2018-11-17 09:31 ? 次閱讀

在學(xué)習(xí)機(jī)器學(xué)習(xí)中,看過(guò)挺多案例,看到很多人在處理數(shù)據(jù)的時(shí)候,經(jīng)常把連續(xù)性特征離散化。為此挺好奇,為什么要這么做,什么情況下才要做呢。

一、離散化原因

數(shù)據(jù)離散化是指將連續(xù)的數(shù)據(jù)進(jìn)行分段,使其變?yōu)橐欢味坞x散化的區(qū)間。分段的原則有基于等距離、等頻率或優(yōu)化的方法。數(shù)據(jù)離散化的原因主要有以下幾點(diǎn):

1、算法需要

比如決策樹(shù)、樸素貝葉斯等算法,都是基于離散型的數(shù)據(jù)展開(kāi)的。如果要使用該類(lèi)算法,必須將離散型的數(shù)據(jù)進(jìn)行。有效的離散化能減小算法的時(shí)間和空間開(kāi)銷(xiāo),提高系統(tǒng)對(duì)樣本的分類(lèi)聚類(lèi)能力和抗噪聲能力。

2、離散化的特征相對(duì)于連續(xù)型特征更易理解,更接近知識(shí)層面的表達(dá)

比如工資收入,月薪2000和月薪20000,從連續(xù)型特征來(lái)看高低薪的差異還要通過(guò)數(shù)值層面才能理解,但將其轉(zhuǎn)換為離散型數(shù)據(jù)(底薪、高薪),則可以更加直觀的表達(dá)出了我們心中所想的高薪和底薪。

3、可以有效的克服數(shù)據(jù)中隱藏的缺陷,使模型結(jié)果更加穩(wěn)定

二、離散化的優(yōu)勢(shì)

工業(yè)界,很少直接將連續(xù)值作為邏輯回歸模型的特征輸入,而是將連續(xù)特征離散化為一系列0、1特征交給邏輯回歸模型,這樣做的優(yōu)勢(shì)有以下幾點(diǎn):

1. 離散特征的增加和減少都很容易,易于模型的快速迭代;

2. 稀疏向量?jī)?nèi)積乘法運(yùn)算速度快,計(jì)算結(jié)果方便存儲(chǔ),容易擴(kuò)展;

3. 離散化后的特征對(duì)異常數(shù)據(jù)有很強(qiáng)的魯棒性:比如一個(gè)特征是年齡>30是1,否則0。如果特征沒(méi)有離散化,一個(gè)異常數(shù)據(jù)“年齡300歲”會(huì)給模型造成很大的干擾;

4. 邏輯回歸屬于廣義線性模型,表達(dá)能力受限;單變量離散化為N個(gè)后,每個(gè)變量有單獨(dú)的權(quán)重,相當(dāng)于為模型引入了非線性,能夠提升模型表達(dá)能力,加大擬合;

5. 離散化后可以進(jìn)行特征交叉,由M+N個(gè)變量變?yōu)镸*N個(gè)變量,進(jìn)一步引入非線性,提升表達(dá)能力;

6. 特征離散化后,模型會(huì)更穩(wěn)定,比如如果對(duì)用戶(hù)年齡離散化,20-30作為一個(gè)區(qū)間,不會(huì)因?yàn)橐粋€(gè)用戶(hù)年齡長(zhǎng)了一歲就變成一個(gè)完全不同的人。當(dāng)然處于區(qū)間相鄰處的樣本會(huì)剛好相反,所以怎么劃分區(qū)間是門(mén)學(xué)問(wèn);

7. 特征離散化以后,起到了簡(jiǎn)化了邏輯回歸模型的作用,降低了模型過(guò)擬合的風(fēng)險(xiǎn)。

三、離散化的方法

1、無(wú)監(jiān)督學(xué)習(xí)方法

等寬法

等寬法即是將屬性值分為具有相同寬度的區(qū)間,區(qū)間的個(gè)數(shù)k根據(jù)實(shí)際情況來(lái)決定。比如屬性值在[0,60]之間,最小值為0,最大值為60,我們要將其分為3等分,則區(qū)間被劃分為[0,20] 、[21,40] 、[41,60],每個(gè)屬性值對(duì)應(yīng)屬于它的那個(gè)區(qū)間

等頻法

等寬法即是將屬性值分為具有相同寬度的區(qū)間,區(qū)間的個(gè)數(shù)k根據(jù)實(shí)際情況來(lái)決定。比如有60個(gè)樣本,我們要將其分為k=3部分,則每部分的長(zhǎng)度為20個(gè)樣本。

基于聚類(lèi)的方法

基于聚類(lèi)的方法分為兩個(gè)步驟,即:

選定聚類(lèi)算法將其進(jìn)行聚類(lèi)

將在同一個(gè)簇內(nèi)的屬性值做為統(tǒng)一標(biāo)記。

注:基于聚類(lèi)的方法,簇的個(gè)數(shù)要根據(jù)聚類(lèi)算法的實(shí)際情況來(lái)決定,比如對(duì)于k-means算法,簇的個(gè)數(shù)可以自己決定,但對(duì)于DBSCAN,則是算法找尋簇的個(gè)數(shù)。

2、有監(jiān)督學(xué)習(xí)方法:

1R方法

基于信息熵的方法

基于卡方的方法

四、總結(jié)

模型是使用離散特征還是連續(xù)特征,其實(shí)是一個(gè)“海量離散特征+簡(jiǎn)單模型” 同 “少量連續(xù)特征+復(fù)雜模型”的權(quán)衡。既可以離散化用線性模型,也可以用連續(xù)特征加深度學(xué)習(xí)。就看是喜歡折騰特征還是折騰模型了。通常來(lái)說(shuō),前者容易,而且可以n個(gè)人一起并行做,有成功經(jīng)驗(yàn);后者目前看很贊,能走多遠(yuǎn)還須拭目以待。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3279

    瀏覽量

    48974
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8428

    瀏覽量

    132840

原文標(biāo)題:機(jī)器學(xué)習(xí)模型為什么要將特征離散化?

文章出處:【微信號(hào):Imgtec,微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    連續(xù)特征歸一的常用方法

    連續(xù)特征還有一種處理方式是,先分桶/分箱(如等頻/等距的分)[待寫(xiě)]進(jìn)行離散后再使用離散
    發(fā)表于 05-24 08:30

    請(qǐng)問(wèn)如何確保ISERDES輸出數(shù)據(jù)連續(xù)性?

    。但是,該設(shè)計(jì)并不能保證位的正確連續(xù)性,即使它確實(shí)保證了字的對(duì)齊。因此,例如,如果我從發(fā)送端發(fā)送0123456789ABCDEF,我將在接收端看到CDEF0123456789AB。每個(gè)單詞,例如0123
    發(fā)表于 06-01 17:18

    如何保持電源的連續(xù)性?

    需要備用電源? 保持電源連續(xù)性
    發(fā)表于 02-02 06:03

    連續(xù)屬性離散的Imp-Chi2算法

    連續(xù)屬性離散機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘領(lǐng)域中的一個(gè)重要問(wèn)題,離散
    發(fā)表于 04-17 08:39 ?11次下載

    連續(xù)特征離散方法綜述

    離散特征數(shù)據(jù)挖掘的過(guò)程中具有重要的作用,如何將實(shí)際數(shù)據(jù)集中的連續(xù)特征最好地
    發(fā)表于 01-03 17:02 ?25次下載

    光學(xué)連續(xù)性測(cè)試器

    光學(xué)連續(xù)性測(cè)試器
    發(fā)表于 09-23 14:45 ?747次閱讀
    光學(xué)<b class='flag-5'>連續(xù)性</b>測(cè)試器

    發(fā)聲式連續(xù)性測(cè)試儀

    發(fā)聲式連續(xù)性測(cè)試儀 當(dāng)兩個(gè)
    的頭像 發(fā)表于 09-24 14:36 ?3262次閱讀
    發(fā)聲式<b class='flag-5'>連續(xù)性</b>測(cè)試儀

    低阻抗電路的連續(xù)性測(cè)試儀

    低阻抗電路的連續(xù)性測(cè)試儀   或連續(xù)性
    發(fā)表于 09-24 14:55 ?954次閱讀
    低阻抗電路的<b class='flag-5'>連續(xù)性</b>測(cè)試儀

    解決機(jī)器人控制問(wèn)題 能很好的處理離散連續(xù)動(dòng)作空間

    母公司Alphabet的DeepMind的研究人員最近提出了一種技術(shù):連續(xù)-離散混合學(xué)習(xí),即可以同時(shí)優(yōu)化離散連續(xù)動(dòng)作,以其本來(lái)的形式
    發(fā)表于 01-10 09:48 ?1685次閱讀

    機(jī)器學(xué)習(xí)算法學(xué)習(xí)特征工程1

    特征工程是機(jī)器學(xué)習(xí)過(guò)程中的關(guān)鍵步驟,涉及將原始數(shù)據(jù)轉(zhuǎn)換為機(jī)器學(xué)習(xí)算法可以有效使用的格式。在本篇博
    的頭像 發(fā)表于 04-19 11:38 ?828次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>算法<b class='flag-5'>學(xué)習(xí)</b>之<b class='flag-5'>特征</b>工程1

    機(jī)器學(xué)習(xí)算法學(xué)習(xí)特征工程2

    特征工程是機(jī)器學(xué)習(xí)過(guò)程中的關(guān)鍵步驟,涉及將原始數(shù)據(jù)轉(zhuǎn)換為機(jī)器學(xué)習(xí)算法可以有效使用的格式。在本篇博
    的頭像 發(fā)表于 04-19 11:38 ?869次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>算法<b class='flag-5'>學(xué)習(xí)</b>之<b class='flag-5'>特征</b>工程2

    機(jī)器學(xué)習(xí)算法學(xué)習(xí)特征工程3

    特征工程是機(jī)器學(xué)習(xí)過(guò)程中的關(guān)鍵步驟,涉及將原始數(shù)據(jù)轉(zhuǎn)換為機(jī)器學(xué)習(xí)算法可以有效使用的格式。在本篇博
    的頭像 發(fā)表于 04-19 11:38 ?1043次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>算法<b class='flag-5'>學(xué)習(xí)</b>之<b class='flag-5'>特征</b>工程3

    連續(xù)性測(cè)試儀電路解析

    測(cè)試電路的連續(xù)性是調(diào)試硬件時(shí)必不可少的步驟。當(dāng)我們沒(méi)有配備適當(dāng)?shù)墓ぞ吆驮O(shè)備來(lái)處理它時(shí),硬件調(diào)試可能是一個(gè)真正的痛苦。該連續(xù)性測(cè)試儀電路將為調(diào)試問(wèn)題提供廉價(jià)有效的解決方案。上述電路能夠檢查兩點(diǎn)之間的導(dǎo)電路徑連接。
    的頭像 發(fā)表于 06-29 16:49 ?914次閱讀
    <b class='flag-5'>連續(xù)性</b>測(cè)試儀電路解析

    連續(xù)性測(cè)試儀電路圖分享

    連續(xù)性測(cè)試儀是一種電子設(shè)備,用于測(cè)試電路的連續(xù)性。它通過(guò)檢測(cè)電路中的電阻或電導(dǎo)來(lái)評(píng)估電路的連續(xù)性和完整。
    的頭像 發(fā)表于 02-12 15:24 ?833次閱讀
    <b class='flag-5'>連續(xù)性</b>測(cè)試儀電路圖分享

    機(jī)器學(xué)習(xí)中的數(shù)據(jù)預(yù)處理特征工程

    機(jī)器學(xué)習(xí)的整個(gè)流程中,數(shù)據(jù)預(yù)處理特征工程是兩個(gè)至關(guān)重要的步驟。它們直接決定了模型的輸入質(zhì)量,進(jìn)而影響模型的訓(xùn)練效果和泛
    的頭像 發(fā)表于 07-09 15:57 ?517次閱讀