0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)的特征工程是將原始的輸入數(shù)據(jù)轉(zhuǎn)換成特征

Dbwd_Imgtec ? 來(lái)源:lp ? 2019-04-19 16:42 ? 次閱讀

一、簡(jiǎn)介

機(jī)器學(xué)習(xí)的特征工程是將原始的輸入數(shù)據(jù)轉(zhuǎn)換成特征,以便于更好的表示潛在的問(wèn)題,并有助于提高預(yù)測(cè)模型準(zhǔn)確性的過(guò)程。

找出合適的特征是很困難且耗時(shí)的工作,它需要專家知識(shí),而應(yīng)用機(jī)器學(xué)習(xí)基本也可以理解成特征工程。但是,特征工程對(duì)機(jī)器學(xué)習(xí)模型的應(yīng)用有很大影響,有句俗話叫做“數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)模型的性能上限”。

二、錯(cuò)誤數(shù)據(jù)和缺失值

特征工程之前需要對(duì)缺失數(shù)據(jù)和錯(cuò)誤數(shù)據(jù)進(jìn)行處理。錯(cuò)誤數(shù)據(jù)可以矯正,有的錯(cuò)誤是格式錯(cuò)誤,如日期的格式可能是“2018-09-19”和“20180920”這種混合的,要統(tǒng)一。

缺失數(shù)據(jù)的處理:

去掉所在行/列

取均值

中位數(shù)

眾數(shù)

使用算法預(yù)測(cè)

三、特征的種類

機(jī)器學(xué)習(xí)的輸入特征包括幾種:

數(shù)值特征:包括整形、浮點(diǎn)型等,可以有順序意義,或者無(wú)序數(shù)據(jù)。

分類特征:如ID、性別等。

時(shí)間特征:時(shí)間序列如月份、年份、季度、日期、小時(shí)等。

空間特征:經(jīng)緯度等,可以轉(zhuǎn)換成郵編,城市等。

文本特征:文檔,自然語(yǔ)言,語(yǔ)句等,這里暫時(shí)不介紹處理。

四、特征工程技巧

4.1、分箱(Binning)

數(shù)據(jù)分箱(Binning)是一種數(shù)據(jù)預(yù)處理技術(shù),用于減少輕微觀察錯(cuò)誤的影響。落入給定小間隔bin的原始數(shù)據(jù)值由代表該間隔的值(通常是中心值)代替。這是一種量化形式。 統(tǒng)計(jì)數(shù)據(jù)分箱是一種將多個(gè)或多或少連續(xù)值分組為較少數(shù)量的“分箱”的方法。例如,如果您有關(guān)于一組人的數(shù)據(jù),您可能希望將他們的年齡安排到較小的年齡間隔。對(duì)于一些時(shí)間數(shù)據(jù)可以進(jìn)行分箱操作,例如一天24小時(shí)可以分成早晨[5,8),上午[8,11),中午[11,14),下午[14,19),夜晚[10,22),深夜[19,24)和[24,5)。因?yàn)楸热缰形?1點(diǎn)和12點(diǎn)其實(shí)沒有很大區(qū)別,可以使用分箱技巧處理之后可以減少這些“誤差”。

4.2、獨(dú)熱編碼(One-Hot Encoding)

獨(dú)熱編碼(One-Hot Encoding)是一種數(shù)據(jù)預(yù)處理技巧,它可以把類別數(shù)據(jù)變成長(zhǎng)度相同的特征。例如,人的性別分成男女,每一個(gè)人的記錄只有男或者女,那么我們可以創(chuàng)建一個(gè)維度為2的特征,如果是男,則用(1,0)表示,如果是女,則用(0,1)。即創(chuàng)建一個(gè)維度為類別總數(shù)的向量,把某個(gè)記錄的值對(duì)應(yīng)的維度記為1,其他記為0即可。對(duì)于類別不多的分類變量,可以采用獨(dú)熱編碼。

4.3、特征哈希(Hashing Trick)

對(duì)于類別數(shù)量很多的分類變量可以采用特征哈希(Hashing Trick),特征哈希的目標(biāo)就是將一個(gè)數(shù)據(jù)點(diǎn)轉(zhuǎn)換成一個(gè)向量。利用的是哈希函數(shù)將原始數(shù)據(jù)轉(zhuǎn)換成指定范圍內(nèi)的散列值,相比較獨(dú)熱模型具有很多優(yōu)點(diǎn),如支持在線學(xué)習(xí),維度減小很多燈。具體參考數(shù)據(jù)特征處理之特征哈希(Feature Hashing)。

4.4、嵌套法(Embedding)

嵌套法(Embedding)是使用神經(jīng)網(wǎng)絡(luò)的方法來(lái)將原始輸入數(shù)據(jù)轉(zhuǎn)換成新特征,嵌入實(shí)際上是根據(jù)您想要實(shí)現(xiàn)的任務(wù)將您的特征投影到更高維度的空間,因此在嵌入空間中,或多或少相似的特征在它們之間具有小的距離。 這允許分類器更好地以更全面的方式學(xué)習(xí)表示。例如,word embedding就是將單個(gè)單詞映射成維度是幾百維甚至幾千維的向量,在進(jìn)行文檔分類等,原本具有語(yǔ)義相似性的單詞映射之后的向量之間的距離也比較小,進(jìn)而可以幫助我們進(jìn)一步進(jìn)行機(jī)器學(xué)習(xí)的應(yīng)用,這一點(diǎn)比獨(dú)熱模型好很多。

4.5、取對(duì)數(shù)(Log Transformation)

取對(duì)數(shù)就是指對(duì)數(shù)值做log轉(zhuǎn)換,可以將范圍很大的數(shù)值轉(zhuǎn)換成范圍較小的區(qū)間中。Log轉(zhuǎn)換對(duì)分布的形狀有很大的影響,它通常用于減少右偏度,使得最終的分布形狀更加對(duì)稱一些。它不能應(yīng)用于零值或負(fù)值。對(duì)數(shù)刻度上的一個(gè)單位表示乘以所用對(duì)數(shù)的乘數(shù)。在某些機(jī)器學(xué)習(xí)的模型中,對(duì)特征做對(duì)數(shù)轉(zhuǎn)換可以將某些連乘變成求和,更加簡(jiǎn)單,這不屬于這部分范圍了。

如前所述,log轉(zhuǎn)換可以將范圍很大的值縮小在一定范圍內(nèi),這對(duì)某些異常值的處理也很有效,例如用戶查看的網(wǎng)頁(yè)數(shù)量是一個(gè)長(zhǎng)尾分布,一個(gè)用戶在短時(shí)間內(nèi)查看了500個(gè)和1000個(gè)頁(yè)面都可能屬于異常值,其行為可能差別也沒那么大,那么使用log轉(zhuǎn)換也能體現(xiàn)這種結(jié)果。

4.6、特征縮放(Scaling)

特征縮放是一種用于標(biāo)準(zhǔn)化獨(dú)立變量或數(shù)據(jù)特征范圍的方法。 在數(shù)據(jù)處理中,它也稱為數(shù)據(jù)標(biāo)準(zhǔn)化,并且通常在數(shù)據(jù)預(yù)處理步驟期間執(zhí)行。特征縮放可以將很大范圍的數(shù)據(jù)限定在指定范圍內(nèi)。由于原始數(shù)據(jù)的值范圍變化很大,在一些機(jī)器學(xué)習(xí)算法中,如果沒有標(biāo)準(zhǔn)化,目標(biāo)函數(shù)將無(wú)法正常工作。例如,大多數(shù)分類器按歐幾里德距離計(jì)算兩點(diǎn)之間的距離。 如果其中一個(gè)要素具有寬范圍的值,則距離將受此特定要素的控制。因此,應(yīng)對(duì)所有特征的范圍進(jìn)行歸一化,以使每個(gè)特征大致與最終距離成比例。

應(yīng)用特征縮放的另一個(gè)原因是梯度下降與特征縮放比沒有它時(shí)收斂得快得多。

特征縮放主要包括兩種:

最大最小縮放(Min-max Scaling)

標(biāo)準(zhǔn)化縮放(Standard(Z) Scaling)

4.7、標(biāo)準(zhǔn)化(Normalization)

在最簡(jiǎn)單的情況下,標(biāo)準(zhǔn)化意味著將在不同尺度上測(cè)量的值調(diào)整到概念上的共同尺度。在更復(fù)雜的情況下,標(biāo)準(zhǔn)化可以指更復(fù)雜的調(diào)整,其中意圖是使調(diào)整值的整個(gè)概率分布對(duì)齊。在一般情況下,可能有意將分布與正態(tài)分布對(duì)齊。

在統(tǒng)計(jì)學(xué)的另一種用法中,標(biāo)準(zhǔn)化上將不同單位的數(shù)值轉(zhuǎn)換到可以互相比較的范圍內(nèi),避免總量大小的影響。標(biāo)準(zhǔn)化后的數(shù)據(jù)對(duì)于某些優(yōu)化算法如梯度下降等也很重要。

4.8、特征交互(Feature Interaction)

在回歸模型中加入交互項(xiàng)是一種非常常見的處理方式。它可以極大的拓展回歸模型對(duì)變量之間的依賴的解釋。具體參見回歸模型中的交互項(xiàng)簡(jiǎn)介(Interactions in Regression)。

五、時(shí)間特征處理

幾乎所有的時(shí)間特征都要處理,時(shí)間特征有序列性,其順序有意義。這里簡(jiǎn)單列舉幾種處理方式。

5.1、分箱法

這是最常用的方法,如前面所述。有時(shí)候11點(diǎn)與12點(diǎn)之間差別并沒有意義,可以采用上述分箱法處理。

5.2、趨勢(shì)線(Treadlines)

多使用趨勢(shì)量而不是總量來(lái)編碼,例如使用上個(gè)星期花銷,上個(gè)月花銷,去年的花銷,而不是總花銷。兩個(gè)總花銷相同的客戶可能在消費(fèi)行為上有很大差別。

5.3、事件貼近(Closeness to major events)

假日之前幾天,每個(gè)月第一個(gè)周六等。這種重要時(shí)間節(jié)點(diǎn)附近的值可能更有意義。

5.4、時(shí)間差(Time Difference)

上次用戶交互的時(shí)間到這次用戶交互時(shí)間間隔,這種時(shí)間差別意義也很大。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:機(jī)器學(xué)習(xí):特征工程相關(guān)技術(shù)簡(jiǎn)介

文章出處:【微信號(hào):Imgtec,微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    機(jī)器學(xué)習(xí)算法的特征工程與意義詳解

    1、特征工程與意義 特征就是從數(shù)據(jù)中抽取出來(lái)的對(duì)結(jié)果預(yù)測(cè)有用的信息。 特征工程是使用專業(yè)知識(shí)背景
    發(fā)表于 10-08 15:24 ?2916次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>算法的<b class='flag-5'>特征</b><b class='flag-5'>工程</b>與意義詳解

    如何陀螺儀的原始數(shù)據(jù)轉(zhuǎn)換成角速度呢

    我正在使用 lsm6dsl 傳感器。我正在獲取有關(guān)寄存器的數(shù)據(jù)。如何原始數(shù)據(jù)轉(zhuǎn)換成角度
    發(fā)表于 12-15 08:19

    如何ADC采集的原始數(shù)據(jù)的序列轉(zhuǎn)換成VisualAnalog中Pattern Loader可以接受的I Only文件,文件格式是怎樣的?

    如何ADC采集的原始數(shù)據(jù)(從-8192~+8192)的序列轉(zhuǎn)換成VisualAnalog中Pattern Loader可以接受的I Only文件,文件格式是怎樣的?主要是用來(lái)評(píng)估采集卡中ADC的性能。
    發(fā)表于 12-15 06:22

    如何pads2007轉(zhuǎn)換成cadence文件

    pads2007轉(zhuǎn)cadence:如何pads2007轉(zhuǎn)換成cadence文件
    發(fā)表于 09-14 09:55 ?0次下載
    如何<b class='flag-5'>將</b>pads2007<b class='flag-5'>轉(zhuǎn)換成</b>cadence文件

    利用物聯(lián)網(wǎng)工廠數(shù)據(jù)轉(zhuǎn)換成價(jià)值

    英特爾打造核心技術(shù)利用物聯(lián)網(wǎng)工廠數(shù)據(jù)轉(zhuǎn)換成價(jià)值
    發(fā)表于 12-28 18:00 ?0次下載

    為什么特征工程如此重要?把數(shù)據(jù)轉(zhuǎn)換成圖像

    如上圖所示,目標(biāo)變量明顯泄漏到了f190486列中。事實(shí)上,我沒有用任何機(jī)器學(xué)習(xí)就得到了0.57分,這在排行榜上是個(gè)高分。在競(jìng)賽截止日期前二十天左右,主持競(jìng)賽的桑坦德銀行終于發(fā)現(xiàn)了這個(gè)問(wèn)題,但他們最終還是決定繼續(xù)比賽,讓參賽者假設(shè)這是一個(gè)
    的頭像 發(fā)表于 09-05 09:00 ?5527次閱讀

    想掌握機(jī)器學(xué)習(xí)技術(shù)?從了解特征工程開始

    的相關(guān)知識(shí)來(lái)創(chuàng)建能夠使機(jī)器學(xué)習(xí)算法達(dá)到最佳性能的特征的過(guò)程。簡(jiǎn)而言之,特征工程就是一個(gè)把原始數(shù)據(jù)
    的頭像 發(fā)表于 12-05 09:36 ?2141次閱讀

    機(jī)器學(xué)習(xí)特征工程的五個(gè)方面優(yōu)點(diǎn)

    特征工程是用數(shù)學(xué)轉(zhuǎn)換的方法原始輸入數(shù)據(jù)
    的頭像 發(fā)表于 03-15 16:57 ?3970次閱讀

    特征選擇和機(jī)器學(xué)習(xí)的軟件缺陷跟蹤系統(tǒng)對(duì)比

    針對(duì)Bugzilla缺陷跟蹤系統(tǒng)的ε clipse項(xiàng)目軟件缺陷報(bào)告數(shù)據(jù)集,使用特征選擇和機(jī)器學(xué)習(xí)算法對(duì)向量化的原始數(shù)據(jù)進(jìn)行
    發(fā)表于 06-10 10:50 ?12次下載

    機(jī)器學(xué)習(xí)算法學(xué)習(xí)特征工程1

    特征工程機(jī)器學(xué)習(xí)過(guò)程中的關(guān)鍵步驟,涉及原始數(shù)據(jù)轉(zhuǎn)換
    的頭像 發(fā)表于 04-19 11:38 ?798次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>算法<b class='flag-5'>學(xué)習(xí)</b>之<b class='flag-5'>特征</b><b class='flag-5'>工程</b>1

    機(jī)器學(xué)習(xí)算法學(xué)習(xí)特征工程2

    特征工程機(jī)器學(xué)習(xí)過(guò)程中的關(guān)鍵步驟,涉及原始數(shù)據(jù)轉(zhuǎn)換
    的頭像 發(fā)表于 04-19 11:38 ?847次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>算法<b class='flag-5'>學(xué)習(xí)</b>之<b class='flag-5'>特征</b><b class='flag-5'>工程</b>2

    機(jī)器學(xué)習(xí)算法學(xué)習(xí)特征工程3

    特征工程機(jī)器學(xué)習(xí)過(guò)程中的關(guān)鍵步驟,涉及原始數(shù)據(jù)轉(zhuǎn)換
    的頭像 發(fā)表于 04-19 11:38 ?1024次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>算法<b class='flag-5'>學(xué)習(xí)</b>之<b class='flag-5'>特征</b><b class='flag-5'>工程</b>3

    數(shù)據(jù)預(yù)處理和特征工程的常用功能

    機(jī)器學(xué)習(xí)最基礎(chǔ)的5個(gè)流程,分別是數(shù)據(jù)獲取,數(shù)據(jù)預(yù)處理,特征工程,建模、測(cè)試和預(yù)測(cè),上線與部署。
    的頭像 發(fā)表于 01-25 11:26 ?761次閱讀

    機(jī)器學(xué)習(xí)中的數(shù)據(jù)預(yù)處理與特征工程

    機(jī)器學(xué)習(xí)的整個(gè)流程中,數(shù)據(jù)預(yù)處理與特征工程是兩個(gè)至關(guān)重要的步驟。它們直接決定了模型的輸入質(zhì)量,
    的頭像 發(fā)表于 07-09 15:57 ?422次閱讀

    數(shù)據(jù)準(zhǔn)備指南:10種基礎(chǔ)特征工程方法的實(shí)戰(zhàn)教程

    數(shù)據(jù)分析和機(jī)器學(xué)習(xí)領(lǐng)域,從原始數(shù)據(jù)中提取有價(jià)值的信息是一個(gè)關(guān)鍵步驟。這個(gè)過(guò)程不僅有助于輔助決策,還能預(yù)測(cè)未來(lái)趨勢(shì)。為了實(shí)現(xiàn)這一目標(biāo),特征
    的頭像 發(fā)表于 11-01 08:09 ?274次閱讀
    <b class='flag-5'>數(shù)據(jù)</b>準(zhǔn)備指南:10種基礎(chǔ)<b class='flag-5'>特征</b><b class='flag-5'>工程</b>方法的實(shí)戰(zhàn)教程