0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

重點(diǎn)介紹數(shù)據(jù)科學(xué)領(lǐng)域需要知道的五大關(guān)鍵概念

如意 ? 來(lái)源:讀芯術(shù)微信公眾號(hào) ? 作者:讀芯術(shù)微信公眾號(hào) ? 2020-09-30 15:44 ? 次閱讀

本文將重點(diǎn)介紹一些數(shù)據(jù)科學(xué)領(lǐng)域的關(guān)鍵概念,掌握它們對(duì)于你今后的職業(yè)生涯大有益處。這些概念或許你已經(jīng)了解,或許你還未掌握。不論你現(xiàn)在是否清楚,筆者的目的是向你專(zhuān)業(yè)地解釋為何它們至關(guān)重要。

多重共線性、獨(dú)熱編碼、欠采樣和過(guò)采樣、誤差度量以及敘事能力,這是筆者在想到專(zhuān)業(yè)數(shù)據(jù)科學(xué)家日常工作時(shí)首先想到的關(guān)鍵概念。敘事能力或許算是技能和概念的結(jié)合,但筆者在此還是想強(qiáng)調(diào)它在數(shù)據(jù)科學(xué)家工作中的重要性。我們開(kāi)始吧!

多重共線性

多重共線性雖然看起來(lái)又長(zhǎng)又拗口,拆開(kāi)來(lái)看還是易于理解的?!岸嘀亍敝笖?shù)量多,“共線性”則意味著線性相關(guān)。多重共線性可以描述為在回歸模型中,兩個(gè)或多個(gè)解釋變量解釋相似信息或高度相關(guān)。這一概念之所以引起關(guān)注,有以下幾個(gè)原因。

對(duì)于某些建模技術(shù)來(lái)說(shuō),多重共線性可能導(dǎo)致過(guò)擬合,最終降低模型性能。冗余數(shù)據(jù)時(shí)有出現(xiàn),模型中的所有特征或?qū)傩圆⒎嵌际怯斜匾?。因此,可以采用某些方法?lái)找到應(yīng)該被刪除的特征,正是它們導(dǎo)致了多重共線性。

方差膨脹系數(shù)(VIF)

相關(guān)矩陣

數(shù)據(jù)科學(xué)家們經(jīng)常使用這兩種技術(shù),尤其是相關(guān)矩陣和相關(guān)圖——通常用某種熱圖進(jìn)行可視化,而VIF則不太為人所知。VIF值越高,該特征對(duì)回歸模型的用處就越小。

獨(dú)熱編碼

獨(dú)熱編碼是模型中的一種特征轉(zhuǎn)換形式,你可以通過(guò)編碼來(lái)數(shù)值化地體現(xiàn)類(lèi)別特征。盡管類(lèi)別特征本身有文本值,但是獨(dú)熱編碼會(huì)將這些信息轉(zhuǎn)置,以便每個(gè)值都成為特征,行中的觀察值記為0或1。例如,假設(shè)我們有分類(lèi)變量gender,獨(dú)熱編碼后的數(shù)字表示如下(之前表示為gender,之后表示為male/female):

重點(diǎn)介紹數(shù)據(jù)科學(xué)領(lǐng)域需要知道的五大關(guān)鍵概念

獨(dú)熱編碼處理前后對(duì)比

如果你不僅要使用數(shù)字化的特征,還需要使用文本/類(lèi)別特征創(chuàng)建數(shù)字表示,那么此轉(zhuǎn)換非常有用。

采樣

當(dāng)你擁有的數(shù)據(jù)不足時(shí),可以使用過(guò)采樣作為一種補(bǔ)償。假設(shè)在處理一個(gè)分類(lèi)問(wèn)題時(shí),有一個(gè)如下例所示的少數(shù)類(lèi):

如你所見(jiàn),class_1的類(lèi)只有少量數(shù)據(jù),這意味著你的數(shù)據(jù)集是不平衡的,也就是所謂的少數(shù)類(lèi)。

有幾種過(guò)采樣方法。其中一種叫做SMOTE,即合成少數(shù)類(lèi)過(guò)采樣技術(shù)(Synthetic Minority Over-samplingTechnique)。SMOTE的實(shí)現(xiàn)方式之一是采用K近鄰(K-neighbor)算法來(lái)找到最近的點(diǎn)以合成樣本。也有類(lèi)似的技術(shù)反其道而行之,進(jìn)行欠采樣。

當(dāng)類(lèi)或回歸數(shù)據(jù)中有離群值時(shí),如果你希望確保模型運(yùn)行在最能體現(xiàn)數(shù)據(jù)集的采樣結(jié)果之上,那么這些技術(shù)便能派上用場(chǎng)。

誤差度量

在數(shù)據(jù)科學(xué)中,有很多用于分類(lèi)模型和回歸模型的誤差度量。以下是一些可以專(zhuān)門(mén)用于回歸模型的方法:

重點(diǎn)介紹數(shù)據(jù)科學(xué)領(lǐng)域需要知道的五大關(guān)鍵概念

對(duì)回歸模型來(lái)說(shuō),上述誤差度量中最常用的兩種是MSE(均方誤差)和RMSE(均方根誤差):

MSE:平均絕對(duì)誤差回歸損失(引自sklearn)

RMSE:均方根誤差回歸損失(引自sklearn)

對(duì)于分類(lèi)模型來(lái)說(shuō),可以用精度和ROC曲線下的面積(AUC,Area Under the Curve)來(lái)評(píng)價(jià)模型的性能。

敘事能力

敘事概念的重要性怎么強(qiáng)調(diào)都不為過(guò)。它可以被定義成一種概念或技能,但定義本身并不重要。重要的是,如何在商業(yè)環(huán)境中展現(xiàn)出自己解決問(wèn)題的能力。許多數(shù)據(jù)科學(xué)家總是只關(guān)注模型的精度,但卻無(wú)法理解整個(gè)商業(yè)過(guò)程。該過(guò)程包括:

業(yè)務(wù)是什么?

問(wèn)題是什么?

為何需要數(shù)據(jù)科學(xué)?

數(shù)據(jù)科學(xué)在其中的目標(biāo)是什么?

何時(shí)能得到可用結(jié)果?

如何應(yīng)用我們的結(jié)果?

我們的結(jié)果有什么影響?

如何分享我們的結(jié)果和整個(gè)過(guò)程?

上述問(wèn)題與模型本身或提升精度無(wú)關(guān),重點(diǎn)是如何使用數(shù)據(jù)來(lái)解決公司的問(wèn)題。與利益相關(guān)者和非技術(shù)領(lǐng)域的同事相熟對(duì)此是大有助益的,在運(yùn)行基礎(chǔ)模型之前,你需要和產(chǎn)品經(jīng)理一道評(píng)估問(wèn)題,和數(shù)據(jù)工程師一起收集數(shù)據(jù)。在模型過(guò)程結(jié)束時(shí),你將向關(guān)鍵人員介紹結(jié)果,這些人最喜歡看可視化結(jié)果,因此掌握呈現(xiàn)和交流的技能也是有益的。

對(duì)于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師來(lái)說(shuō),有許多需要掌握的關(guān)鍵概念。本文介紹的5點(diǎn),你了解了嗎?
責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7035

    瀏覽量

    89045
  • 數(shù)字化
    +關(guān)注

    關(guān)注

    8

    文章

    8742

    瀏覽量

    61791
  • 數(shù)據(jù)科學(xué)

    關(guān)注

    0

    文章

    165

    瀏覽量

    10060
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    工業(yè)物聯(lián)網(wǎng)實(shí)施應(yīng)考慮的五大關(guān)鍵要素

    擁有成本,加快設(shè)備部署進(jìn)度,還能為各種應(yīng)用提供更穩(wěn)定的端對(duì)端功能。:工業(yè)物聯(lián)網(wǎng)(IIoT)實(shí)施的五大關(guān)鍵要素
    發(fā)表于 10-12 10:06

    智能穿戴產(chǎn)業(yè)的五大關(guān)鍵技術(shù)

    系統(tǒng)的設(shè)備,只要該系統(tǒng)是這個(gè)系統(tǒng)平臺(tái)協(xié)議中的成員,就能夠獲取相應(yīng)的數(shù)據(jù)與服務(wù)。以上五大關(guān)鍵技術(shù),不僅是智能穿戴產(chǎn)業(yè)發(fā)展的關(guān)鍵技術(shù),也是整個(gè)物聯(lián)網(wǎng)時(shí)代的關(guān)鍵技術(shù),不僅決定著智能穿戴產(chǎn)業(yè)的
    發(fā)表于 05-09 06:20

    蘋(píng)果未來(lái)五大超級(jí)產(chǎn)品概念

    蘋(píng)果未來(lái)五大超級(jí)產(chǎn)品概念
    發(fā)表于 02-02 10:04 ?1213次閱讀

    五大關(guān)鍵詞解讀2010年半導(dǎo)體照明產(chǎn)業(yè)發(fā)展熱點(diǎn)

    五大關(guān)鍵詞解讀2010年半導(dǎo)體照明產(chǎn)業(yè)發(fā)展熱點(diǎn)   ?? 在2010年3月全國(guó)兩會(huì)期間,LED照明成為代表們的熱議焦點(diǎn),中國(guó)發(fā)改委副主任解振華指出,2010年將加快節(jié)
    發(fā)表于 11-01 16:14 ?756次閱讀

    施耐德電機(jī)智能城市五大關(guān)鍵領(lǐng)域解決方案

    施耐德電機(jī)智能城市的五大關(guān)鍵領(lǐng)域方案,將助力將臺(tái)灣打造成具有智能能源管理,智能交通,智能公共服務(wù)管理,智能樓宇,水智能管理等。
    發(fā)表于 11-29 18:13 ?1300次閱讀

    決定人工智能發(fā)展的風(fēng)向標(biāo)五大關(guān)鍵之問(wèn)

    人工智能發(fā)展如何脫虛入實(shí)?人才與核心技術(shù)瓶頸如何取得突破?法律倫理責(zé)任如何界定?將會(huì)砸了誰(shuí)的飯碗?背后的算法歧視如何解決?梳理過(guò)去一年人工智能發(fā)展,理性看待目前的階段,這五大關(guān)鍵之問(wèn)可能將是人工智能發(fā)展的風(fēng)向標(biāo)。
    的頭像 發(fā)表于 01-11 09:19 ?3176次閱讀

    微服務(wù)五大關(guān)鍵好處揭秘

    在過(guò)去40 年里,軟件開(kāi)發(fā)的世界日新月異,微服務(wù)日趨流行。本文為我們揭示了微服務(wù)的五大關(guān)鍵好處,看它們是如何幫助我們提升軟件質(zhì)量并適應(yīng)新的業(yè)務(wù)需求。
    的頭像 發(fā)表于 02-09 08:39 ?1.1w次閱讀
    微服務(wù)<b class='flag-5'>五大關(guān)鍵</b>好處揭秘

    一文看懂LTE五大關(guān)鍵技術(shù)和日常維護(hù)

    本文首先介紹了LTE的概念及系統(tǒng)架構(gòu),其次介紹了LTE演進(jìn)目標(biāo)及五大關(guān)鍵技術(shù),最后介紹了華為DBS3900產(chǎn)品及DBS3900日常維護(hù)。
    的頭像 發(fā)表于 05-23 09:09 ?3.9w次閱讀
    一文看懂LTE<b class='flag-5'>五大關(guān)鍵</b>技術(shù)和日常維護(hù)

    細(xì)談智能穿戴的五大關(guān)鍵技術(shù)

    在物聯(lián)網(wǎng)時(shí)代,智能穿戴承載著人與“機(jī)”之間的“溝通”,并扮演著物聯(lián)網(wǎng)控制中心這樣一個(gè)角色。正如計(jì)算機(jī)與智能手機(jī)產(chǎn)業(yè)在技術(shù)升級(jí)過(guò)程中,產(chǎn)品不斷迭代更新一樣,智能穿戴產(chǎn)品也進(jìn)入了快速迭代的過(guò)程。在這個(gè)過(guò)程中,有五大關(guān)鍵技術(shù)將決定著智能穿戴產(chǎn)業(yè)發(fā)展的進(jìn)程和方向。
    發(fā)表于 07-11 16:57 ?1w次閱讀

    智能工廠的五大關(guān)鍵領(lǐng)域及特征

    智能工廠代表了高度互聯(lián)和智能化的數(shù)字時(shí)代,工廠的智能化通過(guò)互聯(lián)互通、數(shù)字化、大數(shù)據(jù)、智能裝備與智能供應(yīng)鏈五大關(guān)鍵領(lǐng)域得以體現(xiàn)。
    發(fā)表于 10-16 08:35 ?2677次閱讀

    智能工廠五大關(guān)鍵領(lǐng)域及其特征體現(xiàn)

    智能工廠代表了高度互聯(lián)和智能化的數(shù)字時(shí)代,工廠的智能化通過(guò)互聯(lián)互通、數(shù)字化、大數(shù)據(jù)、智能裝備與智能供應(yīng)鏈五大關(guān)鍵領(lǐng)域得以體現(xiàn)。
    的頭像 發(fā)表于 10-08 10:47 ?5223次閱讀

    ADI在線研討會(huì):精密數(shù)模轉(zhuǎn)換器的五大關(guān)鍵技術(shù)規(guī)格

    本研討會(huì)視頻介紹了精密數(shù)模轉(zhuǎn)換器(DAC)的五大關(guān)鍵技術(shù)規(guī)格:分辨率與精度、總非調(diào)整誤差、輸出噪聲、緩沖以及最終動(dòng)態(tài)性能。本研討會(huì)將帶您深入了解DAC,及其技術(shù)規(guī)格會(huì)如何對(duì)系統(tǒng)級(jí)性能產(chǎn)生影響。
    的頭像 發(fā)表于 06-20 06:19 ?3097次閱讀
    ADI在線研討會(huì):精密數(shù)模轉(zhuǎn)換器的<b class='flag-5'>五大關(guān)鍵</b>技術(shù)規(guī)格

    制造業(yè)創(chuàng)新中心政策體系形成,主要聚集在五大關(guān)鍵領(lǐng)域

    領(lǐng)域分布看,已建成的創(chuàng)新中心聚焦于基礎(chǔ)材料、核心器件、關(guān)鍵工藝、重大裝備以及軟件等5個(gè)領(lǐng)域。國(guó)家制造業(yè)創(chuàng)新中心面向我國(guó)制造業(yè)創(chuàng)新發(fā)展的重大需求,充分匯聚行業(yè)創(chuàng)新力量,對(duì)五大關(guān)鍵
    的頭像 發(fā)表于 06-16 15:49 ?3924次閱讀
    制造業(yè)創(chuàng)新中心政策體系形成,主要聚集在<b class='flag-5'>五大關(guān)鍵</b><b class='flag-5'>領(lǐng)域</b>

    挑選高低溫試驗(yàn)箱的五大關(guān)鍵因素:讓你輕松選擇最適合的設(shè)備

    挑選高低溫試驗(yàn)箱的五大關(guān)鍵因素:讓你輕松選擇最適合的設(shè)備
    的頭像 發(fā)表于 09-04 14:39 ?993次閱讀
    挑選高低溫試驗(yàn)箱的<b class='flag-5'>五大關(guān)鍵</b>因素:讓你輕松選擇最適合的設(shè)備

    成就更好5G的五大關(guān)鍵.zip

    成就更好5G的五大關(guān)鍵
    發(fā)表于 01-13 09:07 ?2次下載