0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)的6個(gè)關(guān)鍵概念

汽車玩家 ? 來源:今日頭條 ? 作者:聞數(shù)起舞 ? 2020-04-14 17:12 ? 次閱讀

機(jī)器學(xué)習(xí)是一種將傳統(tǒng)數(shù)學(xué)與現(xiàn)代強(qiáng)大的計(jì)算處理相結(jié)合的技術(shù),以學(xué)習(xí)數(shù)據(jù)集中固有的模式。 在機(jī)器學(xué)習(xí)中,目標(biāo)是產(chǎn)生一種可以使用這些模式執(zhí)行某些指定任務(wù)的算法

在監(jiān)督式機(jī)器學(xué)習(xí)的情況下,目標(biāo)可能是開發(fā)一個(gè)模型,該模型可以識(shí)別一組輸入所屬的類別或類別,或預(yù)測連續(xù)值,例如房屋價(jià)格。

在本文中,我將介紹機(jī)器學(xué)習(xí)中的一些關(guān)鍵概念。 如果您是機(jī)器學(xué)習(xí)的新手,這將使您對(duì)本領(lǐng)域中使用的一些術(shù)語和技術(shù)有一個(gè)很好的了解。

1.特征

在機(jī)器學(xué)習(xí)中,我們上面討論的輸入稱為特征。 要素是分配給數(shù)據(jù)點(diǎn)的一組屬性。

以下示例數(shù)據(jù)集是著名的數(shù)據(jù)集,通常用于機(jī)器學(xué)習(xí)實(shí)踐問題(稱為"波士頓住房價(jià)格")。 它由一組與房屋相關(guān)的功能(在下圖中以紅色突出顯示)組成,例如年齡,平均房間數(shù)和物業(yè)稅值以及相應(yīng)的房價(jià)。

為了使機(jī)器學(xué)習(xí)模型成功完成其任務(wù),至少其中一些功能與房屋價(jià)格之間需要存在統(tǒng)計(jì)關(guān)系。

機(jī)器學(xué)習(xí)的6個(gè)關(guān)鍵概念

> Boston housing prices dataset — features are highlighted red

2.特征選擇與工程

優(yōu)化機(jī)器學(xué)習(xí)模型的重要一步是優(yōu)化。 我們開發(fā)的模型需要以最佳狀態(tài)執(zhí)行,而要確保做到這一點(diǎn)的一種方法是使用最佳功能來訓(xùn)練模型。

包括每個(gè)特征并不總是有用的。 有些特征可能與我們嘗試預(yù)測的變量沒有有意義的統(tǒng)計(jì)關(guān)系,而另一些特征可能彼此緊密相關(guān)。 這兩種情況都將噪聲引入訓(xùn)練階段,這可能會(huì)降低模型性能。 特征選擇是選擇最佳特征以包含在訓(xùn)練階段中的過程。

同樣,原始形式的特征可能無法提供足夠的有意義的數(shù)據(jù)來訓(xùn)練性能模型。 另外,某些特征根本不能以其原始形式使用,一個(gè)很好的例子就是基于日期/時(shí)間的功能。 機(jī)器學(xué)習(xí)模型不能使用日期或時(shí)間戳作為特征,我們需要首先從日期中導(dǎo)出有意義的特征,才能包含此信息。 我們可以使用整數(shù)形式的日期部分(例如月,日或星期數(shù)),或計(jì)算兩個(gè)日期之間的差,以提供算法可以理解的模式。 這就是所謂的特征工程。

3.標(biāo)簽

有監(jiān)督的機(jī)器學(xué)習(xí)需要一些被稱為標(biāo)記數(shù)據(jù)的東西。 這意味著每組要素都具有相應(yīng)標(biāo)簽的數(shù)據(jù)。 這些標(biāo)簽可以是類別或類型(例如貓或狗),也可以是連續(xù)值,例如在波士頓房屋價(jià)格數(shù)據(jù)集中以標(biāo)簽為價(jià)格的情況。

在開發(fā)機(jī)器學(xué)習(xí)模型時(shí),功能通常稱為X,標(biāo)簽稱為y。

機(jī)器學(xué)習(xí)的6個(gè)關(guān)鍵概念

> Boston housing prices dataset — labels are highlighted red

4.訓(xùn)練

監(jiān)督式機(jī)器學(xué)習(xí)需要標(biāo)記數(shù)據(jù),因?yàn)樗惴ㄊ褂眠@些示例特征值及其對(duì)應(yīng)的標(biāo)記來"學(xué)習(xí)"模式,如果成功,則將使模型能夠準(zhǔn)確地預(yù)測新的未標(biāo)記數(shù)據(jù)上的標(biāo)記。

在機(jī)器學(xué)習(xí)過程中,學(xué)習(xí)的這一階段稱為訓(xùn)練階段。 在此階段結(jié)束時(shí),您將擁有一個(gè)可用于預(yù)測新的未標(biāo)記數(shù)據(jù)的標(biāo)簽或值的模型。 訓(xùn)練階段通常稱為擬合模型。

5.調(diào)參

在本文前面介紹功能選擇時(shí),我曾討論過一個(gè)優(yōu)化過程。 此過程的另一部分稱為調(diào)參,涉及優(yōu)化算法參數(shù)以找到適合您特定數(shù)據(jù)集的最佳組合。

所有機(jī)器學(xué)習(xí)模型都包含具有多種選項(xiàng)的參數(shù)。 例如,隨機(jī)森林模型具有許多可調(diào)參數(shù)。 一個(gè)示例是n_estimators,它確定森林中樹木的數(shù)量。 通常,樹的數(shù)量越多,結(jié)果越好,但是在特定點(diǎn)(并且這取決于數(shù)據(jù)集),隨著您添加更多的樹,改進(jìn)會(huì)降低。 為您的數(shù)據(jù)集找到最佳樹數(shù)是一種調(diào)整隨機(jī)森林算法參數(shù)的方法。

每種算法都有許多可調(diào)參數(shù),并且每個(gè)參數(shù)都有大量潛在的選項(xiàng)。 幸運(yùn)的是,有自動(dòng)方法可以找到這些參數(shù)的最佳組合,這就是所謂的超參數(shù)優(yōu)化。

6.驗(yàn)證

建立模型后,我們需要確定其執(zhí)行給定任務(wù)的能力。 在我們的示例數(shù)據(jù)中,我們將要了解模型可以多么準(zhǔn)確地預(yù)測房屋價(jià)格。 在機(jī)器學(xué)習(xí)中,建立最佳性能指標(biāo)很重要,這將根據(jù)我們要解決的問題而有所不同。

通常,在開始機(jī)器學(xué)習(xí)項(xiàng)目時(shí),我們將首先將要使用的數(shù)據(jù)集分為兩部分。 我們一個(gè)用來訓(xùn)練模型,另一個(gè)用于測試階段。

機(jī)器學(xué)習(xí)中的測試通常稱為驗(yàn)證。 我們使用模型對(duì)保留的測試數(shù)據(jù)集進(jìn)行預(yù)測,并測量所選的性能指標(biāo),以確定模型能夠很好地執(zhí)行給定任務(wù)。

本文概述了討論機(jī)器學(xué)習(xí)時(shí)最常用的一些術(shù)語和概念。 如果您剛剛開始學(xué)習(xí),它應(yīng)該可以幫助您了解機(jī)器學(xué)習(xí)教程中使用的一些術(shù)語。 如果您想深入學(xué)習(xí)使用python創(chuàng)建您的第一個(gè)模型,可以在這里閱讀我的教程"如何創(chuàng)建您的第一個(gè)機(jī)器學(xué)習(xí)模型"。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章中,我們介紹了機(jī)器學(xué)習(xí)關(guān)鍵概念術(shù)語。在本文中,我們會(huì)介紹傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)和多
    的頭像 發(fā)表于 12-30 09:16 ?313次閱讀
    傳統(tǒng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    自然語言處理與機(jī)器學(xué)習(xí)的關(guān)系 自然語言處理的基本概念及步驟

    Learning,簡稱ML)是人工智能的一個(gè)核心領(lǐng)域,它使計(jì)算機(jī)能夠從數(shù)據(jù)中學(xué)習(xí)并做出預(yù)測或決策。自然語言處理與機(jī)器學(xué)習(xí)之間有著密切的關(guān)系,因?yàn)?b class='flag-5'>機(jī)
    的頭像 發(fā)表于 12-05 15:21 ?599次閱讀

    NPU與機(jī)器學(xué)習(xí)算法的關(guān)系

    緊密。 NPU的起源與特點(diǎn) NPU的概念最早由谷歌在其TPU(Tensor Processing Unit)項(xiàng)目中提出,旨在為TensorFlow框架提供專用的硬件加速。NPU的設(shè)計(jì)目標(biāo)是提高機(jī)器學(xué)習(xí)算法的運(yùn)行效率,特別是在處理
    的頭像 發(fā)表于 11-15 09:19 ?547次閱讀

    eda在機(jī)器學(xué)習(xí)中的應(yīng)用

    值和噪聲數(shù)據(jù)。通過繪制箱線圖、直方圖和散點(diǎn)圖,我們可以直觀地看到數(shù)據(jù)中的異常值和分布情況。例如,如果一個(gè)數(shù)據(jù)集中的某個(gè)特征值遠(yuǎn)高于其他值,這可能是一個(gè)異常值,需要進(jìn)一步調(diào)查。 2. 特征選擇 特征選擇 是機(jī)器
    的頭像 發(fā)表于 11-13 10:42 ?358次閱讀

    具身智能與機(jī)器學(xué)習(xí)的關(guān)系

    具身智能(Embodied Intelligence)和機(jī)器學(xué)習(xí)(Machine Learning)是人工智能領(lǐng)域的兩個(gè)重要概念,它們之間存在著密切的關(guān)系。 1. 具身智能的定義 具身
    的頭像 發(fā)表于 10-27 10:33 ?446次閱讀

    【《時(shí)間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 時(shí)間序列的信息提取

    本人有些機(jī)器學(xué)習(xí)的基礎(chǔ),理解起來一點(diǎn)也不輕松,加油。 作者首先說明了時(shí)間序列的信息提取是時(shí)間序列分析的一個(gè)重要環(huán)節(jié),目標(biāo)是從給定的時(shí)間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析和預(yù)測任務(wù),可以
    發(fā)表于 08-14 18:00

    預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

    預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)機(jī)器學(xué)習(xí)領(lǐng)域中的兩個(gè)重要概念,它們在提高模型性能、減少訓(xùn)練時(shí)間和降低
    的頭像 發(fā)表于 07-11 10:12 ?1158次閱讀

    如何理解機(jī)器學(xué)習(xí)中的訓(xùn)練集、驗(yàn)證集和測試集

    理解機(jī)器學(xué)習(xí)中的訓(xùn)練集、驗(yàn)證集和測試集,是掌握機(jī)器學(xué)習(xí)核心概念和流程的重要一步。這三者不僅構(gòu)成了模型學(xué)習(xí)
    的頭像 發(fā)表于 07-10 15:45 ?4535次閱讀

    機(jī)器學(xué)習(xí)中的數(shù)據(jù)預(yù)處理與特征工程

    機(jī)器學(xué)習(xí)的整個(gè)流程中,數(shù)據(jù)預(yù)處理與特征工程是兩個(gè)至關(guān)重要的步驟。它們直接決定了模型的輸入質(zhì)量,進(jìn)而影響模型的訓(xùn)練效果和泛化能力。本文將從數(shù)據(jù)預(yù)處理和特征工程的基本概念出發(fā),詳細(xì)探討這
    的頭像 發(fā)表于 07-09 15:57 ?532次閱讀

    遷移學(xué)習(xí)的基本概念和實(shí)現(xiàn)方法

    遷移學(xué)習(xí)(Transfer Learning)是機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念,其核心思想是利用在一個(gè)
    的頭像 發(fā)表于 07-04 17:30 ?1867次閱讀

    人工神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)機(jī)器學(xué)習(xí)模型的區(qū)別

    在人工智能領(lǐng)域,機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)是兩個(gè)核心概念,它們各自擁有獨(dú)特的特性和應(yīng)用場景。雖然它們都旨在使計(jì)算機(jī)系統(tǒng)能夠自動(dòng)從數(shù)據(jù)中學(xué)習(xí)和提升,但
    的頭像 發(fā)表于 07-04 14:08 ?1487次閱讀

    人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是什么

    在科技日新月異的今天,人工智能(Artificial Intelligence, AI)、機(jī)器學(xué)習(xí)(Machine Learning, ML)和深度學(xué)習(xí)(Deep Learning, DL)已成為
    的頭像 發(fā)表于 07-03 18:22 ?1374次閱讀

    機(jī)器學(xué)習(xí)在數(shù)據(jù)分析中的應(yīng)用

    隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)量的爆炸性增長對(duì)數(shù)據(jù)分析提出了更高的要求。機(jī)器學(xué)習(xí)作為一種強(qiáng)大的工具,通過訓(xùn)練模型從數(shù)據(jù)中學(xué)習(xí)規(guī)律,為企業(yè)和組織提供了更高效、更準(zhǔn)確的數(shù)據(jù)分析能力。本文將深入探討機(jī)器
    的頭像 發(fā)表于 07-02 11:22 ?727次閱讀

    機(jī)器學(xué)習(xí)入門:基本概念介紹

    機(jī)器學(xué)習(xí)(GraphMachineLearning,簡稱GraphML)是機(jī)器學(xué)習(xí)的一個(gè)分支,專注于利用圖形結(jié)構(gòu)的數(shù)據(jù)。在圖形結(jié)構(gòu)中,數(shù)據(jù)
    的頭像 發(fā)表于 05-16 08:27 ?530次閱讀
    圖<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>入門:基本<b class='flag-5'>概念</b>介紹

    機(jī)器學(xué)習(xí)怎么進(jìn)入人工智能

    ,人工智能已成為一個(gè)熱門領(lǐng)域,涉及到多個(gè)行業(yè)和領(lǐng)域,例如語音識(shí)別、機(jī)器翻譯、圖像識(shí)別等。 在編程中進(jìn)行人工智能的關(guān)鍵是使用機(jī)器學(xué)習(xí)算法,這是
    的頭像 發(fā)表于 04-04 08:41 ?361次閱讀