0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)科學(xué)家Jeremy Howard發(fā)布了fast.ai最新的課程

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-09-29 09:11 ? 次閱讀

今天,數(shù)據(jù)科學(xué)家Jeremy Howard發(fā)布了fast.ai最新的(也是最全面的)課程:Introduction to Machine Learning for Coders。這門課程在舊金山大學(xué)中錄制,是數(shù)據(jù)科學(xué)研究生課程的一部分,涵蓋了目前機器學(xué)習(xí)中最重要的使用基礎(chǔ)。其中共有12節(jié)課,每節(jié)課大約2小時。課程要求你有至少一年的編程經(jīng)驗,以及高中數(shù)學(xué)基礎(chǔ)。以下是論智對課程內(nèi)容的大致編譯:

現(xiàn)在網(wǎng)上有很多優(yōu)秀的機器學(xué)習(xí)課程了,最出名的Andrew Ng的Coursera課程。但是由于課程推出的時間較早,有些過時,因為其中用到的是Matlab。而我們這次的新課程使用的是現(xiàn)在流行的工具和庫,例如Python、pandas、scikit-learn和PyTorch。與很多領(lǐng)域中的教育資料不同,我們的方法是“編程為先”而不是“數(shù)學(xué)為先”。這很適合每天編寫代碼的人,但可能不會過多地練習(xí)數(shù)學(xué)知識(我們會在必要的時候穿插講解數(shù)學(xué))。更重要的是,這項課程非?!皞€性化”,我們并不會講到各種類型的模型,只是關(guān)注在實踐中真正有用的東西。

在課程中,我們會講到兩種主要類型的模型:基于決策樹的模型(尤其是經(jīng)過bagging的決策數(shù)森林),以及基于梯度下降的模型(邏輯回歸和它的變體)。決策樹模型搭建的結(jié)構(gòu)如下圖所示(實際工作中你可能會用到比這更大的樹):

Terence Parr教授和Prince Grover關(guān)于決策樹可視化技術(shù)的研究,利用了他最新的animl可視化庫

決策樹方法非常靈活易用,用bagging和boosting結(jié)合后,可以在很多實用任務(wù)上運用。但是,當(dāng)它們用到訓(xùn)練之外的數(shù)據(jù)上時,可能有些困難,而且在圖像、音頻、自然語言等類型的數(shù)據(jù)上會表現(xiàn)得不太精確。這些問題通常都能用梯度下降的方法解決,這些會在我們課程的下半部分講到,然后簡單地講些深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的知識作為結(jié)尾。(如果你曾經(jīng)上過我們的Practical Deep Learning for Coders的課程,可能會覺得有些地方概念有重合,但是我們教授的方法是不同的)

你將學(xué)會如何從零開始創(chuàng)建完整的決策樹森林,并編寫自己的深度學(xué)習(xí)模型,從零開始訓(xùn)練。在這一過程中,你會學(xué)到很多有關(guān)數(shù)據(jù)處理、模型測試和產(chǎn)品開發(fā)的技巧(包括有關(guān)數(shù)據(jù)產(chǎn)品的道德問題)。

下面是對每節(jié)課程的簡要介紹。

Lesson 1—Introduction to Random Forests

第一課將向同學(xué)們展示如何創(chuàng)建一個隨機森林,隨機森林也許是應(yīng)用最廣泛的機器學(xué)習(xí)模型了,其中會以Kaggle競賽中的Bull Book for Bulldozers項目為例,用隨機森林創(chuàng)造出解決方案,結(jié)果可以達到Kaggle排行榜的前25%。你將學(xué)到如何用Jupyter Notebook創(chuàng)建并分析模型,如何下載數(shù)據(jù),以及其他可能在實踐中用到的機器學(xué)習(xí)基礎(chǔ)技巧。

Lesson 2—Random Forest Deep Dive

這節(jié)課我們將學(xué)習(xí)尺度(metrics)、損失函數(shù)和過度擬合(這可能是最重要的機器學(xué)習(xí)概念)。我們會討論如何用驗證集和測試集幫助我們衡量過度擬合。

之后,我們講學(xué)習(xí)隨機森林是如何運行的。首先,觀察組成森林的每個決策樹,然后學(xué)習(xí)“bagging”。之后,我們會學(xué)習(xí)一些能讓隨機森林更快更精確的有用的技術(shù)。

Lesson 3—Performance,Validation and Model Interpretation

這節(jié)課我們會講到如何讀取更大的數(shù)據(jù)集,這個數(shù)據(jù)集可能都無法在你機器上的RAM中讀取。之后,我們還會學(xué)習(xí)如何從該數(shù)據(jù)集中創(chuàng)建一個隨機森林。之后,還會講到軟件工程中的“profiling”的概念,學(xué)習(xí)如何加速代碼,尤其是在處理大型數(shù)據(jù)集時。

接著,我們會進一步研究驗證集,講解如何創(chuàng)建好的驗證集,之后會從新的數(shù)據(jù)集中按此標(biāo)準(zhǔn)選擇好的驗證集。

在這節(jié)課的后半部分,我們會講到“模型的可解釋性”——這是用模型理解數(shù)據(jù)的重要技巧。這里研究可解釋性主要是看“特征重要性曲線”,這是該話題下重要的技術(shù)。

Lesson 4—Feature Importance,Tree Interpreter

這節(jié)課,我們會深入講解特征重要性,其中會講到如何才能讓重要性曲線含有更豐富信息的多種方法,如何用它們?nèi)バ拚愕奶卣骺臻g,以及用樹狀圖理解特征關(guān)系。

在本節(jié)課的后半部分,我們會學(xué)到兩種重要的解釋技術(shù):部分依賴圖和樹形解釋圖。

Lesson 5—Extrapolation and RF from Scratch

這節(jié)課會學(xué)習(xí)“樹解釋器(tree interpreter)”,包括用“瀑布圖”分析輸出。下一步,我們會解釋外推法(extrapolation)的重要概念,這是隨機森林的一個弱點,它無法預(yù)測輸入數(shù)據(jù)范圍之外的值。我們研究了如何能確定這一問題的方法,以及如何應(yīng)對。

在這節(jié)課的后半部分,我們會開始編寫自己的隨機森林。

Lesson 6—Data Products

在課程的前半部分,我們會學(xué)習(xí)如何用機器學(xué)習(xí)模型創(chuàng)建數(shù)據(jù)產(chǎn)品(data products),基于“The Drivetrain Method”。

接下來,我們會更深入地探究外推問題,順便會學(xué)習(xí)幾個numpy技巧。

Lesson 7—Introduction to Random Forest

這時我們就要結(jié)束對隨機森林的介紹了,同時我們還會簡單介紹“cython”庫,用它對Python代碼稍加改造,就能得到和C代碼一樣的速度。

之后,我們會進入到下一階段——基于梯度下降的方法,例如神經(jīng)網(wǎng)絡(luò)和邏輯回歸。

Lesson 8—Gradient Descent and Logistic Regression

繼續(xù)梯度下降的課程,首先我們會用PyTorch幫助我們從零開始應(yīng)用邏輯回歸,我們會建立一個針對經(jīng)典手寫數(shù)字的MNIST數(shù)據(jù)集的模型。

Lesson 9—Regularization,Learning Rates and NLP

這節(jié)課繼續(xù)建立邏輯回歸模型,并且我們在其中增加了重要的特征:正則化。這里會學(xué)習(xí)L1和L2正則化,以及如何運用它們。同時,我們還會講到學(xué)習(xí)率的問題,如何為你的問題選擇學(xué)習(xí)率。

在本節(jié)課的后半部分,我們會討論自然語言的處理。我們會對流行的IMDb文本數(shù)據(jù)集建立詞袋表示,用稀疏矩陣保證良好的性能和內(nèi)存使用。從中我們建立了多個模型,包括樸素貝葉斯和邏輯回歸,同時還會向其中添加ngram特征提高性能。

Lesson 10—More NLP,and Columnar Data

這節(jié)課程會繼續(xù)創(chuàng)建NLP模型,其中結(jié)合了樸素貝葉斯和邏輯回歸,得出混合的“NB-SVM”模型,它是文本分類的最強基準(zhǔn)模型。為了完成這項任務(wù),我們在PyTorch中創(chuàng)建了一個新的類別:nn.Module。

在這節(jié)課的后半部分,我們開始用深度學(xué)習(xí)研究表格和關(guān)系數(shù)據(jù),借助Kaggle競賽中的Rossmann數(shù)據(jù)集。并且開始在這個數(shù)據(jù)集上研究特征工程。我們會學(xué)習(xí)連續(xù)變量和分分類變量,以及那種特征工程可以完成這些變量。

Lesson 11—Embeddings

首先我們會講解樸素貝葉斯背后的數(shù)學(xué)原理,然后深入研究嵌入,二者都是用于分類變量和表格數(shù)據(jù),也可以用于NLP中的文字。

Lesson 12—Complete Rossmann,Ethical Issues

在課程的前半部分,我們會把所學(xué)到的所有內(nèi)容進行結(jié)合,創(chuàng)造一個針對Rossmann數(shù)據(jù)集的全面模型,包括分類特征和連續(xù)特征,以及各種類別的特征工程。

下半部分,我們會提到在機器學(xué)習(xí)模型的運用過程中可能出現(xiàn)的一些道德問題,以及為什么機器學(xué)習(xí)從業(yè)者應(yīng)該有所警覺,如何解決他們。很多學(xué)生表示,這是這次課程最重要的部分!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8422

    瀏覽量

    132720
  • 決策樹
    +關(guān)注

    關(guān)注

    3

    文章

    96

    瀏覽量

    13559

原文標(biāo)題:新課上線:fast.ai推出針對程序員的機器學(xué)習(xí)課程

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    2018全球Top 1000 計算機科學(xué)家,29位中國科學(xué)家上榜

    Guide2Research網(wǎng)站日前發(fā)布2018年全球計算機科學(xué)和電子領(lǐng)域H-index排名前1000的科學(xué)家
    的頭像 發(fā)表于 07-05 08:51 ?1.3w次閱讀
    2018全球Top 1000 計算機<b class='flag-5'>科學(xué)家</b>,29位中國<b class='flag-5'>科學(xué)家</b>上榜

    AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    了傳統(tǒng)學(xué)科界限,使得科學(xué)家們能夠從更加全面和深入的角度理解生命的奧秘。同時,AI技術(shù)的引入也催生了一種全新的科學(xué)研究范式,即數(shù)據(jù)驅(qū)動的研究范式,這種范式強調(diào)從大量
    發(fā)表于 10-14 09:21

    TI科學(xué)家談浮點DSP未來發(fā)展

    TI科學(xué)家談浮點DSP未來發(fā)展 自十多年前浮點數(shù)字信號處理器(DSP)誕生以來,便為實時信號處理提供算術(shù)上更為先進的備選方案。不過,定點器件至今仍是業(yè)界的主流--當(dāng)然低成本是主要原因。定點DSP每
    發(fā)表于 11-03 15:18

    AI人才炙手可熱 數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)工程師出現(xiàn)大缺口

    Culbertson說數(shù)據(jù)科學(xué)家是最熱門的AI職缺,AI需要輸入大量的高品質(zhì)數(shù)據(jù),才能發(fā)揮效用,數(shù)據(jù)
    發(fā)表于 03-03 11:13 ?1042次閱讀

    通往數(shù)據(jù)科學(xué)家的崎嶇道路

    如果你曾經(jīng)查看過數(shù)據(jù)科學(xué)家的崗位要求,你就知道它的職責(zé)范圍有多廣。有的數(shù)據(jù)科學(xué)家致力于自然語言處理、計算機視覺、深度學(xué)習(xí),有的則從事A/B測試、產(chǎn)品分析。確定哪些工作適合自己,哪些不適
    的頭像 發(fā)表于 07-26 09:17 ?2584次閱讀

    fast.ai發(fā)布的一個簡便、好用的PyTorch庫

    Christine McLeavey Payne是從上一期Fast.ai深度學(xué)習(xí)課程中脫穎而出的一名學(xué)生。她的人生經(jīng)歷非常豐富:從舊金山交響樂團的古典鋼琴師,到金融領(lǐng)域的HPC專家,再到斯坦福大學(xué)
    的頭像 發(fā)表于 10-10 09:20 ?4707次閱讀

    哪些才是對數(shù)據(jù)科學(xué)家最迫切的技能呢?

    AngelList提供的是列出數(shù)據(jù)科學(xué)家崗位的公司數(shù)而不是崗位數(shù)。我把AngelList從所有分析里面排除掉了,因為其搜索算法似乎按照OR型的邏輯搜索進行,沒有辦法改成AND。如果你尋找的是“數(shù)據(jù)
    的頭像 發(fā)表于 11-19 18:14 ?3069次閱讀

    fast.ai更新新版本的針對開發(fā)者的深度學(xué)習(xí)實踐課程

    框架:fast.ai使用Pytorch作用教學(xué)工具。但是這種東西屬于一通百通,基本上你一旦掌握套路,接下來用TensorFlow/Keras、CNTX、MXNet或者其他深度學(xué)習(xí)庫都不成大問題。
    的頭像 發(fā)表于 01-28 08:59 ?2394次閱讀
    <b class='flag-5'>fast.ai</b>更新<b class='flag-5'>了</b>新版本的針對開發(fā)者的深度學(xué)習(xí)實踐<b class='flag-5'>課程</b>

    什么是數(shù)據(jù)科學(xué)家?需要認證嗎?

    得以清晰化?!盕leming指出,IBM目前雇傭大約1.5萬名被定義為數(shù)據(jù)科學(xué)家的技術(shù)人員,預(yù)計數(shù)據(jù)科學(xué)家人數(shù)的增長速度超過其雇員總數(shù)的增
    的頭像 發(fā)表于 02-14 09:41 ?6618次閱讀

    數(shù)據(jù)科學(xué)家與機器學(xué)習(xí)工程師怎么區(qū)分

    十年來,我們一直在談?wù)?b class='flag-5'>數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家。雖然在怎么才叫“數(shù)據(jù)科學(xué)家”的問題上始終存在著爭議,
    的頭像 發(fā)表于 05-18 11:24 ?3230次閱讀

    采訪資深數(shù)據(jù)科學(xué)家:成為數(shù)據(jù)科學(xué)家應(yīng)具有的品質(zhì)

    作為一門逐漸成熟的新興領(lǐng)域,與數(shù)據(jù)科學(xué)相關(guān)的很多領(lǐng)域開始變得備受青睞,比如數(shù)據(jù)工程,數(shù)據(jù)分析以及機器學(xué)習(xí)和深度學(xué)習(xí)。數(shù)據(jù)
    的頭像 發(fā)表于 06-30 11:28 ?2324次閱讀

    什么是數(shù)據(jù)科學(xué)家的最佳編程語言?

    每個數(shù)據(jù)科學(xué)學(xué)習(xí)者都最常問的問題:“ 什么是數(shù)據(jù)科學(xué)家的最佳編程語言?”。
    的頭像 發(fā)表于 07-05 11:32 ?2517次閱讀

    AI武器是怎么殺死伊朗核科學(xué)家?

    通過衛(wèi)星對機槍進行遙控,加之AI的人臉識別鎖定目標(biāo),便可以殺人于精確、隱秘且無形。沒錯,這就是11月27日發(fā)生在伊朗阿布沙德鎮(zhèn)上,真實的一幕。據(jù)外媒BBC報道,被殺害的是一名伊朗核科學(xué)家。而伊朗革命衛(wèi)隊副司令最新曝出的消息,這名科學(xué)家
    的頭像 發(fā)表于 12-18 12:07 ?2068次閱讀

    中國 “天眼”FAST 向全世界科學(xué)家開放

    據(jù)央視軍事,2020 年 12 月初,美國的大型射電望遠鏡坍塌后,位于中國貴州省平塘縣的射電望遠鏡成為了全球唯一的 “天眼”。同時,我國宣布 “天眼”將從 2021 年起向全世界科學(xué)家開放
    的頭像 發(fā)表于 01-04 16:17 ?2981次閱讀

    中國聯(lián)通AI科學(xué)家廉士國入選全球前2%頂尖科學(xué)家榜單

    “ ?近日,美國斯坦福大學(xué)發(fā)布本年度全球前2%頂尖科學(xué)家榜單,中國聯(lián)通下轄聯(lián)通數(shù)字科技有限公司首席AI科學(xué)家廉士國博士入選全球前2%頂尖科學(xué)家
    的頭像 發(fā)表于 11-07 16:18 ?2700次閱讀