0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何正確建立自己的機(jī)器學(xué)習(xí)項(xiàng)目集

電子工程師 ? 來源:lq ? 2018-12-31 11:58 ? 次閱讀

面試機(jī)器學(xué)習(xí)方面的工作時(shí),在簡(jiǎn)歷的個(gè)人項(xiàng)目那塊,你會(huì)寫什么?建模?做機(jī)器學(xué)習(xí)項(xiàng)目?項(xiàng)目數(shù)據(jù)從哪兒來?在 SharpestMinds 創(chuàng)始人 Edouard Harris 介紹的兩個(gè)成功例子中,人家是從基礎(chǔ)的收集數(shù)據(jù)開始一步步做項(xiàng)目的:目標(biāo)明確,做到極致。

我是一名物理學(xué)家,在 YC startup 工作。我們的任務(wù)是幫應(yīng)屆生找到自己的第一份機(jī)器學(xué)習(xí)工作。

要找到第一份機(jī)器學(xué)習(xí)工作,你要做的一件事就是建立自己的機(jī)器學(xué)習(xí)項(xiàng)目集(portfolio)?,F(xiàn)在,我來告訴你答案。

你可能會(huì)奇怪為什么這很重要,那是因?yàn)?a target="_blank">招聘經(jīng)理通常會(huì)通過你的履歷來了解你,如果你沒有履歷,個(gè)人項(xiàng)目就是最接近的替代品。

因?yàn)槁殬I(yè)原因,我見過數(shù)百份個(gè)人項(xiàng)目的案例,有做得極好的,也有做得極差的。我將向你展示兩個(gè)極好的案例。

全力以赴型

接下來要說的是一件真實(shí)的故事,只不過隱私起見我改了主人公的名字。

公司 X 使用 AI 提醒雜貨店何時(shí)該訂購新的庫存。我們這邊有個(gè)學(xué)生——Ron,很想去 X 公司工作,所以他建立了個(gè)人項(xiàng)目,該項(xiàng)目完全是針對(duì)去該公司面試用的。

我們通常不建議這樣對(duì)著一家公司全力以赴做準(zhǔn)備。這有點(diǎn)冒險(xiǎn)。不過,像 Ron 這樣真的非常想去這家公司就另當(dāng)別論了。

紅色邊框標(biāo)出了缺失項(xiàng)。

Ron 剛開始把手機(jī)貼到購物車上。然后,他推著購物車在過道來回走動(dòng),同時(shí)用相機(jī)記錄。他在不同的雜貨店做了 10 到 12 次。

回到家后,Ron 開始建立一個(gè)機(jī)器學(xué)習(xí)模型。他的模型發(fā)現(xiàn)了雜貨店貨架上的空缺點(diǎn):貨架上缺少玉米片(或其他東西)的位置。

Ron 在 GitHub 上實(shí)時(shí)建立了他的模型,完全公開。每天,他都會(huì)改進(jìn)他的 repo(提高準(zhǔn)確率,并在他的 repo 的 README 中記錄項(xiàng)目變化。)

當(dāng) X 公司意識(shí)到 Ron 正在這樣做時(shí),X 公司很感興趣,而且不止是感興趣,事實(shí)上,X 公司有點(diǎn)緊張。他們?yōu)槭裁磿?huì)緊張?因?yàn)?Ron 在不知不覺中,在幾天內(nèi)復(fù)制了他們專有技術(shù)堆棧的一部分。

當(dāng)然,Ron 所做的遠(yuǎn)遠(yuǎn)不夠完美:X 公司已經(jīng)投入了比 Ron 多幾個(gè)數(shù)量級(jí)的資源來解決這個(gè)問題。但由于太相似,他們很快就叫 Ron 將他的 repo 私有化。

X 公司的技術(shù)在同行業(yè)中名列前茅。盡管如此,在 4 天內(nèi),Ron 的項(xiàng)目得到了 X 公司首席執(zhí)行官的直接個(gè)人關(guān)注。

飛行員項(xiàng)目

以下是另一個(gè)真實(shí)故事:

Alex 是一名歷史專業(yè)大學(xué)生,主修俄語(真的),同時(shí)他對(duì)機(jī)器學(xué)習(xí)感興趣。更為不同尋常的是,盡管他從未編寫過 Python 代碼,但他還是決定學(xué)習(xí)它。

Alex 選擇通過構(gòu)建實(shí)用項(xiàng)目來學(xué)習(xí)。他決定建立一個(gè)分類器,以檢測(cè)戰(zhàn)斗機(jī)飛行員是否在飛機(jī)上失去意識(shí)。Alex 希望通過觀察飛行員的視頻來發(fā)現(xiàn)這一點(diǎn)。他知道一個(gè)人很容易通過觀察,在一名飛行員失去知覺時(shí)告訴他,所以 Alex 認(rèn)為機(jī)器也應(yīng)該可以做到。

這是 Alex 在幾個(gè)月中所做的事情:

Alex 的 G-force 誘導(dǎo)失去意識(shí)探測(cè)器的演示。

Alex 在 YouTube 上下載了從駕駛艙中拍攝的飛行員駕駛飛機(jī)的所有視頻片段(大約數(shù)十個(gè))。

接下來他開始標(biāo)記數(shù)據(jù)。Alex 構(gòu)建了一個(gè) UI,讓他可以滾動(dòng)瀏覽數(shù)千個(gè)視頻幀,按一個(gè)按鈕表示「有意識(shí)」,另一個(gè)按鈕表示「無意識(shí)」,并自動(dòng)將該幀保存在正確標(biāo)記的文件夾中。這個(gè)標(biāo)記過程非常非常無聊,花了他很多天時(shí)間。

Alex 為圖像構(gòu)建了一個(gè)數(shù)據(jù)管道,可以將飛行員從駕駛艙背景中剪裁出來,使他的分類器更容易專注于飛行員。最后,他建立了他的意識(shí)喪失分類器。

在他做所有這些事情的同時(shí),Alex 也在社交活動(dòng)中向招聘經(jīng)理展示他的項(xiàng)目快照。每當(dāng)他拿出他的項(xiàng)目并在手機(jī)上展示時(shí),他們會(huì)問他是如何做到的,他如何建造管道,以及如何收集數(shù)據(jù)。但他們從來沒有詢問他的模型準(zhǔn)確率(低于 50%)。

當(dāng)然,Alex 也計(jì)劃提高其準(zhǔn)確率,但在動(dòng)手之前就被錄用了。結(jié)果證明,公司更看重他項(xiàng)目的視覺效果以及他在數(shù)據(jù)收集過程中表現(xiàn)出的瘋狂與智慧,而不是他的模型的準(zhǔn)確率。

他們之間的共同點(diǎn)

Ron 和 Alex 為什么如此成功?因?yàn)樗麄冏鰧?duì)了以下四件事:

他們沒有在建模上浪費(fèi)太多精力。我知道這聽起來很奇怪,但對(duì)于今天的很多用例來說,建模是一個(gè)已經(jīng)解決的問題。在實(shí)際工作中,除非你做的是最前沿的研究,否則你的時(shí)間 80%~90% 都會(huì)花在清洗數(shù)據(jù)上。你的個(gè)人項(xiàng)目又怎能例外?

他們自己收集數(shù)據(jù)。正因?yàn)槿绱?,他們得到的最終數(shù)據(jù)比 Kaggle 或 UCI 數(shù)據(jù)庫中的數(shù)據(jù)更混亂。但也正是這些混亂的數(shù)據(jù)提高了他們處理混亂數(shù)據(jù)的能力。比起從學(xué)術(shù)服務(wù)器上下載數(shù)據(jù),這種做法讓他們能夠更好地理解自己的數(shù)據(jù)。

他們將做出的東西可視化。所謂面試,并不是說由一位無所不知的裁判對(duì)你的能力做出客觀的評(píng)估,而是將你自己推銷給另一個(gè)人。人是視覺動(dòng)物。如果你掏出手機(jī)向面試官展示你的作品,那么你要確保自己做的東西看起來有趣,這點(diǎn)非常值得。

他們的所作所為看起來確實(shí)有點(diǎn)瘋狂。正常人不會(huì)用膠帶把自己的手機(jī)綁在購物車上。正常人也不會(huì)花那么長時(shí)間從 YouTube 上裁剪飛行員視頻。什么人才會(huì)做這種事?那些不顧一切完成目標(biāo)的人才會(huì)這么干。公司最想雇傭的就是這種人。

Ron 和 Alex 的所作所為可能看起來太夸張,但實(shí)際上,這和你在真正的工作中要做的事差不多。這就是要點(diǎn):當(dāng)你沒有做某事的工作經(jīng)驗(yàn)時(shí),招聘經(jīng)理會(huì)看你做過的和某事相類似的經(jīng)歷。

幸運(yùn)的是,這種程度的項(xiàng)目你只要做一兩次就好——Ron 和 Alex 就在所有的面試中重復(fù)使用之前準(zhǔn)備的項(xiàng)目。

因此,如果用一句話來概括偉大 ML 項(xiàng)目的秘密的話,那就是:用一個(gè)有趣的數(shù)據(jù)集來構(gòu)建一個(gè)項(xiàng)目,這個(gè)數(shù)據(jù)集需要很大的努力來收集,并且盡可能地在視覺上有影響力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 分類器
    +關(guān)注

    關(guān)注

    0

    文章

    152

    瀏覽量

    13204
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8428

    瀏覽量

    132851

原文標(biāo)題:舉兩個(gè)栗子:如何正確建立個(gè)人的機(jī)器學(xué)習(xí)項(xiàng)目集

文章出處:【微信號(hào):DBDevs,微信公眾號(hào):數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    深度學(xué)習(xí)中開發(fā)和測(cè)試的定義

    多少由你來決定。但請(qǐng)不要武斷地認(rèn)為測(cè)試分布和訓(xùn)練分布是一致的。盡可能地選擇你最終期望算法能夠正確處理的樣本作為測(cè)試,而不是隨便選擇一個(gè)你恰好擁有的訓(xùn)練
    發(fā)表于 11-30 16:58

    建立開發(fā)和測(cè)試(總結(jié))

    指標(biāo)進(jìn)行優(yōu)化。? 當(dāng)需要考慮多項(xiàng)目標(biāo)時(shí),不妨將它們整合到一個(gè)表達(dá)式里(比如對(duì)多個(gè)誤差指標(biāo)取平均),或者設(shè)定滿意度指標(biāo)和優(yōu)化指標(biāo)。? 機(jī)器學(xué)習(xí)是一個(gè)高度迭代的過程:在出現(xiàn)最終令人滿意的方案之前,你可能要
    發(fā)表于 12-14 10:56

    機(jī)器學(xué)習(xí)入門篇:一個(gè)完整的機(jī)器學(xué)習(xí)項(xiàng)目

    機(jī)器學(xué)習(xí)項(xiàng)目入門篇:一個(gè)完整的機(jī)器學(xué)習(xí)項(xiàng)目
    發(fā)表于 05-11 14:47

    Deeplearningai結(jié)構(gòu)化機(jī)器學(xué)習(xí)項(xiàng)目

    Deeplearningai 結(jié)構(gòu)化機(jī)器學(xué)習(xí)項(xiàng)目 Week2 6-10
    發(fā)表于 05-18 15:12

    什么是機(jī)器學(xué)習(xí)? 機(jī)器學(xué)習(xí)基礎(chǔ)入門

    工程師在數(shù)據(jù)收集過程中使用標(biāo)簽對(duì)數(shù)據(jù)進(jìn)行分類數(shù)據(jù)收集和標(biāo)記是一個(gè)耗時(shí)的過程,但對(duì)于正確處理數(shù)據(jù)至關(guān)重要。雖然機(jī)器學(xué)習(xí)領(lǐng)域有一些創(chuàng)新,利用預(yù)先訓(xùn)練的模型來抵消一些工作和新興的工具來簡(jiǎn)
    發(fā)表于 06-21 11:06

    11個(gè)機(jī)器學(xué)習(xí)開源項(xiàng)目

    隨著機(jī)器學(xué)習(xí)越來越受到開發(fā)者關(guān)注,出現(xiàn)了很多機(jī)器學(xué)習(xí)的開源項(xiàng)目,在本文列舉的11個(gè)機(jī)器
    發(fā)表于 02-14 14:25 ?2829次閱讀

    2018年度最熱門的機(jī)器學(xué)習(xí)開源項(xiàng)目

    在過去的一年中,我們比較了8,800多個(gè)開源機(jī)器學(xué)習(xí)項(xiàng)目,從中挑選出前30名,這個(gè)極具競(jìng)爭(zhēng)力的排行榜,精選了2018年1月到12月期間發(fā)布的最佳開源機(jī)器
    的頭像 發(fā)表于 12-19 10:01 ?2539次閱讀

    機(jī)器學(xué)習(xí)應(yīng)用及數(shù)據(jù)

    本文介紹了包括圖像分類、交易預(yù)測(cè)、情感分類、推薦系統(tǒng)、股票預(yù)測(cè)等在內(nèi)的若干個(gè)機(jī)器學(xué)習(xí)應(yīng)用及數(shù)據(jù)
    的頭像 發(fā)表于 04-21 11:01 ?4142次閱讀

    機(jī)器學(xué)習(xí)的知識(shí)產(chǎn)權(quán)問題

    要構(gòu)建用于維護(hù)的機(jī)器學(xué)習(xí)(ML)模型,必須收集并標(biāo)記正確的訓(xùn)練,選擇正確的架構(gòu)和訓(xùn)練參數(shù)以實(shí)現(xiàn)算法精度和速度的優(yōu)化平衡,并投入計(jì)算時(shí)間來訓(xùn)
    發(fā)表于 04-08 11:19 ?1526次閱讀

    機(jī)器學(xué)習(xí)算法使用機(jī)器來了解給定的數(shù)據(jù)

    機(jī)器學(xué)習(xí)一詞經(jīng)常與AI互換使用,盡管有明顯的區(qū)別。機(jī)器學(xué)習(xí)算法使用機(jī)器來了解給定的數(shù)據(jù)。
    的頭像 發(fā)表于 09-16 17:05 ?2242次閱讀

    如何才能正確的構(gòu)建機(jī)器學(xué)習(xí)的模型

    組織構(gòu)建一個(gè)可行的、可靠的、敏捷的機(jī)器學(xué)習(xí)模型來簡(jiǎn)化操作和支持其業(yè)務(wù)計(jì)劃需要耐心、準(zhǔn)備以及毅力。各種組織都在為各行業(yè)中的眾多應(yīng)用實(shí)施人工智能項(xiàng)目。這些應(yīng)用包括預(yù)測(cè)分析、模式識(shí)別系統(tǒng)、自主系統(tǒng)、會(huì)話
    發(fā)表于 01-11 19:25 ?14次下載

    使用TensorFlow建立深度學(xué)習(xí)機(jī)器學(xué)習(xí)網(wǎng)絡(luò)

    教你使用TensorFlow建立深度學(xué)習(xí)機(jī)器學(xué)習(xí)網(wǎng)絡(luò)。
    發(fā)表于 03-26 09:44 ?18次下載

    機(jī)器學(xué)習(xí)必學(xué)的Python代碼示例

    機(jī)器學(xué)習(xí)必學(xué)的Python代碼示例
    發(fā)表于 06-21 09:35 ?14次下載

    PyTorch如何訓(xùn)練自己的數(shù)據(jù)

    PyTorch是一個(gè)廣泛使用的深度學(xué)習(xí)框架,它以其靈活性、易用性和強(qiáng)大的動(dòng)態(tài)圖特性而聞名。在訓(xùn)練深度學(xué)習(xí)模型時(shí),數(shù)據(jù)是不可或缺的組成部分。然而,很多時(shí)候,我們可能需要使用自己的數(shù)據(jù)
    的頭像 發(fā)表于 07-02 14:09 ?1906次閱讀

    如何理解機(jī)器學(xué)習(xí)中的訓(xùn)練、驗(yàn)證和測(cè)試

    理解機(jī)器學(xué)習(xí)中的訓(xùn)練、驗(yàn)證和測(cè)試,是掌握機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 07-10 15:45 ?4500次閱讀