1.定義
機(jī)器學(xué)習(xí)算法,或者說“算法工程師”這個(gè)職位名稱里的“算法”,并不是計(jì)算機(jī)系本科課程《算法與數(shù)據(jù)結(jié)構(gòu)》里那個(gè)算法。那門課里講的,是排序、查找這類”確定性算法”;而這里我們說的,是用統(tǒng)計(jì)方法對(duì)數(shù)據(jù)進(jìn)行建模的”概率性算法”。
1.1分類
算法工程師分為兩類。其中一類是偏研究型的算法工程師,例如復(fù)現(xiàn)paper,改善模型,發(fā)paper,出專利,這一類人才大都是科研大佬。第二類則是更加貼近業(yè)務(wù)的算法工程師,不如稱為「算法應(yīng)用工程師」。這一類同學(xué)主要是與業(yè)務(wù)同學(xué)進(jìn)行搭檔,通過現(xiàn)有的一些成熟模型來幫助業(yè)務(wù)同學(xué)解決問題。
2.主要工作
理想中的算法工程師:提出假設(shè)-》收集數(shù)據(jù)-》訓(xùn)練模型-》解釋結(jié)果。
實(shí)際中的算法工程師:提出假設(shè)-》收集數(shù)據(jù)-》預(yù)處理-》預(yù)處理-》訓(xùn)練模型-》調(diào)試-》調(diào)試-》重新收集數(shù)據(jù)-》預(yù)處理-》收集更多數(shù)據(jù)-》調(diào)試-》調(diào)試-》調(diào)試-》…-》放棄。
每天最重要的就是跑數(shù)據(jù)!這不是段子,而是事實(shí)。為什么“高大上”的算法工程師實(shí)際上是個(gè)數(shù)據(jù)民工,要尋找這種理想與現(xiàn)實(shí)的差距的原因,首先要理解一個(gè)事實(shí):只有人能夠理解數(shù)據(jù),機(jī)器不能。不管我們用什么機(jī)器學(xué)習(xí)算法——無論是LR,SVM,k-means,EM——對(duì)于它們來說,輸入數(shù)據(jù)都是一堆浮點(diǎn)數(shù)組成的矩陣而以(如果說的更本質(zhì)一點(diǎn),只是一堆01序列)。如果有一個(gè)特征是“小時(shí)”,而它出現(xiàn)了25,任何一個(gè)智商正常的人類都能明白,這是一個(gè)錯(cuò)誤,然后在數(shù)據(jù)清洗的時(shí)候把這樣的數(shù)據(jù)排除。但是機(jī)器就無法理解這一點(diǎn)。要具備小時(shí)的概念,又要理解什么是時(shí)間,一天有多少個(gè)小時(shí)…機(jī)器怎么能自動(dòng)化完成這樣的數(shù)據(jù)清洗工作?更進(jìn)一步,如果人發(fā)現(xiàn)“小時(shí)”這個(gè)特征中大部分?jǐn)?shù)據(jù)是0到12,而混入少量13(但13的數(shù)量又不是太少以至不能被當(dāng)成離群點(diǎn)排除),人就會(huì)懷疑,是不是使用了12小時(shí)制而13是一個(gè)錯(cuò)誤。機(jī)器目前是無法做到這一點(diǎn)的。
一位算法工程師對(duì)自己工作的反思,寫得挺實(shí)在的
3.進(jìn)階之路
在機(jī)器學(xué)習(xí)領(lǐng)域,算法工程師腳下的進(jìn)階之路是清晰的:當(dāng)你掌握了工具、會(huì)改造模型,進(jìn)而可以駕馭新問題的建模,就能成長為最優(yōu)秀的人才。
20萬、50萬、100萬的算法工程師,到底有什么區(qū)別?
4.傳統(tǒng)模型VS深度學(xué)習(xí)模型
優(yōu)秀的算法工程師都是不用深度學(xué)習(xí)的
講的是為什么有部分傳統(tǒng)的算法工程師不愿意使用深度學(xué)習(xí)算法,雖然題目有點(diǎn)嘩眾取寵,但是問題角度還是挺值得深思的。
-
工程師
+關(guān)注
關(guān)注
59文章
1571瀏覽量
68574
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論