Q1:計(jì)算機(jī)專業(yè)本科生,非ACMER。算法達(dá)到什么程度才算是合格,有什么量化手段嗎?
Answer:傳統(tǒng)算法和數(shù)據(jù)結(jié)構(gòu)功底扎實(shí)。比如LintCode上的題目簡(jiǎn)單和中等難度毫無(wú)壓力做出,Hard難度在給了一定時(shí)間和一定提示時(shí)可以獨(dú)立完成。
微積分,統(tǒng)計(jì)學(xué),離散數(shù)學(xué)
Q2:成為數(shù)據(jù)挖掘工程師有必要要搞編程競(jìng)賽嗎?現(xiàn)在大二,之前沒(méi)有接觸過(guò)競(jìng)賽
Answer:數(shù)據(jù)挖掘的話是Kaggle,KDD的競(jìng)賽
Q3:數(shù)據(jù)挖掘一定要學(xué)spark嗎
Answer:Python是剛需,Spark可以到用的時(shí)候再學(xué)
Q4:怎么練習(xí)普通算法呢,看算導(dǎo)刷oj嗎?
Answer:分為兩步:第一步是模塊化訓(xùn)練,比如專門做圖論和動(dòng)態(tài)規(guī)劃的題。第二步是在LintCode上隨便選擇一個(gè)題,不看標(biāo)簽,獨(dú)立做出。
Q5:有一定高等數(shù)學(xué)基礎(chǔ)和機(jī)器學(xué)習(xí)算法概念的小白,如何進(jìn)行實(shí)戰(zhàn)訓(xùn)練。
Answer:分為兩步:第一階段是參加Kaggle,KDD競(jìng)賽。第二階段是學(xué)習(xí)爬蟲(chóng),自己爬取電商,微博等數(shù)據(jù),做訓(xùn)練
Q6:作為一個(gè)數(shù)據(jù)挖掘工程師,還有沒(méi)有必要深入研究傳統(tǒng)的算法,還是重點(diǎn)關(guān)注機(jī)器學(xué)習(xí)等統(tǒng)計(jì)的算法?
Answer:重點(diǎn)關(guān)注機(jī)器學(xué)習(xí)等統(tǒng)計(jì)的算法,這兩種有很大的不同
Q7:請(qǐng)問(wèn)算法工程師和數(shù)據(jù)挖掘 data scientist 等崗位在技能要求和工作內(nèi)容方面有什么區(qū)別嗎?
Answer:中小廠不區(qū)分。大廠可能會(huì)區(qū)分。算法工程師更底層一些,關(guān)注算法模型的開(kāi)發(fā)和調(diào)優(yōu),數(shù)據(jù)挖掘更側(cè)重模型的建模和使用,應(yīng)用和業(yè)務(wù)方面。
Q8:傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu)和算法是否對(duì)于機(jī)器學(xué)習(xí)是有必要的?如果有,主要體現(xiàn)在什么地方?
Answer:首先傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu)和算法可以鍛煉計(jì)算機(jī)思維,其實(shí)具體的數(shù)據(jù)結(jié)構(gòu)和算法還是會(huì)用到的,比如搜索query時(shí)詞之間關(guān)系,可以用字符串的距離,動(dòng)態(tài)規(guī)劃,字典樹(shù)等
技術(shù)問(wèn)題
Q1: 假設(shè)數(shù)據(jù)集有商店id這個(gè)屬性,取值上千個(gè),把它做OHE后去學(xué)習(xí),雖然結(jié)果提升了,但維度增加了很多。但不做OHE,用分類樹(shù)去學(xué)習(xí),結(jié)果并不好,可以有什么方法緩解數(shù)據(jù)集的擴(kuò)大與最后結(jié)果的技巧嗎
Answer:這是特征工程中非常典型的問(wèn)題,OHE后有可能會(huì)過(guò)擬合, 商店間有相似性,量化后對(duì)商店進(jìn)行聚類,再用這些類去做分類的訓(xùn)練
-
算法工程師
+關(guān)注
關(guān)注
2文章
30瀏覽量
6131
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論