機(jī)器學(xué)習(xí)已經(jīng)變得日益重要,幾乎像電力一樣融入了所有產(chǎn)品的日常中。如何利用機(jī)器學(xué)習(xí)開發(fā)出更好的產(chǎn)品,如何成為一名合格的機(jī)器學(xué)習(xí)產(chǎn)品經(jīng)理可能是很多人都想知道答案的問(wèn)題。我們?cè)谙惹暗奈恼轮薪榻B了機(jī)器學(xué)習(xí)最適宜處理的問(wèn)題以及作為產(chǎn)品經(jīng)理在構(gòu)建機(jī)器學(xué)習(xí)產(chǎn)品時(shí)需要掌握的技能。那么在了解了機(jī)器學(xué)習(xí)的能力學(xué)會(huì)了技術(shù)之后,我們還需要來(lái)談一談這個(gè)領(lǐng)域常見的誤區(qū)和前任踩過(guò)的坑。
當(dāng)與的數(shù)據(jù)科學(xué)家或工程師溝通的時(shí)候,以下幾點(diǎn)關(guān)于機(jī)器學(xué)習(xí)的常識(shí)性概念是需要注意的。作為一名產(chǎn)品經(jīng)理,通常情況下沒(méi)有很深的學(xué)術(shù)造詣,但在于團(tuán)隊(duì)進(jìn)行溝通和推動(dòng)項(xiàng)目的過(guò)程中,基本概念的理解和邏輯需要清晰和正確的。
數(shù)據(jù)問(wèn)題
數(shù)據(jù)缺失
相信每個(gè)人對(duì)于機(jī)器學(xué)習(xí)的數(shù)據(jù)需求都是毋庸置疑的。(在這里提到這個(gè)問(wèn)題有點(diǎn)不太適宜,尤其是在這樣一個(gè)談?wù)摍C(jī)器學(xué)習(xí)的博客中提及)然而,在市場(chǎng)中與其他公司進(jìn)行業(yè)余往來(lái)和交流的過(guò)程中,作者發(fā)現(xiàn)有許多希望以智能軟件系統(tǒng)和機(jī)器學(xué)習(xí)為解決策略的公司卻沒(méi)有數(shù)據(jù)。如果你沒(méi)有數(shù)據(jù),是不能應(yīng)用機(jī)器學(xué)習(xí)的;你的數(shù)據(jù)可以來(lái)源于本公司的積累,公開獲取或者是合作公司的數(shù)據(jù)。如果沒(méi)有數(shù)據(jù),就無(wú)從談起機(jī)器學(xué)習(xí)。這也是作為篩選評(píng)價(jià)人工智能創(chuàng)業(yè)公司的一個(gè)重要指標(biāo):有一些公司宣稱自己有很炫酷的人工智能科技卻沒(méi)有數(shù)據(jù)來(lái)驅(qū)動(dòng)這項(xiàng)算法,那么你就要謹(jǐn)慎的審視這家公司了。
數(shù)據(jù)量小
現(xiàn)今流行的各種機(jī)器學(xué)習(xí)算法都依賴于大數(shù)據(jù),并且在數(shù)據(jù)量大的時(shí)候工作效果更好。當(dāng)數(shù)據(jù)量較小的時(shí)候,你也可以運(yùn)用機(jī)器學(xué)習(xí)算法,但是一定要注意以下兩點(diǎn):所選用的模型不受局外點(diǎn)的影響;所選模型沒(méi)有過(guò)度復(fù)雜。當(dāng)數(shù)據(jù)量有限的時(shí)候,選用統(tǒng)計(jì)方法比選用機(jī)器學(xué)習(xí)方法往往更加切實(shí)有效。比如大部分的醫(yī)療臨床案列樣本量都較小,這個(gè)時(shí)候選用數(shù)據(jù)科學(xué)來(lái)直接分析十分有效。
稀疏數(shù)據(jù)
有時(shí)候,即使你有龐大的數(shù)據(jù)量,實(shí)際可用的數(shù)據(jù)卻往往是十分稀疏的。比如在亞馬遜平臺(tái)上,有成百上千的買家和琳瑯滿目的商品。每個(gè)買家只買其中幾樣產(chǎn)品,對(duì)于大部分的產(chǎn)品來(lái)說(shuō)你無(wú)法找到評(píng)價(jià)。對(duì)于購(gòu)買量極少的商品來(lái)說(shuō),更加難找到評(píng)價(jià)和反饋。當(dāng)使用稀疏數(shù)據(jù)進(jìn)行計(jì)算時(shí),必須仔細(xì)選擇你所使用的模型和工具,離線算法可能會(huì)提供低于標(biāo)準(zhǔn)的結(jié)果,用稀疏數(shù)據(jù)計(jì)算效率也較低,因?yàn)閿?shù)據(jù)集中大部分內(nèi)容是空白的。
高維度數(shù)據(jù)
如你的數(shù)據(jù)有多種屬性,那么對(duì)于模型中的計(jì)算和存儲(chǔ)資源的消耗是非常大的。高維度數(shù)據(jù)需要進(jìn)行降維運(yùn)算才可以在機(jī)器學(xué)習(xí)模型中應(yīng)用。在降維的過(guò)程中也要十分小心以確保沒(méi)有丟掉信息。知道到底是哪一個(gè)維度的信息對(duì)結(jié)果起到?jīng)Q定性作用,是基于對(duì)數(shù)據(jù)的敏感性和直覺(jué)。產(chǎn)品經(jīng)理們應(yīng)該在數(shù)據(jù)選擇的階段就參與工程師和數(shù)據(jù)科學(xué)家們的討論。在這個(gè)階段中可以獲得產(chǎn)品的直覺(jué)和靈感。比如,我們嘗試預(yù)測(cè)一個(gè)視頻的質(zhì)量,你可以分析視頻的點(diǎn)擊率,也可以分析視頻的參與度,當(dāng)一個(gè)視頻的點(diǎn)擊度較高的時(shí)候,其實(shí)并不一定代表該視頻質(zhì)量高,人們可能只是心不在焉的點(diǎn)開它,但其實(shí)把精力關(guān)注與瀏覽另一個(gè)頁(yè)面。所以你在分析時(shí)也許會(huì)希望再加入其它的維度。
數(shù)據(jù)清洗
你不能直接把現(xiàn)成的數(shù)據(jù)拿來(lái)套用在機(jī)器學(xué)習(xí)模型上,一個(gè)機(jī)器學(xué)習(xí)模型的有效性很大程度上取決于數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量并非指數(shù)據(jù)特征的豐富性,而是指如何對(duì)它進(jìn)行清洗和處理。你是否移除掉了異常數(shù)據(jù),是否對(duì)所有域進(jìn)行了歸一化操作,這些都會(huì)對(duì)你的模型產(chǎn)生影響。數(shù)據(jù)對(duì)模型的影響是:成也蕭何敗也蕭何。只有正確整潔的數(shù)據(jù)才是得到正確結(jié)果的重要保障!
擬合問(wèn)題
過(guò)擬合
為了更好的解釋過(guò)擬合,我們來(lái)看看下面這個(gè)故事。在2007年經(jīng)濟(jì)危機(jī)的時(shí)候產(chǎn)生了基金暴跌的現(xiàn)象,看上去不不可能的事件最后卻是真的,許多認(rèn)為不可被撼動(dòng)的假設(shè)最后都被嚴(yán)重?cái)_動(dòng)。
三天之內(nèi),算法產(chǎn)生了嚴(yán)重的擾動(dòng),對(duì)沖基金損失慘重。本文的作者當(dāng)時(shí)在一家量化對(duì)沖基金工作工作。當(dāng)時(shí),這家公司相較于它們的競(jìng)爭(zhēng)對(duì)手來(lái)說(shuō)損失相對(duì)較小。為什么呢?另外一家基金公司相對(duì)較新,成立較晚,它們用來(lái)訓(xùn)練模型的數(shù)據(jù)是在2007年前面幾年開始的,而那個(gè)時(shí)候數(shù)據(jù)從來(lái)沒(méi)有跌過(guò)。因此,但它們看到數(shù)據(jù)暴跌時(shí),模型不知該如何反應(yīng)。而作者的公司經(jīng)歷過(guò)1998年的盧布危機(jī),當(dāng)時(shí)為此付出了代價(jià),但隨后并改進(jìn)了算法使其適應(yīng)了暴跌的行情。因此,它的損失沒(méi)有其他公司那樣嚴(yán)重。
這個(gè)故事講了一個(gè)過(guò)擬合的極端實(shí)例,對(duì)于門外漢來(lái)說(shuō),事后的優(yōu)化會(huì)多于事前的預(yù)測(cè)。在這個(gè)。例子中競(jìng)爭(zhēng)對(duì)手的模型基于如下的假設(shè)而成立:股票市場(chǎng)景氣。因此,當(dāng)經(jīng)濟(jì)危機(jī)發(fā)生時(shí),它不能做出正確的預(yù)測(cè),造成了慘痛的損失。
我們?nèi)绾伪苊膺^(guò)擬合呢?確保你的模型在更加廣泛的數(shù)據(jù)集中進(jìn)行驗(yàn)證,并且回過(guò)頭來(lái)想想你的假設(shè),如果在經(jīng)濟(jì)有嚴(yán)重波動(dòng),用戶行為發(fā)生變化的時(shí)候,它們是否還成立呢?
欠擬合
欠擬合源于你的模型相對(duì)于數(shù)據(jù)而言過(guò)于簡(jiǎn)單。比如,你想試著預(yù)測(cè)買家是否會(huì)在某家超市購(gòu)買蛋糕粉。購(gòu)買蛋糕粉的行為是一個(gè)隨機(jī)行為,諸如可支配收入,蛋糕粉的價(jià)錢,附近的競(jìng)爭(zhēng)者等因素均會(huì)對(duì)最后的決策造成影響,但是,如果你不將其他諸如雇傭率,通貨膨脹率,其他零售商的發(fā)展等經(jīng)濟(jì)行為考慮在內(nèi),那么你是不能正確預(yù)測(cè)在這家超市購(gòu)買蛋糕粉的行為的。如果你的模型表現(xiàn)欠佳,嘗試著回顧你是否找到了足夠的數(shù)據(jù)來(lái)分析問(wèn)題,你是否可以通過(guò)其他方法和角度,加入一些更有效的數(shù)據(jù)來(lái)解決此問(wèn)題?
計(jì)算成本
當(dāng)建立機(jī)器學(xué)習(xí)產(chǎn)品時(shí),另外一個(gè)容易被忽略的領(lǐng)域是計(jì)算成本。利用AWS和Azure這樣的服務(wù),可以幫助提升計(jì)算能力。然而,在某種程度上,你需要平衡計(jì)算成本和模型復(fù)雜度,以及預(yù)測(cè)結(jié)果之間的代價(jià)。比如,你不可能存儲(chǔ)產(chǎn)品中的每一個(gè)數(shù)據(jù),你也不可能每次都提供最新的預(yù)測(cè)。知道你的工程師團(tuán)隊(duì)如何平衡計(jì)算代價(jià)和機(jī)器學(xué)習(xí)模型的準(zhǔn)確性的問(wèn)題,將會(huì)幫助你更好的理解產(chǎn)品的性能。
-
人工智能
+關(guān)注
關(guān)注
1791文章
47279瀏覽量
238510 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8418瀏覽量
132646 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8889瀏覽量
137444
原文標(biāo)題:想開發(fā)機(jī)器學(xué)習(xí)產(chǎn)品,先鏟平這三個(gè)障礙~
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論