0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于機(jī)器學(xué)習(xí)的常識(shí)性概念是需要注意的

nlfO_thejiangme ? 來(lái)源:未知 ? 作者:李倩 ? 2018-07-03 14:51 ? 次閱讀

機(jī)器學(xué)習(xí)已經(jīng)變得日益重要,幾乎像電力一樣融入了所有產(chǎn)品的日常中。如何利用機(jī)器學(xué)習(xí)開發(fā)出更好的產(chǎn)品,如何成為一名合格的機(jī)器學(xué)習(xí)產(chǎn)品經(jīng)理可能是很多人都想知道答案的問(wèn)題。我們?cè)谙惹暗奈恼轮薪榻B了機(jī)器學(xué)習(xí)最適宜處理的問(wèn)題以及作為產(chǎn)品經(jīng)理在構(gòu)建機(jī)器學(xué)習(xí)產(chǎn)品時(shí)需要掌握的技能。那么在了解了機(jī)器學(xué)習(xí)的能力學(xué)會(huì)了技術(shù)之后,我們還需要來(lái)談一談這個(gè)領(lǐng)域常見的誤區(qū)和前任踩過(guò)的坑。

當(dāng)與的數(shù)據(jù)科學(xué)家或工程師溝通的時(shí)候,以下幾點(diǎn)關(guān)于機(jī)器學(xué)習(xí)的常識(shí)性概念是需要注意的。作為一名產(chǎn)品經(jīng)理,通常情況下沒(méi)有很深的學(xué)術(shù)造詣,但在于團(tuán)隊(duì)進(jìn)行溝通和推動(dòng)項(xiàng)目的過(guò)程中,基本概念的理解和邏輯需要清晰和正確的。

數(shù)據(jù)問(wèn)題

數(shù)據(jù)缺失

相信每個(gè)人對(duì)于機(jī)器學(xué)習(xí)的數(shù)據(jù)需求都是毋庸置疑的。(在這里提到這個(gè)問(wèn)題有點(diǎn)不太適宜,尤其是在這樣一個(gè)談?wù)摍C(jī)器學(xué)習(xí)的博客中提及)然而,在市場(chǎng)中與其他公司進(jìn)行業(yè)余往來(lái)和交流的過(guò)程中,作者發(fā)現(xiàn)有許多希望以智能軟件系統(tǒng)和機(jī)器學(xué)習(xí)為解決策略的公司卻沒(méi)有數(shù)據(jù)。如果你沒(méi)有數(shù)據(jù),是不能應(yīng)用機(jī)器學(xué)習(xí)的;你的數(shù)據(jù)可以來(lái)源于本公司的積累,公開獲取或者是合作公司的數(shù)據(jù)。如果沒(méi)有數(shù)據(jù),就無(wú)從談起機(jī)器學(xué)習(xí)。這也是作為篩選評(píng)價(jià)人工智能創(chuàng)業(yè)公司的一個(gè)重要指標(biāo):有一些公司宣稱自己有很炫酷的人工智能科技卻沒(méi)有數(shù)據(jù)來(lái)驅(qū)動(dòng)這項(xiàng)算法,那么你就要謹(jǐn)慎的審視這家公司了。

數(shù)據(jù)量小

現(xiàn)今流行的各種機(jī)器學(xué)習(xí)算法都依賴于大數(shù)據(jù),并且在數(shù)據(jù)量大的時(shí)候工作效果更好。當(dāng)數(shù)據(jù)量較小的時(shí)候,你也可以運(yùn)用機(jī)器學(xué)習(xí)算法,但是一定要注意以下兩點(diǎn):所選用的模型不受局外點(diǎn)的影響;所選模型沒(méi)有過(guò)度復(fù)雜。當(dāng)數(shù)據(jù)量有限的時(shí)候,選用統(tǒng)計(jì)方法比選用機(jī)器學(xué)習(xí)方法往往更加切實(shí)有效。比如大部分的醫(yī)療臨床案列樣本量都較小,這個(gè)時(shí)候選用數(shù)據(jù)科學(xué)來(lái)直接分析十分有效。

稀疏數(shù)據(jù)

有時(shí)候,即使你有龐大的數(shù)據(jù)量,實(shí)際可用的數(shù)據(jù)卻往往是十分稀疏的。比如在亞馬遜平臺(tái)上,有成百上千的買家和琳瑯滿目的商品。每個(gè)買家只買其中幾樣產(chǎn)品,對(duì)于大部分的產(chǎn)品來(lái)說(shuō)你無(wú)法找到評(píng)價(jià)。對(duì)于購(gòu)買量極少的商品來(lái)說(shuō),更加難找到評(píng)價(jià)和反饋。當(dāng)使用稀疏數(shù)據(jù)進(jìn)行計(jì)算時(shí),必須仔細(xì)選擇你所使用的模型和工具,離線算法可能會(huì)提供低于標(biāo)準(zhǔn)的結(jié)果,用稀疏數(shù)據(jù)計(jì)算效率也較低,因?yàn)閿?shù)據(jù)集中大部分內(nèi)容是空白的。

高維度數(shù)據(jù)

如你的數(shù)據(jù)有多種屬性,那么對(duì)于模型中的計(jì)算和存儲(chǔ)資源的消耗是非常大的。高維度數(shù)據(jù)需要進(jìn)行降維運(yùn)算才可以在機(jī)器學(xué)習(xí)模型中應(yīng)用。在降維的過(guò)程中也要十分小心以確保沒(méi)有丟掉信息。知道到底是哪一個(gè)維度的信息對(duì)結(jié)果起到?jīng)Q定性作用,是基于對(duì)數(shù)據(jù)的敏感性和直覺(jué)。產(chǎn)品經(jīng)理們應(yīng)該在數(shù)據(jù)選擇的階段就參與工程師和數(shù)據(jù)科學(xué)家們的討論。在這個(gè)階段中可以獲得產(chǎn)品的直覺(jué)和靈感。比如,我們嘗試預(yù)測(cè)一個(gè)視頻的質(zhì)量,你可以分析視頻的點(diǎn)擊率,也可以分析視頻的參與度,當(dāng)一個(gè)視頻的點(diǎn)擊度較高的時(shí)候,其實(shí)并不一定代表該視頻質(zhì)量高,人們可能只是心不在焉的點(diǎn)開它,但其實(shí)把精力關(guān)注與瀏覽另一個(gè)頁(yè)面。所以你在分析時(shí)也許會(huì)希望再加入其它的維度。

數(shù)據(jù)清洗

你不能直接把現(xiàn)成的數(shù)據(jù)拿來(lái)套用在機(jī)器學(xué)習(xí)模型上,一個(gè)機(jī)器學(xué)習(xí)模型的有效性很大程度上取決于數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量并非指數(shù)據(jù)特征的豐富性,而是指如何對(duì)它進(jìn)行清洗和處理。你是否移除掉了異常數(shù)據(jù),是否對(duì)所有域進(jìn)行了歸一化操作,這些都會(huì)對(duì)你的模型產(chǎn)生影響。數(shù)據(jù)對(duì)模型的影響是:成也蕭何敗也蕭何。只有正確整潔的數(shù)據(jù)才是得到正確結(jié)果的重要保障!

擬合問(wèn)題

過(guò)擬合

為了更好的解釋過(guò)擬合,我們來(lái)看看下面這個(gè)故事。在2007年經(jīng)濟(jì)危機(jī)的時(shí)候產(chǎn)生了基金暴跌的現(xiàn)象,看上去不不可能的事件最后卻是真的,許多認(rèn)為不可被撼動(dòng)的假設(shè)最后都被嚴(yán)重?cái)_動(dòng)。

三天之內(nèi),算法產(chǎn)生了嚴(yán)重的擾動(dòng),對(duì)沖基金損失慘重。本文的作者當(dāng)時(shí)在一家量化對(duì)沖基金工作工作。當(dāng)時(shí),這家公司相較于它們的競(jìng)爭(zhēng)對(duì)手來(lái)說(shuō)損失相對(duì)較小。為什么呢?另外一家基金公司相對(duì)較新,成立較晚,它們用來(lái)訓(xùn)練模型的數(shù)據(jù)是在2007年前面幾年開始的,而那個(gè)時(shí)候數(shù)據(jù)從來(lái)沒(méi)有跌過(guò)。因此,但它們看到數(shù)據(jù)暴跌時(shí),模型不知該如何反應(yīng)。而作者的公司經(jīng)歷過(guò)1998年的盧布危機(jī),當(dāng)時(shí)為此付出了代價(jià),但隨后并改進(jìn)了算法使其適應(yīng)了暴跌的行情。因此,它的損失沒(méi)有其他公司那樣嚴(yán)重。

這個(gè)故事講了一個(gè)過(guò)擬合的極端實(shí)例,對(duì)于門外漢來(lái)說(shuō),事后的優(yōu)化會(huì)多于事前的預(yù)測(cè)。在這個(gè)。例子中競(jìng)爭(zhēng)對(duì)手的模型基于如下的假設(shè)而成立:股票市場(chǎng)景氣。因此,當(dāng)經(jīng)濟(jì)危機(jī)發(fā)生時(shí),它不能做出正確的預(yù)測(cè),造成了慘痛的損失。

我們?nèi)绾伪苊膺^(guò)擬合呢?確保你的模型在更加廣泛的數(shù)據(jù)集中進(jìn)行驗(yàn)證,并且回過(guò)頭來(lái)想想你的假設(shè),如果在經(jīng)濟(jì)有嚴(yán)重波動(dòng),用戶行為發(fā)生變化的時(shí)候,它們是否還成立呢?

欠擬合

欠擬合源于你的模型相對(duì)于數(shù)據(jù)而言過(guò)于簡(jiǎn)單。比如,你想試著預(yù)測(cè)買家是否會(huì)在某家超市購(gòu)買蛋糕粉。購(gòu)買蛋糕粉的行為是一個(gè)隨機(jī)行為,諸如可支配收入,蛋糕粉的價(jià)錢,附近的競(jìng)爭(zhēng)者等因素均會(huì)對(duì)最后的決策造成影響,但是,如果你不將其他諸如雇傭率,通貨膨脹率,其他零售商的發(fā)展等經(jīng)濟(jì)行為考慮在內(nèi),那么你是不能正確預(yù)測(cè)在這家超市購(gòu)買蛋糕粉的行為的。如果你的模型表現(xiàn)欠佳,嘗試著回顧你是否找到了足夠的數(shù)據(jù)來(lái)分析問(wèn)題,你是否可以通過(guò)其他方法和角度,加入一些更有效的數(shù)據(jù)來(lái)解決此問(wèn)題?

計(jì)算成本

當(dāng)建立機(jī)器學(xué)習(xí)產(chǎn)品時(shí),另外一個(gè)容易被忽略的領(lǐng)域是計(jì)算成本。利用AWS和Azure這樣的服務(wù),可以幫助提升計(jì)算能力。然而,在某種程度上,你需要平衡計(jì)算成本和模型復(fù)雜度,以及預(yù)測(cè)結(jié)果之間的代價(jià)。比如,你不可能存儲(chǔ)產(chǎn)品中的每一個(gè)數(shù)據(jù),你也不可能每次都提供最新的預(yù)測(cè)。知道你的工程師團(tuán)隊(duì)如何平衡計(jì)算代價(jià)和機(jī)器學(xué)習(xí)模型的準(zhǔn)確性的問(wèn)題,將會(huì)幫助你更好的理解產(chǎn)品的性能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    47279

    瀏覽量

    238510
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8418

    瀏覽量

    132646
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8889

    瀏覽量

    137444

原文標(biāo)題:想開發(fā)機(jī)器學(xué)習(xí)產(chǎn)品,先鏟平這三個(gè)障礙~

文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    電路常識(shí)性概念大全

    ?elecfans_trackid=zx_lt。電路常識(shí)性概念大全電路常識(shí)性概念(1)-輸入、輸出阻抗、阻抗匹配電路常識(shí)性
    發(fā)表于 09-16 12:53

    電路常識(shí)性概念

    電路常識(shí)性概念
    發(fā)表于 08-15 17:27

    電路常識(shí)性概念

    電路常識(shí)性概念
    發(fā)表于 07-17 18:42

    labview學(xué)習(xí)需要注意哪些?

    labview學(xué)習(xí)需要注意哪些?
    發(fā)表于 07-24 21:14

    電路常識(shí)性概念

    電路常識(shí)性概念
    發(fā)表于 11-06 09:12

    電子電路常識(shí)性概念01

    電子電路常識(shí)性概念01
    發(fā)表于 05-06 04:41

    初級(jí)工程師必須要懂的,電路常識(shí)性概念

    初級(jí)工程師必須要懂的,電路常識(shí)性概念
    發(fā)表于 05-26 11:26

    使用旅游機(jī)器需要注意哪些問(wèn)題?

    ,同時(shí)還能提升景點(diǎn)景區(qū)的智能形象,吸引大量的游客來(lái)訪。不過(guò),現(xiàn)在很多的商務(wù)服務(wù)機(jī)器人種類很多,而且功能都有所區(qū)別,在使用旅游機(jī)器人的過(guò)程中我們需要注意哪些問(wèn)題呢?下面杭州國(guó)辰機(jī)器人為大
    發(fā)表于 06-12 17:04

    電路的常識(shí)性概念

    電路常識(shí)性概念
    發(fā)表于 01-06 06:30

    有關(guān)一些電路常識(shí)性概念須知

    有關(guān)一些電路常識(shí)性概念須知
    發(fā)表于 06-08 06:50

    電路常識(shí)性概念

    基本概念,數(shù)字電路,模擬電路,電路分析,注意事項(xiàng)
    發(fā)表于 02-25 18:14 ?10次下載

    電路常識(shí)性概念

    對(duì)于初學(xué)者而言會(huì)有一定的幫助,里面講了一些最基本的電路常識(shí)
    發(fā)表于 07-04 17:57 ?18次下載

    TTL電平和COMS電平的常識(shí)性概念詳細(xì)資料說(shuō)明

    本文檔的主要內(nèi)容詳細(xì)介紹的是TTL電平與COMS電平的常識(shí)性概念詳細(xì)資料說(shuō)明。TTL 集成電路的主要型式為晶體管-晶體管邏輯門( transistor-transistor logic gate ), TTL 大部分都采用5V 電源。
    發(fā)表于 07-11 16:45 ?9次下載
    TTL電平和COMS電平的<b class='flag-5'>常識(shí)性</b><b class='flag-5'>概念</b>詳細(xì)資料說(shuō)明

    學(xué)習(xí)PLC需要注意的事項(xiàng)有哪些

    隨著工業(yè)自動(dòng)化的推進(jìn),工控行業(yè)的核心plc使用越來(lái)越多,所以大家也要與時(shí)俱進(jìn)學(xué)習(xí)PLC,今天給大家講一下學(xué)習(xí)PLC需要注意的點(diǎn),希望大家在學(xué)習(xí)的過(guò)程中少走彎路。
    發(fā)表于 06-13 16:53 ?1929次閱讀

    電路常識(shí)性入門概念分享

    電路常識(shí)性入門概念分享
    發(fā)表于 02-14 14:12 ?0次下載