亚洲欧洲日产国码a人人干人人,亚洲日韩欧美黑白配,色色视频下载

機(jī)器學(xué)習(xí)難嗎？有些小伙伴們會(huì)說，難！真的難！不知道怎么去應(yīng)用實(shí)踐？彎路陷阱太多不知如何避免？不知道如何更好的學(xué)習(xí)機(jī)器學(xué)習(xí)？這些問題相信大部分人都有過疑慮。

本文整理了關(guān)于機(jī)器學(xué)習(xí)研究者和從業(yè)者的 12 個(gè)寶貴經(jīng)驗(yàn)，包括需要避免的陷阱、需要關(guān)注的重點(diǎn)問題、常見問題的答案。希望這些經(jīng)驗(yàn)對(duì)機(jī)器學(xué)習(xí)愛好者有一些幫助。

01 “表征+評(píng)估+優(yōu)化”構(gòu)成機(jī)器的主要內(nèi)容

構(gòu)成機(jī)器學(xué)習(xí)算法的 3 部分：

表征（Representation）：分類器必須用計(jì)算機(jī)可以處理的形式化語言來表示。相反地，為訓(xùn)練模型選擇一個(gè)表征就等同于選擇可訓(xùn)練分類器的集合。這個(gè)集合稱為訓(xùn)練模型的「假設(shè)空間」。如果分類器不在「假設(shè)空間」中，那么它就不能由訓(xùn)練所得到。一個(gè)相關(guān)的問題是如何表征輸入，即使用哪些特征。

評(píng)估（Evaluation）：需要一個(gè)評(píng)估函數(shù)來區(qū)分分類器的好壞。算法內(nèi)部使用的評(píng)估函數(shù)可能與分類器優(yōu)化的外部評(píng)估函數(shù)不同，這是為了便于優(yōu)化，并且是由我們下一節(jié)所要討論的問題導(dǎo)致的。

優(yōu)化（Optimization）：我們要用一種方法搜索得分最高的分類器。優(yōu)化方法的選擇對(duì)于提升模型的效率非常關(guān)鍵。另外，如果評(píng)估函數(shù)具有一個(gè)以上的最優(yōu)值，則優(yōu)化方法有助于確定最后產(chǎn)生的分類器。新的訓(xùn)練模型一開始常常使用現(xiàn)有的優(yōu)化器，后來常會(huì)轉(zhuǎn)而使用自定義的優(yōu)化器。

02 “泛化能力”很關(guān)鍵，“測試數(shù)據(jù)”驗(yàn)證至關(guān)重要

機(jī)器學(xué)習(xí)的主要目標(biāo)是對(duì)訓(xùn)練集之外的樣本進(jìn)行泛化。因?yàn)闊o論有多少數(shù)據(jù)，都不太可能在測試中再次看到完全相同的例子。在訓(xùn)練集上具有良好表現(xiàn)很容易。機(jī)器學(xué)習(xí)初學(xué)者最常犯的錯(cuò)誤是把模型放在訓(xùn)練數(shù)據(jù)中進(jìn)行測試，從而產(chǎn)生成功的錯(cuò)覺。

如果被選擇的分類器在新的數(shù)據(jù)上進(jìn)行測試，一般情況，結(jié)果往往和隨機(jī)猜測相差無幾。所以，如果你雇傭他人建立分類器，一定要留一些數(shù)據(jù)給你自己，以便在他們給你的分類器中進(jìn)行測試。相反，如果有人雇傭你建立一個(gè)分類器，請(qǐng)保留一部分?jǐn)?shù)據(jù)對(duì)你的分類器進(jìn)行最終測試。

03 僅有數(shù)據(jù)是不夠的，知識(shí)相結(jié)合效果更好

把泛化能力作為目標(biāo)，會(huì)又另一個(gè)后果：只有數(shù)據(jù)是不夠的，無論你擁有多少數(shù)據(jù)。這是否讓人沮喪。那么，我們?cè)趺茨苌萸笏鼘W(xué)到東西呢？

不過，現(xiàn)實(shí)世界中我們想學(xué)習(xí)的函數(shù)并不都是從數(shù)學(xué)上可能的函數(shù)中提取出來的！實(shí)際上，使用一般假設(shè)——例如平滑性、相似樣本有相似分類、有限的依賴性或有限復(fù)雜度——往往能做得足夠好，這也正是機(jī)器學(xué)習(xí)能如此成功的大部分原因。

正如演繹一樣，歸納（訓(xùn)練模型所做的）是一個(gè)知識(shí)杠桿——它將少量知識(shí)輸入轉(zhuǎn)化為大量知識(shí)輸出。歸納是一個(gè)比演繹更為強(qiáng)大的杠桿，僅需更少的知識(shí)就能產(chǎn)出有用的結(jié)果。不過，它仍然需要大于零的知識(shí)輸入才能工作。正如任何一個(gè)杠桿一樣，輸入得越多，得到的也越多。

這樣回想起來，訓(xùn)練過程中對(duì)知識(shí)的需求沒什么好驚訝的。機(jī)器學(xué)習(xí)并非魔術(shù)，它無法做到無中生有，它所做的是舉一反三。如同所有的工程一樣，編程需要做大量的工作：我們必須從頭開始構(gòu)建所有的東西。訓(xùn)練的過程更像是耕種，其中大部分工作是自然完成的。農(nóng)民將種子與營養(yǎng)物質(zhì)結(jié)合起來，種植作物。訓(xùn)練模型將知識(shí)與數(shù)據(jù)結(jié)合起來，編寫程序。

04 “過擬合”讓機(jī)器學(xué)習(xí)效果產(chǎn)生錯(cuò)覺

如果我們所擁有的知識(shí)和數(shù)據(jù)不足以完全確定正確的分類器，分類器（或其中的一部分）就可能產(chǎn)生「錯(cuò)覺」。所獲得的分類器并不是基于現(xiàn)實(shí)，只是對(duì)數(shù)據(jù)的隨機(jī)性進(jìn)行編碼。這個(gè)問題被稱為過擬合，是機(jī)器學(xué)習(xí)中棘手的難題。如果你的訓(xùn)練模型所輸出的分類器在訓(xùn)練數(shù)據(jù)上準(zhǔn)確率是 100％，但在測試數(shù)據(jù)上準(zhǔn)確率只有 50％，那么實(shí)際上，該分類器在兩個(gè)集合上的輸出準(zhǔn)確率總體可能約為 75％，它發(fā)生了過擬合現(xiàn)象。

在機(jī)器學(xué)習(xí)領(lǐng)域，人人都知道過擬合。但是過擬合有多種形式，人們往往不能立刻意識(shí)到。理解過擬合的一種方法是將泛化的誤差進(jìn)行分解，分為偏差和方差。偏差是模型不斷學(xué)習(xí)相同錯(cuò)誤的傾向。而方差指的是不管真實(shí)信號(hào)如何，模型學(xué)習(xí)隨機(jī)信號(hào)的傾向。線性模型有很高的偏差，因?yàn)楫?dāng)兩個(gè)類之間的邊界不是一個(gè)超平面時(shí)，模型無法做出調(diào)整。決策樹不存在這個(gè)問題，因?yàn)樗鼈兛梢员碚魅魏尾紶柡瘮?shù)。但是另一方面，決策樹可能方差很大：如果在不同訓(xùn)練集上訓(xùn)練，生成的決策樹通常差異很大，但事實(shí)上它們應(yīng)該是相同的。

交叉驗(yàn)證可以幫助對(duì)抗過擬合，例如，通過使用交叉驗(yàn)證來選擇決策樹的最佳規(guī)模用于訓(xùn)練。但這不是萬能的，因?yàn)槿绻覀冇媒徊骝?yàn)證生成太多的參數(shù)選擇，它本身就會(huì)開始產(chǎn)生過擬合現(xiàn)象。

除交叉驗(yàn)證之外，還有很多方法可以解決過擬合問題。最流行的是在評(píng)估函數(shù)中增加一個(gè)正則化項(xiàng)。舉個(gè)例子，這樣一來就能懲罰含更多項(xiàng)的分類器，從而有利于生成參數(shù)結(jié)構(gòu)更簡單的分類器，并減少過擬合的空間。另一種方法是在添加新的結(jié)構(gòu)之前，進(jìn)行類似卡方檢驗(yàn)的統(tǒng)計(jì)顯著性檢驗(yàn)，在添加新結(jié)構(gòu)前后確定類的分布是否真的具有差異。當(dāng)數(shù)據(jù)非常少時(shí)，這些技術(shù)特別有用。

盡管如此，你應(yīng)該對(duì)某種方法完美解決了過擬合問題的說法持懷疑態(tài)度。減少過擬合（方差）很容易讓分類器陷入與之相對(duì)的欠擬合誤差（偏差）中去。如果要同時(shí)避免這兩種情況，需要訓(xùn)練一個(gè)完美的分類器。在沒有先驗(yàn)信息的情況下，沒有任何一種方法總能做到最好（天下沒有免費(fèi)的午餐）。

05 機(jī)器學(xué)習(xí)中最大的問題就是“維度災(zāi)難”

除了過擬合，機(jī)器學(xué)習(xí)中最大的問題就是維度災(zāi)難。這一名詞是由 Bellman 在 1961 年提出的，指的是當(dāng)輸入維度很高時(shí)，許多在低維工作正常的算法將無法正常工作。但是在機(jī)器學(xué)習(xí)中，它的意義更廣。隨著樣本維度（特征數(shù)量）的增加，進(jìn)行正確泛化變得越來越難，因?yàn)楣潭ù笮〉挠?xùn)練集對(duì)輸入空間的覆蓋逐漸縮減。

高維的一般問題是，來自三維世界的人類直覺通常不適用于高維空間。在高維度當(dāng)中，多元高斯分布的大部分?jǐn)?shù)據(jù)并不接近平均值，而是在其周圍越來越遠(yuǎn)的「殼」中；此外，高維分布的大部分體積分布在表面，而不是體內(nèi)。如果恒定數(shù)量的樣本在高維超立方體中均勻分布，那么在超越某個(gè)維數(shù)的情況下，大多數(shù)樣本將更接近于超立方體的一個(gè)面，而不是它們的最近鄰。

此外，如果我們通過嵌入超立方體的方式逼近一個(gè)超球面，那么在高維度下，超立方體幾乎所有的體積都在超球面之外。這對(duì)于機(jī)器學(xué)習(xí)來說是個(gè)壞消息，因?yàn)橐环N類型的形狀常常可以被另一種形狀所逼近，但在高維空間中卻失效了。

建立二維或三維分類器容易；我們可以僅通過視覺檢查找出不同類別樣本之間的合理邊界。但是在高維中，我們很難理解數(shù)據(jù)的分布結(jié)構(gòu)。這又反過來使設(shè)計(jì)一個(gè)好的分類器變得困難。簡而言之，人們可能會(huì)認(rèn)為收集更多的特征一定不產(chǎn)生負(fù)面作用，因?yàn)樗鼈冏疃嘀皇遣惶峁┯嘘P(guān)分類的新信息而已。但事實(shí)上，維度災(zāi)難的影響可能大于添加特征所帶來的利益。

06 “理論保證”與“實(shí)際出入”的相互關(guān)系

機(jī)器學(xué)習(xí)論文中充斥著理論保證。最常見的保證就是關(guān)于保持模型良好泛化能力的訓(xùn)練樣本數(shù)量約束問題。首先，該問題顯然是可證的。歸納通常與演繹相對(duì)：通過演繹，你可以確保結(jié)論是正確的; 在歸納中，所有臆想都被摒棄?；蛟S這就是傳世的古老智慧。近十年的主要突破就是認(rèn)識(shí)到歸納的結(jié)果是可證的這一事實(shí)，尤其在我們?cè)敢饨o出概率保證時(shí)。

必須斟酌這類約束意味著什么。這并不意味著，如果你的網(wǎng)絡(luò)返回與某個(gè)特定訓(xùn)練集一致的假設(shè)，那么這個(gè)假設(shè)就可能具有很好的泛化能力。而是，給定一個(gè)足夠大的訓(xùn)練集，你的網(wǎng)絡(luò)很可能會(huì)返回一個(gè)泛化能力好的假設(shè)或無法得到一致的假設(shè)。這類約束也沒有教我們?nèi)绾芜x擇一個(gè)好的假設(shè)空間。它只告訴我們，如果假設(shè)空間包含好的分類器，那么隨著訓(xùn)練集的增大，網(wǎng)絡(luò)訓(xùn)練出一個(gè)弱分類器的概率會(huì)減小。如果縮小假設(shè)空間，約束條件作用會(huì)增強(qiáng)，但是訓(xùn)練出一個(gè)強(qiáng)分類器的概率也會(huì)下降。

另一種常見的理論保證是漸進(jìn)性：假如輸入的數(shù)據(jù)規(guī)模是無窮大的，那么網(wǎng)絡(luò)肯定會(huì)輸出一個(gè)強(qiáng)分類器。聽起來靠譜，但是由于要保證漸近性，選擇某個(gè)網(wǎng)絡(luò)而非另一個(gè)就顯得過于輕率。在實(shí)踐中，我們很少處于漸近狀態(tài)。由上面討論的偏差 - 方差權(quán)衡可知，如果網(wǎng)絡(luò) A 在具有海量數(shù)據(jù)時(shí)比網(wǎng)絡(luò) B 好，則在有限數(shù)據(jù)情況下，B 往往比 A 好。

理論保證在機(jī)器學(xué)習(xí)中存在的意義不僅僅是作為評(píng)判實(shí)際決策的標(biāo)準(zhǔn)，而且是理解的方法及設(shè)計(jì)算法的動(dòng)力。鑒于此，它十分有用。事實(shí)上，這么多年以來，正是理論聯(lián)系實(shí)際促進(jìn)了機(jī)器學(xué)習(xí)的飛躍式進(jìn)步。注意：學(xué)習(xí)是一個(gè)復(fù)雜的現(xiàn)象，它在理論上說得通，在實(shí)際工作中可行，也并不表示前者是導(dǎo)致后者的原因。

07 “特征工程”是機(jī)器學(xué)習(xí)的關(guān)鍵

最后，有些機(jī)器學(xué)習(xí)項(xiàng)目大獲成功，有些卻失敗了。這是什么造成的？最重要的影響因素就是使用的特征。如果你獲取到很多獨(dú)立的且與所屬類別相關(guān)的特征，那么學(xué)習(xí)過程就很容易。相反，若某一個(gè)類是特征的極其復(fù)雜的函數(shù)，你的模型可能無法學(xué)習(xí)到該函數(shù)。通常來說，原始數(shù)據(jù)格式很不適合學(xué)習(xí)，但是可以基于它來構(gòu)建特征。這正是機(jī)器學(xué)習(xí)項(xiàng)目最重要的部分，通常也是最有趣的部分，直覺、創(chuàng)造力、「魔術(shù)」和技術(shù)同樣重要。

初學(xué)者常常會(huì)驚訝于機(jī)器學(xué)習(xí)項(xiàng)目實(shí)際上花在機(jī)器學(xué)習(xí)上的時(shí)間很少。但是當(dāng)你將收集、整合、清洗和預(yù)處理數(shù)據(jù)以及將數(shù)據(jù)重構(gòu)成特征過程中解決錯(cuò)誤等瑣事所消耗的時(shí)間考慮在內(nèi)就不奇怪了。而且，機(jī)器學(xué)習(xí)并不只是構(gòu)建數(shù)據(jù)集跑一次模型就沒事了，它通常是一個(gè)跑模型、分析結(jié)果、修改數(shù)據(jù)集/模型的迭代式過程。學(xué)習(xí)是其中最快的部分，但這取決于我們已經(jīng)可以熟練運(yùn)用它！特征工程因?yàn)獒槍?duì)特定的領(lǐng)域，所以很難做，而模型架構(gòu)的適用范圍更廣泛。但是，這二者之間并沒有清晰的界線，這通常可以解釋那些整合了領(lǐng)域知識(shí)的模型具有更好的性能。

08 記住：數(shù)據(jù)量比算法還重要

在計(jì)算機(jī)科學(xué)的大多數(shù)領(lǐng)域，時(shí)間和內(nèi)存是兩大緊缺資源。但在機(jī)器學(xué)習(xí)中，數(shù)據(jù)集儼然是第三個(gè)緊缺資源。隨著時(shí)間的推移，瓶頸之爭也在不斷改變。在 20 世紀(jì) 80 年代，數(shù)據(jù)通常是瓶頸。而如今時(shí)間更為寶貴。我們今天有海量的數(shù)據(jù)可用，但是卻沒有充足的時(shí)間去處理它，這些數(shù)據(jù)因此被擱置。

這就產(chǎn)生了一個(gè)悖論：即使在原則上講，大量的數(shù)據(jù)意味著可以學(xué)習(xí)到更復(fù)雜的分類器，但在實(shí)踐中，我們往往采用更簡單的分類器，因?yàn)閺?fù)雜的分類器意味著更長的訓(xùn)練時(shí)間。部分解決方案是提出可以快速學(xué)習(xí)到復(fù)雜分類器的方法，且今天在這一方向上確實(shí)取得了顯著的進(jìn)展。

使用更智能的算法的收益不如期望的部分原因是，第一次取近似值時(shí)，它跟其它算法無異。當(dāng)你認(rèn)為表征方式之間的區(qū)別與規(guī)則、神經(jīng)網(wǎng)絡(luò)之間的區(qū)別類似時(shí)，這會(huì)讓你驚訝。但事實(shí)是，命題規(guī)則可以輕易地編碼進(jìn)神經(jīng)網(wǎng)絡(luò)，并且其它的表征方式之間也有類似的關(guān)系。模型本質(zhì)上都是通過將近鄰樣本分到相同的類別而實(shí)現(xiàn)的，關(guān)鍵差異在于「近鄰」的含義。

對(duì)于非均勻分布的數(shù)據(jù)，模型可以產(chǎn)生廣泛不同的邊界，同時(shí)在重要的區(qū)域（具有大量訓(xùn)練樣例的區(qū)域，因此也是大多數(shù)文本樣例可能出現(xiàn)的區(qū)域）中產(chǎn)生相同的預(yù)測。這也能解釋為什么強(qiáng)大的模型可能是不穩(wěn)定的但仍然很準(zhǔn)確。

一般來說，我們首先要考慮最簡單的模型（例如，先考慮樸素貝葉斯而非 logistic 回歸，先考慮 K-近鄰而非支持向量機(jī)）。模型越復(fù)雜越誘人，但是它們通常很難使用，因?yàn)槟阈枰{(diào)整很多的節(jié)點(diǎn)以獲得好的結(jié)果，同時(shí)，它們的內(nèi)部構(gòu)造極其不透明。

模型可以分為兩種主要類型：一種是規(guī)模固定的模型，例如線性分類器，另一種是表征能力隨數(shù)據(jù)集增強(qiáng)的模型，例如決策樹。固定規(guī)模的模型只能利用有限的數(shù)據(jù)。規(guī)?？勺兊哪Ｐ屠碚撋峡梢詳M合任何函數(shù)，只要有足夠大的數(shù)據(jù)集，但是現(xiàn)實(shí)很骨感，總存在算法的局限性或計(jì)算成本。而且，由于維度災(zāi)難，現(xiàn)有的數(shù)據(jù)集可能不夠。鑒于這些原因，更智能的算法—那些充分利用數(shù)據(jù)和計(jì)算資源的算法--如果你愿意努力去調(diào)試，最終會(huì)得到好的結(jié)果。

在設(shè)計(jì)模型與學(xué)習(xí)分類器之間并沒有十分清晰的界線；但是，任何給定的知識(shí)點(diǎn)都可以編碼進(jìn)模型或從數(shù)據(jù)中學(xué)習(xí)到。因此，模型設(shè)計(jì)往往是機(jī)器學(xué)習(xí)項(xiàng)目中的重要組成部分，設(shè)計(jì)者最好擁有相關(guān)專業(yè)背景。

09 “單模型”很難實(shí)現(xiàn)最優(yōu)，“多模型集成”才是出路

在機(jī)器學(xué)習(xí)發(fā)展的早期，大家都有各自喜愛的模型，用一些先驗(yàn)的理由說明它的優(yōu)越性。研究員對(duì)模型開發(fā)了大量的變體并從中挑選一個(gè)最優(yōu)的模型。隨后，系統(tǒng)的經(jīng)驗(yàn)比較表明，最好的模型隨應(yīng)用的改變而改變，開始出現(xiàn)了包含許多不同模型的系統(tǒng)。

現(xiàn)在的研究開始嘗試調(diào)試多個(gè)模型的不同變體，然后挑選表現(xiàn)最好的那一個(gè)。但研究人員開始注意到，不選擇找到的最佳變體，而是結(jié)合多個(gè)變體，卻得到了更好的結(jié)果（通常會(huì)好很多），而且這沒有增加工作量。

現(xiàn)在，模型集成已經(jīng)是標(biāo)準(zhǔn)方法。其中最簡單的技術(shù)叫 bagging 算法，我們僅通過重采樣來生成訓(xùn)練數(shù)據(jù)集的隨機(jī)變體，再基于這些變體分別學(xué)習(xí)分類器，并通過投票整合這些分類器的結(jié)果。此法的可行性在于它大幅減少了方差，且只微微提升了一點(diǎn)偏差。

在 boosting 算法中，訓(xùn)練樣例有權(quán)重，而且這些權(quán)重各不相同，因此每個(gè)新分類器都把重點(diǎn)放在前面的模型會(huì)出錯(cuò)的樣例上。在 stacking 算法中，每個(gè)單獨(dú)的分類器的輸出作為「高層」模型的輸入，這些高層模型會(huì)以最佳方式組合這些模型。

還有很多其它的方法，就不一一列舉了，但是總的趨勢(shì)是規(guī)模越來越大的集成學(xué)習(xí)。在 Netflix 的獎(jiǎng)金激勵(lì)下，全世界的團(tuán)隊(duì)致力于構(gòu)建最佳視頻推薦系統(tǒng)。隨著競賽的推進(jìn)，競賽團(tuán)隊(duì)發(fā)現(xiàn)通過結(jié)合其它團(tuán)隊(duì)的模型可以獲得最佳結(jié)果，同時(shí)這也促進(jìn)團(tuán)隊(duì)的合并。冠軍和亞軍模型都是由 100 多個(gè)小模型組成的集成模型，兩個(gè)集成模型相結(jié)合可進(jìn)一步提高成績。毫無疑問，將來還會(huì)出現(xiàn)更大的集成模型。

10 “簡單”不能代表是“準(zhǔn)確”

奧卡姆剃刀原理指出，如無必要，勿增實(shí)體。在機(jī)器學(xué)習(xí)中，這通常意味著，給定兩個(gè)具有相同訓(xùn)練誤差的分類器，兩者中較簡單的分類器可能具有最低的評(píng)估誤差。關(guān)于這一說法的佐證在文獻(xiàn)中隨處可見，但實(shí)際上有很多反例用來反駁它，「沒有免費(fèi)午餐」定理質(zhì)疑它的真實(shí)性。

我們?cè)谇拔闹幸部吹搅艘粋€(gè)反例：集成模型。即使訓(xùn)練誤差已經(jīng)達(dá)到零，通過增加分類器，增強(qiáng)集成模型的泛化誤差仍然可以繼續(xù)減少。因此，與直覺相悖，模型的參數(shù)數(shù)量與其過擬合趨勢(shì)并沒有必然的聯(lián)系。

一個(gè)巧妙的觀點(diǎn)是將模型復(fù)雜性等同于假設(shè)空間的大小，因?yàn)檩^小的空間允許用較短的編碼表征假設(shè)。類似理論保證部分中的界限可能被理解成較短的假設(shè)編碼有更好的泛化能力。通過在有先驗(yàn)偏好的空間中對(duì)假設(shè)進(jìn)行較短的編碼，我們可以進(jìn)一步細(xì)化這一點(diǎn)。

但是把這看作準(zhǔn)確率和簡單性之間的權(quán)衡的證明則是循環(huán)論證：我們通過設(shè)計(jì)使偏愛的假設(shè)更簡單，如果它們準(zhǔn)確率不錯(cuò)，那是因?yàn)槠珢奂僭O(shè)的正確，而不是因?yàn)樵谔囟ū碚飨录僭O(shè)的「簡單」。

11 “可表征”并不代表“可學(xué)習(xí)”

所有運(yùn)用于非固定規(guī)模的模型表征實(shí)際上都有「任意函數(shù)都可以使用該表征來表示或無限逼近」之類的相關(guān)定理。這使得某表征方法的偏好者常常會(huì)忽略其它要素。然而，僅憑可表征性并不意味著模型可以學(xué)習(xí)。例如，葉節(jié)點(diǎn)多于訓(xùn)練樣本的決策樹模型就不會(huì)學(xué)習(xí)。在連續(xù)的空間中，通常使用一組固定的原語表征很簡單的函數(shù)都需要無限的分量。

進(jìn)一步講，如果評(píng)估函數(shù)在假設(shè)空間有很多局部最優(yōu)點(diǎn)（這很常見），模型可能就找不到最優(yōu)的函數(shù)，即使它是可表征的。給定有限的數(shù)據(jù)、時(shí)間及存儲(chǔ)空間，標(biāo)準(zhǔn)的模型只能學(xué)到所有可能函數(shù)集的一個(gè)很小的子集，且這個(gè)子集隨所選的表征方法的不同而不同。因此，關(guān)鍵問題不在「模型是否可表示」，而「模型是否可學(xué)習(xí)」以及嘗試不同的模型（甚至是集成模型）是很重要的。

12 “相關(guān)性”并非就是“因果關(guān)系”

相關(guān)性并不意味著因果關(guān)系這一點(diǎn)被頻繁提起，以至于都不值得再批評(píng)。但是，我們討論的某類模型可能只學(xué)習(xí)相關(guān)性，但是它們的結(jié)果通常被看作是表征因果關(guān)系。有問題嗎？如果有，那么大家為何還這么做？

通常是不對(duì)的，預(yù)測模型學(xué)習(xí)的目標(biāo)是用它們作為行動(dòng)的指南。當(dāng)發(fā)現(xiàn)人們?cè)谫I啤酒的時(shí)候也會(huì)買紙尿布，那么把啤酒放在紙尿布旁邊或許會(huì)提高銷量。

但如果不實(shí)際進(jìn)行實(shí)驗(yàn)則很難驗(yàn)證。機(jī)器學(xué)習(xí)通常用于處理觀測數(shù)據(jù)，其中預(yù)測變量不受模型的控制，和實(shí)驗(yàn)數(shù)據(jù)相反（可控的）。一些學(xué)習(xí)算法也許可以通過觀測數(shù)據(jù)挖掘潛在的因果關(guān)系，但是實(shí)用性很差。另一方面，相關(guān)性只是潛在的因果關(guān)系的標(biāo)識(shí)，我們可以用它指導(dǎo)進(jìn)一步的研究。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

計(jì)算機(jī)科學(xué)

計(jì)算機(jī)科學(xué)

+關(guān)注

關(guān)注
1

文章
144

瀏覽量
11541
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8490

瀏覽量
134029

原文標(biāo)題：機(jī)器學(xué)習(xí)難嗎？這12大經(jīng)驗(yàn)總結(jié)，讓你瞬間理解機(jī)器學(xué)習(xí)

文章出處：【微信號(hào)：Imgtec，微信公眾號(hào)：Imagination Tech】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

搜索歷史

機(jī)器學(xué)習(xí)的12大經(jīng)驗(yàn)總結(jié)

評(píng)論

電子發(fā)燒友