不管你是機器學(xué)習(xí)的初學(xué)者,還是中級程序員,你都可能此問題感到困惑。如何建立備忘單?從本文中你能學(xué)到什么?
在機器學(xué)習(xí)中,沒有任何一種方案可以解決所有問題。由于算法種類繁多,很難找出正確的算法來解決問題。
不過無需擔心,在本文中,我們將介紹如何使用備忘單簡化機器學(xué)習(xí)方法,你可以使用該備忘單選擇適合解決問題的正確算法。
以下為備忘單-你需要了解機器學(xué)習(xí)的技巧。
備忘單使用指南
選擇算法時需要考慮的因素
有幾個因素會影響你的選擇。有一些問題較為特殊,需要專門的方法解決。例如,推薦系統(tǒng)可用于解決此類問題。雖然某些類型的問題是開放的,但它們需要反復(fù)試驗、排除錯誤。監(jiān)督學(xué)習(xí)、分類和回歸是解決開放類問題的方案。
你想對數(shù)據(jù)執(zhí)行什么操作—分類、回歸還是聚類?
大小:在選擇算法時,數(shù)據(jù)集的大?。o論大小)很重要。
質(zhì)量:你的數(shù)據(jù)集中有多少變化,數(shù)據(jù)集是否平衡。
數(shù)據(jù)性質(zhì):我們是否標記了數(shù)據(jù)?模型的輸入和輸出如何表示?
時間可用性:你需要花費多少時間來構(gòu)建和訓(xùn)練模型。某些模型可以更快地構(gòu)建,但準確性會遜色一些。
速度或準確性:對于可用于生產(chǎn)的模型,你可能對準確性有較高的要求,但有時計算速度更快的快速工作模型就可以滿足你的需求。
若想使用備忘單,你只需查看圖表上的選擇標簽,然后移向回答問題的箭頭。例如:
如果你想減少維度數(shù)量并且不需要主題建模,請使用PCA。
如果要預(yù)測某個變量的數(shù)值,且需要較高的準確性,則應(yīng)嘗試使用“隨機森林”、“神經(jīng)網(wǎng)絡(luò)”或“梯度提升”樹。
如果你沒有標記數(shù)據(jù)并想執(zhí)行聚類,則可以使用k-近鄰聚類算法。
選擇正確的算法
值得一提的是,即使是經(jīng)驗豐富的數(shù)據(jù)科學(xué)家也無法在不嘗試其他算法的情況下分辨出哪種算法效果最好。條條大路通羅馬,該備忘單可能不是解決問題的唯一方法。該備忘單僅希望為你提供基于已知因素可以使用哪些算法的指導(dǎo)。
機器學(xué)習(xí)算法的類型
來源:zhihu
1. 監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)算法即對操作的直接監(jiān)督。我們使用數(shù)據(jù)來教導(dǎo)或訓(xùn)練機器,這意味著數(shù)據(jù)被標記了正確的答案。使用一種算法來分析訓(xùn)練數(shù)據(jù)并獲得輸入與輸出映射的功能。然后,可以根據(jù)訓(xùn)練數(shù)據(jù)進行概括,使用該函數(shù)來預(yù)測未知輸入的輸出。監(jiān)督學(xué)習(xí)基本上用于以下兩種類型的問題。
分類:在分類問題中,你需要找到輸入數(shù)據(jù)的類別。例如,將圖像分類為“狗”或“貓”。
回歸:在回歸問題中,輸出為實數(shù)值。請嘗試根據(jù)輸入來預(yù)測變量的值。
2. 半監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)需要使用已標記的數(shù)據(jù),如果其他人沒有從事類似項目,則要查找或生成這些數(shù)據(jù)可能會很困難。在半監(jiān)督方法中,我們將某些標記數(shù)據(jù)與未標記數(shù)據(jù)一起使用。
如你所見,數(shù)據(jù)沒有完全標記,這就是將其稱為半監(jiān)督學(xué)習(xí)的原因。通過將標記數(shù)據(jù)與未標記數(shù)據(jù)結(jié)合使用,可以提高模型的準確性。
3. 無監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)應(yīng)用于未標記的數(shù)據(jù)。機器必須在沒有任何監(jiān)督的情況下找出數(shù)據(jù)中的模式、異同之處,執(zhí)行聚類并減少維數(shù)。
集群:根據(jù)一些標準和相似性,數(shù)據(jù)被分組為一個或多個集群。例如,根據(jù)客戶的購買行為對其進行分組。
降維:某些數(shù)據(jù)的特征或維度可能并不用于模型訓(xùn)練。使用某些算法,我們可以避免考慮維度和不相關(guān)的特征。此過程稱為降維。
4. 強化學(xué)習(xí)
強化學(xué)習(xí)能夠根據(jù)環(huán)境的反饋來優(yōu)化代理。當機器做出正確的決定并對其錯誤的決定進行懲罰時,代理商會對其給予獎勵。這項學(xué)習(xí)不需要我們事先收集數(shù)據(jù)再清理數(shù)據(jù)。該系統(tǒng)可自我維持,嘗試在現(xiàn)實世界中自我完善?;趶娀瘜W(xué)習(xí)的計算機程序AlphaGO擊敗了世界上最厲害的圍棋選手。
尾注
來源:Pexels
機器學(xué)習(xí)問題可以通過多種方式解決,你可以根據(jù)多種因素選擇算法,例如準確性、客觀性、數(shù)據(jù)大小和數(shù)據(jù)性質(zhì)。你也可以參考備忘單,并快速開始構(gòu)建模型。一旦解決了問題并獲得了結(jié)果,就可以進一步探索不同的算法,以找出最適合該特定問題的最佳算法。
評論