導(dǎo)讀
基于樹的模型和神經(jīng)網(wǎng)絡(luò)其實(shí)并沒有太多的不同。
神經(jīng)網(wǎng)絡(luò)通常被認(rèn)為是機(jī)器學(xué)習(xí)的圣杯,無所不知,解決一切問題,主要是因?yàn)樗鼈兒軓?fù)雜。另一方面,基于樹的方法并沒有被同樣的敬畏和炒作,主要是因?yàn)樗鼈兛雌饋砗芎唵?。雖然它們看起來如此不同,但它們只是一枚硬幣的兩面。
基于樹的方法通常比神經(jīng)網(wǎng)絡(luò)更好。任何Kaggler都知道XGBoost是到目前為止最受歡迎的最佳競賽提交選擇。本質(zhì)上,基于樹的方法和神經(jīng)網(wǎng)絡(luò)之所以屬于同一類,是因?yàn)樗鼈兪峭ㄟ^逐條分解來解決問題的,而不是像支持向量機(jī)(SVM)或邏輯回歸(Logistic Regression)那樣,通過尋找一個(gè)復(fù)雜的邊界來分離整個(gè)數(shù)據(jù)集。
很明顯,基于樹的方法沿著不同的特征逐步分割特征空間以優(yōu)化信息增益。不太明顯的是,神經(jīng)網(wǎng)絡(luò)在處理這一任務(wù)時(shí)也是類似的。每個(gè)神經(jīng)元監(jiān)視特征空間的特定部分(有各種重疊)。如果一個(gè)輸入落到那個(gè)空間,某些神經(jīng)元就會被激活。
神經(jīng)網(wǎng)絡(luò)采用概率的觀點(diǎn)來進(jìn)行逐塊模型擬合,而樹則采用確定性的觀點(diǎn)。無論如何,它們的性能都依賴于模型的深度,因?yàn)樗鼈兊慕M件與特征空間的部分相關(guān)。
一個(gè)包含太多組件的模型 —— 樹是節(jié)點(diǎn),網(wǎng)絡(luò)是神經(jīng)元——會過擬合,而組件太少的模型根本無法給出有意義的預(yù)測。(兩者都開始記憶數(shù)據(jù)點(diǎn),而不是學(xué)習(xí)歸納。)
關(guān)于神經(jīng)網(wǎng)絡(luò)如何分割特征空間的更多直覺,請看一般性逼近定理。
盡管決策樹有許多強(qiáng)大的變種,如隨機(jī)森林、梯度提升、自適應(yīng)提升和深度森林,但通常基于樹的方法本質(zhì)上是神經(jīng)網(wǎng)絡(luò)的簡化版本。
基于樹的方法通過垂直和水平分割逐條處理問題,以最小化熵(優(yōu)化器和損失)。神經(jīng)網(wǎng)絡(luò)通過操縱激活函數(shù)的形狀來逐步解決這個(gè)問題。
基于樹的方法是確定性的,而不是概率性的。這導(dǎo)致了一些很好的簡化,比如自動特性選擇。
在決策樹中被激活的條件節(jié)點(diǎn)類似于被激活的神經(jīng)元(信息流)。
神經(jīng)網(wǎng)絡(luò)擬合參數(shù)對輸入進(jìn)行變換,直接或間接的激活后續(xù)的神經(jīng)元。決策樹顯式地?cái)M合參數(shù)來引導(dǎo)信息流。(這是確定性而非概率性的結(jié)果。)
信息在這兩個(gè)模型中類似地流動,只是在樹中以更簡單的方式流動。
當(dāng)然,這是一個(gè)抽象的甚至是有爭議的主張。建立這種聯(lián)系有許多心理障礙。無論如何,這對于理解基于樹的方法何時(shí)以及為什么比神經(jīng)網(wǎng)絡(luò)更好是很重要的。
表格數(shù)據(jù),或以表形式出現(xiàn)的結(jié)構(gòu)化數(shù)據(jù),對于決策樹來說是很自然的。大多數(shù)人都同意,神經(jīng)網(wǎng)絡(luò)對于表格數(shù)據(jù)回歸和預(yù)測來說是多余的,所以我們做了一些簡化。我們選擇1和0,而不是概率,這是兩種算法差異的主要根源。因此,樹可以在不需要概率的細(xì)微差別的情況下成功,比如結(jié)構(gòu)化數(shù)據(jù)。
例如,基于樹的方法在MNIST數(shù)據(jù)集上執(zhí)行得很好,因?yàn)槊總€(gè)數(shù)字都有幾個(gè)可定義的特征。概率不是一個(gè)必要的計(jì)算。這根本不是一個(gè)非常復(fù)雜的問題,這就是為什么精心設(shè)計(jì)的集成樹可以達(dá)到相同的水平,甚至比現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)更好。
通常,人們會傾向于說“樹只是記住規(guī)則”,這是正確的。這與神經(jīng)網(wǎng)絡(luò)是一樣的,它記憶更復(fù)雜的,基于概率的規(guī)則。神經(jīng)網(wǎng)絡(luò)不會對x》3這樣的條件顯式地給出真/假,而是將輸入放大到一個(gè)很高的值,以產(chǎn)生一個(gè)s型的1的值或產(chǎn)生一些連續(xù)的表達(dá)式。
另一方面,由于神經(jīng)網(wǎng)絡(luò)非常復(fù)雜,有很多事情可以用它們來做。卷積層和遞歸層都是神經(jīng)網(wǎng)絡(luò)出色的變體,它們工作得很好,因?yàn)樗鼈兲幚淼臄?shù)據(jù)通常需要細(xì)微的概率計(jì)算。
很少有圖像可以用1和0來建模。決策樹值不能處理有許多中間值的數(shù)據(jù)集(例如0.5),這就是為什么它在像素值幾乎都是黑色或白色的MNIST上工作得很好。類似地,文本有太多的信息和太多的異常,只能用確定性術(shù)語來表示。
這也是神經(jīng)網(wǎng)絡(luò)主要用于這些領(lǐng)域的原因,也是神經(jīng)網(wǎng)絡(luò)研究在早期(21世紀(jì)初)由于無法獲得大量圖像和文本數(shù)據(jù)而停滯不前的原因。神經(jīng)網(wǎng)絡(luò)的其他常見用途僅限于大量預(yù)測,比如YouTube的視頻推薦算法,其規(guī)模如此之大,必須涉及到概率。
去公司的任何一個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)看看,他們很可能使用的是基于樹的模型,而不是神經(jīng)網(wǎng)絡(luò)。除非他們是在構(gòu)建一個(gè)重量級的模型,比如在Zoom中模糊視頻的背景,樹的確定性本質(zhì)使得日常的分類任務(wù)變得輕量級,使用與神經(jīng)網(wǎng)絡(luò)相同的一般方法。
在許多現(xiàn)實(shí)世界中,確定性建模比概率建模更自然,這也是有爭議的。例如,用樹來預(yù)測用戶是否從電子商務(wù)網(wǎng)站購買商品的一個(gè)很好的選擇,因?yàn)橛脩糇匀粫裱粋€(gè)基于規(guī)則的決策過程。它可能看起來是這樣的:
我以前在這個(gè)平臺上有過愉快的經(jīng)歷嗎?如果是,繼續(xù)。
我現(xiàn)在需要這件物品嗎?冬天我應(yīng)該買太陽鏡和泳褲嗎?如果是,繼續(xù)。
根據(jù)我的人口統(tǒng)計(jì)數(shù)據(jù),這是一個(gè)我有興趣購買的產(chǎn)品嗎?如果是,繼續(xù)。
這件東西太貴了嗎?如果不是,繼續(xù)。
其他顧客對這個(gè)產(chǎn)品的評價(jià)是否達(dá)到了一定的臨界值,使我覺得可以放心地購買它?如果是,繼續(xù)。
一般來說,人類遵循非常基于規(guī)則和結(jié)構(gòu)化的決策制定過程。在這些情況下,概率建模是不必要的。
總之,
基于樹的方法最好被認(rèn)為是神經(jīng)網(wǎng)絡(luò)的縮小版本,用更簡單的術(shù)語來接近特征分類、優(yōu)化、信息流等。
基于樹的方法和神經(jīng)網(wǎng)絡(luò)在使用上的主要區(qū)別在于數(shù)據(jù)的確定性(0/1)和概率結(jié)構(gòu)。結(jié)構(gòu)化(表格)數(shù)據(jù)始終用確定性模型可以更好地建模。
不要低估基于樹的方法的能力。
責(zé)編AJX
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100779 -
模型
+關(guān)注
關(guān)注
1文章
3244瀏覽量
48849 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8418瀏覽量
132656
發(fā)布評論請先 登錄
相關(guān)推薦
評論