大數(shù)據(jù)————決策樹(shù)(decision tree)
決策樹(shù)(decision tree):是一種基本的分類與回歸方法,主要討論分類的決策樹(shù)。
在分類問(wèn)題中,表示基于特征對(duì)實(shí)例進(jìn)行分類的過(guò)程,可以認(rèn)為是if-then的集合,也可以認(rèn)為是定義在特征空間與類空間上的條件概率分布。
決策樹(shù)通常有三個(gè)步驟:特征選擇、決策樹(shù)的生成、決策樹(shù)的修剪。
用決策樹(shù)分類:從根節(jié)點(diǎn)開(kāi)始,對(duì)實(shí)例的某一特征進(jìn)行測(cè)試,根據(jù)測(cè)試結(jié)果將實(shí)例分配到其子節(jié)點(diǎn),此時(shí)每個(gè)子節(jié)點(diǎn)對(duì)應(yīng)著該特征的一個(gè)取值,如此遞歸的對(duì)實(shí)例進(jìn)行測(cè)試并分配,直到到達(dá)葉節(jié)點(diǎn),最后將實(shí)例分到葉節(jié)點(diǎn)的類中。
決策樹(shù)學(xué)習(xí)的目標(biāo):根據(jù)給定的訓(xùn)練數(shù)據(jù)集構(gòu)建一個(gè)決策樹(shù)模型,使它能夠?qū)?shí)例進(jìn)行正確的分類。
決策樹(shù)學(xué)習(xí)的本質(zhì):從訓(xùn)練集中歸納出一組分類規(guī)則,或者說(shuō)是由訓(xùn)練數(shù)據(jù)集估計(jì)條件概率模型。
決策樹(shù)學(xué)習(xí)的損失函數(shù):正則化的極大似然函數(shù)
決策樹(shù)學(xué)習(xí)的測(cè)試:最小化損失函數(shù)
決策樹(shù)學(xué)習(xí)的目標(biāo):在損失函數(shù)的意義下,選擇最優(yōu)決策樹(shù)的問(wèn)題。
數(shù)據(jù)挖掘中決策樹(shù)是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來(lái)作預(yù)測(cè)。一個(gè)決策樹(shù)包含三種類型的節(jié)點(diǎn):
決策節(jié)點(diǎn):通常用矩形框來(lái)表示
機(jī)會(huì)節(jié)點(diǎn):通常用圓圈來(lái)表示
終結(jié)點(diǎn):通常用三角形來(lái)表示
剪枝是決策樹(shù)停止分支的方法之一,剪枝有分預(yù)先剪枝和后剪枝兩種。預(yù)先剪枝是在樹(shù)的生長(zhǎng)過(guò)程中設(shè)定一個(gè)指標(biāo),當(dāng)達(dá)到該指標(biāo)時(shí)就停止生長(zhǎng),這樣做容易產(chǎn)生“視界局限”,就是一旦停止分支,使得節(jié)點(diǎn)N成為葉節(jié)點(diǎn),就斷絕了其后繼節(jié)點(diǎn)進(jìn)行“好”的分支操作的任何可能性。不嚴(yán)格的說(shuō)這些已停止的分支會(huì)誤導(dǎo)學(xué)習(xí)算法,導(dǎo)致產(chǎn)生的樹(shù)不純度降差最大的地方過(guò)分靠近根節(jié)點(diǎn)。后剪枝中樹(shù)首先要充分生長(zhǎng),直到葉節(jié)點(diǎn)都有最小的不純度值為止,因而可以克服“視界局限”。然后對(duì)所有相鄰的成對(duì)葉節(jié)點(diǎn)考慮是否消去它們,如果消去能引起令人滿意的不純度增長(zhǎng),那么執(zhí)行消去,并令它們的公共父節(jié)點(diǎn)成為新的葉節(jié)點(diǎn)。這種“合并”葉節(jié)點(diǎn)的做法和節(jié)點(diǎn)分支的過(guò)程恰好相反,經(jīng)過(guò)剪枝后葉節(jié)點(diǎn)常常會(huì)分布在很寬的層次上,樹(shù)也變得非平衡。后剪枝技術(shù)的優(yōu)點(diǎn)是克服了“視界局限”效應(yīng),而且無(wú)需保留部分樣本用于交叉驗(yàn)證,所以可以充分利用全部訓(xùn)練集的信息。但后剪枝的計(jì)算量代價(jià)比預(yù)剪枝方法大得多,特別是在大樣本集中,不過(guò)對(duì)于小樣本的情況,后剪枝方法還是優(yōu)于預(yù)剪枝方法的。
大數(shù)據(jù)知識(shí)點(diǎn):
一、大數(shù)據(jù)概述:1.大數(shù)據(jù)及特點(diǎn)分析;2.大數(shù)據(jù)關(guān)健技術(shù);3.大數(shù)據(jù)計(jì)算模式;4.大數(shù)據(jù)應(yīng)用實(shí)例
二、大數(shù)據(jù)處理架構(gòu)Hadoop:1.Hadoop項(xiàng)目結(jié)構(gòu);2.Hadoop安裝與使用;3.Hadoop集群的部署與使用;4.Hadoop 代表性組件
三、分布式文件系統(tǒng)HDFS :1.HDFS體系結(jié)構(gòu);2.HDFS存儲(chǔ);3.HDFS數(shù)據(jù)讀寫(xiě)過(guò)程
四、分布式數(shù)據(jù)庫(kù)HBase :1.HBase訪問(wèn)接口;2.HBase數(shù)據(jù)類型;3.HBase實(shí)現(xiàn)原理;4.HBase運(yùn)行機(jī)制;5.HBase應(yīng)用
五、MapReduce :1.MapReduce體系結(jié)構(gòu);2.MapReduce工作流程;3.資源管理調(diào)度框架YARN ;4.MapReduce應(yīng)用
六、Spark :1.Spark生態(tài)與運(yùn)行架構(gòu);2.Spark SQL;3.Spark部署與應(yīng)用方式
七、IPython Notebook運(yùn)行Python Spark程序:1.Anaconda;2.IPython Notebook使用Spark;3.使用IPython Notebook在Hadoop YARN模式運(yùn)行
八、Python Spark集成開(kāi)發(fā)環(huán)境 :1.Python Spark集成開(kāi)發(fā)環(huán)境部署配置;2.Spark數(shù)據(jù)分析庫(kù)MLlib的開(kāi)發(fā)部署
九、Python Spark決策樹(shù)二分類與多分類 :1.決策樹(shù)原理;2.大數(shù)據(jù)問(wèn)題;3.決策樹(shù)二分類;4.決策樹(shù)多分類
十、Python Spark支持向量機(jī) :1.支持向量機(jī)SVM 原理與算法;2.Python Spark SVM程序設(shè)計(jì)
十一、Python Spark 貝葉斯模型 :1.樸素貝葉斯模型原理;2.Python Spark貝葉斯模型程序設(shè)計(jì)
十二、Python Spark邏輯回歸 :1.邏輯回歸原理;2.Python Spark邏輯回歸程序設(shè)計(jì)
十三、Python Spark回歸分析 :1.大數(shù)據(jù)分析;2.數(shù)據(jù)集介紹;3.Python Spark回歸程序設(shè)計(jì)
十四、Spark ML Pipeline 機(jī)器學(xué)習(xí)流程分類 :1.機(jī)器學(xué)習(xí)流程組件:StringIndexer、OneHotEncoder、VectorAssembler等
2.使用Spark ML Pipeline 機(jī)器學(xué)習(xí)流程分類程序設(shè)計(jì)
十五、Python Spark 創(chuàng)建推薦引擎 :1.推薦算法;2.推薦引擎大數(shù)據(jù)分析使用場(chǎng)景;3.推薦引擎設(shè)計(jì)
十六、項(xiàng)目實(shí)踐:1.日志分析系統(tǒng)與日志挖掘項(xiàng)目實(shí)踐;2.推薦系統(tǒng)項(xiàng)目實(shí)踐
審核編輯 黃昊宇
-
決策樹(shù)
+關(guān)注
關(guān)注
3文章
96瀏覽量
13552 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8889瀏覽量
137444
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論