海量嘈雜數(shù)據(jù)決策樹算法
大小:0.73 MB 人氣: 2018-01-13 需要積分:2
標(biāo)簽:決策樹(13474)
針對當(dāng)前決策樹算法較少考慮訓(xùn)練集的嘈雜程度對模型的影響,以及傳統(tǒng)駐留內(nèi)存算法處理海量數(shù)據(jù)困難的問題,提出一種基于Hadoop平臺的不確定概率C4.5算法-IP-C4.5算法。在訓(xùn)練模型時,IP-C4.5算法認(rèn)為用于建樹的訓(xùn)練集是不可靠的,通過用基于不確定概率的信息增益率作為分裂屬性選擇標(biāo)準(zhǔn),減小了訓(xùn)練集的嘈雜性對模型的影響。在Hadoop平臺下,通過將IP-C4.5算法以文件分裂的方式進(jìn)行MapReduce化程序設(shè)計,增強(qiáng)了處理海量數(shù)據(jù)的能力。與C4.5和完全信條樹(CCDT)算法的對比實驗結(jié)果表明,在訓(xùn)練集數(shù)據(jù)是嘈雜的情況下,IP-C4.5算法的準(zhǔn)確率相對更高,尤其當(dāng)數(shù)據(jù)嘈雜度大于10%時,表現(xiàn)更加優(yōu)秀;并且基于Hadoop的并行化的IP-C4.5算法具有處理海量數(shù)據(jù)的能力。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
海量嘈雜數(shù)據(jù)決策樹算法下載
相關(guān)電子資料下載
- 深入探討機(jī)器學(xué)習(xí)的可視化技術(shù) 191
- 深度解析機(jī)器學(xué)習(xí)各大模型原理 1144
- 什么是隨機(jī)森林?隨機(jī)森林的工作原理 1851
- 機(jī)器學(xué)習(xí)基礎(chǔ)知識全攻略 126
- 決策樹:技術(shù)全解與案例實戰(zhàn) 762
- 一種基于決策樹的飛機(jī)級故障診斷建模方法研究 739
- 基于粗糙集聯(lián)合決策樹法的智能變電站遠(yuǎn)程調(diào)度管理優(yōu)化 392
- 數(shù)據(jù)挖掘十大算法 2071
- 常見的機(jī)器學(xué)習(xí)算法及其應(yīng)用場景 622
- 為什么GBDT用回歸樹不用分類樹?CART決策樹是怎么計算基尼值呢? 1396