您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費注冊]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

海量嘈雜數(shù)據(jù)決策樹算法

大小:0.73 MB 人氣: 2018-01-13 需要積分:2

  針對當(dāng)前決策樹算法較少考慮訓(xùn)練集的嘈雜程度對模型的影響,以及傳統(tǒng)駐留內(nèi)存算法處理海量數(shù)據(jù)困難的問題,提出一種基于Hadoop平臺的不確定概率C4.5算法-IP-C4.5算法。在訓(xùn)練模型時,IP-C4.5算法認(rèn)為用于建樹的訓(xùn)練集是不可靠的,通過用基于不確定概率的信息增益率作為分裂屬性選擇標(biāo)準(zhǔn),減小了訓(xùn)練集的嘈雜性對模型的影響。在Hadoop平臺下,通過將IP-C4.5算法以文件分裂的方式進(jìn)行MapReduce化程序設(shè)計,增強(qiáng)了處理海量數(shù)據(jù)的能力。與C4.5和完全信條樹(CCDT)算法的對比實驗結(jié)果表明,在訓(xùn)練集數(shù)據(jù)是嘈雜的情況下,IP-C4.5算法的準(zhǔn)確率相對更高,尤其當(dāng)數(shù)據(jù)嘈雜度大于10%時,表現(xiàn)更加優(yōu)秀;并且基于Hadoop的并行化的IP-C4.5算法具有處理海量數(shù)據(jù)的能力。

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關(guān)規(guī)定!

      ?