您好,歡迎來電子發(fā)燒友網! ,新用戶?[免費注冊]

您的位置:電子發(fā)燒友網>源碼下載>數值算法/人工智能>

一種基于Spark框架的并行FP-Growth挖掘算法

大?。?/span>0.64 MB 人氣: 2017-11-17 需要積分:0

  Apriori和FPGrowth算法是頻繁模式挖掘中的經典算法,由于Apriori存在更多缺陷,因此FPGrowth是單機計算環(huán)境下比較高效的算法。然而,對于非并行計算在大數據時代遇到的瓶頸,提出一種基于事務中項間聯通權重矩陣的負載平衡并行頻繁模式增長算法CWBPFP。算法在Spark框架上實現并行計算,數據分組時利用負載均衡策略,存入分組的數據是相應頻繁項的編碼。每個工作節(jié)點將分組數據中每一個事物中項的聯通信息存入一個下三角聯通權重矩陣中,使用被約束子樹來加快每個工作節(jié)點挖掘頻繁模式時創(chuàng)建條件FPtree的速度,再用聯通權重矩陣避免每次挖掘分組中頻繁模式時對條件模式基的第一次掃描。由于聯通權重矩陣和被約束子樹的結合應用于每一個工作節(jié)點的FPtree挖掘過程,因此提升了并行挖掘FPtree性能。通過實驗表明,所提出的并行算法對大的數據有較高性能和可擴展性。
?

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關規(guī)定!

      ?