資料介紹
提出了一種多密度網(wǎng)格聚類算法GDD。該算法主要采用密度閾值遞減的多階段聚類技術提取不同密
度的聚類,使用邊界點處理技術提高聚類精度,同時對聚類結(jié)果進行了人工干預。GDD 算法只要求
對數(shù)據(jù)集進行一遍掃描。實驗表明,該算法可擴展性好,能處理任意形狀和大小的聚類,能夠很好
的識別出孤立點或噪聲,在處理多密度聚類方面有很好的精度。
關鍵詞:密度閾值遞減;多階段聚類;邊界點提取
聚類是數(shù)據(jù)挖掘中的一種重要技術,它的目標是將數(shù)據(jù)集分成若干個子集,同一個子集
中的對象是相似的,不同子集中的對象不相似。在幾何方面,聚類是在整個數(shù)據(jù)集中確定由
稀疏區(qū)域分開的密集區(qū)域。由于其無指導學習能力,聚類算法能在數(shù)據(jù)集中發(fā)現(xiàn)隱藏的數(shù)據(jù)模式,所以對聚類算法的研究一直很活躍。基于相似性已經(jīng)有很多聚類算法,這些聚類算法大體上可分為基于劃分的聚類算法、基于密度的聚類算法、基于層次的聚類算法和基于網(wǎng)格的聚類算法等。其中基于網(wǎng)格的聚類算法由于只考慮網(wǎng)格單元而不是考慮每個點,它的計算效率比較高?;诰W(wǎng)格的聚類算法認為:當網(wǎng)格劃分的比較細時,每個網(wǎng)格內(nèi)的點可看作是相似的。但是對多密度的數(shù)據(jù)集,這些算法很難得到滿意的聚類結(jié)果。本文的主要目的就是利用網(wǎng)格技術解決對多密度數(shù)據(jù)集的聚類。
聚類分析所使用的數(shù)據(jù)集中,各個類的密集往往不盡相同,甚至差別很大。大多數(shù)現(xiàn)有
的聚類算法都是致力于如何發(fā)現(xiàn)任意形狀和大小的類,但很難有效的處理密度差別較大的數(shù)據(jù)集。能夠處理多密度數(shù)據(jù)集的聚類算法有Chameleon[1]、共享近鄰SNN 算法[2]、多階段等密度線算法[3]等。
Chameleon 算法可以用來處理多密度的數(shù)據(jù)集,但當數(shù)據(jù)集較大時其算法的時間復雜度
太高。共享近鄰SNN 算法的主要思想是:對于數(shù)據(jù)集中每個點,找出距離其最近的K 個鄰近點,形成一個集合。然后考慮數(shù)據(jù)集中的任意兩個點,若對應于這兩個點的K 個鄰近點集合交集部分的點數(shù)超過一個閾值,則將這兩個點歸于一類。SNN 算法的優(yōu)點是可以對不同密度和形狀的數(shù)據(jù)集進行聚類,缺點是在多密度聚類和處理孤立點或噪聲方面精度都不高(見圖1(a)和圖2(a))。多階段等密度線算法采用多階段的方式,利用等密度線的思想對數(shù)據(jù)集進行聚類,它的缺點是不能有效地分離出多個類。文獻[2]給出了SNN 算法和一些現(xiàn)有的聚類算法的比較結(jié)果,結(jié)果表明SNN 算法表現(xiàn)出了較好的性能。本文只給出GDD 算法和SNN 算法聚類結(jié)果的比較,從比較結(jié)果可以看出GDD 算法在多密度聚類、孤立點或噪聲處理方面顯示出了很高的精度。
現(xiàn)有的聚類算法大都忽視了聚類過程中的人工參與,很難在聚類過程中充分利用專家
關于領域的知識指導聚類過程,所以得不到滿意的聚類結(jié)果。在GDD 算法中,對聚類結(jié)果就進行了人工干預。
度的聚類,使用邊界點處理技術提高聚類精度,同時對聚類結(jié)果進行了人工干預。GDD 算法只要求
對數(shù)據(jù)集進行一遍掃描。實驗表明,該算法可擴展性好,能處理任意形狀和大小的聚類,能夠很好
的識別出孤立點或噪聲,在處理多密度聚類方面有很好的精度。
關鍵詞:密度閾值遞減;多階段聚類;邊界點提取
聚類是數(shù)據(jù)挖掘中的一種重要技術,它的目標是將數(shù)據(jù)集分成若干個子集,同一個子集
中的對象是相似的,不同子集中的對象不相似。在幾何方面,聚類是在整個數(shù)據(jù)集中確定由
稀疏區(qū)域分開的密集區(qū)域。由于其無指導學習能力,聚類算法能在數(shù)據(jù)集中發(fā)現(xiàn)隱藏的數(shù)據(jù)模式,所以對聚類算法的研究一直很活躍。基于相似性已經(jīng)有很多聚類算法,這些聚類算法大體上可分為基于劃分的聚類算法、基于密度的聚類算法、基于層次的聚類算法和基于網(wǎng)格的聚類算法等。其中基于網(wǎng)格的聚類算法由于只考慮網(wǎng)格單元而不是考慮每個點,它的計算效率比較高?;诰W(wǎng)格的聚類算法認為:當網(wǎng)格劃分的比較細時,每個網(wǎng)格內(nèi)的點可看作是相似的。但是對多密度的數(shù)據(jù)集,這些算法很難得到滿意的聚類結(jié)果。本文的主要目的就是利用網(wǎng)格技術解決對多密度數(shù)據(jù)集的聚類。
聚類分析所使用的數(shù)據(jù)集中,各個類的密集往往不盡相同,甚至差別很大。大多數(shù)現(xiàn)有
的聚類算法都是致力于如何發(fā)現(xiàn)任意形狀和大小的類,但很難有效的處理密度差別較大的數(shù)據(jù)集。能夠處理多密度數(shù)據(jù)集的聚類算法有Chameleon[1]、共享近鄰SNN 算法[2]、多階段等密度線算法[3]等。
Chameleon 算法可以用來處理多密度的數(shù)據(jù)集,但當數(shù)據(jù)集較大時其算法的時間復雜度
太高。共享近鄰SNN 算法的主要思想是:對于數(shù)據(jù)集中每個點,找出距離其最近的K 個鄰近點,形成一個集合。然后考慮數(shù)據(jù)集中的任意兩個點,若對應于這兩個點的K 個鄰近點集合交集部分的點數(shù)超過一個閾值,則將這兩個點歸于一類。SNN 算法的優(yōu)點是可以對不同密度和形狀的數(shù)據(jù)集進行聚類,缺點是在多密度聚類和處理孤立點或噪聲方面精度都不高(見圖1(a)和圖2(a))。多階段等密度線算法采用多階段的方式,利用等密度線的思想對數(shù)據(jù)集進行聚類,它的缺點是不能有效地分離出多個類。文獻[2]給出了SNN 算法和一些現(xiàn)有的聚類算法的比較結(jié)果,結(jié)果表明SNN 算法表現(xiàn)出了較好的性能。本文只給出GDD 算法和SNN 算法聚類結(jié)果的比較,從比較結(jié)果可以看出GDD 算法在多密度聚類、孤立點或噪聲處理方面顯示出了很高的精度。
現(xiàn)有的聚類算法大都忽視了聚類過程中的人工參與,很難在聚類過程中充分利用專家
關于領域的知識指導聚類過程,所以得不到滿意的聚類結(jié)果。在GDD 算法中,對聚類結(jié)果就進行了人工干預。
下載該資料的人也在下載
下載該資料的人還在閱讀
更多 >
- 基于群組和密度的大規(guī)模軌跡聚類算法 2次下載
- 基于網(wǎng)格多密度聚類的古建筑圖像特征匹配方法 3次下載
- 一種基于自然最近鄰的密度峰值聚類算法 12次下載
- 基于MapReduce和加權(quán)網(wǎng)絡信息熵的DBWGIE-MR算法 11次下載
- 一種自適應的關聯(lián)融合聚類算法 13次下載
- 基于核誘導的不完整多視覺聚類算法KIMV 5次下載
- 可檢測出租車載客的軌跡聚類算法 13次下載
- 如何使用拉普拉斯中心性和密度峰值進行無參數(shù)聚類算法的研究 12次下載
- 如何融合密度峰值進行高斯混合模型聚類算法概述 2次下載
- 如何使用多維網(wǎng)格空間進行改進K-means聚類算法資料概述 1次下載
- 聚類算法及聚類融合算法研究 33次下載
- 基于網(wǎng)格的帶有參考參數(shù)的聚類算法
- 基于搜索機制密度聚類的支持向量預選取算法
- 基于模糊聚類思想的網(wǎng)格獨立任務調(diào)度算法
- 基于不均勻密度的自動聚類算法
- 使用輪廓分數(shù)提升時間序列聚類的表現(xiàn) 398次閱讀
- 一文弄懂數(shù)據(jù)挖掘的十大算法,數(shù)據(jù)挖掘算法原理講解 912次閱讀
- 如何在 Python 中安裝和使用頂級聚類算法 472次閱讀
- 代碼實現(xiàn)密度聚類DBSCAN 593次閱讀
- 10種頂流聚類算法Python實現(xiàn)(附完整代碼) 1259次閱讀
- 10種聚類介紹和Python代碼 2850次閱讀
- 基于距離的聚類算法K-means的設計實現(xiàn) 2088次閱讀
- 淺析四類機器學習在自動駕駛中的應用 5329次閱讀
- 關于TD Learning算法的分析 1829次閱讀
- Python無監(jiān)督學習的幾種聚類算法包括K-Means聚類,分層聚類等詳細概述 3w次閱讀
- 機器學習中五種常用的聚類算法 3.8w次閱讀
- 淺談Matlab中的聚類分析 Matlab聚類程序的設計 7212次閱讀
- 一種基于MapReduce模型的并行化k-medoids聚類算法 5208次閱讀
- 基于密度DBSCAN的聚類算法 2.1w次閱讀
- k means聚類算法實例 1.5w次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費下載
- 0.00 MB | 1490次下載 | 免費
- 2單片機典型實例介紹
- 18.19 MB | 93次下載 | 1 積分
- 3S7-200PLC編程實例詳細資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關電源原理及各功能電路詳解
- 0.38 MB | 10次下載 | 免費
- 6基于AT89C2051/4051單片機編程器的實驗
- 0.11 MB | 4次下載 | 免費
- 7基于單片機和 SG3525的程控開關電源設計
- 0.23 MB | 3次下載 | 免費
- 8基于單片機的紅外風扇遙控
- 0.23 MB | 3次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費
- 4LabView 8.0 專業(yè)版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費
- 5555集成電路應用800例(新編版)
- 0.00 MB | 33562次下載 | 免費
- 6接口電路圖大全
- 未知 | 30320次下載 | 免費
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費
- 8開關電源設計實例指南
- 未知 | 21539次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537791次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191183次下載 | 免費
- 7十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183277次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138039次下載 | 免費
評論
查看更多