k means聚類算法實例

所謂聚類問題，就是給定一個元素集合D，其中每個元素具有n個可觀察屬性，使用某種算法將D劃分成k個子集，要求每個子集內部的元素之間相異度盡可能低，而不同子集的元素相異度盡可能高。其中每個子集叫做一個簇。

與分類不同，分類是示例式學習，要求分類前明確各個類別，并斷言每個元素映射到一個類別，而聚類是觀察式學習，在聚類前可以不知道類別甚至不給定類別數(shù)量，是無監(jiān)督學習的一種。目前聚類廣泛應用于統(tǒng)計學、生物學、數(shù)據(jù)庫技術和市場營銷等領域，相應的算法也非常的多。

K-Means算法實例

例：以下是一組用戶的年齡數(shù)據(jù)，將K值定義為2對用戶進行聚類。并隨機選擇16和22作為兩個類別的初始質心。

Data_Age = ［15，15， 16， 19， 19， 20， 20， 21， 22， 28， 35， 40， 41， 42， 43， 44， 60， 61， 65］;

CenterId1 =16， CenterId2 = 22

（1）、計算距離并劃分數(shù)據(jù)

通過計算所有用戶的年齡值與初始質心的距離對用戶進行第一次分類。計算距離的方法是使用歐式距離。距離值越小表示兩個用戶間年齡的相似度越高。

第一次迭代：

Data_Age = ［15，15， 16， 19， 19， 20， 20， 21， 22， 28， 35， 40， 41， 42， 43， 44， 60， 61， 65］;

Distance（16）= ［1， 1， 0， 3， 3， 4， 4， 5， 6， 12， 19， 24， 25， 26， 27， 28，44， 45， 49］;

Distance（22）= ［7， 7，6， 3， 3， 2， 2， 1， 0， 6， 13， 18， 19， 20， 21， 22， 38， 39，43］;

Group1_（16）= ［15，15， 16］; Mean =15.33

Group2_（22）= ［19，19， 20， 20， 21， 22， 28， 35， 40， 41， 42， 43， 44， 60， 61， 65］; Mean = 36.25

（2）、使用均值作為新的質心

將兩個分組中數(shù)據(jù)的均值作為新的質心，并重復之前的方法，迭代計算每個數(shù)據(jù)點到新質心的距離，將數(shù)據(jù)點劃分到與之距離較小的類別中。

第二次迭代：

Data_Age = ［15，15， 15.33， 16， 19， 19， 20， 20， 21， 22， 28，35， 36.25， 40， 41， 42， 43， 44， 60， 61， 65］;

Distance（15.33）=［0.33， 0.33， 0.67，3.67， 3.67， 4.67， 4.67， 5.67， 6.67， 12.67， 19.67， 24.67， 25.67， 26.67，27.67， 28.67， 44.67， 45.67， 49.67］;

Distance（36.25）=［21.25， 21.25， 20.25， 17.25， 17.25， 16.25，16.25， 15.25， 14.25， 8.25， 1.25， 3.75， 4.75， 5.75，6.75， 7.75， 23.75， 24.75， 28.75］;

Group1_（15.33）=［ 15， 15， 16， 19， 19， 20， 20， 21， 22］; Mean = 18.56

Group2_（36.25）=［ 28， 35， 40， 41， 42， 43， 44， 60， 61，65］; Mean = 45.90

第三次迭代：

Data_Age = ［15，15， 16， 18.56， 19， 19， 20， 20， 21， 22， 28，35， 40， 41， 42， 43， 44， 45.90， 60， 61， 65］;

Distance（18.56）=［3.56， 3.56， 2.56，0.44， 0.44， 1.44， 1.44， 2.44， 3.44， 9.44， 16.44， 21.44， 22.44， 23.44，24.44， 25.44， 41.44， 42.44， 46.44］;

Distance（45.90）=［30.90， 30.90， 29.90， 26.90， 26.90， 25.90，25.90， 24.90， 23.90， 17.90， 10.90， 5.90， 4.90， 3.90，2.90， 1.90， 14.10， 15.10， 19.10］;

Group1_（18.56）=［ 15， 15， 16， 19， 19， 20， 20， 21， 22， 28］; Mean = 19.50

Group2_（45.90）=［ 35， 40， 41， 42， 43， 44， 60， 61， 65］; Mean = 47.89

第四次迭代：

Data_Age = ［15，15， 16， 19， 19， 19.50， 20， 20， 21， 22， 28，35， 40， 41， 42， 43， 44， 47.89， 60， 61， 65］;

Distance（19.50）=［4.5， 4.5， 3.5，0.5， 0.5， 0.5， 0.5， 1.5， 2.5， 8.5， 15.5， 20.5， 21.5， 22.5， 23.5， 24.5，40.5， 41.5， 45.5］;

Distance（47.89）=［32.89， 32.89， 31.89， 28.89， 28.89， 27.89，27.89， 26.89， 25.89， 19.89， 12.89， 7.89， 6.89， 5.89，4.89， 3.89， 12.11， 13.11， 17.11］;

Group1_（19.50）=［ 15， 15， 16， 19， 19， 20， 20， 21， 22，28］; Mean = 19.50

Group2_（47.89）=［ 35， 40， 41， 42， 43， 44， 60， 61， 65］; Mean = 47.89

（3）、算法停止條件

迭代計算每個數(shù)據(jù)到新質心的距離，直到新的質心和原質心相等，算法結束。

MATLAB中的kmeans函數(shù)

MATLAB中的kmeans函數(shù)采用的是將N*P的矩陣X劃分為K個類，使得類內對象之間的距離最大，而類之間的距離最小。

使用方法：

Idx = Kmeans（X，K）

［Idx， C］ = Kmeans（X，K）

［Idc， C， sumD］ = Kmeans（X，K）

［Idx， C， sumD， D］ = Kmeans（X，K）

各輸入輸出參數(shù)介紹：

X---N*P的數(shù)據(jù)矩陣

K---表示將X劃分為幾類，為整數(shù)

Idx---N*1的向量，存儲的是每個點的聚類標號

C---K*P的矩陣，存儲的是K個聚類質心位置

sumD---1*K的和向量，存儲的是類間所有點與該類質心點距離之和

D---N*K的矩陣，存儲的是每個點與所有質心的距離

［┈］ = Kmeans（┈，’Param1’，’Val1’，’Param2’，’Val2’，┈）

其中參數(shù)Param1、Param2等，主要可以設置為如下：

1、’Distance’---距離測度

‘sqEuclidean’---歐氏距離

‘cityblock’---絕對誤差和，又稱L1

‘cosine’---針對向量

‘correlation’---針對有時序關系的值

‘Hamming’---只針對二進制數(shù)據(jù)

2、’Start’---初始質心位置選擇方法

‘sample’---從X中隨機選取K個質心點

‘uniform’---根據(jù)X的分布范圍均勻的隨機生成K個質心

‘cluster’---初始聚類階段隨機選取10%的X的子樣本（此方法初始使用’sample’方法）

Matrix提供一K*P的矩陣，作為初始質心位置集合

3、’Replicates’---聚類重復次數(shù)，為整數(shù)

MATLAB代碼：

% KMeans算法的基本思想是初始隨機給定K個簇中心，按照最鄰近原則把待分類樣本點分到各個簇。

% 然后按平均法重新計算各個簇的質心，從而確定新的簇心。一直迭代，直到簇心的移動距離小于某個給定的值。

% 隨機獲取200個點

X = ［randn（50，2）+［-ones（50，1）， +ones（50，1）］; randn（50，2）+［ones（50，1）， ones（50，1）］; 。。。

randn（50，2）+［ones（50，1）， -ones（50，1）］; randn（50，2）+［-ones（50，1），-ones（50，1）］］;

MATLAB中的kmeans函數(shù)采用的是將N*P的矩陣X劃分為K個類，使得類內對象之間的距離最大，而類之間的距離最小。

使用方法：

Idx = Kmeans（X，K）

［Idx，C］ = Kmeans（X，K）

［Idc，C，sumD］ = Kmeans（X，K）

［Idx，C，sumD，D］ = Kmeans（X，K）

各輸入輸出參數(shù)介紹：

X---N*P的數(shù)據(jù)矩陣

K---表示將X劃分為幾類，為整數(shù)

Idx---N*1的向量，存儲的是每個點的聚類標號

Ctrs---K*P的矩陣，存儲的是K個聚類質心位置

sumD---1*K的和向量，存儲的是類間所有點與該類質心點距離之和

D---N*K的矩陣，存儲的是每個點與所有質心的距離

opts = statset（‘Display’，‘final’）;

［Idx，Ctrs，SumD，D］ = kmeans（X，4，‘Replicates’，4，‘Options’，opts）;

% 畫出聚類為1的點。

% X（Idx==1，1），為第一類的樣本的第一個坐標；X（Idx==1，2）為第一類的樣本的第二個坐標

plot（X（Idx==1，1）， X（Idx==1，2）， ‘r.’， ‘MarkerSize’， 14）;

hold on;

plot（X（Idx==2，1）， X（Idx==2，2）， ‘b.’， ‘MarkerSize’， 14）;

hold on;

plot（X（Idx==3，1）， X（Idx==3，2）， ‘g.’， ‘MarkerSize’， 14）;

hold on;

plot（X（Idx==4，1）， X（Idx==4，2）， ‘y.’， ‘MarkerSize’， 14）;

hold on;

% 繪出聚類中心點，kx表示是交叉符

plot（Ctrs（：，1）， Ctrs（：，2）， ‘kx’， ‘MarkerSize’， 14， ‘LineWidth’， 4）;

legend（‘Cluster 1’， ‘Cluster 2’， ‘Cluster 3’， ‘Cluster 4’， ‘Centroids’， ‘Location’， ‘NW’）;

grid on;

［┈］ = Kmeans（┈，’Param1’，’Val1’，’Param2’，’Val2’，┈）

其中參數(shù)Param1、Param2等，主要可以設置為如下：

1、‘Distance’---距離測度

‘sqEuclidean’---歐氏距離

‘cityblock’---絕對誤差和，又稱L1

‘cosine’---針對向量

‘correlation’---針對有時序關系的值

‘Hamming’---只針對二進制數(shù)據(jù)

2、‘Start’---初始質心位置選擇方法

‘sample’---從X中隨機選取K個質心點

‘uniform’---根據(jù)X的分布范圍均勻的隨機生成K個質心

‘cluster’---初始聚類階段隨機選取10%的X的子樣本（此方法初始使用’sample’方法）

Matrix提供一K*P的矩陣，作為初始質心位置集合

3、‘Replicates’---聚類重復次數(shù)，為整數(shù)

k means聚類算法實例

閱讀全文

聚類算法(12037) 聚類算法(12037)
kmeans(5188) kmeans(5188)

自動駕駛之3D點云聚類算法調研

1. 方法總共分為4類基于歐式距離的聚類 Supervoxel 聚類深度(Depth) 聚類 Scanline Run 聚類 1.1 基于歐氏距離的聚類思路 : 在點云上構造kd-tree

2023-06-07 14:38:38

如何在 Python 中安裝和使用頂級聚類算法

有許多聚類算法可供選擇，對于所有情況，沒有單一的最佳聚類算法。相反，最好探索一系列聚類算法以及每種算法的不同配置。在本教程中，你將發(fā)現(xiàn)如何在 python 中安裝和使用頂級聚類算法。

2023-05-22 09:13:55

171

大學課程數(shù)據(jù)分析實戰(zhàn)之K-means算法（2）算法代碼

繼續(xù)講解！程序來啦！最后看一下程序示例！看看如何用K-means算法實現(xiàn)數(shù)據(jù)聚類的過程。程序很簡單，側重讓大家了解和掌握 K-means算法聚類的過程！看代碼吧！程序由三部

2023-02-11 07:20:04

167

K-means聚類算法指南

在聚類技術領域中，K-means可能是最常見和經常使用的技術之一。K-means使用迭代細化方法，基于用戶定義的集群數(shù)量（由變量K表示）和數(shù)據(jù)集來產生其最終聚類。例如，如果將K設置為3，則數(shù)據(jù)集將分組為3個群集，如果將K設置為4，則將數(shù)據(jù)分組為4個群集，依此類推。

2022-10-28 14:25:21

499

基于距離的聚類算法K-means的設計實現(xiàn)

K-means 算法是典型的基于距離的聚類算法，采用距離作為相似性的評價指標，兩個對象的距離越近，其相似度就越大。而簇是由距離靠近的對象組成的，因此算法目的是得到緊湊并且獨立的簇。

2022-07-18 09:19:13

1438

K-MEANS聚類算法概述及工作原理

K-means 是一種聚類算法，且對于數(shù)據(jù)科學家而言，是簡單且熱門的無監(jiān)督式機器學習(ML)算法之一。

2022-06-06 11:53:55

2540

基于時序性告警的新型云計算聚類算法

信息，必將成為云”能否持續(xù)穩(wěn)定運行的核心問題。據(jù)此，文中提出了一種基于時序性告警的新型聚類算法。算法利用設定時間窗口內兩兩告警之間時間差的關系，構造告警之間新的關系矩陣，再利用K- means算法對關系矩陣中的列向量

2021-06-17 14:34:52

FCM聚類算法以及改進模糊聚類算法用于醫(yī)學圖像分割的matlab源程序

2018-05-11 23:54:19

基于特征和實例遷移的加權多任務聚類算法

2021-06-07 15:18:35

基于最優(yōu)傳輸距離和聚類的WSN分簇算法

為降低并均衡無線傳感器網絡（WSN）中傳感器節(jié)點的能量消耗，提出一種基于最優(yōu)傳輸距離和 K-means聚類的WSN分簇算法。根據(jù)層次聚類算法建立聚類特征樹，將聚類特征樹中的葉節(jié)點視為一個簇，并使每個

2021-05-26 14:50:17

基于主題相似度聚類的文本分類算法綜述

提取類特征詞，利用K- means算法進行聚類并提取簇特征詞構成簇特征詞庫。在此基礎上，通過 Adaptive Strategy算法自適應地選擇 fasttext Textcnn或RCNN模型進行分類，得到終分類結果。在 AG News數(shù)據(jù)集上的實驗結果表明，該算法可較好地解決不同類別特征詞交

2021-05-12 16:25:20

基于混合蛙跳算法的K-mediods聚類算法

為了降低K- mediods聚類算法的誤差并提高并行優(yōu)化的性能，將混合蛙跳算法運用于聚類和并行優(yōu)化過程。在Kmediods聚類過程中，將K- mediods與聚類簇思想相結合，對各個聚類簇進行混合

2021-05-08 16:17:18

集成簇內和簇間距離的加權k-means聚類方法

聚類分析是數(shù)據(jù)挖掘與分析最重要的方法之一。它把相似的數(shù)據(jù)對象歸類到一個簇，把不同的數(shù)據(jù)對象盡可能分到不同的簇。其中k- means聚類算法，由于其簡單性和高效性，被廣泛運用于解決各種現(xiàn)實問題，例如

2021-04-28 16:43:55

一種自適應的關聯(lián)融合聚類算法

除邊界點和噪聲點對聚類結果的影響。引入關聯(lián)度矩陣，通過計算類簇間的關聯(lián)程度和融合度量，選取最優(yōu)關聯(lián)簇進行融合得到最終聚類結果。實驗結果表明，該算法無需人工設置聚類參數(shù)，并且與基于密度的空間聚類算法和K均值聚類算法

2021-04-01 16:16:49

針對高維稀疏數(shù)據(jù)的可重疊子空間K-Means聚類算法

現(xiàn)有聚類算法面向高維稀疏數(shù)據(jù)時多數(shù)未考慮類簇可重疊和離群點的存在，導致聚類效果不理想。為此，提出一種可重疊子空間K- Means聚類算法。設計類簇子空間計算策略，在聚類過程中動態(tài)更新每個類簇的屬性

2021-03-25 14:07:10

基于距離和密度的并行二分K-means算法

K- means算法初始中心點選擇的隨機性以及對噪聲點的敏感性，使得聚類結果易陷亼局部最優(yōu)解，為獲得最佳初始聚類中心，提岀一種基于距離和密度的并行二分K- means算法。計算數(shù)據(jù)集的平均樣本距離

2021-03-22 16:44:22

一種改進的聚類聯(lián)合相似度推薦算法

度推薦算法。采用改進的蜂群算法來優(yōu)化K- means++聚類的中心點，使聚類中心在整個數(shù)據(jù)內達到最優(yōu)，并對聚類結果進行集成，使得聚類得到進一步優(yōu)化。根據(jù)聚類結果，在同一類中采用改進的用戶相似度算法來優(yōu)化傳統(tǒng)相似度算法，

2021-03-18 11:17:11

如何在python中安裝和使用頂級聚類算法?

聚類或聚類分析是無監(jiān)督學習問題。它通常被用作數(shù)據(jù)分析技術，用于發(fā)現(xiàn)數(shù)據(jù)中的有趣模式，例如基于其行為的客戶群。有許多聚類算法可供選擇，對于所有情況，沒有單一的最佳聚類算法。相反，最好探索一系列聚類算法

2021-03-12 18:23:43

1828

可檢測出租車載客的軌跡聚類算法

目前常見的軌跡聚類大多基于 OPTICS、 DBSCAN和K- means等算法,但這些聚類方法的時間復雜度隨著軌跡數(shù)量的增加會大幅上升。針對該問題,提岀一種基于密度核心的軌跡聚類算法。通過引入密度

2021-03-11 17:40:31

100天搞定機器學習：day54 聚類系列：層次聚類原理及案例

幾張GIF理解K-均值聚類原理k均值聚類數(shù)學推導與python實現(xiàn)前文說了k均值聚類，他是基于中心的聚類方法，通過迭代將樣本分到k個類中，使...

2020-12-10 21:56:09

216

常見的幾種聚類算法

這一最著名的聚類算法主要基于數(shù)據(jù)點之間的均值和與聚類中心的聚類迭代而成。它主要的優(yōu)點是十分的高效，由于只需要計算數(shù)據(jù)點與劇類中心的距離，其計算復雜度只有O（n）。

2020-04-15 15:23:29

14904

正確選擇聚類算法的建議

聚類算法十分容易上手，但是選擇恰當?shù)?b style="color: red">聚類算法并不是一件容易的事。

2020-03-15 17:10:00

1663

如何使用K-Means聚類算法改進的特征加權算法詳細資料概述

聚類分析是將研究對象分為相對同質的群組的統(tǒng)計分析技術，聚類分析的核心就是發(fā)現(xiàn)有用的對象簇。K-means聚類算法由于具有出色的速度和良好的可擴展性，一直備受廣大學者的關注。然而，傳統(tǒng)的K-means

2018-12-20 10:28:29

如何使用多維網格空間進行改進K-means聚類算法資料概述

K-means算法是被廣泛使用的一種聚類算法，傳統(tǒng)的-means算法中初始聚類中心的選擇具有隨機性，易使算法陷入局部最優(yōu)，聚類結果不穩(wěn)定。針對此問題，引入多維網格空間的思想，首先將樣本集映射到一個

2018-12-13 17:56:55

如何使用概率模型進行非均勻數(shù)據(jù)聚類算法的設計介紹

針對傳統(tǒng)K-means型算法的“均勻效應”問題，提出一種基于概率模型的聚類算法。首先，提出一個描述非均勻數(shù)據(jù)簇的高斯混合分布模型，該模型允許數(shù)據(jù)集中同時包含密度和大小存在差異的簇；其次，推導了非均勻

2018-12-13 10:57:59

使用模擬退火與貪心策略的平衡聚類算法的介紹

）2個步驟，以提高平衡聚類算法的聚類效果與時間性能。首先基于模擬退火在數(shù)據(jù)集中快速定位出K個合適的數(shù)據(jù)點作為平衡聚類初始點，然后每個中心點分階段貪婪地將距離其最近的數(shù)據(jù)點加入簇中直至達到簇規(guī)模上限。在6個UCI真實數(shù)據(jù)集與2個公開圖

2018-11-28 09:53:06

基于主動學習先驗的半監(jiān)督K-means聚類算法

基于迭代框架的主動半監(jiān)督聚類框架（IASSCF）是一個流行的半監(jiān)督聚類框架。該框架存在兩個問題：其一，初始先驗信息較少導致迭代初期聚類效果不佳，進而影響后續(xù)聚類結果;其二，每次迭代只選擇信息量最大的一個樣本標記，導致運行速度慢性能提升慢。

2018-11-16 11:16:00

基本的k-means算法流程

同時，k值的選取也會直接影響聚類結果，最優(yōu)聚類的k值應與樣本數(shù)據(jù)本身的結構信息相吻合，而這種結構信息是很難去掌握，因此選取最優(yōu)k值是非常困難的。

2018-07-24 17:44:21

18293

K-Means算法的簡單介紹

K－Means是十大經典數(shù)據(jù)挖掘算法之一。K－Means和KNN（K鄰近）看上去都是K打頭，但卻是不同種類的算法。kNN是監(jiān)督學習中的分類算法，而K－Means則是非監(jiān)督學習中的聚類算法；二者相同之處是均利用近鄰信息來標注類別。

2018-07-05 14:18:00

4095

Python無監(jiān)督學習的幾種聚類算法包括K-Means聚類,分層聚類等詳細概述

無監(jiān)督學習是機器學習技術中的一類，用于發(fā)現(xiàn)數(shù)據(jù)中的模式。本文介紹用Python進行無監(jiān)督學習的幾種聚類算法，包括K-Means聚類、分層聚類、t-SNE聚類、DBSCAN聚類等。

2018-05-27 09:59:13

29359

基于密度DBSCAN的聚類算法

本文開始介紹了聚類算法概念，其次闡述了聚類算法的分類，最后詳細介紹了聚類算法中密度DBSCAN的相關概況。

2018-04-26 10:56:41

21028

基于改進k-means算法的MANET異常檢測方法

劃分貢獻度的概念，可合理地計算各維特征在檢測中占有的權重，并將遺傳算法與快速聚類檢測算法k-means相結合，解決了聚類檢測結果容易陷入局部最優(yōu)的問題，進而，提出了以上檢測算法在MapReduce框架下的設計方案，利用種群遷移策略在分布式處理器上實現(xiàn)了并行聚類檢測。實驗結果證明

2018-03-06 15:18:50

大文本數(shù)據(jù)集的間接譜聚類

針對譜聚類存在計算瓶頸的問題，提出了一種快速的集成算法，稱為間接譜聚類。它首先運用K-Means算法對數(shù)據(jù)集進行過分聚類，然后把每個過分簇看成一個基本對象，最后在過分簇的級別上利用標準譜聚類來完成

2018-02-24 14:43:59

K-means的優(yōu)缺點及改進

K-means算法的優(yōu)點是：首先，算法能根據(jù)較少的已知聚類樣本的類別對樹進行剪枝確定部分樣本的分類；其次，為克服少量樣本聚類的不準確性，該算法本身具有優(yōu)化迭代功能，在已經求得的聚類上再次進行迭代修正

2018-02-12 16:27:59

30241

k-means算法原理解析

對于K-Means算法，首先要注意的是k值的選擇，一般來說，我們會根據(jù)對數(shù)據(jù)的先驗經驗選擇一個合適的k值，如果沒有什么先驗知識，則可以通過交叉驗證選擇一個合適的k值。

2018-02-12 16:06:50

7944

基于最優(yōu)投影的半監(jiān)督聚類算法

針對譜聚類算法在解決高維、大數(shù)據(jù)量的聚類問題時出現(xiàn)的效率不高和準確率明顯下降的問題進行了研究，并在此研究基礎上結合最優(yōu)投影理論和Nystrom抽樣提出了基于最優(yōu)投影的半監(jiān)督譜聚類算法

2018-01-14 11:54:58

基于距離最大化和缺失數(shù)據(jù)聚類的填充算法

通過對基于K-means聚類的缺失值填充算法的改進，文中提出了基于距離最大化和缺失數(shù)據(jù)聚類的填充算法。首先，針對原填充算法需要提前輸入聚類個數(shù)這一缺點，設計了改進的K-means聚類算法：使用數(shù)據(jù)間

2018-01-09 10:56:56

集成式位置敏感聚類

得出多重桶標記，再對數(shù)據(jù)集各桶標記進行聚類得出多個基劃分，最后對多個基劃分進行集成得出最終劃分。實驗結果表明，在準確率方面，集成式位置敏感聚類在人工數(shù)據(jù)上與k-means結合聚類集成的方法相當，在圖像集上與k-means結

2018-01-08 16:38:03

主動表現(xiàn)模型的稀疏聚類人臉識別

。首先，利用主動表觀模型快速、準確地對人臉特征點進行定位，獲取主要人臉信息；然后，對訓練樣本進行K-means聚類，將相似程度高的圖像分為一類，計算聚類中心，將該中心作為原子構造過完備字典并進行稀疏分解；最后，計算稀疏系數(shù)和重構殘

2018-01-08 14:38:35

基于近鄰傳播的遷移聚類算法

在目標域可利用數(shù)據(jù)匱乏的場景下，傳統(tǒng)聚類算法的性能往往會下降，在該場景下，通過抽取源域中的有用知識用于指導目標域學習以得到更為合適的類別信息和聚類性能，是一種有效的學習策略．借此提出一種基于近鄰傳播

2018-01-07 09:34:44

基于相似度的聚類算法

基于相似度的聚類算法，該算法結合區(qū)間值模糊軟集的特性，著重對給出評價對象的具有相似知識水平的專家進行聚類，同時討論了算法的計算復雜度。最后通過實例說明該算法能有效地處理專家聚類問題。

2018-01-05 16:15:27

中點密度函數(shù)的模糊聚類算法

針對傳統(tǒng)模糊C一均值（ FCM）聚類算法初始聚類中心不確定，且需要人為預先設定聚類類別數(shù)，從而導致結果不準確的問題，提出了一種基于中點密度函數(shù)的模糊聚類算法。首先，結合逐步回歸思想作為初始聚類中心

2017-12-26 15:54:20

基于話題標簽和轉發(fā)的微博聚類和主題詞提取

的主題詞。在新浪微博數(shù)據(jù)集上進行實驗發(fā)現(xiàn)，與k-means算法和基于加權語義和貝葉斯的中文短文本增量聚類算法（ICST-WSNB）相比，基于話題標簽和轉發(fā)關系的微博聚類算法的準確率比k-means算法提高了18.5%，比ICST-WSNB提高了6.48%，召回率以及F-值也有

2017-12-23 10:55:58

大數(shù)據(jù)處理的優(yōu)化抽樣聚類K-means算法

針對大數(shù)據(jù)環(huán)境下K-means聚類算法聚類精度不足和收斂速度慢的問題，提出一種基于優(yōu)化抽樣聚類的K-means算法（OSCK）。首先，該算法從海量數(shù)據(jù)中概率抽樣多個樣本；其次，基于最佳聚類中心的歐氏

2017-12-22 15:47:18

距離不等式的K-medoids聚類算法

研究加速K-medoids聚類算法，首先以PAM（partitiomng around medoids）、TPAM（triangular inequality elimination

2017-12-22 15:35:47

空間鄰近的點目標聚類實現(xiàn)方法

了基于空間鄰近的點目標聚類方法，通過Voronoi建模識別點目標間的空間鄰近關系，并以Voronoi勢力范圍來定義相似度準則，最終構建樹結構以實現(xiàn)點目標的聚集模式識別。實驗將所提算法與K-means、具有噪聲的基于密度的聚類（ DBSCA

2017-12-19 10:47:32

基于層次劃分的密度優(yōu)化聚類算法

針對傳統(tǒng)的聚類算法對數(shù)據(jù)集反復聚類，且在大型數(shù)據(jù)集上計算效率欠佳的問題，提出一種基于層次劃分的最佳聚類數(shù)和初始聚類中心確定算法基于層次劃分密度的聚類優(yōu)化（ CODHD）。該算法基于層次劃分，對計算

2017-12-17 11:27:40

熵加權多視角核K-means算法

在基于視角加權的多視角聚類中，每個視角的權重取值對聚類結果的精度都有著重要的影V向。針對此問題，提出熵加權多視角核K-means（ EWKKM）算法，通過給每個視角分配一個合理的權值來降低噪聲視角或

2017-12-17 09:57:11

基于布谷鳥搜索的K-means聚類算法

針對原始K-means聚類算法受初始聚類中心影響過大以及容易陷入局部最優(yōu)的不足，提出一種基于改進布谷鳥搜索（cs）的K-means聚類算法（ACS-K-means）。其中，自適應CS（ ACS）算法

2017-12-13 17:24:06

一種自動三支決策聚類算法

k-means算法自提出50多年來，在聚類分析中得到了廣泛應用，但是，k-means算法存在一個突出的問題，即需要預先設定聚類數(shù)目。所以，本文針對如何自動獲取k-means的聚類數(shù)目進行了研究

2017-12-13 10:49:44

基于云計算遺傳算法的多任務調度算法

任務調度是云計算中的一個關鍵問題，遺傳算法是一種能較好解決優(yōu)化問題的算法。本論文針對遺傳算法在任務調度過程中隨著任務調度問題復雜度增加，算法的性能出現(xiàn)下降的現(xiàn)象，引入K-means聚類算法，提出一種

2017-12-07 15:16:10

一種新的基于流行距離的譜聚類算法

方法進行改進，將傳統(tǒng)譜聚類算法（NJW-SC）中的基于歐氏距離的相似性測度換為基于流行距離的相似性測度，在此基礎上對樣本對象集進行聚類。之后將新提出來的算法同K-Means算法、傳統(tǒng)譜聚類算法、模糊C均值聚類算法在人工數(shù)據(jù)集

2017-12-07 14:53:03

基于像素聚類進行圖像分割的算法

的算法。首先，通過各向異性擴散處理圖像；然后，使用一維K-均值對像素進行聚類；最后，根據(jù)聚類結果和先驗知識將像素值修改為最佳類中心像素值。理論分析表明該算法可以使圖像的峰值信噪比（ PSNR）達到最大值。實驗結果表明：所

2017-12-06 16:44:11

K-Means算法改進及優(yōu)化

傳統(tǒng)的k-means算法采用的是隨機數(shù)初始化聚類中心的方法，這種方法的主要優(yōu)點是能夠快速的產生初始化的聚類中心，其主要缺點是初始化的聚類中心可能會同時出現(xiàn)在同一個類別中，導致迭代次數(shù)過多，甚至陷入

2017-12-05 18:32:54

基于時空模式的軌跡數(shù)據(jù)聚類算法

針對軌跡聚類算法在相似性度量中多以空間特征為度量標準，缺少對時間特征的度量，提出了一種基于時空模式的軌跡數(shù)據(jù)聚類算法。該算法以劃分再聚類框架為基礎，首先利用曲線邊緣檢測方法提取軌跡特征點；然后根據(jù)

2017-12-05 14:07:58

基于聚類集成技術的在線特征選擇

針對既有歷史數(shù)據(jù)又有流特征的全新應用場景，提出了一種基于組特征選擇和流特征的在線特征選擇算法。在對歷史數(shù)據(jù)的組特征選擇階段，為了彌補單一聚類算法的不足，引入聚類集成的思想。先利用k-means方法

2017-12-05 11:00:41

一種新的人工魚群混合聚類算法

人工魚群是一種隨機搜索優(yōu)化算法，具有較快的收斂速度，對問題的機理模型與描述無嚴格要求，具有廣泛的應用范圍。本文在該算法的基礎上，結合傳統(tǒng)的K-means聚類方法，提出了一種新的人工魚群混合聚類算法

2017-12-04 16:18:15

基于Spark的動態(tài)聚類算法研究

針對數(shù)據(jù)流的聚類算法，近年來取得了有效的進展，出現(xiàn)了許多卓有成效的算法。隨著信息采集技術的進步，需要處理的數(shù)據(jù)量越來越大，需要研究針對數(shù)據(jù)流的并行聚類算法。本文基于串行的數(shù)據(jù)流聚類算法

2017-12-04 09:22:51

基于人群疏散仿真的折半聚類算法

運用社會力模型（ SFM）模擬人群疏散之前，需要先對人群進行聚類分組；然而，五中心聚類（k-medoids）和統(tǒng)計信息網格聚類（ STING）這兩大傳統(tǒng)聚類算法，在聚類效率和準確率上都不能滿足要求

2017-12-03 10:53:04

K均值聚類算法的MATLAB實現(xiàn)

K-means算法是最簡單的一種聚類算法。算法的目的是使各個樣本與所在類均值的誤差平方和達到最?。ㄟ@也是評價K-means算法最后聚類效果的評價標準）

2017-12-01 14:07:33

19244

基于密度的K-means算法在聚類數(shù)目中應用

針對傳統(tǒng)的K-means算法無法預先明確聚類數(shù)目，對初始聚類中心選取敏感且易受離群孤點影響導致聚類結果穩(wěn)定性和準確性欠佳的問題，提出一種改進的基于密度的K-means算法。該算法首先基于軌跡數(shù)據(jù)分布

2017-11-25 11:35:38

不平衡數(shù)據(jù)的軟子空間聚類算法

針對受均勻效應的影響，當前K-means型軟子空間算法不能有效聚類不平衡數(shù)據(jù)的問題，提出一種基于劃分的不平衡數(shù)據(jù)軟子空間聚類新算法。首先，提出一種雙加權方法，在賦予每個屬性一個特征權重的同時，賦予

2017-11-25 11:33:37

基于Hash改進的k-means算法并行化設計

挖掘其聚類關系，選取初始聚類中心，避免了傳統(tǒng)k-means算法對隨機選取初始聚類中心的敏感性，減少了k-means算法的迭代次數(shù)。又結合MapReduce框架將算法整體并行化，并通過Partition、Combine等機制加強了并行化程度和執(zhí)行效率。實驗表明，該算法不僅提高了聚

2017-11-24 14:24:32

基于網格的快速搜尋密度峰值的聚類算法優(yōu)化研究

CFSFDP是基于密度的新型聚類算法，可聚類非球形數(shù)據(jù)集，具有聚類速度快、實現(xiàn)簡單等優(yōu)點。然而該算法在指定全局密度閾值d時未考慮數(shù)據(jù)空間分布特性，導致聚類質量下降，且無法對多密度峰值的數(shù)據(jù)集準確聚類

2017-11-21 15:08:57

基于離散量改進k-means初始聚類中心選擇的算法

傳統(tǒng)kmeans算法由于初始聚類中心的選擇是隨機的，因此會使聚類結果不穩(wěn)定。針對這個問題，提出一種基于離散量改進k-means初始聚類中心選擇的算法。算法首先將所有對象作為一個大類，然后不斷從對象

2017-11-20 10:03:23

基于C均值聚類的定位算法

為了提高WSN節(jié)點定位精度，針對測距誤差對定位結果的影響，提出基于模糊C均值聚類的定位算法。算法首先利用多邊定位算法得到若干個定位結果，利用模糊C均值聚類算法對定位結果進行聚類分析，然后，根據(jù)聚類

2017-11-09 17:47:13

基于MCL與Chameleon的混合聚類算法

馬爾科夫聚類算法（ Markov Cluster Algorithm，MCL）是一種快速且可擴展的無監(jiān)督圖聚類算法，Chameleon是一種新的層次聚類算法。但MCL由于過擬合會產生很多小聚類

2017-10-31 18:58:21

常用聚類算法有哪些？六大類聚類算法詳細介紹

聚類分析計算方法主要有如下幾種：劃分法、層次法、密度算法、圖論聚類法、網格算法和模型算法。劃分法（partitioning methods），給定一個有N個元組或者紀錄的數(shù)據(jù)集，分裂法將構造K個分組，每一個分組就代表一個聚類，K《N。

2017-10-25 19:18:34

165890

基于FCM聚類算法的新型圖像分割算法分析

模糊C均值（Fuzzy C-means）算法簡稱FCM算法，是一種基于目標函數(shù)的模糊聚類算法，主要用于數(shù)據(jù)的聚類分析。有了模糊集合的概念，一個元素隸屬于模糊集合就不是硬性的了，在聚類的問題中，可以把

2017-08-28 19:53:51

基于加速k均值的譜聚類圖像分割算法改進_李昌興

2017-03-19 19:25:56

基于Canopy的K_means多核算法_邱榮太

基于Canopy的K_means多核算法_邱榮太

2017-03-19 11:33:11

K_means算法的改進及應用_王剛勇

K_means算法的改進及應用_王剛勇

2017-03-19 11:27:34

基于改進K_means聚類的欠定盲分離算法_柴文標

基于改進K_means聚類的欠定盲分離算法_柴文標

2017-03-17 10:31:39

基于PCA的HK聚類算法研究何瑩

基于PCA的H_K聚類算法研究_何瑩

2017-03-17 08:00:00

基于SVD的Kmeans聚類協(xié)同過濾算法王偉

基于SVD的K_means聚類協(xié)同過濾算法_王偉

2017-03-17 08:00:00

混合細菌覓食和粒子群的k_means聚類算法

混合細菌覓食和粒子群的k_means聚類算法_閆婷

2017-01-07 19:00:39

基于聚類中心優(yōu)化的k_means最佳聚類數(shù)確定方法

基于聚類中心優(yōu)化的k_means最佳聚類數(shù)確定方法_賈瑞玉

2017-01-07 18:56:13

基于AutoEncoder的增量式聚類算法

基于AutoEncoder的增量式聚類算法_原旭

2017-01-03 17:41:32

基于最小生成樹的層次K_means聚類算法

基于最小生成樹的層次K_means聚類算法_賈瑞玉

2017-01-03 15:24:45

K-means+聚類算法研究綜述

介紹了K-means 聚類算法的目標函數(shù)、算法流程，并列舉了一個實例，指出了數(shù)據(jù)子集的數(shù)目K、初始聚類中心選取、相似性度量和距離矩陣為K-means聚類算法的3個基本參數(shù)?？偨Y了K-means聚

2012-05-07 14:09:14

聚類算法及聚類融合算法研究

聚類算法及聚類融合算法研究首先對聚類算法的特點進行了分析，然后對聚類融合算法進行了挖掘。最后得出聚類融合算法比聚類算法更能得到很好的聚合效果。

2011-08-10 15:08:02

改進的k-means聚類算法在供電企業(yè)CRM中的應用

針對k-means算法存在的不足,提出了一種改進算法。針對目前供電企業(yè)CRM系統(tǒng)的特點提出了用聚類分析方法進行客戶群細分模型設計,通過實驗驗證了本文提出的k-means改進算法的高效性

2010-03-01 15:28:51

近似骨架導向的歸約聚類算法

該文針對聚類問題上缺乏骨架研究成果的現(xiàn)狀，分析了聚類問題的近似骨架特征，設計并實現(xiàn)了近似骨架導向的歸約聚類算法。該算法的基本思想是：首先利用現(xiàn)有的啟發(fā)式聚類算

2010-02-10 11:48:09

一種改進的粒子群和K均值混合聚類算法

該文針對K 均值聚類算法存在的缺點，提出一種改進的粒子群優(yōu)化(PSO)和K 均值混合聚類算法。該算法在運行過程中通過引入小概率隨機變異操作增強種群的多樣性，提高了混合聚類

2010-02-09 14:21:26

優(yōu)化初始值的K均值中文文本聚類

文本聚類是中文文本挖掘中的一種重要分析方法。K 均值聚類算法是目前最為常用的文本聚類算法之一。但此算法在處理高維、稀疏數(shù)據(jù)集等問題時存在一些不足，且對初始聚類

2010-01-15 14:24:46

基于約簡-優(yōu)化原理的動態(tài)聚類算法研究

本文通過對常用動態(tài)聚類方法的分析，提出了基于“約簡-優(yōu)化”原理的兩階段動態(tài)聚類算法的框架，此方法克服了動態(tài)聚類搜索空間過大的問題，提高了聚類的精度和效率。

2010-01-09 11:31:14

聚類算法研究

聚類算法研究:對近年來聚類算法的研究現(xiàn)狀與新進展進行歸納總結.一方面對近年來提出的較有代表性的聚類算法,從算法思想、關鍵技術和優(yōu)缺點等方面進行分析概括;另一方面選擇

2009-10-31 08:57:24

基于關聯(lián)規(guī)則與聚類算法的查詢擴展算法

基于關聯(lián)規(guī)則與聚類算法的查詢擴展算法:針對信息檢索中查詢關鍵詞與文檔用詞不匹配的問題，提出一種基于關聯(lián)規(guī)則與聚類算法的查詢擴展算法。該算法在第1 階段對初始查

2009-10-17 23:00:33

Web文檔聚類中k-means算法的改進

Web文檔聚類中k-means算法的改進介紹了Web文檔聚類中普遍使用的、基于分割的k-means算法,分析了k-means算法所使用的向量空間模型和基于距離的相似性度量的局限性,從而

2009-09-19 09:17:03

913

已全部加載完成

搜索歷史

k means聚類算法實例

K-Means算法實例

（1）、計算距離并劃分數(shù)據(jù)

（2）、使用均值作為新的質心

（3）、算法停止條件

MATLAB中的kmeans函數(shù)

評論

（2）、使用均值作為新的質心

（3）、算法停止條件