久久精品亚洲国产AV,国产视频只有无码精品,国产精品色欲AV

聚類算法十分容易上手，但是選擇恰當(dāng)?shù)木垲愃惴ú⒉皇且患菀椎氖隆?/p>

數(shù)據(jù)聚類是搭建一個(gè)正確數(shù)據(jù)模型的重要步驟。數(shù)據(jù)分析應(yīng)當(dāng)根據(jù)數(shù)據(jù)的共同點(diǎn)整理信息。然而主要問(wèn)題是，什么通用性參數(shù)可以給出最佳結(jié)果，以及什么才能稱為“最佳”。

本文適用于菜鳥數(shù)據(jù)科學(xué)家或想提升聚類算法能力的專家。下文包括最廣泛使用的聚類算法及其概況。根據(jù)每種方法的特殊性，本文針對(duì)其應(yīng)用提出了建議。

四種基本算法以及如何選擇

聚類模型可以分為四種常見(jiàn)的算法類別。盡管零零散散的聚類算法不少于100種，但是其中大部分的流行程度以及應(yīng)用領(lǐng)域相對(duì)有限。

基于整個(gè)數(shù)據(jù)集對(duì)象間距離計(jì)算的聚類方法，稱為基于連通性的聚類（connectivity-based）或?qū)哟尉垲?。根?jù)算法的“方向”，它可以組合或反過(guò)來(lái)分解信息——聚集和分解的名稱正是源于這種方向的區(qū)別。最流行和合理的類型是聚集型，你可以從輸入所有數(shù)據(jù)開始，然后將這些數(shù)據(jù)點(diǎn)組合成越來(lái)越大的簇，直到達(dá)到極限。

層次聚類的一個(gè)典型案例是植物的分類。數(shù)據(jù)集的“樹”從具體物種開始，以一些植物王國(guó)結(jié)束，每個(gè)植物王國(guó)都由更小的簇組成（門、類、階等）。

層次聚類算法將返回樹狀圖數(shù)據(jù)，該樹狀圖展示了信息的結(jié)構(gòu)，而不是集群上的具體分類。這樣的特點(diǎn)既有好處，也有一些問(wèn)題：算法會(huì)變得很復(fù)雜，且不適用于幾乎沒(méi)有層次的數(shù)據(jù)集。這種算法的性能也較差：由于存在大量的迭代，因此整個(gè)處理過(guò)程浪費(fèi)了很多不必要的時(shí)間。最重要的是，這種分層算法并不能得到精確的結(jié)構(gòu)。

同時(shí)，從預(yù)設(shè)的類別一直分解到所有的數(shù)據(jù)點(diǎn)，類別的個(gè)數(shù)不會(huì)對(duì)最終結(jié)果產(chǎn)生實(shí)質(zhì)性影響，也不會(huì)影響預(yù)設(shè)的距離度量，該距離度量粗略測(cè)量和近似估計(jì)得到的。

根據(jù)我的經(jīng)驗(yàn)，由于簡(jiǎn)單易操作，基于質(zhì)心的聚類（Centroid-based）是最常出現(xiàn)的模型。該模型旨在將數(shù)據(jù)集的每個(gè)對(duì)象劃分為特定的類別。簇?cái)?shù)（k）是隨機(jī)選擇的，這可能是該方法的最大問(wèn)題。由于與k最近鄰居（kNN）相似，該k均值算法在機(jī)器學(xué)習(xí)中特別受歡迎。（附鏈接：https://www.kaggle.com/chavesfm/tuning-parameters-for-k-nearest-neighbors-iris）

計(jì)算過(guò)程包括多個(gè)步驟。首先，輸入數(shù)據(jù)集的目標(biāo)類別數(shù)。聚類的中心應(yīng)當(dāng)盡可能分散，這有助于提高結(jié)果的準(zhǔn)確性。

其次，該算法找到數(shù)據(jù)集的每個(gè)對(duì)象與每個(gè)聚類中心之間的距離。最小坐標(biāo)距離（若使用圖形表示）確定了將對(duì)象移動(dòng)到哪個(gè)群集。

之后，將根據(jù)類別中所有點(diǎn)的坐標(biāo)平均值重新計(jì)算聚類的中心。重復(fù)算法的上一步，但是計(jì)算中要使用簇的新中心點(diǎn)。除非達(dá)到某些條件，否則此類迭代將繼續(xù)。例如，當(dāng)簇的中心距上次迭代沒(méi)有移動(dòng)或移動(dòng)不明顯時(shí)，聚類將結(jié)束。

盡管數(shù)學(xué)和代碼都很簡(jiǎn)單，但k均值仍有一些缺點(diǎn)，因此我們無(wú)法在所有情景中使用它。缺點(diǎn)包括：

因?yàn)閮?yōu)先級(jí)設(shè)置在集群的中心，而不是邊界，所以每個(gè)集群的邊界容易被疏忽。

無(wú)法創(chuàng)建數(shù)據(jù)集結(jié)構(gòu)，其對(duì)象可以按等量的方式分類到多個(gè)群集中。

需要猜測(cè)最佳類別數(shù)（k），或者需要進(jìn)行初步計(jì)算以指定此量規(guī)。

相比之下，期望最大化算法可以避免那些復(fù)雜情況，同時(shí)提供更高的準(zhǔn)確性。簡(jiǎn)而言之，它計(jì)算每個(gè)數(shù)據(jù)集點(diǎn)與我們指定的所有聚類的關(guān)聯(lián)概率。用于該聚類模型的主要工具是高斯混合模型（GMM）–假設(shè)數(shù)據(jù)集的點(diǎn)服從高斯分布。（鏈接：https://www.encyclopedia.com/science-and-technology/mathematics/mathematics/normal-distribution#3）

k-means算法可以算是EM原理的簡(jiǎn)化版本。它們都需要手動(dòng)輸入簇?cái)?shù)，這是此類方法要面對(duì)的主要問(wèn)題。除此之外，計(jì)算原理（對(duì)于GMM或k均值）很簡(jiǎn)單：簇的近似范圍是在每次新迭代中逐漸更新的。

與基于質(zhì)心的模型不同，EM算法允許對(duì)兩個(gè)或多個(gè)聚類的點(diǎn)進(jìn)行分類-它僅展示每個(gè)事件的可能性，你可以使用該事件進(jìn)行進(jìn)一步的分析。更重要的是，每個(gè)聚類的邊界組成了不同度量的橢球體。這與k均值聚類不同，k均值聚類方法用圓形表示。但是，該算法對(duì)于不服從高斯分布的數(shù)據(jù)集根本不起作用。這也是該方法的主要缺點(diǎn)：它更適用于理論問(wèn)題，而不是實(shí)際的測(cè)量或觀察。

最后，基于數(shù)據(jù)密度的聚類成為數(shù)據(jù)科學(xué)家心中的最愛(ài)。（鏈接：http://www.mastersindatascience.org/careers/data-scientist/）這個(gè)名字已經(jīng)包括了模型的要點(diǎn)——將數(shù)據(jù)集劃分為聚類，計(jì)數(shù)器會(huì)輸入ε參數(shù)，即“鄰居”距離。因此，如果目標(biāo)點(diǎn)位于半徑為ε的圓（球）內(nèi)，則它屬于該集群。

具有噪聲的基于密度的聚類方法（DBSCAN）將逐步檢查每個(gè)對(duì)象，將其狀態(tài)更改為“已查看”，將其劃分到具體的類別或噪聲中，直到最終處理整個(gè)數(shù)據(jù)集。用DBSCAN確定的簇可以具有任意形狀，因此非常精確。此外，該算法無(wú)需人為地設(shè)定簇?cái)?shù) —— 算法可以自動(dòng)決定。

盡管如此，DBSCAN也有一些缺點(diǎn)。如果數(shù)據(jù)集由可變密度簇組成，則該方法的結(jié)果較差；如果對(duì)象的位置太近，并且無(wú)法輕易估算出ε參數(shù)，那么這也不是一個(gè)很好的選擇。

總而言之，我們并不能說(shuō)選擇了錯(cuò)誤的算法，只能說(shuō)其中有些算法會(huì)更適合特定的數(shù)據(jù)集結(jié)構(gòu)。為了采用最佳的（看起來(lái)更恰當(dāng)?shù)模┧惴?，你需要全面了解它們的?yōu)缺點(diǎn)。

例如，如果某些算法不符合數(shù)據(jù)集規(guī)范，則可以從一開始就將其排除在外。為避免繁瑣的工作，你可以花一些時(shí)間來(lái)記住這些信息，而無(wú)需反復(fù)試驗(yàn)并從自己的錯(cuò)誤中學(xué)習(xí)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

聚類算法

聚類算法

+關(guān)注

關(guān)注
2

文章
118

瀏覽量
12129
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8418

瀏覽量
132646

評(píng)論

相關(guān)推薦

加密算法的選擇對(duì)于加密安全有多重要？

加密算法的選擇對(duì)于加密安全至關(guān)重要，因?yàn)樗苯佑绊懙綌?shù)據(jù)保護(hù)的有效性和可靠性。以下是幾個(gè)關(guān)鍵點(diǎn)來(lái)說(shuō)明加密算法選擇的重要性：加密強(qiáng)度：加密算法

發(fā)表于 12-17 15:59 ?92次閱讀

大帶寬服務(wù)器托管選擇建議

大帶寬服務(wù)器托管是指將具有高速網(wǎng)絡(luò)連接傳輸速率的服務(wù)器，放置在專業(yè)的數(shù)據(jù)中心內(nèi)進(jìn)行管理和維護(hù)。主機(jī)推薦小編為您整理發(fā)布大帶寬服務(wù)器托管的一些關(guān)鍵信息及選擇建議。

發(fā)表于 10-29 11:44 ?148次閱讀

MOS管如何正確選擇？

在現(xiàn)代電子電路中，MOS管(金屬氧化物半導(dǎo)體場(chǎng)效應(yīng)晶體管)因其低功耗、高輸入阻抗和易于集成等優(yōu)點(diǎn)，被廣泛應(yīng)用于各種電子設(shè)備中。然而，正確選擇MOS管對(duì)于確保電路的性能和可靠性至關(guān)重要。本文將詳細(xì)介紹

發(fā)表于 10-09 14:18 ?379次閱讀

人員軌跡分析算法有哪些？

時(shí)段等。這些信息可以對(duì)城市規(guī)劃、交通管理、公共安全等方面具有重要的指導(dǎo)意義。而為了實(shí)現(xiàn)人員軌跡分析，我們需要使用一些專門的算法和技術(shù)。下面是幾種常用的人員軌跡分析算法： 1. 基于密度的聚類

發(fā)表于 09-26 10:42 ?399次閱讀

選擇正確的LP8860-Q1 EEPROM版本

電子發(fā)燒友網(wǎng)站提供《選擇正確的LP8860-Q1 EEPROM版本.pdf》資料免費(fèi)下載

發(fā)表于 09-20 09:10 ?0次下載

為MCU擴(kuò)展選擇正確的多路復(fù)用器

電子發(fā)燒友網(wǎng)站提供《為MCU擴(kuò)展選擇正確的多路復(fù)用器.pdf》資料免費(fèi)下載

發(fā)表于 09-18 11:52 ?0次下載

選擇正確的德州儀器 (TI) 信號(hào)開關(guān)應(yīng)用說(shuō)明

電子發(fā)燒友網(wǎng)站提供《選擇正確的德州儀器 (TI) 信號(hào)開關(guān)應(yīng)用說(shuō)明.pdf》資料免費(fèi)下載

發(fā)表于 09-12 10:14 ?0次下載

如何正確選擇步進(jìn)電機(jī)驅(qū)動(dòng)器

步進(jìn)電機(jī)驅(qū)動(dòng)器是步進(jìn)電機(jī)系統(tǒng)中的重要組成部分，它負(fù)責(zé)將控制信號(hào)轉(zhuǎn)換為步進(jìn)電機(jī)所需的電流和電壓，以驅(qū)動(dòng)電機(jī)進(jìn)行精確的角度或線性位移。正確選擇步進(jìn)電機(jī)驅(qū)動(dòng)器對(duì)于保證步進(jìn)電機(jī)系統(tǒng)的正常運(yùn)行、提高控制精度

發(fā)表于 06-05 18:04 ?2296次閱讀

如何正確選擇一體成型插件電感規(guī)格尺寸

如何正確選擇一體成型插件電感規(guī)格尺寸gujing 編輯：谷景電子一體成型插件電感是應(yīng)用特別普遍的一款電感元件，它在電子電路中的是其他電子元器件沒(méi)有辦法取代的。要充分發(fā)揮一體成型插件電感的作用，正確

發(fā)表于 05-06 16:27 ?470次閱讀

谷景教你如何正確選擇鐵氧體磁芯電感的規(guī)格

谷景教你如何正確選擇鐵氧體磁芯電感的規(guī)格編輯：谷景電子我們都知道在電感方案的應(yīng)用中，選型工作至關(guān)重要。近年來(lái)隨著電子設(shè)備功能的不斷增強(qiáng)與完善，電磁兼容性成為了電路設(shè)計(jì)中不可忽視的問(wèn)題。鐵氧體磁芯

發(fā)表于 04-24 16:14 ?454次閱讀

選擇正確的功率因數(shù)校正(PFC)拓?fù)?/a>

電子發(fā)燒友網(wǎng)站提供《選擇正確的功率因數(shù)校正(PFC)拓?fù)?pdf》資料免費(fèi)下載

發(fā)表于 03-18 14:35 ?1次下載

 如何選擇合適的線路板TG值？捷多邦為您提供專業(yè)的建議

如何選擇合適的線路板TG值？捷多邦為您提供專業(yè)的建議

發(fā)表于 03-01 10:50 ?548次閱讀

BUCK電路元件的耐壓值該如何正確選擇？

BUCK電路元件的耐壓值該如何正確選擇？選擇BUCK電路元件的耐壓值是設(shè)計(jì)和應(yīng)用電路的重要一環(huán)。耐壓值的選取直接影響到電路的可靠性、性能和壽命。在進(jìn)行正確的耐壓值

發(fā)表于 01-31 16:11 ?1037次閱讀

如何正確選擇DS監(jiān)控閾值？

Vds 時(shí)，我 CAN 確認(rèn)中斷是否由外部 LED 提供服務(wù)。該負(fù)載會(huì)造成閾值設(shè)置為 0.25 的過(guò)流狀態(tài)。當(dāng)閾值更改為 0.50 且負(fù)載相同時(shí)，我們不會(huì)創(chuàng)建過(guò)流狀態(tài)，因?yàn)?Vds 沒(méi)有超過(guò)閾值。我的問(wèn)題是如何正確選擇 DS 監(jiān)控閾值？

發(fā)表于 01-29 08:15

浪涌保護(hù)元件怎么選擇才正確

浪涌保護(hù)元件怎么選擇才正確? 浪涌保護(hù)元件的正確選擇是確保電氣設(shè)備免受過(guò)電壓和電流浪涌的損害。在選擇浪涌保護(hù)元件時(shí)，需要考慮以下幾個(gè)因素：設(shè)

發(fā)表于 01-03 11:43 ?773次閱讀

搜索歷史

正確選擇聚類算法的建議

評(píng)論

加密算法的選擇對(duì)于加密安全有多重要？

大帶寬服務(wù)器托管選擇建議

MOS管如何正確選擇？

人員軌跡分析算法有哪些？

選擇正確的LP8860-Q1 EEPROM版本

為MCU擴(kuò)展選擇正確的多路復(fù)用器

選擇正確的德州儀器 (TI) 信號(hào)開關(guān)應(yīng)用說(shuō)明

如何正確選擇步進(jìn)電機(jī)驅(qū)動(dòng)器

如何正確選擇一體成型插件電感規(guī)格尺寸

谷景教你如何正確選擇鐵氧體磁芯電感的規(guī)格

選擇正確的功率因數(shù)校正(PFC)拓?fù)?/a>

如何選擇合適的線路板TG值？捷多邦為您提供專業(yè)的建議

BUCK電路元件的耐壓值該如何正確選擇？

如何正確選擇DS監(jiān)控閾值？

浪涌保護(hù)元件怎么選擇才正確