亚洲自拍偷拍视频,国产尤物精品不卡

1、類型

主要有兩種類型：數(shù)據(jù)集變換和聚類。

無監(jiān)督變換：

降維：接受數(shù)據(jù)的高維表示，找到新的表示方法，以用較少的特征概括重要特性。

找到“構(gòu)成”數(shù)據(jù)的各個(gè)組成部分。例如，文本的主題提取。

聚類：

將數(shù)據(jù)劃分成不同的組，每組包含相似的物項(xiàng)

2、降維

1. 主成分分析（PCA）

一種旋轉(zhuǎn)數(shù)據(jù)集的方法，旋轉(zhuǎn)后的特征在統(tǒng)計(jì)上不相關(guān)。旋轉(zhuǎn)后，通常根據(jù)新特征對數(shù)據(jù)集的重要性來選擇它的一個(gè)子集。

主成分

方差最大的方向?yàn)椤俺煞?”，這是包含包含最多信息的方向。之后找到與“成分1”正交的包含信息最多的方向，得到“成分2”……利用這一過程找到的方向成為主成分。通常，主成分的個(gè)數(shù)與原始特征相同。

在PCA找到的額旋轉(zhuǎn)表示中，坐標(biāo)軸之間不相關(guān)。

應(yīng)用

高維數(shù)據(jù)集可視化

特征提?。赫业揭环N數(shù)據(jù)表示，比給定的原始表示更適合于分析。

對PCA模型的另一種理解：僅適用一些成分對原始數(shù)據(jù)進(jìn)行重建。

2. 非負(fù)矩陣分解（NMF）

在NMF中，目標(biāo)是分量和系數(shù)均為非負(fù)。只能應(yīng)用于每個(gè)特征都是非負(fù)的數(shù)據(jù)，因?yàn)榉秦?fù)分量的非負(fù)求和不可能得到負(fù)值。

與PCA不同，減少分量個(gè)數(shù)不僅會刪除一些方向，而且會創(chuàng)建一組完全不同的分量。

NMF的分量沒有按任何特定方法排序，所有分量的地位平等。

NMF使用了隨機(jī)初始化，根據(jù)隨機(jī)種子的不同可能會產(chǎn)生不同的結(jié)果。

3. t-SNE與流形學(xué)習(xí)

流形學(xué)習(xí)算法：主要用于可視化，允許進(jìn)行更復(fù)雜的映射。只能變換用于訓(xùn)練的數(shù)據(jù)。

t-SNE：找到數(shù)據(jù)的一個(gè)二維表示，盡可能保持?jǐn)?shù)據(jù)點(diǎn)之間的距離。試圖保存那些點(diǎn)比較靠近的信息。

3、聚類

聚類：將數(shù)據(jù)集劃分成組的任務(wù)，這些組叫做簇。

1. K均值聚類

原理

試圖找到代表數(shù)據(jù)特定區(qū)域的簇中心。

算法過程

① 將每個(gè)數(shù)據(jù)點(diǎn)分配給最近的簇中心

② 將每個(gè)簇中心設(shè)置為所分配的所有數(shù)據(jù)點(diǎn)的平均值，如果簇的分配不再變化，結(jié)束；反之，執(zhí)行步驟1

注：聚類算法與分類算法類似，但不存在真實(shí)的標(biāo)簽，標(biāo)簽本身沒有先驗(yàn)意義。

注意

每個(gè)簇僅由其中心決定，這意味著每個(gè)簇都是凸型的，因此，只能找到相對簡單的形狀。

k均值假設(shè)所有簇在某種程度上有相同的直徑，它總是將簇之間的邊界剛好畫在簇中心的中間位置

k均值假設(shè)所有方向?qū)γ總€(gè)簇同等重要

特點(diǎn)

優(yōu)點(diǎn)：

容易理解和實(shí)現(xiàn)

運(yùn)行速度相對較快

擴(kuò)展到大型數(shù)據(jù)集比較容易

缺點(diǎn)：

依賴于隨機(jī)初始化

對簇形狀的假設(shè)的約束性較強(qiáng)

要求制定所要尋找到簇的個(gè)數(shù)

2. 凝聚聚類

算法首先聲明每個(gè)點(diǎn)是自己的簇，然后合并兩個(gè)最相似的簇，直到滿足某種停止準(zhǔn)則為止。

連接準(zhǔn)則：規(guī)定如何度量“最相似的簇”。

① ward型：兩個(gè)簇合并后，使得所有簇中方差增加最小

② average型：平均距離最小的兩個(gè)簇合并

③ complete型：簇中點(diǎn)之間最大距離最小的兩個(gè)簇合并

注：凝聚算法不能對新數(shù)據(jù)點(diǎn)做出預(yù)測

凝聚聚類生成了所謂的層次聚類

3. DBSCAN （具有噪聲的基于密度的空間聚類應(yīng)用）

原理

識別特征空間的“擁擠”區(qū)域中的點(diǎn)，這些區(qū)域成為密集區(qū)域。簇形成數(shù)據(jù)的密集區(qū)域，并由相對較空的區(qū)域分隔開。在密集區(qū)域中的點(diǎn)成為核心樣本，指定參數(shù)eps和min_samples。如果在一個(gè)點(diǎn)eps的距離內(nèi)至少有min_samples個(gè)數(shù)據(jù)點(diǎn)，則為核心樣本。

算法過程

① 任意選取一個(gè)點(diǎn)，檢查是否是核心樣本。

② 若不是，標(biāo)記為噪聲。反之，標(biāo)記為核心樣本，并分配一個(gè)新的簇標(biāo)簽。然后檢查鄰居，若未被分配，分配簇標(biāo)簽；如果是核心樣本，依次訪問鄰居。

③ 選取另一個(gè)尚未被訪問過的點(diǎn)，重復(fù)以上過程。

最后得到三種點(diǎn)：核心點(diǎn)、邊界點(diǎn)、噪聲。

特點(diǎn)

優(yōu)點(diǎn)：

不需先驗(yàn)設(shè)置簇的個(gè)數(shù)

可以劃分具有復(fù)雜形狀的簇

可以找出不屬于任何簇的點(diǎn)

缺點(diǎn)：

不允許對新的測試數(shù)據(jù)進(jìn)行預(yù)測

聚類評估

1. 真實(shí)值評估

調(diào)整rand指數(shù)（ARI），歸一化互信息（NMI）

二者都給出了定量的度量，最佳值為1，0表示不相關(guān)的聚類。

2. 沒有真實(shí)值

輪廓系數(shù) 計(jì)算一個(gè)簇的緊致度，值越大越好，最高分?jǐn)?shù)為1。雖然緊致的簇很好，但不允許復(fù)雜的形狀。

聚類小結(jié)

k均值

可以用簇的平均值來表示簇。

可被看做是一種分解方法，。每個(gè)數(shù)據(jù)點(diǎn)都由其簇中心表示

DBSCAN

可以檢測噪聲點(diǎn)

可以自動判斷簇的數(shù)量

允許簇有復(fù)雜的形狀

有時(shí)會生成大小差別很大的簇，可能是優(yōu)點(diǎn)可能是缺點(diǎn)

凝聚聚類

可以提供數(shù)據(jù)的可能劃分的整個(gè)層次結(jié)構(gòu)

可以通過樹狀圖查看

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4702

瀏覽量
94993
無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)

+關(guān)注

關(guān)注
1

文章
17

瀏覽量
2817

搜索歷史

無監(jiān)督學(xué)習(xí)的數(shù)據(jù)集變換和聚類

評論

電子發(fā)燒友