1、類型
主要有兩種類型:數(shù)據(jù)集變換和聚類。
無監(jiān)督變換:
降維:接受數(shù)據(jù)的高維表示,找到新的表示方法,以用較少的特征概括重要特性。
找到“構(gòu)成”數(shù)據(jù)的各個(gè)組成部分。例如,文本的主題提取。
聚類:
將數(shù)據(jù)劃分成不同的組,每組包含相似的物項(xiàng)
2、降維
1. 主成分分析(PCA)
一種旋轉(zhuǎn)數(shù)據(jù)集的方法,旋轉(zhuǎn)后的特征在統(tǒng)計(jì)上不相關(guān)。旋轉(zhuǎn)后,通常根據(jù)新特征對(duì)數(shù)據(jù)集的重要性來選擇它的一個(gè)子集。
主成分
方差最大的方向?yàn)椤俺煞?”,這是包含包含最多信息的方向。之后找到與“成分1”正交的包含信息最多的方向,得到“成分2”……利用這一過程找到的方向成為主成分。通常,主成分的個(gè)數(shù)與原始特征相同。
在PCA找到的額旋轉(zhuǎn)表示中,坐標(biāo)軸之間 不相關(guān)。
應(yīng)用
高維數(shù)據(jù)集可視化
特征提?。赫业揭环N數(shù)據(jù)表示,比給定的原始表示更適合于分析。
對(duì)PCA模型的另一種理解:僅適用一些成分對(duì)原始數(shù)據(jù)進(jìn)行重建。
2. 非負(fù)矩陣分解(NMF)
在NMF中,目標(biāo)是分量和系數(shù)均為非負(fù)。只能應(yīng)用于每個(gè)特征都是非負(fù)的數(shù)據(jù),因?yàn)榉秦?fù)分量的非負(fù)求和不可能得到負(fù)值。
與PCA不同,減少分量個(gè)數(shù)不僅會(huì)刪除一些方向,而且會(huì)創(chuàng)建一組完全不同的分量。
NMF的分量沒有按任何特定方法排序,所有分量的地位平等。
NMF使用了隨機(jī)初始化,根據(jù)隨機(jī)種子的不同可能會(huì)產(chǎn)生不同的結(jié)果。
3. t-SNE與流形學(xué)習(xí)
流形學(xué)習(xí)算法 :主要用于可視化,允許進(jìn)行更復(fù)雜的映射。只能變換用于訓(xùn)練的數(shù)據(jù)。
t-SNE:找到數(shù)據(jù)的一個(gè)二維表示,盡可能保持?jǐn)?shù)據(jù)點(diǎn)之間的距離。試圖保存那些點(diǎn)比較靠近的信息。
3、聚類
聚類:將數(shù)據(jù)集劃分成組的任務(wù),這些組叫做簇。
1. K均值聚類
原理
試圖找到代表數(shù)據(jù)特定區(qū)域的簇中心。
算法過程
① 將每個(gè)數(shù)據(jù)點(diǎn)分配給最近的簇中心
② 將每個(gè)簇中心設(shè)置為所分配的所有數(shù)據(jù)點(diǎn)的平均值,如果簇的分配不再變化,結(jié)束;反之,執(zhí)行步驟1
注:聚類算法與分類算法類似,但不存在真實(shí)的標(biāo)簽,標(biāo)簽本身沒有先驗(yàn)意義。
注意
每個(gè)簇僅由其中心決定,這意味著每個(gè)簇都是凸型的,因此,只能找到相對(duì)簡(jiǎn)單的形狀。
k均值假設(shè)所有簇在某種程度上有相同的直徑,它總是將簇之間的邊界剛好畫在簇中心的中間位置
k均值假設(shè)所有方向?qū)γ總€(gè)簇同等重要
特點(diǎn)
優(yōu)點(diǎn):
容易理解和實(shí)現(xiàn)
運(yùn)行速度相對(duì)較快
擴(kuò)展到大型數(shù)據(jù)集比較容易
缺點(diǎn):
依賴于隨機(jī)初始化
對(duì)簇形狀的假設(shè)的約束性較強(qiáng)
要求制定所要尋找到簇的個(gè)數(shù)
2. 凝聚聚類
算法首先聲明每個(gè)點(diǎn)是自己的簇,然后合并兩個(gè)最相似的簇,直到滿足某種停止準(zhǔn)則為止。
連接準(zhǔn)則:規(guī)定如何度量“最相似的簇”。
① ward型:兩個(gè)簇合并后,使得所有簇中方差增加最小
② average型:平均距離最小的兩個(gè)簇合并
③ complete型:簇中點(diǎn)之間最大距離最小的兩個(gè)簇合并
注:凝聚算法不能對(duì)新數(shù)據(jù)點(diǎn)做出預(yù)測(cè)
凝聚聚類生成了所謂的層次聚類
3. DBSCAN (具有噪聲的基于密度的空間聚類應(yīng)用)
原理
識(shí)別特征空間的“擁擠”區(qū)域中的點(diǎn),這些區(qū)域成為密集區(qū)域。簇形成數(shù)據(jù)的密集區(qū)域,并由相對(duì)較空的區(qū)域分隔開。在密集區(qū)域中的點(diǎn)成為核心樣本,指定參數(shù)eps和min_samples。如果在一個(gè)點(diǎn)eps的距離內(nèi)至少有min_samples個(gè)數(shù)據(jù)點(diǎn),則為核心樣本。
算法過程
① 任意選取一個(gè)點(diǎn),檢查是否是核心樣本。
② 若不是,標(biāo)記為噪聲。反之,標(biāo)記為核心樣本,并分配一個(gè)新的簇標(biāo)簽。然后檢查鄰居,若未被分配,分配簇標(biāo)簽;如果是核心樣本,依次訪問鄰居。
③ 選取另一個(gè)尚未被訪問過的點(diǎn),重復(fù)以上過程。
最后得到三種點(diǎn):核心點(diǎn)、邊界點(diǎn)、噪聲。
特點(diǎn)
優(yōu)點(diǎn):
不需先驗(yàn)設(shè)置簇的個(gè)數(shù)
可以劃分具有復(fù)雜形狀的簇
可以找出不屬于任何簇的點(diǎn)
缺點(diǎn):
不允許對(duì)新的測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)
聚類評(píng)估
1. 真實(shí)值評(píng)估
調(diào)整rand指數(shù)(ARI),歸一化互信息(NMI)
二者都給出了定量的度量,最佳值為1,0表示不相關(guān)的聚類。
2. 沒有真實(shí)值
輪廓系數(shù) 計(jì)算一個(gè)簇的緊致度,值越大越好,最高分?jǐn)?shù)為1。雖然緊致的簇很好,但不允許復(fù)雜的形狀。
聚類小結(jié)
k均值
可以用簇的平均值來表示簇。
可被看做是一種分解方法,。每個(gè)數(shù)據(jù)點(diǎn)都由其簇中心表示
DBSCAN
可以檢測(cè)噪聲點(diǎn)
可以自動(dòng)判斷簇的數(shù)量
允許簇有復(fù)雜的形狀
有時(shí)會(huì)生成大小差別很大的簇,可能是優(yōu)點(diǎn)可能是缺點(diǎn)
凝聚聚類
可以提供數(shù)據(jù)的可能劃分的整個(gè)層次結(jié)構(gòu)
可以通過樹狀圖查看
-
算法
+關(guān)注
關(guān)注
23文章
4624瀏覽量
93114 -
無監(jiān)督學(xué)習(xí)
+關(guān)注
關(guān)注
1文章
16瀏覽量
2764
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論