數(shù)據(jù)挖掘中應(yīng)用較多的技術(shù)是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)主流算法包括三種:關(guān)聯(lián)分析、分類分析、聚類分析。本文主要介紹關(guān)聯(lián)分析。
一、關(guān)聯(lián)分析概述
關(guān)聯(lián)分析可發(fā)現(xiàn)大量數(shù)據(jù)中隱藏的相關(guān)性(統(tǒng)計學(xué)的相關(guān)性分析不能直接發(fā)現(xiàn)數(shù)據(jù)中隱藏的相關(guān)性,需先人為猜測各變量間可能相關(guān),再通過統(tǒng)計學(xué)計算相關(guān)性強(qiáng)弱),進(jìn)而描述事物同時出現(xiàn)的規(guī)律和模式,被描述出的規(guī)律和模式可應(yīng)用于市場營銷、事務(wù)分析等領(lǐng)域。
例如:某超市可通過關(guān)聯(lián)分析得出消費(fèi)者購買牛奶和購買面包隱含的相關(guān)性。如果有關(guān)購買牛奶和購買面包衡量指標(biāo)大于某一閾值,說明此二者相關(guān),超市可以通過將售賣牛奶和面包的貨架靠近或推出牛奶和面包的組合裝促銷。
二、置信度與支持度
置信度與支持度是關(guān)聯(lián)分析的衡量指標(biāo)。
置信度是指包含關(guān)聯(lián)規(guī)則所有特征(個人理解:特征可被理解為變量,包括自變量和因變量)的數(shù)據(jù)數(shù)量占包含自變量數(shù)據(jù)數(shù)量的比例。置信度高表示關(guān)聯(lián)規(guī)則所表示的自變量與因變量的相關(guān)性高。
支持度是指包含關(guān)聯(lián)規(guī)則的所有特征的數(shù)據(jù)數(shù)量占總數(shù)據(jù)數(shù)量的比例。支持度高表示關(guān)聯(lián)規(guī)則的出現(xiàn)頻率高,該關(guān)聯(lián)規(guī)則的重要性高。如果關(guān)聯(lián)規(guī)則的置信度高,但支持度低,表示該關(guān)聯(lián)規(guī)則出現(xiàn)頻率低,重要性低,利用價值低。
關(guān)聯(lián)分析需尋找支持度和置信度分別高于預(yù)先設(shè)定的支持度閾值和置信度閾值的關(guān)聯(lián)規(guī)則,該種關(guān)聯(lián)規(guī)則被稱為強(qiáng)關(guān)聯(lián)規(guī)則。不小于支持度閾值的關(guān)聯(lián)規(guī)則被稱為頻繁規(guī)則,不小于支持度閾值的特征集被稱為頻繁項集(項集可被理解為特征集,項、特征的具象化事物可以是商品,個人理解:頻繁規(guī)則和頻繁項集是一種事物兩個維度的表述)。
三、Apriori定律
在大數(shù)據(jù)關(guān)聯(lián)分析中,如果采用枚舉的方式找出所有的頻繁項集,則計算效率較低。因此,關(guān)聯(lián)分析可通過以下定律,簡化頻繁項集的確定過程。
Apriori定律1:頻繁項集的子集也是頻繁項集。如圖一所示,如果{C,D,E}是頻繁項集,意味著{C,D,E}在大數(shù)據(jù)中出現(xiàn)的頻率不小于支持度閾值,那么其子集如{C,D}在大數(shù)據(jù)出現(xiàn)的頻率也一定不小于支持度閾值,即為頻繁項集。
圖一,圖片來源:嗶哩嗶哩《數(shù)據(jù)科學(xué)導(dǎo)論》
Apriori定律2:非頻繁項集的超集(個人理解:某集合的超集是包含該集合的集合)也不是頻繁項集。如圖二所示,如果{A,B}不是頻繁項集,意味著{A,B}在大數(shù)據(jù)中出現(xiàn)的頻率小于支持度閾值,那么其超集如{A,B,C}在大數(shù)據(jù)出現(xiàn)的頻率也一定小于支持度閾值,即不是頻繁項集。
圖二,圖片來源:嗶哩嗶哩《數(shù)據(jù)科學(xué)導(dǎo)論》
以上兩定律在Apriori算法中被應(yīng)用,Apriori算法是一種關(guān)聯(lián)分析算法。
四、關(guān)聯(lián)規(guī)則學(xué)習(xí)步驟
(1)找出所有的頻繁項集。
(2)根據(jù)頻繁項集生成頻繁規(guī)則。
(3)根據(jù)置信度指標(biāo)進(jìn)一步篩選頻繁規(guī)則。
五、確定候選項集的注意事項
在選擇候選項集(個人理解:候選項集指未進(jìn)行置信度篩選的頻繁項集)需注意:
(1)應(yīng)當(dāng)避免產(chǎn)生太多不必要的候選項集。
(2)候選項集中不遺漏頻繁項集。
(3)不產(chǎn)生重復(fù)候選項集。
審核編輯:劉清
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8434瀏覽量
132868 -
Apriori算法
+關(guān)注
關(guān)注
0文章
14瀏覽量
10572
原文標(biāo)題:大數(shù)據(jù)相關(guān)介紹(24)——機(jī)器學(xué)習(xí)之關(guān)聯(lián)分析
文章出處:【微信號:行業(yè)學(xué)習(xí)與研究,微信公眾號:行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論