0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)之關(guān)聯(lián)分析介紹

RG15206629988 ? 來源:行業(yè)學(xué)習(xí)與研究 ? 2023-03-25 14:13 ? 次閱讀

數(shù)據(jù)挖掘中應(yīng)用較多的技術(shù)是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)主流算法包括三種:關(guān)聯(lián)分析、分類分析、聚類分析。本文主要介紹關(guān)聯(lián)分析。

一、關(guān)聯(lián)分析概述

關(guān)聯(lián)分析可發(fā)現(xiàn)大量數(shù)據(jù)中隱藏的相關(guān)性(統(tǒng)計學(xué)的相關(guān)性分析不能直接發(fā)現(xiàn)數(shù)據(jù)中隱藏的相關(guān)性,需先人為猜測各變量間可能相關(guān),再通過統(tǒng)計學(xué)計算相關(guān)性強(qiáng)弱),進(jìn)而描述事物同時出現(xiàn)的規(guī)律和模式,被描述出的規(guī)律和模式可應(yīng)用于市場營銷、事務(wù)分析等領(lǐng)域。

例如:某超市可通過關(guān)聯(lián)分析得出消費(fèi)者購買牛奶和購買面包隱含的相關(guān)性。如果有關(guān)購買牛奶和購買面包衡量指標(biāo)大于某一閾值,說明此二者相關(guān),超市可以通過將售賣牛奶和面包的貨架靠近或推出牛奶和面包的組合裝促銷。

二、置信度與支持度

置信度與支持度是關(guān)聯(lián)分析的衡量指標(biāo)。

置信度是指包含關(guān)聯(lián)規(guī)則所有特征(個人理解:特征可被理解為變量,包括自變量和因變量)的數(shù)據(jù)數(shù)量占包含自變量數(shù)據(jù)數(shù)量的比例。置信度高表示關(guān)聯(lián)規(guī)則所表示的自變量與因變量的相關(guān)性高。

支持度是指包含關(guān)聯(lián)規(guī)則的所有特征的數(shù)據(jù)數(shù)量占總數(shù)據(jù)數(shù)量的比例。支持度高表示關(guān)聯(lián)規(guī)則的出現(xiàn)頻率高,該關(guān)聯(lián)規(guī)則的重要性高。如果關(guān)聯(lián)規(guī)則的置信度高,但支持度低,表示該關(guān)聯(lián)規(guī)則出現(xiàn)頻率低,重要性低,利用價值低。

關(guān)聯(lián)分析需尋找支持度和置信度分別高于預(yù)先設(shè)定的支持度閾值和置信度閾值的關(guān)聯(lián)規(guī)則,該種關(guān)聯(lián)規(guī)則被稱為強(qiáng)關(guān)聯(lián)規(guī)則。不小于支持度閾值的關(guān)聯(lián)規(guī)則被稱為頻繁規(guī)則,不小于支持度閾值的特征集被稱為頻繁項集(項集可被理解為特征集,項、特征的具象化事物可以是商品,個人理解:頻繁規(guī)則和頻繁項集是一種事物兩個維度的表述)。

三、Apriori定律

在大數(shù)據(jù)關(guān)聯(lián)分析中,如果采用枚舉的方式找出所有的頻繁項集,則計算效率較低。因此,關(guān)聯(lián)分析可通過以下定律,簡化頻繁項集的確定過程。

Apriori定律1:頻繁項集的子集也是頻繁項集。如圖一所示,如果{C,D,E}是頻繁項集,意味著{C,D,E}在大數(shù)據(jù)中出現(xiàn)的頻率不小于支持度閾值,那么其子集如{C,D}在大數(shù)據(jù)出現(xiàn)的頻率也一定不小于支持度閾值,即為頻繁項集。

1c18de38-cac8-11ed-bfe3-dac502259ad0.png

圖一,圖片來源:嗶哩嗶哩《數(shù)據(jù)科學(xué)導(dǎo)論》

Apriori定律2:非頻繁項集的超集(個人理解:某集合的超集是包含該集合的集合)也不是頻繁項集。如圖二所示,如果{A,B}不是頻繁項集,意味著{A,B}在大數(shù)據(jù)中出現(xiàn)的頻率小于支持度閾值,那么其超集如{A,B,C}在大數(shù)據(jù)出現(xiàn)的頻率也一定小于支持度閾值,即不是頻繁項集。

1c37974c-cac8-11ed-bfe3-dac502259ad0.png

圖二,圖片來源:嗶哩嗶哩《數(shù)據(jù)科學(xué)導(dǎo)論》

以上兩定律在Apriori算法中被應(yīng)用,Apriori算法是一種關(guān)聯(lián)分析算法。

四、關(guān)聯(lián)規(guī)則學(xué)習(xí)步驟

(1)找出所有的頻繁項集。

(2)根據(jù)頻繁項集生成頻繁規(guī)則。

(3)根據(jù)置信度指標(biāo)進(jìn)一步篩選頻繁規(guī)則。

五、確定候選項集的注意事項

在選擇候選項集(個人理解:候選項集指未進(jìn)行置信度篩選的頻繁項集)需注意:

(1)應(yīng)當(dāng)避免產(chǎn)生太多不必要的候選項集。

(2)候選項集中不遺漏頻繁項集。

(3)不產(chǎn)生重復(fù)候選項集。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8434

    瀏覽量

    132868
  • Apriori算法
    +關(guān)注

    關(guān)注

    0

    文章

    14

    瀏覽量

    10572

原文標(biāo)題:大數(shù)據(jù)相關(guān)介紹(24)——機(jī)器學(xué)習(xí)之關(guān)聯(lián)分析

文章出處:【微信號:行業(yè)學(xué)習(xí)與研究,微信公眾號:行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗】+兩本互為支持的書

    最近在閱讀《具身智能機(jī)器人系統(tǒng)》這本書的同時,還讀了 《計算機(jī)視覺PyTorch數(shù)字圖像處理》一書,這兩本書完全可以視為是互為依托的姊妹篇。《計算機(jī)視覺PyTorch數(shù)字圖像處理》是介紹
    發(fā)表于 01-01 15:50

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章中,我們介紹機(jī)器學(xué)習(xí)的關(guān)鍵概念術(shù)語。在本文中,我們會介紹傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識和多
    的頭像 發(fā)表于 12-30 09:16 ?313次閱讀
    傳統(tǒng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    zeta在機(jī)器學(xué)習(xí)中的應(yīng)用 zeta的優(yōu)缺點(diǎn)分析

    在探討ZETA在機(jī)器學(xué)習(xí)中的應(yīng)用以及ZETA的優(yōu)缺點(diǎn)時,需要明確的是,ZETA一詞在不同領(lǐng)域可能有不同的含義和應(yīng)用。以下是根據(jù)不同領(lǐng)域的ZETA進(jìn)行的分析: 一、ZETA在機(jī)器
    的頭像 發(fā)表于 12-20 09:11 ?320次閱讀

    什么是機(jī)器學(xué)習(xí)?通過機(jī)器學(xué)習(xí)方法能解決哪些問題?

    計算機(jī)系統(tǒng)自身的性能”。事實上,由于“經(jīng)驗”在計算機(jī)系統(tǒng)中主要以數(shù)據(jù)的形式存在,因此機(jī)器學(xué)習(xí)需要設(shè)法對數(shù)據(jù)進(jìn)行分析學(xué)習(xí),這就使得它逐漸成為智能數(shù)據(jù)
    的頭像 發(fā)表于 11-16 01:07 ?472次閱讀
    什么是<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>?通過<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法能解決哪些問題?

    【「時間序列與機(jī)器學(xué)習(xí)」閱讀體驗】時間序列的信息提取

    個重要環(huán)節(jié),目標(biāo)是從給定的時間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析和預(yù)測任務(wù)。 特征工程(Feature Engineering)是將數(shù)據(jù)轉(zhuǎn)換為更好地表示潛在問題的特征,從而提高機(jī)器學(xué)習(xí)
    發(fā)表于 08-17 21:12

    【《時間序列與機(jī)器學(xué)習(xí)》閱讀體驗】+ 時間序列的信息提取

    本人有些機(jī)器學(xué)習(xí)的基礎(chǔ),理解起來一點(diǎn)也不輕松,加油。 作者首先說明了時間序列的信息提取是時間序列分析的一個重要環(huán)節(jié),目標(biāo)是從給定的時間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析
    發(fā)表于 08-14 18:00

    【「時間序列與機(jī)器學(xué)習(xí)」閱讀體驗】+ 鳥瞰這本書

    清晰,從時間序列分析的基礎(chǔ)理論出發(fā),逐步深入到機(jī)器學(xué)習(xí)算法在時間序列預(yù)測中的應(yīng)用,內(nèi)容全面,循序漸進(jìn)。每一章都經(jīng)過精心設(shè)計,對理論知識進(jìn)行了詳細(xì)的闡述,對實際案例進(jìn)行了生動的展示,使讀者在理論與實踐
    發(fā)表于 08-12 11:28

    【「時間序列與機(jī)器學(xué)習(xí)」閱讀體驗】+ 簡單建議

    這本書以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時間序列分析機(jī)器學(xué)習(xí)融合應(yīng)用的宏偉藍(lán)圖。作者不僅扎實地構(gòu)建了時間序列分析的基礎(chǔ)知識,更巧妙地展示了
    發(fā)表于 08-12 11:21

    【《時間序列與機(jī)器學(xué)習(xí)》閱讀體驗】+ 了解時間序列

    。 可以探索現(xiàn)象發(fā)展變化的規(guī)律,對某些社會經(jīng)濟(jì)現(xiàn)象進(jìn)行預(yù)測。 利用時間序列可以在不同地區(qū)或國家之間進(jìn)行對比分析,這也是統(tǒng)計分析的重要方法之一。 而《時間序列與機(jī)器學(xué)習(xí)》一書的后幾章分別
    發(fā)表于 08-11 17:55

    【「時間序列與機(jī)器學(xué)習(xí)」閱讀體驗】全書概覽與時間序列概述

    他領(lǐng)域(如自然語言處理、計算機(jī)視覺等)的關(guān)聯(lián)。 ●第2章“時間序列的信息提取”:介紹特征工程的核心概念及其在時間序列分析中的廣用,比如對原始數(shù)據(jù)進(jìn)行歸一化、缺失值填充等轉(zhuǎn)換;以及如何通過特征工程從時間
    發(fā)表于 08-07 23:03

    機(jī)器學(xué)習(xí)在數(shù)據(jù)分析中的應(yīng)用

    隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)量的爆炸性增長對數(shù)據(jù)分析提出了更高的要求。機(jī)器學(xué)習(xí)作為一種強(qiáng)大的工具,通過訓(xùn)練模型從數(shù)據(jù)中學(xué)習(xí)規(guī)律,為企業(yè)和組織提供了更高效、更準(zhǔn)確的數(shù)據(jù)
    的頭像 發(fā)表于 07-02 11:22 ?727次閱讀

    深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的對比

    在人工智能的浪潮中,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)無疑是兩大核心驅(qū)動力。它們各自以其獨(dú)特的方式推動著技術(shù)的進(jìn)步,為眾多領(lǐng)域帶來了革命性的變化。然而,盡管它們都屬于機(jī)器
    的頭像 發(fā)表于 07-01 11:40 ?1491次閱讀

    名單公布!【書籍評測活動NO.35】如何用「時間序列與機(jī)器學(xué)習(xí)」解鎖未來?

    應(yīng)用,將理論基礎(chǔ)與實踐案例相結(jié)合,作者憑借扎實的數(shù)學(xué)功底及其在企業(yè)界的豐富實踐經(jīng)驗,將機(jī)器學(xué)習(xí)與時間序列分析巧妙融合在書中。 全書書共分為8章,系統(tǒng)介紹時間序列的基礎(chǔ)知識、常用預(yù)測方法
    發(fā)表于 06-25 15:00

    機(jī)器學(xué)習(xí)入門:基本概念介紹

    機(jī)器學(xué)習(xí)(GraphMachineLearning,簡稱GraphML)是機(jī)器學(xué)習(xí)的一個分支,專注于利用圖形結(jié)構(gòu)的數(shù)據(jù)。在圖形結(jié)構(gòu)中,數(shù)據(jù)以圖的形式表示,其中的節(jié)點(diǎn)(或頂點(diǎn))表示實體
    的頭像 發(fā)表于 05-16 08:27 ?530次閱讀
    圖<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>入門:基本概念<b class='flag-5'>介紹</b>

    arcgis中如何關(guān)聯(lián)兩個屬性表

    在ArcGIS中,關(guān)聯(lián)兩個屬性表是一個重要的操作,可以通過此操作將兩個表中的數(shù)據(jù)關(guān)聯(lián)起來,以便進(jìn)行分析和查詢。下面是詳細(xì)介紹如何在ArcGIS中實現(xiàn)屬性表的
    的頭像 發(fā)表于 02-25 11:01 ?4390次閱讀