-
關(guān)聯(lián)規(guī)則分析
關(guān)聯(lián)規(guī)則(Association Rules)是反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性,是數(shù)據(jù)挖掘的一個(gè)重要技術(shù),用于從大量數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù)項(xiàng)之間的相關(guān)關(guān)系。
關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)涵式,其中, X和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)(antecedent或left-hand-side, LHS)和后繼(consequent或right-hand-side, RHS) 。其中,關(guān)聯(lián)規(guī)則XY,存在支持度和信任度。
-
回歸分析
回歸分析是一種數(shù)學(xué)模型。當(dāng)因變量和自變量為線性關(guān)系時(shí),它是一種特殊的線性模型。
最簡(jiǎn)單的情形是一元線性回歸,由大體上有線性關(guān)系的一個(gè)自變量和一個(gè)因變量組成;模型是Y=a+bX+ε(X是自變量,Y是因變量,ε是隨機(jī)誤差)。
通常假定隨機(jī)誤差的均值為0,方差為σ2(σ2﹥0,σ^2與X的值無(wú)關(guān))。若進(jìn)一步假定隨機(jī)誤差遵從正態(tài)分布,就叫做正態(tài)線性模型。一般的,若有k個(gè)自變量和1個(gè)因變量,則因變量的值分為兩部分:一部分由自變量影響,即表示為它的函數(shù),函數(shù)形式已知且含有未知參數(shù);另一部分由其他的未考慮因素和隨機(jī)性影響,即隨機(jī)誤差。
當(dāng)函數(shù)為參數(shù)未知的線性函數(shù)時(shí),稱為線性回歸分析模型;當(dāng)函數(shù)為參數(shù)未知的非線性函數(shù)時(shí),稱為非線性回歸分析模型。當(dāng)自變量個(gè)數(shù)大于1時(shí)稱為多元回歸,當(dāng)因變量個(gè)數(shù)大于1時(shí)稱為多重回歸。
- 分類分析
分類的主要用途和場(chǎng)景是“預(yù)測(cè)”,基于已有的樣本預(yù)測(cè)新樣本的所屬類別。例如信用評(píng)級(jí)、風(fēng)險(xiǎn)等級(jí)、欺詐預(yù)測(cè)等;同時(shí),它也是模式識(shí)別的重要組成部分,廣泛應(yīng)用到機(jī)器翻譯,人臉識(shí)別、醫(yī)學(xué)診斷、手寫字符識(shí)別、指紋識(shí)別的圖像識(shí)別、語(yǔ)音識(shí)別、視頻識(shí)別的領(lǐng)域;另外,分類算法也可以用于知識(shí)抽取,通過(guò)模型找到潛在的規(guī)律,幫助業(yè)務(wù)得到可執(zhí)行的規(guī)則。
常見應(yīng)用場(chǎng)景:
對(duì)沉默會(huì)員做會(huì)員重新激活,應(yīng)該挑選具有何種特征會(huì)員
商品選取何種促銷活動(dòng)清倉(cāng)
那些廣告更適合VIP商家的投放需求
提煉特征規(guī)則利用的是在構(gòu)建分類算法時(shí)產(chǎn)生的分類規(guī)則。
- 聚類分析
聚類是將物理或抽象對(duì)象的集合分成由類似的對(duì)象組成的多個(gè)類的過(guò)程。由聚類所生成的簇是一組數(shù)據(jù)對(duì)象的集合,這些對(duì)象與同一個(gè)簇中的對(duì)象彼此相似,與其他簇中的對(duì)象相異?!拔镆灶惥?,人以群分”,在自然科學(xué)和社會(huì)科學(xué)中,存在著大量的分類問(wèn)題。聚類分析又稱群分析,它是研究(樣品或指標(biāo))分類問(wèn)題的一種統(tǒng)計(jì)分析方法。聚類分析起源于分類學(xué),但是聚類不等于分類。聚類與分類的不同在于,聚類所要求劃分的類是未知的。聚類分析內(nèi)容非常豐富,有系統(tǒng)聚類法、有序樣品聚類法、動(dòng)態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預(yù)報(bào)法等。
- 集成學(xué)習(xí)
集成學(xué)習(xí)(ensemble learning)通過(guò)構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器來(lái)完成學(xué)習(xí)任務(wù),有時(shí)也被稱為多分類器系統(tǒng)(multi-classifier system)、基于委員會(huì)的學(xué)習(xí)(committee-based learning)。
集成學(xué)習(xí)通過(guò)將多個(gè)學(xué)習(xí)器進(jìn)行結(jié)合,??色@得比單一學(xué)習(xí)器更加顯著的泛化性能。這對(duì)“弱學(xué)習(xí)器”尤為明顯。因此集成學(xué)習(xí)的理論研究都是針對(duì)弱學(xué)習(xí)器進(jìn)行的,而基學(xué)習(xí)器有時(shí)也被直接稱為弱學(xué)習(xí)器。但需注意的是,雖然從理論上說(shuō)使用弱學(xué)習(xí)器集成足以獲得很好的性能,但在實(shí)踐中出于種種考慮,例如希望使用較少的個(gè)體學(xué)習(xí)器,或是重用一些常見學(xué)習(xí)器的一些經(jīng)驗(yàn)等,人們往往會(huì)使用比較強(qiáng)的學(xué)習(xí)器。
在一般經(jīng)驗(yàn)中,如果把好壞不等的東西摻到一起,那么通常結(jié)果會(huì)是比最壞的要好些,比最好的要壞一些。集成學(xué)習(xí)把多個(gè)學(xué)習(xí)器結(jié)合起來(lái),如何能得到比最好的單一學(xué)習(xí)器更好的性能呢?
- 自然語(yǔ)言處理
自然語(yǔ)言處理( Natural Language Processing, NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理是一門融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此,這一領(lǐng)域的研究將涉及自然語(yǔ)言,即人們?nèi)粘J褂玫恼Z(yǔ)言,所以它與語(yǔ)言學(xué)的研究有著密切的聯(lián)系,但又有重要的區(qū)別。自然語(yǔ)言處理并不是一般地研究自然語(yǔ)言,而在于研制能有效地實(shí)現(xiàn)自然語(yǔ)言通信的計(jì)算機(jī)系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計(jì)算機(jī)科學(xué)的一部分
自然語(yǔ)言處理主要應(yīng)用于機(jī)器翻譯、輿情監(jiān)測(cè)、自動(dòng)摘要、觀點(diǎn)提取、文本分類、問(wèn)題回答、文本語(yǔ)義對(duì)比、語(yǔ)音識(shí)別、中文OCR等方面 。
- 圖像處理
圖像處理(image processing),用計(jì)算機(jī)對(duì)圖像進(jìn)行分析,以達(dá)到所需結(jié)果的技術(shù),又稱影像處理,圖像處理一般指數(shù)字圖像處理。數(shù)字圖像是指用工業(yè)相機(jī)、攝像機(jī)、掃描儀等設(shè)備經(jīng)過(guò)拍攝得到的一個(gè)大的二維數(shù)組,該數(shù)組的元素稱為像素,其值稱為灰度值。圖像處理技術(shù)一般包括圖像壓縮,增強(qiáng)和復(fù)原,匹配、描述和識(shí)別3個(gè)部分。
深度學(xué)習(xí)(DL, Deep Learning)是機(jī)器學(xué)習(xí)(ML, Machine Learning)領(lǐng)域中一個(gè)新的研究方向,它被引入機(jī)器學(xué)習(xí)使其更接近于最初的目標(biāo)——人工智能(AI, Artificial Intelligence)。
深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學(xué)習(xí)過(guò)程中獲得的信息對(duì)諸如文字,圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。它的最終目標(biāo)是讓機(jī)器能夠像人一樣具有分析學(xué)習(xí)能力,能夠識(shí)別文字、圖像和聲音等數(shù)據(jù)。 深度學(xué)習(xí)是一個(gè)復(fù)雜的機(jī)器學(xué)習(xí)算法,在語(yǔ)音和圖像識(shí)別方面取得的效果,遠(yuǎn)遠(yuǎn)超過(guò)先前相關(guān)技術(shù)。
深度學(xué)習(xí)在搜索技術(shù),數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),機(jī)器翻譯,自然語(yǔ)言處理,多媒體學(xué)習(xí),語(yǔ)音,推薦和個(gè)性化技術(shù),以及其他相關(guān)領(lǐng)域都取得了很多成果。深度學(xué)習(xí)使機(jī)器模仿視聽和思考等人類的活動(dòng),解決了很多復(fù)雜的模式識(shí)別難題,使得人工智能相關(guān)技術(shù)取得了很大進(jìn)步。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7081瀏覽量
89178 -
關(guān)聯(lián)規(guī)則
+關(guān)注
關(guān)注
0文章
29瀏覽量
8015 -
回歸分析
+關(guān)注
關(guān)注
0文章
7瀏覽量
5917
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論