數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。
數(shù)據(jù)挖掘通常與計算機(jī)科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。
數(shù)據(jù)挖掘的對象
數(shù)據(jù)的類型可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的,甚至是異構(gòu)型的。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的、非數(shù)學(xué)的,也可以是歸納的。最終被發(fā)現(xiàn)了的知識可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等。
數(shù)據(jù)挖掘的對象可以是任何類型的數(shù)據(jù)源。可以是關(guān)系數(shù)據(jù)庫,此類包含結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)源;也可以是數(shù)據(jù)倉庫、文本、多媒體數(shù)據(jù)、空間數(shù)據(jù)、時序數(shù)據(jù)、Web數(shù)據(jù),此類包含半結(jié)構(gòu)化數(shù)據(jù)甚至異構(gòu)性數(shù)據(jù)的數(shù)據(jù)源。?
發(fā)現(xiàn)知識的方法可以是數(shù)字的、非數(shù)字的,也可以是歸納的。最終被發(fā)現(xiàn)的知識可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等。
數(shù)據(jù)挖掘的步驟
1、定義問題。在開始知識發(fā)現(xiàn)之前最先的也是最重要的要求就是了解數(shù)據(jù)和業(yè)務(wù)問題。必須要對目標(biāo)有一個清晰明確的定義,即決定到底想干什么。比如,想提高電子信箱的利用率時,想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,必須做出決定。
2、建立數(shù)據(jù)挖掘庫。建立數(shù)據(jù)挖掘庫包括以下幾個步驟:數(shù)據(jù)收集,數(shù)據(jù)描述,選擇,數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)清理,合并與整合,構(gòu)建元數(shù)據(jù),加載數(shù)據(jù)挖掘庫,維護(hù)數(shù)據(jù)挖掘庫。
3、分析數(shù)據(jù)。分析的目的是找到對預(yù)測輸出影響最大的數(shù)據(jù)字段,和決定是否需要定義導(dǎo)出字段。如果數(shù)據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時和累人的事情,這時需要選擇一個具有好的界面和功能強(qiáng)大的工具軟件來協(xié)助你完成這些事情。?
4、準(zhǔn)備數(shù)據(jù)。這是建立模型之前的最后一步數(shù)據(jù)準(zhǔn)備工作??梢园汛瞬襟E分為四個部分:選擇變量,選擇記錄,創(chuàng)建新變量,轉(zhuǎn)換變量。?
5、建立模型。建立模型是一個反復(fù)的過程。需要仔細(xì)考察不同的模型以判斷哪個模型對面對的商業(yè)問題最有用。先用一部分?jǐn)?shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來測試和驗(yàn)證這個得到的模型。有時還有第三個數(shù)據(jù)集,稱為驗(yàn)證集,因?yàn)闇y試集可能受模型的特性的影響,這時需要一個獨(dú)立的數(shù)據(jù)集來驗(yàn)證模型的準(zhǔn)確性。訓(xùn)練和測試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分成兩個部分,一個用于模型訓(xùn)練,另一個用于模型測試。
6、評價模型。模型建立好之后,必須評價得到的結(jié)果、解釋模型的價值。從測試集中得到的準(zhǔn)確率只對用于建立模型的數(shù)據(jù)有意義。在實(shí)際應(yīng)用中,需要進(jìn)一步了解錯誤的類型和由此帶來的相關(guān)費(fèi)用的多少。經(jīng)驗(yàn)證明,有效的模型并不一定是正確的模型。造成這一點(diǎn)的直接原因就是模型建立中隱含的各種假定,因此,直接在現(xiàn)實(shí)世界中測試模型很重要。先在小范圍內(nèi)應(yīng)用,取得測試數(shù)據(jù),覺得滿意之后再向大范圍推廣。?
7、實(shí)施。模型建立并經(jīng)驗(yàn)證之后,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應(yīng)用到不同的數(shù)據(jù)集上。
數(shù)據(jù)挖掘的方法
1、分類。它首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘技術(shù),建立一個分類模型,再將該模型用于對沒有分類的數(shù)據(jù)進(jìn)行分類。
2、估值。估值與分類類似,但估值最終的輸出結(jié)果是連續(xù)型的數(shù)值,估值的量并非預(yù)先確定。估值可以作為分類的準(zhǔn)備工作。?
3、預(yù)測。它是通過分類或估值來進(jìn)行,通過分類或估值的訓(xùn)練得出一個模型,如果對于檢驗(yàn)樣本組而言該模型具有較高的準(zhǔn)確率,可將該模型用于對新樣本的未知變量進(jìn)行預(yù)測。
4、相關(guān)性分組或關(guān)聯(lián)規(guī)則。其目的是發(fā)現(xiàn)哪些事情總是一起發(fā)生。
5、聚類。它是自動尋找并建立分組規(guī)則的方法,它通過判斷樣本之間的相似性,把相似樣本劃分在一個簇中。
數(shù)據(jù)挖掘算法
神經(jīng)網(wǎng)絡(luò)法是模擬生物神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能,是一種通過訓(xùn)練來學(xué)習(xí)的非線性預(yù)測模型,它將每一個連接看作一個處理單元,試圖模擬人腦神經(jīng)元的功能,可完成分類、聚類、特征挖掘等多種數(shù)據(jù)挖掘任務(wù)。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法主要表現(xiàn)在權(quán)值的修改上。其優(yōu)點(diǎn)是具有抗干擾、非線性學(xué)習(xí)、聯(lián)想記憶功能,對復(fù)雜情況能得到精確的預(yù)測結(jié)果;缺點(diǎn)首先是不適合處理高維變量,不能觀察中間的學(xué)習(xí)過程,具有“黑箱”性,輸出結(jié)果也難以解釋;其次是需較長的學(xué)習(xí)時間。神經(jīng)網(wǎng)絡(luò)法主要應(yīng)用于數(shù)據(jù)挖掘的聚類技術(shù)中。
2、決策樹法
決策樹是根據(jù)對目標(biāo)變量產(chǎn)生效用的不同而建構(gòu)分類的規(guī)則,通過一系列的規(guī)則對數(shù)據(jù)進(jìn)行分類的過程,其表現(xiàn)形式是類似于樹形結(jié)構(gòu)的流程圖。最典型的算法是J.R.Quinlan于1986年提出的ID3算法,之后在ID3算法的基礎(chǔ)上又提出了極其流行的C4.5算法。采用決策樹法的優(yōu)點(diǎn)是決策制定的過程是可見的,不需要長時間構(gòu)造過程、描述簡單,易于理解,分類速度快;缺點(diǎn)是很難基于多個變量組合發(fā)現(xiàn)規(guī)則。決策樹法擅長處理非數(shù)值型數(shù)據(jù),而且特別適合大規(guī)模的數(shù)據(jù)處理。決策樹提供了一種展示類似在什么條件下會得到什么值這類規(guī)則的方法。比如,在貸款申請中,要對申請的風(fēng)險大小做出判斷。
3、遺傳算法
遺傳算法模擬了自然選擇和遺傳中發(fā)生的繁殖、交配和基因突變現(xiàn)象,是一種采用遺傳結(jié)合、遺傳交叉變異及自然選擇等操作來生成實(shí)現(xiàn)規(guī)則的、基于進(jìn)化理論的機(jī)器學(xué)習(xí)方法。它的基本觀點(diǎn)是“適者生存”原理,具有隱含并行性、易于和其他模型結(jié)合等性質(zhì)。主要的優(yōu)點(diǎn)是可以處理許多數(shù)據(jù)類型,同時可以并行處理各種數(shù)據(jù);缺點(diǎn)是需要的參數(shù)太多,編碼困難,一般計算量比較大。遺傳算法常用于優(yōu)化神經(jīng)元網(wǎng)絡(luò),能夠解決其他技術(shù)難以解決的問題。?
4、粗糙集法
粗糙集法也稱粗糙集理論,是由波蘭數(shù)學(xué)家Z Pawlak在20世紀(jì)80年代初提出的,是一種新的處理含糊、不精確、不完備問題的數(shù)學(xué)工具,可以處理數(shù)據(jù)約簡、數(shù)據(jù)相關(guān)性發(fā)現(xiàn)、數(shù)據(jù)意義的評估等問題。其優(yōu)點(diǎn)是算法簡單,在其處理過程中可以不需要關(guān)于數(shù)據(jù)的先驗(yàn)知識,可以自動找出問題的內(nèi)在規(guī)律;缺點(diǎn)是難以直接處理連續(xù)的屬性,須先進(jìn)行屬性的離散化。因此,連續(xù)屬性的離散化問題是制約粗糙集理論實(shí)用化的難點(diǎn)。粗糙集理論主要應(yīng)用于近似推理、數(shù)字邏輯分析和化簡、建立預(yù)測模型等問題。
5、模糊集法
模糊集法是利用模糊集合理論對問題進(jìn)行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。模糊集合理論是用隸屬度來描述模糊事物的屬性。系統(tǒng)的復(fù)雜性越高,模糊性就越強(qiáng)。
6、關(guān)聯(lián)規(guī)則法
關(guān)聯(lián)規(guī)則反映了事物之間的相互依賴性或關(guān)聯(lián)性。其最著名的算法是R.Agrawal等人提出的Apriori算法。其算法的思想是:首先找出頻繁性至少和預(yù)定意義的最小支持度一樣的所有頻集,然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。最小支持度和最小可信度是為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則給定的2個閾值。在這個意義上,數(shù)據(jù)挖掘的目的就是從源數(shù)據(jù)庫中挖掘出滿足最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。
編輯:jq
評論
查看更多