大數(shù)據(jù)簡(jiǎn)介
大數(shù)據(jù)(big data),指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。研究機(jī)構(gòu)Gartner給出了這樣的定義?!按髷?shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來(lái)適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
?
大數(shù)據(jù)特征
容量(Volume):數(shù)據(jù)的大小決定所考慮的數(shù)據(jù)的價(jià)值和潛在的信息;
種類(lèi)(Variety):數(shù)據(jù)類(lèi)型的多樣性;
速度(Velocity):指獲得數(shù)據(jù)的速度;
可變性(Variability):妨礙了處理和有效地管理數(shù)據(jù)的過(guò)程。
真實(shí)性(Veracity):數(shù)據(jù)的質(zhì)量
復(fù)雜性(Complexity):數(shù)據(jù)量巨大,來(lái)源多渠道
價(jià)值(value):合理運(yùn)用大數(shù)據(jù),以低成本創(chuàng)造高價(jià)值
數(shù)據(jù)挖掘技術(shù)分類(lèi)及應(yīng)用
數(shù)據(jù)挖掘技術(shù)概況
基于Internet的全球信息系統(tǒng)的發(fā)展使我們擁有了前所未有的豐富數(shù)據(jù)。大量信息在給人們帶來(lái)方便的同時(shí)也帶來(lái)了一大堆問(wèn)題:第一是信息過(guò)量,難以消化;第二是信息真假難以辨識(shí);第三是信息安全難以保證;第四是信息形式不一致,難以統(tǒng)一處理。數(shù)據(jù)豐富、知識(shí)貧乏已經(jīng)成為一個(gè)典型問(wèn)題。Data Mining(數(shù)據(jù)挖掘)的目的就是有效地從海量數(shù)據(jù)中提取出需要的答案,實(shí)現(xiàn)“數(shù)據(jù)-〉信息-〉知識(shí)-〉價(jià)值”的轉(zhuǎn)變過(guò)程。
?。〝?shù)據(jù)挖掘)是指用非平凡的方法從海量的數(shù)據(jù)中抽取出潛在的、有價(jià)值的知識(shí)(模型或規(guī)則)的過(guò)程。該術(shù)語(yǔ)還有其他一些同義詞:數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn) 、信息抽取 、信息發(fā)現(xiàn) 、智能數(shù)據(jù)分析 、探索式數(shù)據(jù)分析( 、信息收獲 、數(shù)據(jù)考古 等。
Data Mining(數(shù)據(jù)挖掘)是數(shù)據(jù)庫(kù)研究、開(kāi)發(fā)和應(yīng)用最活躍的一個(gè)分支,是多學(xué)科的交叉領(lǐng)域,它涉及數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)、模式識(shí)別、知識(shí)庫(kù)系統(tǒng)、知識(shí)獲取、信息提取、高性能計(jì)算、并行計(jì)算、數(shù)據(jù)可視化等多方面知識(shí)。
數(shù)據(jù)挖掘技術(shù)從一開(kāi)始就是面向應(yīng)用的,它不僅是面向特定數(shù)據(jù)庫(kù)的簡(jiǎn)單檢索查詢(xún)調(diào)用,而且要對(duì)這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,以指導(dǎo)實(shí)際問(wèn)題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對(duì)未來(lái)的活動(dòng)進(jìn)行預(yù)測(cè)。例如加拿大BC省電話(huà)公司要求加拿大SimonFraser大學(xué)KDD研究組,根據(jù)其擁有十多年的客戶(hù)數(shù)據(jù),總結(jié)、分析并提出新的電話(huà)收費(fèi)和管理辦法,制定既有利于公司又有利于客戶(hù)的優(yōu)惠政策。這樣一來(lái),就把人們對(duì)數(shù)據(jù)的應(yīng)用,從低層次的末端查詢(xún)操作,提高到為各級(jí)經(jīng)營(yíng)決策者提供決策支持。這種需求驅(qū)動(dòng)力,比數(shù)據(jù)庫(kù)查詢(xún)更為強(qiáng)大。同時(shí),這里所說(shuō)的數(shù)據(jù)挖掘,不是要求發(fā)現(xiàn)放之四海而皆準(zhǔn)的真理,也不是要去發(fā)現(xiàn)嶄新的自然科學(xué)定理和純數(shù)學(xué)公式,更不是什么機(jī)器定理證明。所有發(fā)現(xiàn)的知識(shí)都是相對(duì)的,是有特定前提和約束條件、面向特定領(lǐng)域的,同時(shí)還要能夠易于被用戶(hù)理解,最好能用自然語(yǔ)言表達(dá)發(fā)現(xiàn)結(jié)果。因此數(shù)據(jù)挖掘的研究成果是很講求實(shí)際的。
?
數(shù)據(jù)挖掘技術(shù)應(yīng)用
數(shù)據(jù)挖掘技術(shù)可以為決策、過(guò)程控制、信息管理和查詢(xún)處理等任務(wù)提供服務(wù),一個(gè)有趣的應(yīng)用范例是“尿布與啤酒”的故事。為了分析哪些商品顧客最有可能一起購(gòu)買(mǎi),一家名叫 WalMart的公司利用自動(dòng)數(shù)據(jù)挖掘工具,對(duì)數(shù)據(jù)庫(kù)中的大量數(shù)據(jù)進(jìn)行分析后,意外發(fā)現(xiàn),跟尿布一起購(gòu)買(mǎi)最多的商品竟是啤酒。為什么兩件風(fēng)馬牛不相及的商品會(huì)被人一起購(gòu)買(mǎi)?原來(lái),太太們常叮囑她們的丈夫,下班后為小孩買(mǎi)尿布,而丈夫們?cè)谫I(mǎi)尿布后又隨手帶回了兩瓶啤酒。既然尿布與啤酒一起購(gòu)買(mǎi)的機(jī)會(huì)最多,商店就將它們擺放在一起,結(jié)果,尿布與啤酒的銷(xiāo)售量雙雙增長(zhǎng)。這里,數(shù)字挖掘技術(shù)功不可沒(méi)。一般來(lái)說(shuō),數(shù)據(jù)挖掘的應(yīng)用有電信:流失;銀行:聚類(lèi)(細(xì)分),交叉銷(xiāo)售;百貨公司/超市:購(gòu)物籃分析(關(guān)聯(lián)規(guī)則);保險(xiǎn):細(xì)分,交叉銷(xiāo)售,流失(原因分析);信用卡: 欺詐探測(cè),細(xì)分;電子商務(wù):網(wǎng)站日志分析;稅務(wù)部門(mén):偷漏稅行為探測(cè);警察機(jī)關(guān):犯罪行為分析;醫(yī)學(xué):醫(yī)療保健。具體如下:
電子政務(wù)的數(shù)據(jù)挖掘
建立電子化政府,推動(dòng)電子政務(wù)的發(fā)展,是電子信息技術(shù)應(yīng)用到政府管理的必然趨勢(shì)。實(shí)踐經(jīng)驗(yàn)表明,政府部門(mén)的決策越來(lái)越依賴(lài)于對(duì)數(shù)據(jù)的科學(xué)分析。發(fā)展電子政務(wù),建立決策支持系統(tǒng),利用電子政務(wù)綜合數(shù)據(jù)庫(kù)中存儲(chǔ)的大量數(shù)據(jù),通過(guò)建立正確的決策體系和決策支持模型,可以為各級(jí)政府的決策提供科學(xué)的依據(jù),從而提高各項(xiàng)政策制定的科學(xué)性和合理性,以達(dá)到提高政府辦公效率、促進(jìn)經(jīng)濟(jì)發(fā)展的目的。為此,在政府決策支持方面,需要不斷
吸納新的信息處理技術(shù),而數(shù)據(jù)挖掘正是實(shí)現(xiàn)政府決策支持的核心技術(shù)。以數(shù)據(jù)挖掘?yàn)橐劳械恼疀Q策支持系統(tǒng),將發(fā)揮重要的作用。
電子政務(wù)位于世界各國(guó)積極倡導(dǎo)的“信息高速公路”五個(gè)領(lǐng)域(電子政務(wù)、電子商務(wù)、遠(yuǎn)程教育、遠(yuǎn)程醫(yī)療、電子娛樂(lè))之首,說(shuō)明政府信息化是社會(huì)信息化的基礎(chǔ)。電子政務(wù)包括政府的信息服務(wù)、電子貿(mào)易、電子化政府、政府部門(mén)重構(gòu)、群眾參與政府五個(gè)方面的內(nèi)容。將網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)引入電子政務(wù)中,可以大大提高政府信息化水平,促進(jìn)整個(gè)社會(huì)的信息化。具體體現(xiàn)在以下幾個(gè)方面:
1)政府的電子貿(mào)易 在服務(wù)器以及瀏覽器端日志記錄的數(shù)據(jù)中隱藏著模式信息,運(yùn)用網(wǎng)絡(luò)用法挖掘技術(shù)可以自動(dòng)發(fā)現(xiàn)系統(tǒng)的訪(fǎng)問(wèn)模式和用戶(hù)的行為模式,從而進(jìn)行預(yù)測(cè)分析。例如,通過(guò)評(píng)價(jià)用戶(hù)對(duì)某一信息資源瀏覽所花費(fèi)的時(shí)間,可以判斷出用戶(hù)對(duì)何種資源感興趣;對(duì)日志文件所收集到的域名數(shù)據(jù),根據(jù)國(guó)家或類(lèi)型進(jìn)行分類(lèi)分析;應(yīng)用聚類(lèi)分析來(lái)識(shí)別用戶(hù)的訪(fǎng)問(wèn)動(dòng)機(jī)和訪(fǎng)問(wèn)趨勢(shì)等。這項(xiàng)技術(shù)已經(jīng)有效地運(yùn)用在政府電子貿(mào)易中。
2)網(wǎng)站設(shè)計(jì) 通過(guò)對(duì)網(wǎng)站內(nèi)容的挖掘,主要是對(duì)文本內(nèi)容的挖掘,可以有效地組織網(wǎng)站信息,如采用自動(dòng)歸類(lèi)技術(shù)實(shí)現(xiàn)網(wǎng)站信息的層次性組織;同時(shí)可以結(jié)合對(duì)用戶(hù)訪(fǎng)問(wèn)日志記錄信息的挖掘,把握用戶(hù)的興趣,從而有助于開(kāi)展網(wǎng)站信息推送服務(wù)以及個(gè)人信息的定制服務(wù),吸引更多的用戶(hù)。
3)搜索引擎 網(wǎng)絡(luò)數(shù)據(jù)挖掘是目前網(wǎng)絡(luò)信息檢索發(fā)展的一個(gè)關(guān)鍵。如通過(guò)對(duì)網(wǎng)頁(yè)內(nèi)容挖掘,可以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的聚類(lèi)、分類(lèi),實(shí)現(xiàn)網(wǎng)絡(luò)信息的分類(lèi)瀏覽與檢索;同時(shí),通過(guò)對(duì)用戶(hù)所使用的提問(wèn)式的歷史記錄的分析,可以有效地進(jìn)行提問(wèn)擴(kuò)展,提高用戶(hù)的檢索效果;另外,運(yùn)用網(wǎng)絡(luò)內(nèi)容挖掘技術(shù)改進(jìn)關(guān)鍵詞加權(quán)算法,提高網(wǎng)絡(luò)信息的標(biāo)引準(zhǔn)確度,從而改善檢索效果。
4)決策支持 為政府重大政策出臺(tái)提供決策支持。如,通過(guò)對(duì)網(wǎng)絡(luò)各種經(jīng)濟(jì)資源的挖掘,確定未來(lái)經(jīng)濟(jì)的走勢(shì),從而制定出相應(yīng)的宏觀經(jīng)濟(jì)調(diào)控政策。
市場(chǎng)營(yíng)銷(xiāo)的數(shù)據(jù)挖掘
數(shù)據(jù)挖掘技術(shù)在企業(yè)市場(chǎng)營(yíng)銷(xiāo)中得到了比較普遍的應(yīng)用,它是以市場(chǎng)營(yíng)銷(xiāo)學(xué)的市場(chǎng)細(xì)分原理為基礎(chǔ),其基本假定是“消費(fèi)者過(guò)去的行為是其今后消費(fèi)傾向的最好說(shuō)明”。
通過(guò)收集、加工和處理涉及消費(fèi)者消費(fèi)行為的大量信息,確定特定消費(fèi)群體或個(gè)體的興趣、消費(fèi)習(xí)慣、消費(fèi)傾向和消費(fèi)需求,進(jìn)而推斷出相應(yīng)消費(fèi)群體或個(gè)體下一步的消費(fèi)行為,然后以此為基礎(chǔ),對(duì)所識(shí)別出來(lái)的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營(yíng)銷(xiāo),這與傳統(tǒng)的不區(qū)分消費(fèi)者對(duì)象特征的大規(guī)模營(yíng)銷(xiāo)手段相比,大大節(jié)省了營(yíng)銷(xiāo)成本,提高了營(yíng)銷(xiāo)效果,從而為企業(yè)帶來(lái)更多的利潤(rùn)。
商業(yè)消費(fèi)信息來(lái)自市場(chǎng)中的各種渠道。例如,每當(dāng)我們用信用卡消費(fèi)時(shí),商業(yè)企業(yè)就可以在信用卡結(jié)算過(guò)程收集商業(yè)消費(fèi)信息,記錄下我們進(jìn)行消費(fèi)的時(shí)間、地點(diǎn)、感興趣的商品或服務(wù)、愿意接收的價(jià)格水平和支付能力等數(shù)據(jù);當(dāng)我們?cè)谏贽k信用卡、辦理汽車(chē)駕駛執(zhí)照、填寫(xiě)商品保修單等其他需要填寫(xiě)表格的場(chǎng)合時(shí),我們的個(gè)人信息就存入了相應(yīng)的業(yè)務(wù)數(shù)據(jù)庫(kù);企業(yè)除了自行收集相關(guān)業(yè)務(wù)信息之外,甚至可以從其他公司或機(jī)構(gòu)購(gòu)買(mǎi)此類(lèi)信息為自己所用。
這些來(lái)自各種渠道的數(shù)據(jù)信息被組合,應(yīng)用超級(jí)計(jì)算機(jī)、并行處理、神經(jīng)元網(wǎng)絡(luò)、模型化算法和其他信息處理技術(shù)手段進(jìn)行處理,從中得到商家用于向特定消費(fèi)群體或個(gè)體進(jìn)行定向營(yíng)銷(xiāo)的決策信息。這種數(shù)據(jù)信息是如何應(yīng)用的呢?舉一個(gè)簡(jiǎn)單的例子,當(dāng)銀行通過(guò)對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行挖掘后,發(fā)現(xiàn)一個(gè)銀行帳戶(hù)持有者突然要求申請(qǐng)雙人聯(lián)合帳戶(hù)時(shí),并且確認(rèn)該消費(fèi)者是第一次申請(qǐng)聯(lián)合帳戶(hù),銀行會(huì)推斷該用戶(hù)可能要結(jié)婚了,它就會(huì)向該用戶(hù)定向推銷(xiāo)用于購(gòu)買(mǎi)房屋、支付子女學(xué)費(fèi)等長(zhǎng)期投資業(yè)務(wù),銀行甚至可能將該信息賣(mài)給專(zhuān)營(yíng)婚慶商品和服務(wù)的公司。數(shù)據(jù)挖掘構(gòu)筑競(jìng)爭(zhēng)優(yōu)勢(shì)。
在市場(chǎng)經(jīng)濟(jì)比較發(fā)達(dá)的國(guó)家和地區(qū),許多公司都開(kāi)始在原有信息系統(tǒng)的基礎(chǔ)上通過(guò)數(shù)據(jù)挖掘?qū)I(yè)務(wù)信息進(jìn)行深加工,以構(gòu)筑自己的競(jìng)爭(zhēng)優(yōu)勢(shì),擴(kuò)大自己的營(yíng)業(yè)額。美國(guó)運(yùn)通公司(American Express)有一個(gè)用于記錄信用卡業(yè)務(wù)的數(shù)據(jù)庫(kù),數(shù)據(jù)量達(dá)到54億字符,并仍在隨著業(yè)務(wù)進(jìn)展不斷更新。運(yùn)通公司通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行挖掘,制定了“關(guān)聯(lián)結(jié)算(Relation ship Billing)優(yōu)惠”的促銷(xiāo)策略,即如果一個(gè)顧客在一個(gè)商店用運(yùn)通卡購(gòu)買(mǎi)一套時(shí)裝,那么在同一個(gè)商店再買(mǎi)一雙鞋,就可以得到比較大的折扣,這樣既可以增加商店的銷(xiāo)售量,也可以增加運(yùn)通卡在該商店的使用率。再如,居住在倫敦的持卡消費(fèi)者如果最近剛剛乘英國(guó)航空公司的航班去過(guò)巴黎,那么他可能會(huì)得到一個(gè)周末前往紐約的機(jī)票打折優(yōu)惠卡。
基于數(shù)據(jù)挖掘的營(yíng)銷(xiāo),常??梢韵蛳M(fèi)者發(fā)出與其以前的消費(fèi)行為相關(guān)的推銷(xiāo)材料??ǚ颍↘raft)食品公司建立了一個(gè)擁有3000萬(wàn)客戶(hù)資料的數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)是通過(guò)收集對(duì)公司發(fā)出的優(yōu)惠券等其他促銷(xiāo)手段作出積極反應(yīng)的客戶(hù)和銷(xiāo)售記錄而建立起來(lái)的,卡夫公司通過(guò)數(shù)據(jù)挖掘了解特定客戶(hù)的興趣和口味,并以此為基礎(chǔ)向他們發(fā)送特定產(chǎn)品的優(yōu)惠券,并為他們推薦符合客戶(hù)口味和健康狀況的卡夫產(chǎn)品食譜。美國(guó)的讀者文摘(Reader‘s Digest)出版公司運(yùn)行著一個(gè)積累了40年的業(yè)務(wù)數(shù)據(jù)庫(kù),其中容納有遍布全球的一億多個(gè)訂戶(hù)的資料,數(shù)據(jù)庫(kù)每天24小時(shí)連續(xù)運(yùn)行,保證數(shù)據(jù)不斷得到實(shí)時(shí)的更新,正是基于對(duì)客戶(hù)資料數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)挖掘的優(yōu)勢(shì),使讀者文摘出版公司能夠從通俗雜志擴(kuò)展到專(zhuān)業(yè)雜志、書(shū)刊和聲像制品的出版和發(fā)行業(yè)務(wù),極大地?cái)U(kuò)展了自己的業(yè)務(wù)。
基于數(shù)據(jù)挖掘的營(yíng)銷(xiāo)對(duì)我國(guó)當(dāng)前的市場(chǎng)競(jìng)爭(zhēng)中也很具有啟發(fā)意義,我們經(jīng)常可以看到繁華商業(yè)街上一些廠商對(duì)來(lái)往行人不分對(duì)象地散發(fā)大量商品宣傳廣告,其結(jié)果是不需要的人隨手丟棄資料,而需要的人并不一定能夠得到。如果搞家電維修服務(wù)的公司向在商店中剛剛購(gòu)買(mǎi)家電的消費(fèi)者郵寄維修服務(wù)廣告,賣(mài)特效藥品的廠商向醫(yī)院特定門(mén)診就醫(yī)的病人郵寄廣告,肯定會(huì)比漫無(wú)目的的營(yíng)銷(xiāo)效果要好得多。
零售業(yè)中的數(shù)據(jù)挖掘
通過(guò)條形碼、編碼系統(tǒng)、銷(xiāo)售管理系統(tǒng)、客戶(hù)資料管理及其它業(yè)務(wù)數(shù)據(jù)中,可以收集到關(guān)于商品銷(xiāo)售、客戶(hù)信息、貨存單位及店鋪信息等的信息資料。數(shù)據(jù)從各種應(yīng)用系統(tǒng)中采集,經(jīng)條件分類(lèi),放到數(shù)據(jù)倉(cāng)庫(kù)里,允許高級(jí)管理人員、分析人員、采購(gòu)人員、市場(chǎng)人員和廣告客戶(hù)訪(fǎng)問(wèn),利用DM工具對(duì)這些數(shù)據(jù)進(jìn)行分析,為他們提供高效的科學(xué)決策工具。如對(duì)商品進(jìn)行購(gòu)物籃分析,分析那些商品顧客最有希望一起購(gòu)買(mǎi)。如被業(yè)界和商界傳誦的經(jīng)典----Wal-Mart的 “啤酒和尿布”,就是數(shù)據(jù)挖掘透過(guò)數(shù)據(jù)找出人與物間規(guī)律的典型。在零售業(yè)應(yīng)用領(lǐng)域,利用DW、DM會(huì)在很多方面有卓越表現(xiàn):
1. 了解銷(xiāo)售全局:通過(guò)分類(lèi)信息——按商品種類(lèi)、銷(xiāo)售數(shù)量、商店地點(diǎn)、價(jià)格和日期等了解每天的運(yùn)營(yíng)和財(cái)政情況,對(duì)銷(xiāo)售的每一點(diǎn)增長(zhǎng)、庫(kù)存的變化以及通過(guò)促銷(xiāo)而提高的銷(xiāo)售額都可了如指掌。零售商店在銷(xiāo)售商品時(shí),隨時(shí)檢查商品結(jié)構(gòu)是否合理十分重要,如每類(lèi)商品的經(jīng)營(yíng)比例是否大體相當(dāng)。調(diào)整商品結(jié)構(gòu)時(shí)需考慮季節(jié)變化導(dǎo)致的需求變化、同行競(jìng)爭(zhēng)對(duì)手的商品結(jié)構(gòu)調(diào)整等因素。
2. 商品分組布局:分析顧客的購(gòu)買(mǎi)習(xí)慣,考慮購(gòu)買(mǎi)者在商店里所穿行的路線(xiàn)、購(gòu)買(mǎi)時(shí)間和地點(diǎn)、掌握不同商品一起購(gòu)買(mǎi)的概率;通過(guò)對(duì)商品銷(xiāo)售品種的活躍性分析和關(guān)聯(lián)性分析,用主成分分析方法,建立商品設(shè)置的最佳結(jié)構(gòu)和商品的最佳布局。
3. 降低庫(kù)存成本:通過(guò)數(shù)據(jù)挖掘系統(tǒng),將銷(xiāo)售數(shù)據(jù)和庫(kù)存數(shù)據(jù)集中起來(lái),通過(guò)數(shù)據(jù)分析,以決定對(duì)各個(gè)商品各色貨物進(jìn)行增減,確保正確的庫(kù)存。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)還可以將庫(kù)存信息和商品銷(xiāo)售預(yù)測(cè)信息,通過(guò)電子數(shù)據(jù)交換(EDI)直接送到供應(yīng)商那里,這樣省去商業(yè)中介,而且由供應(yīng)商負(fù)責(zé)定期補(bǔ)充庫(kù)存,零售商可減少自身負(fù)擔(dān)。
4. 市場(chǎng)和趨勢(shì)分析:利用數(shù)據(jù)挖掘工具和統(tǒng)計(jì)模型對(duì)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)仔細(xì)研究,以分析顧客的購(gòu)買(mǎi)習(xí)慣、廣告成功率和其它戰(zhàn)略性信息。利用數(shù)據(jù)倉(cāng)庫(kù)通過(guò)檢索數(shù)據(jù)庫(kù)中近年來(lái)的銷(xiāo)售數(shù)據(jù),作分析和數(shù)據(jù)挖掘,可預(yù)測(cè)出季節(jié)性、月銷(xiāo)售量,對(duì)商品品種和庫(kù)存的趨勢(shì)進(jìn)行分析。還可確定降價(jià)商品,并對(duì)數(shù)量和運(yùn)作作出決策。
有效的商品促銷(xiāo):可以通過(guò)對(duì)一種廠家商品在各連鎖店的市場(chǎng)共享分析,客戶(hù)統(tǒng)計(jì)以及歷史狀況的分析,來(lái)確定銷(xiāo)售和廣告業(yè)務(wù)的有效性。通過(guò)對(duì)顧客購(gòu)買(mǎi)偏好的分析,確定商品促銷(xiāo)的目標(biāo)客戶(hù),以此來(lái)設(shè)計(jì)各種商品促銷(xiāo)的方案,并通過(guò)商品購(gòu)買(mǎi)關(guān)聯(lián)分析的結(jié)果,采用交叉銷(xiāo)售和向上銷(xiāo)售的方法,挖掘客戶(hù)的購(gòu)買(mǎi)力,實(shí)現(xiàn)準(zhǔn)確的商品促銷(xiāo)。
銀行業(yè)的數(shù)據(jù)挖掘
金融事務(wù)需要搜集和處理大量的數(shù)據(jù),由于銀行在金融領(lǐng)域的地位、工作性質(zhì)、業(yè)務(wù)特點(diǎn)以及激烈的市場(chǎng)競(jìng)爭(zhēng)決定了它對(duì)信息化、電子化比其它領(lǐng)域有更迫切的要求。利用數(shù)據(jù)挖掘技術(shù)可以幫助銀行產(chǎn)品開(kāi)發(fā)部門(mén)描述客戶(hù)以往的需求趨勢(shì),并預(yù)測(cè)未來(lái)。美國(guó)商業(yè)銀行是發(fā)達(dá)國(guó)家商業(yè)銀行的典范,許多地方值得我國(guó)學(xué)習(xí)和借鑒。
數(shù)據(jù)挖掘技術(shù)在美國(guó)銀行金融領(lǐng)域應(yīng)用廣泛。金融事務(wù)需要搜集和處理大量數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)某個(gè)客戶(hù)、消費(fèi)群體或組織的金融和商業(yè)興趣,并可觀察金融市場(chǎng)的變化趨勢(shì)。商業(yè)銀行業(yè)務(wù)的利潤(rùn)和風(fēng)險(xiǎn)是共存的。為了保證最大的利潤(rùn)和最小的風(fēng)險(xiǎn),必須對(duì)帳戶(hù)進(jìn)行科學(xué)的分析和歸類(lèi),并進(jìn)行信用評(píng)估。Mellon銀行使用數(shù)據(jù)挖掘軟件提高銷(xiāo)售和定價(jià)金融產(chǎn)品的精確度,如家庭普通貸款。零售信貸客戶(hù)主要有兩類(lèi),一類(lèi)很少使用信貸限額(低循環(huán)者),另一類(lèi)能夠保持較高的未清余額(高循環(huán)者)。每一類(lèi)都代表著銷(xiāo)售的挑戰(zhàn)。低循環(huán)者代表缺省和支出注銷(xiāo)費(fèi)用的危險(xiǎn)性較低,但會(huì)帶來(lái)極少的凈收入或負(fù)收入,因?yàn)樗麄兊姆?wù)費(fèi)用幾乎與高循環(huán)者的相同。銀行常常為他們提供項(xiàng)目,鼓勵(lì)他們更多地使用信貸限額或找到交叉銷(xiāo)售高利潤(rùn)產(chǎn)品的機(jī)會(huì)。高循環(huán)者由高和中等危險(xiǎn)元件構(gòu)成。高危險(xiǎn)分段具有支付缺省和注銷(xiāo)費(fèi)用的潛力。對(duì)于中等危險(xiǎn)分段,銷(xiāo)售項(xiàng)目的重點(diǎn)是留住可獲利的客戶(hù)并爭(zhēng)取能帶來(lái)相同利潤(rùn)的新客戶(hù)。但根據(jù)新觀點(diǎn),用戶(hù)的行為會(huì)隨時(shí)間而變化。分析客戶(hù)整個(gè)生命周期的費(fèi)用和收入就可以看出誰(shuí)是最具創(chuàng)利潛能的。
Mellon銀行認(rèn)為“根據(jù)市場(chǎng)的某一部分進(jìn)行定制”能夠發(fā)現(xiàn)最終用戶(hù)并將市場(chǎng)定位于這些用戶(hù)。但是,要這么做就必須了解關(guān)于最終用戶(hù)特點(diǎn)的信息。數(shù)據(jù)挖掘工具為Mellon銀行提供了獲取此類(lèi)信息的途徑。Mellon銀行銷(xiāo)售部在先期數(shù)據(jù)挖掘項(xiàng)目上使用Intelligence Agent尋找信息,主要目的是確定現(xiàn)有Mellon用戶(hù)購(gòu)買(mǎi)特定附加產(chǎn)品:家庭普通信貸限額的傾向,利用該工具可生成用于檢測(cè)的模型。據(jù)銀行官員稱(chēng):數(shù)據(jù)挖掘可幫助用戶(hù)增強(qiáng)其商業(yè)智能,如交往、分類(lèi)或回歸分析,依賴(lài)這些能力,可對(duì)那些有較高傾向購(gòu)買(mǎi)銀行產(chǎn)品、服務(wù)產(chǎn)品和服務(wù)的客戶(hù)進(jìn)行有目的的推銷(xiāo)。該官員認(rèn)為,該軟件可反饋用于分析和決策的高質(zhì)量信息,然后將信息輸入產(chǎn)品的算法。數(shù)據(jù)挖掘還有可定制能力。
美國(guó)Firstar銀行使用數(shù)據(jù)挖掘工具,根據(jù)客戶(hù)的消費(fèi)模式預(yù)測(cè)何時(shí)為客戶(hù)提供何種產(chǎn)品。Firstar銀行市場(chǎng)調(diào)查和數(shù)據(jù)庫(kù)營(yíng)銷(xiāo)部經(jīng)理發(fā)現(xiàn):公共數(shù)據(jù)庫(kù)中存儲(chǔ)著關(guān)于每位消費(fèi)者的大量信息,關(guān)鍵是要透徹分析消費(fèi)者投入到新產(chǎn)品中的原因,在數(shù)據(jù)庫(kù)中找到一種模式,從而能夠?yàn)槊糠N新產(chǎn)品找到最合適的消費(fèi)者。數(shù)據(jù)挖掘系統(tǒng)能讀取800到1000個(gè)變量并且給它們賦值,根據(jù)消費(fèi)者是否有家庭財(cái)產(chǎn)貸款、賒帳卡、存款證或其它儲(chǔ)蓄、投資產(chǎn)品,將它們分成若干組,然后使用數(shù)據(jù)挖掘工具預(yù)測(cè)何時(shí)向每位消費(fèi)者提供哪種產(chǎn)品。預(yù)測(cè)準(zhǔn)客戶(hù)的需要是美國(guó)商業(yè)銀行的競(jìng)爭(zhēng)優(yōu)勢(shì)。
證券業(yè)的數(shù)據(jù)挖掘
其典型應(yīng)用包括有:
1、客戶(hù)分析
建立數(shù)據(jù)倉(cāng)庫(kù)來(lái)存放對(duì)全體客戶(hù)、預(yù)定義客戶(hù)群、某個(gè)客戶(hù)的信息和交易數(shù)據(jù),并通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行挖掘和關(guān)聯(lián)分析,實(shí)現(xiàn)面向主題的信息抽取。對(duì)客戶(hù)的需求模式和盈利價(jià)值進(jìn)行分類(lèi),找出最有價(jià)值和盈利潛力的客戶(hù)群,以及他們最需要的服務(wù),更好地配置資源,改進(jìn)服務(wù),牢牢抓住最有價(jià)值的客戶(hù)。
通過(guò)對(duì)客戶(hù)資源信息進(jìn)行多角度挖掘,了解客戶(hù)各項(xiàng)指標(biāo)(如資產(chǎn)貢獻(xiàn)、忠誠(chéng)度、盈利率、持倉(cāng)比率等),掌握客戶(hù)投訴、客戶(hù)流失等信息,從而在客戶(hù)離開(kāi)券商之前,捕獲信息,及時(shí)采取措施挽留客戶(hù)。
2、咨詢(xún)服務(wù)
根據(jù)采集行情和交易數(shù)據(jù),結(jié)合行情分析,預(yù)測(cè)未來(lái)大盤(pán)走勢(shì),并發(fā)現(xiàn)交易情況隨著大盤(pán)變化的規(guī)律,并根據(jù)這些規(guī)律做出趨勢(shì)分析,對(duì)客戶(hù)針對(duì)性進(jìn)行咨詢(xún)。
3、風(fēng)險(xiǎn)防范
通過(guò)對(duì)資金數(shù)據(jù)的分析,可以控制營(yíng)業(yè)風(fēng)險(xiǎn),同時(shí)可以改變公司總部原來(lái)的資金控制模式,并通過(guò)橫向比較及時(shí)了解資金情況,起到風(fēng)險(xiǎn)預(yù)警的作用。
4、經(jīng)營(yíng)狀況分析
通過(guò)數(shù)據(jù)挖掘,可以及時(shí)了解營(yíng)業(yè)狀況、資金情況、利潤(rùn)情況、客戶(hù)群分布等重要的信息。并結(jié)合大盤(pán)走勢(shì),提供不同行情條件下的最大收益經(jīng)營(yíng)方式。同時(shí),通過(guò)對(duì)各營(yíng)業(yè)部經(jīng)營(yíng)情況的橫向比較,以及對(duì)本營(yíng)業(yè)部歷史數(shù)據(jù)的縱向比較,對(duì)營(yíng)業(yè)部的經(jīng)營(yíng)狀況作出分析,提出經(jīng)營(yíng)建議。
電信業(yè)的數(shù)據(jù)挖掘
電信業(yè)已經(jīng)迅速地從單純的提供市話(huà)和長(zhǎng)話(huà)服務(wù)演變?yōu)榫C合電信服務(wù),如語(yǔ)音、傳真、尋呼、移動(dòng)電話(huà)、圖像、電子郵件、計(jì)算機(jī)和WEB數(shù)據(jù)傳輸以及其他的數(shù)據(jù)通信服務(wù)。電信、計(jì)算機(jī)網(wǎng)絡(luò)、因特網(wǎng)和各種其他方式的的通信和計(jì)算的融合是目前的大勢(shì)所趨。而且隨著許多國(guó)家對(duì)電信業(yè)的開(kāi)放和新興計(jì)算與通信技術(shù)的發(fā)展,電信市場(chǎng)正在迅速擴(kuò)張并越發(fā)競(jìng)爭(zhēng)激烈。因此,利用數(shù)據(jù)挖掘技術(shù)來(lái)幫助理解商業(yè)行為、確定電信模式、捕捉盜用行為、更好地利用資源和提高服務(wù)質(zhì)量是非常有必要的。分析人員可以對(duì)呼叫源、呼叫目標(biāo)、呼叫量和每天使用模式等信息進(jìn)行分析還可以通過(guò)挖掘進(jìn)行盜用模式分析和異常模式識(shí)別,從而可盡早的發(fā)現(xiàn)盜用,為公司減少損失。
移動(dòng)通信領(lǐng)域的數(shù)據(jù)挖掘
針對(duì)信息化的應(yīng)用,移動(dòng)通信行業(yè)信息化進(jìn)程得到巨大發(fā)展和廣泛應(yīng)用,運(yùn)營(yíng)網(wǎng)絡(luò)系統(tǒng)、綜合業(yè)務(wù)系統(tǒng)、計(jì)費(fèi)系統(tǒng)、辦公自動(dòng)化等系統(tǒng)的相繼使用,為計(jì)算機(jī)應(yīng)用系統(tǒng)的運(yùn)行積累了大量的歷史數(shù)據(jù)。但在很多情況下,這些海量數(shù)據(jù)在原有的作業(yè)系統(tǒng)中是無(wú)法提煉并升華為有用的信息并提供給業(yè)務(wù)分析人員與管理決策者的。一方面,聯(lián)機(jī)作業(yè)系統(tǒng)因?yàn)樾枰A糇銐虻脑敿?xì)數(shù)據(jù)以備查詢(xún)而變得笨重不堪,系統(tǒng)資源的投資跟不上業(yè)務(wù)擴(kuò)展的需求;另一方面,管理者和決策者只能根據(jù)固定的、定時(shí)的報(bào)表系統(tǒng)獲得有限的經(jīng)營(yíng)與業(yè)務(wù)信息,無(wú)法適應(yīng)激烈的市場(chǎng)競(jìng)爭(zhēng)。
隨著我國(guó)政府對(duì)電信行業(yè)經(jīng)營(yíng)的進(jìn)一步放開(kāi)和政策約束的調(diào)整以及客戶(hù)對(duì)電信服務(wù)質(zhì)量要求的提高、盜打、欺詐因素的增加等等,移動(dòng)通信的經(jīng)營(yíng)面臨更加復(fù)雜的局面,營(yíng)運(yùn)成本大幅度增加。因此,如何在激烈的市場(chǎng)競(jìng)爭(zhēng)條件下,在滿(mǎn)足客戶(hù)需求和優(yōu)質(zhì)服務(wù)的前提下充分利用現(xiàn)有設(shè)備降低成本、提高效益,就成為決策者們共同關(guān)心的課題。
依照國(guó)外電信市場(chǎng)的發(fā)展經(jīng)驗(yàn)和歷程,市場(chǎng)競(jìng)爭(zhēng)中電信公司的成功經(jīng)營(yíng)之道是:(1) 以高質(zhì)量的服務(wù)留住現(xiàn)有客戶(hù);(2) 提高通話(huà)量和設(shè)備利用率,用比競(jìng)爭(zhēng)者更低的成本爭(zhēng)取新客戶(hù),擴(kuò)大市場(chǎng)份額;(3)放棄無(wú)利潤(rùn)和信用差的客戶(hù),降低經(jīng)營(yíng)風(fēng)險(xiǎn)和成本。
對(duì)于一個(gè)相對(duì)成熟的移動(dòng)通信運(yùn)營(yíng)商來(lái)說(shuō),各運(yùn)營(yíng)與支撐系統(tǒng)所積累的海量歷史數(shù)據(jù)無(wú)疑是一筆寶貴的財(cái)富,而數(shù)據(jù)挖掘正是充分利用這些寶貴資源從而達(dá)到上述三重目標(biāo)的一種最為有效的方法與手段。
體育領(lǐng)域的數(shù)據(jù)挖掘
1、體質(zhì)數(shù)據(jù)分析
目前,我國(guó)對(duì)健康和增強(qiáng)體質(zhì)都十分重視,每年都有很多相關(guān)的體質(zhì)測(cè)試。這樣年復(fù)一年地積累了大量數(shù)據(jù),而對(duì)這些數(shù)據(jù)的分析采用的幾乎都是統(tǒng)計(jì)方法,包括很多單位的體育分析和評(píng)價(jià)軟件,主要是對(duì)體質(zhì)數(shù)據(jù)的均值分析以及套用規(guī)定的評(píng)價(jià)公式進(jìn)行評(píng)價(jià)和分析。顯然,它們對(duì)體育中的體質(zhì)數(shù)據(jù)分析有一定的貢獻(xiàn),但其作用也只能局限于數(shù)據(jù)本身的大小比較,且產(chǎn)生的結(jié)果通常只能由專(zhuān)業(yè)人員能夠理解,另外只采用統(tǒng)計(jì)的方法挖掘數(shù)據(jù)之間的聯(lián)系也十分有限。
利用數(shù)據(jù)挖掘?qū)w質(zhì)數(shù)據(jù)進(jìn)行挖掘,很容易產(chǎn)生統(tǒng)計(jì)方法難以實(shí)現(xiàn)的結(jié)果。例如,根據(jù)積累和不斷收集的數(shù)據(jù),結(jié)合體質(zhì)數(shù)據(jù)和營(yíng)養(yǎng)學(xué)方面的知識(shí),可以挖掘出造成不同地區(qū)體質(zhì)好或差的營(yíng)養(yǎng)方面的原因;同樣,根據(jù)體質(zhì)數(shù)據(jù)和醫(yī)學(xué)方面的知識(shí),能夠挖掘出人們的健康狀況,甚至分析出導(dǎo)致健康狀況較低的可能的疾病原因,從而可以更好地為人們自我保健和健身等各方面提供有力的指導(dǎo);此外,采用數(shù)據(jù)挖掘?qū)τ忻\(yùn)動(dòng)員的早期體質(zhì)數(shù)據(jù)進(jìn)行分析,能夠找出它們的共同特點(diǎn),從而為體育選材提供有力的依據(jù)。體質(zhì)數(shù)據(jù)庫(kù)正如一個(gè)寶礦,采用數(shù)據(jù)挖掘技術(shù),肯定能夠挖掘出很多難以想象的寶藏。
2、 體育產(chǎn)業(yè)中的應(yīng)用
數(shù)據(jù)挖掘最初的應(yīng)用就是商業(yè)領(lǐng)域,而體育產(chǎn)業(yè)本身就是一類(lèi)典型的商業(yè)。在一般的商業(yè)數(shù)據(jù)挖掘中,DM技術(shù)判斷哪些是它們的最有價(jià)值客戶(hù)、重新制定它們的產(chǎn)品推廣策略(把產(chǎn)品推廣給最需要它們的人),以用最小的花費(fèi)得到最好的銷(xiāo)售。以體育廣告為例,可以對(duì)國(guó)內(nèi)從事不同體育運(yùn)動(dòng)廣告業(yè)務(wù)的數(shù)據(jù)庫(kù)進(jìn)行挖掘,比如,發(fā)現(xiàn)了做某類(lèi)體育廣告的單位或公司的特征,那么就可以向那些具有這些特征但還未成為我們的客戶(hù)的其它公司或單位推銷(xiāo)這類(lèi)體育廣告;同樣,如果通過(guò)挖掘找到流失的客戶(hù)的共同特征,就可以在那些具有相似特征的客戶(hù)還未流失之前進(jìn)行針對(duì)性的彌補(bǔ)。這樣,可以一定程度地提高體育廣告的效益。,因此,及時(shí)、有效地利用DM,可以為我國(guó)體育產(chǎn)業(yè)創(chuàng)造更多的財(cái)富。
3、 競(jìng)技體育中的應(yīng)用
競(jìng)技體育特別是對(duì)抗性質(zhì)的競(jìng)技,通常不但要求運(yùn)動(dòng)員實(shí)際水平高,同時(shí)戰(zhàn)術(shù)策略也相當(dāng)重要,有時(shí)競(jìng)技中的戰(zhàn)術(shù)甚至起到?jīng)Q定性作用。認(rèn)識(shí)到數(shù)據(jù)挖掘的功能后,國(guó)外已經(jīng)將其應(yīng)用于競(jìng)技體育中。例如,美國(guó)著名的國(guó)家籃球隊(duì)NBA的教練,利用IBM公司提供的數(shù)據(jù)挖掘工具臨場(chǎng)輔助決定替換隊(duì)員,而且取得了很好的效果。系統(tǒng)分析顯示魔術(shù)隊(duì)先發(fā)陣容中的兩個(gè)后衛(wèi)安佛尼。哈德衛(wèi)(Anfernee Hardaway)和伯蘭。紹(Brian Shaw)在前兩場(chǎng)中被評(píng)為-17分,這意味著他倆在場(chǎng)上本隊(duì)輸?shù)舻姆謹(jǐn)?shù)比得到的分?jǐn)?shù)多17分。然而,當(dāng)哈德衛(wèi)與替補(bǔ)后衛(wèi)達(dá)利爾。阿姆斯創(chuàng)(Darrell Armstrong)組合時(shí),魔術(shù)隊(duì)得分為正14分。在下一場(chǎng)中,魔術(shù)隊(duì)增加了阿姆斯創(chuàng)的上場(chǎng)時(shí)間。此著果然見(jiàn)效:阿姆斯創(chuàng)得了21分,哈德衛(wèi)得了42分,魔術(shù)隊(duì)以88比79獲勝。魔術(shù)隊(duì)在第四場(chǎng)讓阿姆斯創(chuàng)進(jìn)入先發(fā)陣容,再一次打敗了熱隊(duì)。在第五場(chǎng)比賽中,這個(gè)靠數(shù)據(jù)挖掘支持的陣容沒(méi)能拖住熱隊(duì),但數(shù)據(jù)挖掘畢竟幫助了魔術(shù)隊(duì)贏得了打滿(mǎn)5場(chǎng),直到最后才決出勝負(fù)的機(jī)會(huì)。目前,NBA球隊(duì)中大約20個(gè)使用了IBM公司開(kāi)發(fā)的該軟件系統(tǒng)來(lái)優(yōu)化他們的戰(zhàn)術(shù)組合。同樣,利用數(shù)據(jù)挖掘技術(shù)也可以分析足球、排球等類(lèi)似對(duì)抗性的競(jìng)技運(yùn)動(dòng),從中找出對(duì)手的弱點(diǎn),制定出到更有效的戰(zhàn)術(shù)。
郵政業(yè)的數(shù)據(jù)挖掘
中國(guó)郵政建立了目前國(guó)內(nèi)最大的物流交換體系,同時(shí)也積累了大量的用戶(hù)數(shù)據(jù),如何利用這些用戶(hù)數(shù)據(jù),通過(guò)數(shù)據(jù)分析為郵政業(yè)務(wù)的發(fā)展提供科學(xué)決策依據(jù),是郵政部門(mén)十分關(guān)心的問(wèn)題。數(shù)據(jù)挖掘技術(shù)可以很好地為郵政部門(mén)解決上述問(wèn)題,利用該技術(shù),我們可以進(jìn)行客戶(hù)存款余額分析、客戶(hù)存款結(jié)構(gòu)分析、平均存款利率分析、不同儲(chǔ)種余額分析、不同儲(chǔ)種客戶(hù)分析、攬儲(chǔ)統(tǒng)計(jì)分析、業(yè)務(wù)量統(tǒng)計(jì)分析等等。我們以客戶(hù)存款分析進(jìn)行介紹。采用分析的維包括如下: 營(yíng)業(yè)網(wǎng)點(diǎn)的地區(qū):以地區(qū)作為分析維度,可以判斷出各個(gè)儲(chǔ)蓄所的工作業(yè)績(jī)情況; 客戶(hù)的年齡:根據(jù)客戶(hù)年齡段對(duì)存款余額進(jìn)行統(tǒng)計(jì),從中可以分析出哪個(gè)年齡段的客戶(hù)是優(yōu)良客戶(hù),哪些客戶(hù)是未來(lái)開(kāi)發(fā)的重點(diǎn)??蛻?hù)的地址:根據(jù)客戶(hù)所在地區(qū)統(tǒng)計(jì)存款余額, 可以分析出各地區(qū)的經(jīng)濟(jì)情況以及人們對(duì)郵政儲(chǔ)蓄的認(rèn)識(shí)程度,從而為以后的業(yè)務(wù)拓展提供依據(jù); 存款的用途:居民的儲(chǔ)蓄存款用途比較繁雜,但是了解有規(guī)律的存款目的一方面可以幫助郵政儲(chǔ)蓄及時(shí)想客戶(hù)之所想,拉近與客戶(hù)之間的距離;另一方面可以為新業(yè)務(wù)的拓展提供有力的信息;時(shí)間段:通過(guò)這種分析可以及時(shí)掌握客戶(hù)儲(chǔ)蓄的變化規(guī)律,從而適當(dāng)調(diào)整郵政業(yè)務(wù)流程。例如,根據(jù)客戶(hù)存款的變化規(guī)律可以預(yù)見(jiàn)性的及時(shí)調(diào)整郵政儲(chǔ)蓄的頭寸資金,在保證投資最大化的同時(shí),預(yù)防金融風(fēng)險(xiǎn)。
呼叫中心的數(shù)據(jù)挖掘
呼叫中心正在逐漸成為企業(yè)進(jìn)行信息收集的主要渠道。在收集了大量的數(shù)據(jù)之后,如何將這些數(shù)據(jù)進(jìn)行整理、分析,為企業(yè)進(jìn)行科學(xué)決策提供支持,也是面臨的一個(gè)主要問(wèn)題。數(shù)據(jù)挖掘技術(shù),能提供一條新的解決出路。
為決策提供依據(jù),將數(shù)據(jù)挖掘技術(shù)引入呼叫中心,具有十分重要的意義。企業(yè)運(yùn)營(yíng)過(guò)程中的各種信息都是通過(guò)數(shù)據(jù)反映出來(lái)的,通過(guò)對(duì)這些數(shù)據(jù)的分析,可以發(fā)現(xiàn)企業(yè)運(yùn)營(yíng)過(guò)程中的規(guī)律,從而對(duì)企業(yè)的生產(chǎn)活動(dòng)、市場(chǎng)活動(dòng)等提供科學(xué)指導(dǎo)意義。
呼叫中心目前僅解決了企業(yè)與外部市場(chǎng)進(jìn)行信息接入的問(wèn)題,產(chǎn)生的大量數(shù)據(jù)通過(guò)報(bào)表等統(tǒng)計(jì)方法,只能得到一般意義上的信息反映。而通過(guò)數(shù)據(jù)挖掘技術(shù),可以發(fā)現(xiàn)許多深層的、手工無(wú)法發(fā)現(xiàn)的規(guī)律,幫助企業(yè)在激烈的競(jìng)爭(zhēng)環(huán)境中,占有更多的先機(jī)。
為用戶(hù)提供針對(duì)性服務(wù),通過(guò)數(shù)據(jù)挖掘技術(shù),可以根據(jù)客戶(hù)的消費(fèi)行為進(jìn)行分類(lèi),找出該類(lèi)客戶(hù)的消費(fèi)特征,然后通過(guò)呼叫中心提供更具個(gè)性化的服務(wù),從而改進(jìn)企業(yè)的服務(wù)水平,提高企業(yè)的社會(huì)效益和經(jīng)濟(jì)效益。
提高企業(yè)的決策科學(xué),目前,企業(yè)的決策具有很大的盲目性。如果采用數(shù)據(jù)挖掘技術(shù),就可以在自己的生產(chǎn)過(guò)程中產(chǎn)生的數(shù)據(jù)基礎(chǔ)上,進(jìn)行科學(xué)分析,得出比較科學(xué)的預(yù)測(cè)結(jié)果,減少?zèng)Q策失誤。通過(guò)數(shù)據(jù)挖掘技術(shù),可以讓企業(yè)的決策回歸到自己的業(yè)務(wù)中,得出更實(shí)際的判斷。
增值更容易,數(shù)據(jù)挖掘在呼叫中心中會(huì)有很多種應(yīng)用,而且有些應(yīng)用可以幫助簡(jiǎn)化管理運(yùn)營(yíng),有的則可以提供一些業(yè)務(wù)關(guān)聯(lián)性的數(shù)據(jù),幫助企業(yè)呼叫中心更好地開(kāi)展業(yè)務(wù),實(shí)現(xiàn)增值。具體說(shuō)來(lái),增值應(yīng)用表現(xiàn)在以下方面。分析客戶(hù)行為,進(jìn)行交叉銷(xiāo)售。在呼叫中心的各種客戶(hù)中,可以根據(jù)其消費(fèi)的特點(diǎn),進(jìn)行相關(guān)分析,了解某類(lèi)客戶(hù)在購(gòu)買(mǎi)一種商品時(shí),購(gòu)買(mǎi)其它種類(lèi)產(chǎn)品的概率有多大。根據(jù)這種相互的關(guān)聯(lián)性,就可以進(jìn)行交叉銷(xiāo)售。分析客戶(hù)忠誠(chéng)度,避免客戶(hù)流失。在客戶(hù)分析過(guò)程中,會(huì)有很多重要的大客戶(hù)流失。采用數(shù)據(jù)挖掘技術(shù),可以對(duì)這些流失的大客戶(hù)進(jìn)行分析,找出數(shù)據(jù)模型,發(fā)現(xiàn)其流失的規(guī)律,然后有針對(duì)性地改進(jìn)服務(wù)質(zhì)量,避免客戶(hù)的流失,減少企業(yè)的經(jīng)濟(jì)損失。
簡(jiǎn)化管理,呼叫中心的運(yùn)營(yíng)管理被人們提到前所未有的高度,因?yàn)橐粋€(gè)中心即使建得很好,技術(shù)也很先進(jìn),但如果管理不好,優(yōu)勢(shì)仍然發(fā)揮不出來(lái)。然而,管理對(duì)于很多呼叫中心來(lái)說(shuō),卻是很難過(guò)的門(mén)檻,數(shù)據(jù)挖掘能幫助簡(jiǎn)化管理。
預(yù)測(cè)話(huà)務(wù)量,安排人工座席,在呼叫中心中,話(huà)務(wù)量是個(gè)重要的指標(biāo),企業(yè)要根據(jù)話(huà)務(wù)量的大小,安排座席人員的數(shù)量,但話(huà)務(wù)量是個(gè)變化的指標(biāo),以往比較難以預(yù)測(cè)。通過(guò)數(shù)據(jù)挖掘中的時(shí)間序列分析,可以對(duì)話(huà)務(wù)量的情況進(jìn)行一定程度的預(yù)測(cè),就可以更合理地安排座席人員的數(shù)量,在不降低呼叫中心接通率的基礎(chǔ)上,降低企業(yè)的運(yùn)營(yíng)成本。
進(jìn)行關(guān)聯(lián)分析,降低運(yùn)營(yíng)成本。在運(yùn)營(yíng)型的呼叫中心中,常常會(huì)提供很多種業(yè)務(wù)服務(wù),并根據(jù)這些業(yè)務(wù)種類(lèi)的不同,安排座席人員的數(shù)量和排班。通過(guò)數(shù)據(jù)挖掘中關(guān)聯(lián)分析,可以進(jìn)行業(yè)務(wù)的相關(guān)性分析,分析出哪幾種業(yè)務(wù)具有比較強(qiáng)的關(guān)聯(lián)性。如在快遞行業(yè),送生日蛋糕的業(yè)務(wù)與送鮮花的業(yè)務(wù)可能就有很大的關(guān)聯(lián)性。這樣,在安排座席人員時(shí),就可以將兩種業(yè)務(wù)的座席人員進(jìn)行一定程度的合并,減少人員數(shù)量,降低呼叫中心的經(jīng)營(yíng)成本。
數(shù)字圖書(shū)館的數(shù)據(jù)挖掘
WEB挖掘是一個(gè)前景非??春玫墓ぞ?。我們知道,傳統(tǒng)的效率低下的搜索引擎檢索出的信息往往索引不完全、有大量的無(wú)關(guān)信息或沒(méi)有進(jìn)行可靠性驗(yàn)證。用戶(hù)能夠快速方便地從WEB中檢索出相關(guān)的可靠的信息是一個(gè)系統(tǒng)的最基本的要求。WEB挖掘不僅能夠從WWW的大量的數(shù)據(jù)中發(fā)現(xiàn)信息,而且它監(jiān)視和預(yù)測(cè)用戶(hù)的訪(fǎng)問(wèn)習(xí)慣。這樣給設(shè)計(jì)人員在設(shè)計(jì)WEB站點(diǎn)時(shí)有更多的可靠的信息。WEB挖掘技術(shù)能夠幫助圖書(shū)館員在設(shè)計(jì)站點(diǎn)時(shí)朝著方便用戶(hù)、節(jié)省時(shí)間和高效率方向發(fā)展。WEB挖掘技術(shù)為圖書(shū)館員進(jìn)行信息服務(wù)提供了先進(jìn)的工具。有了這個(gè)工具,圖書(shū)館員能夠按照各個(gè)用戶(hù)的要求或習(xí)慣,為用戶(hù)組織更多、更好的高質(zhì)量信息。
例如;院校圖書(shū)館員們應(yīng)用WEB挖掘技術(shù)為本院校不同學(xué)科中的不同研究課題從WWW中檢索相關(guān)信息。該技術(shù)可以自動(dòng)地檢索信息,并把信息按照課題領(lǐng)域進(jìn)行分類(lèi),使它們更容易訪(fǎng)問(wèn)。圖書(shū)館員可以通過(guò)為不同的課題領(lǐng)域建立一組特征,并以這些特征為基礎(chǔ)進(jìn)行檢索和分類(lèi),從而保證得到的信息是可靠的和具有權(quán)威性的。由于WEB挖掘技術(shù)能夠自動(dòng)地,不須人工干預(yù)地從WWW中發(fā)現(xiàn)和組織信息,從而使圖書(shū)館員只需花少量的時(shí)間來(lái)維護(hù)數(shù)據(jù)庫(kù)即可完成任務(wù)。用戶(hù)由于不需要花大量的時(shí)間來(lái)瀏覽成百上千的文檔,就可在相當(dāng)短的時(shí)間里得到想要的信息而感到非常滿(mǎn)意。更重要的是,他們可以在任何時(shí)間訪(fǎng)問(wèn)到世界任何地方的信息。事實(shí)上,這就是圖書(shū)館員把他們的咨詢(xún)服務(wù)從桌面轉(zhuǎn)移到INTERNET的具體工作表現(xiàn)。
網(wǎng)站的數(shù)據(jù)挖掘
隨著Web技術(shù)的發(fā)展,各類(lèi)電子商務(wù)網(wǎng)站風(fēng)起云涌。建立一個(gè)電子商務(wù)網(wǎng)站并不困難,困難的是如何讓您的電子商務(wù)網(wǎng)站有效益。要想有效益就必須吸引客戶(hù),增加能帶來(lái)效益的客戶(hù)忠誠(chéng)度。電子商務(wù)業(yè)務(wù)的競(jìng)爭(zhēng)比傳統(tǒng)的業(yè)務(wù)競(jìng)爭(zhēng)更加激烈,原因有很多方面,其中一個(gè)因素是客戶(hù)從一個(gè)電子商務(wù)網(wǎng)站轉(zhuǎn)換到競(jìng)爭(zhēng)對(duì)手那邊,只需要點(diǎn)擊幾下鼠標(biāo)即可。網(wǎng)站的內(nèi)容和層次、用詞、標(biāo)題、獎(jiǎng)勵(lì)方案、服務(wù)等任何一個(gè)地方都有可能成為吸引客戶(hù)、同時(shí)也可能成為失去客戶(hù)的因素。而同時(shí)電子商務(wù)網(wǎng)站每天都可能有上百萬(wàn)次的在線(xiàn)交易,生成大量的記錄文件(Log files)和登記表,如何對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘,充分了解客戶(hù)的喜好、購(gòu)買(mǎi)模式,甚至是客戶(hù)一時(shí)的沖動(dòng),設(shè)計(jì)出滿(mǎn)足不同客戶(hù)群體需要的個(gè)性化網(wǎng)站,進(jìn)而增加其競(jìng)爭(zhēng)力,幾乎變得勢(shì)在必行。若想在競(jìng)爭(zhēng)中生存進(jìn)而獲勝,就要比您的競(jìng)爭(zhēng)對(duì)手更了解客戶(hù)。
在對(duì)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘時(shí),所需要的數(shù)據(jù)主要來(lái)自于兩個(gè)方面:一方面是客戶(hù)的背景信息,此部分信息主要來(lái)自于客戶(hù)的登記表;而另外一部分?jǐn)?shù)據(jù)主要來(lái)自瀏覽者的點(diǎn)擊流(Click-stream),此部分?jǐn)?shù)據(jù)主要用于考察客戶(hù)的行為表現(xiàn)。但有的時(shí)候,客戶(hù)對(duì)自己的背景信息十分珍重,不肯把這部分信息填寫(xiě)在登記表上,這就會(huì)給數(shù)據(jù)分析和挖掘帶來(lái)不便。在這種情況之下,就不得不從瀏覽者的表現(xiàn)數(shù)據(jù)中來(lái)推測(cè)客戶(hù)的背景信息,進(jìn)而再加以利用。
生物醫(yī)學(xué)和DNA的數(shù)據(jù)挖掘
生物信息或基因數(shù)據(jù)挖掘?qū)θ祟?lèi)受益非淺。例如,基因的組合千變?nèi)f化,得某種疾病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進(jìn)而對(duì)其不同之處加以改變,使之成為正?;??這都需要數(shù)據(jù)挖掘技術(shù)的支持。
對(duì)于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無(wú)論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,都要復(fù)雜得多。從分析算法上講,更需要一些新的和好的算法。現(xiàn)在很多廠商正在致力于這方面的研究。但就技術(shù)和軟件而言,還遠(yuǎn)沒(méi)有達(dá)到成熟的地步。
因特網(wǎng)篩選的數(shù)據(jù)挖掘
最近,有不少數(shù)據(jù)挖掘產(chǎn)品用來(lái)篩選因特網(wǎng)上的新聞,保護(hù)用戶(hù)不受無(wú)聊電子郵件和商業(yè)推銷(xiāo)的干擾,很受歡迎。
氣象預(yù)報(bào)中的數(shù)據(jù)挖掘
農(nóng)業(yè)生產(chǎn)與氣候、氣象有著密切的關(guān)系,我國(guó)是一個(gè)農(nóng)業(yè)大國(guó),農(nóng)業(yè)生產(chǎn)關(guān)系到國(guó)家經(jīng)濟(jì)命脈和人民生活。天氣系統(tǒng)是一個(gè)復(fù)雜性系統(tǒng),其影響因素多,時(shí)空狀態(tài)變化大。氣象數(shù)據(jù)中蘊(yùn)含著復(fù)雜非線(xiàn)性動(dòng)力學(xué)機(jī)制。各個(gè)因素之間的關(guān)系十分復(fù)雜,并具有紛雜多變的時(shí)空特征。因而,難以建立農(nóng)業(yè)生產(chǎn)與氣象要素的關(guān)系。采用新的技術(shù)和方法進(jìn)行相關(guān)研究有實(shí)際意義,也是應(yīng)用發(fā)展及需求的驅(qū)動(dòng),數(shù)據(jù)挖掘技術(shù)可以用來(lái)解決此問(wèn)題。
國(guó)外利用數(shù)據(jù)挖掘來(lái)進(jìn)行氣象預(yù)報(bào)的應(yīng)用研究所采用的方法主要包括:神經(jīng)網(wǎng)絡(luò)、分類(lèi)和聚類(lèi);國(guó)內(nèi)則有人采用了小波分析與語(yǔ)言場(chǎng)相結(jié)合的知識(shí)表示方法,針對(duì)氣象數(shù)據(jù)提出一種新的基于小波分析和混沌理論相結(jié)合進(jìn)行類(lèi)別知識(shí)的發(fā)現(xiàn)方法,氣象數(shù)據(jù)通過(guò)小波變換后可以提取表示天氣系統(tǒng)的特征數(shù)據(jù),利用特征數(shù)據(jù)同農(nóng)業(yè)生產(chǎn)相關(guān)指標(biāo)(如產(chǎn)量,害蟲(chóng)密度等)的關(guān)系進(jìn)行數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的方法包括:分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則以及相似模式等,從非結(jié)構(gòu)化數(shù)據(jù)信息挖掘的角度構(gòu)建了一個(gè)實(shí)用的、可擴(kuò)展的、易操作的氣象科學(xué)研究的應(yīng)用系統(tǒng)。
水文數(shù)據(jù)的數(shù)據(jù)挖掘
信息獲取與分析技術(shù)的快速發(fā)展,特別是遙測(cè)、遙感、網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)等技術(shù)的應(yīng)用,有力地促進(jìn)了水文數(shù)據(jù)的采集和處理技術(shù)的發(fā)展,使之在時(shí)間和空間的尺度及要素類(lèi)型上有了不同程度的擴(kuò)展。由于水在人類(lèi)生存發(fā)展中的特殊作用,應(yīng)用各種新技術(shù)獲取水文數(shù)據(jù),挖掘蘊(yùn)藏于水文數(shù)據(jù)中的知識(shí),已成為水文科學(xué)發(fā)展的新熱點(diǎn)。數(shù)字水文系統(tǒng)的提出是水文科學(xué)發(fā)展的時(shí)代標(biāo)志之一。其核心是如何形成數(shù)字化的、覆蓋整個(gè)指定地域空間的、多重時(shí)空尺度的、多種要素的、對(duì)水文分析有用的數(shù)據(jù)產(chǎn)品。
水文數(shù)據(jù)挖掘是精確水文預(yù)報(bào)和水文數(shù)據(jù)分析的重要基礎(chǔ)。在我國(guó),整個(gè)水文整編資料數(shù)據(jù)累計(jì)量已超過(guò)7000MB,加上進(jìn)行水文預(yù)報(bào)所需的天氣、地理等數(shù)據(jù),進(jìn)行水文分析所需要處理的數(shù)據(jù)量很大。從這些數(shù)量巨大、類(lèi)型復(fù)雜的數(shù)據(jù)中及時(shí)準(zhǔn)確地挖掘出滿(mǎn)足需要的知識(shí),往往因?yàn)橛?jì)算能力、存儲(chǔ)能力、算法的不足而無(wú)能為力。因此,需要高效的水文數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)在水文信息服務(wù)領(lǐng)域的應(yīng)用將是多方面的。
數(shù)據(jù)挖掘一般有關(guān)聯(lián)分析(Associations)、序列模式分析(Sequential Patterns)、分類(lèi)分析(Classifiers)、聚類(lèi)分析(Clustering)等功能類(lèi)型。根據(jù)應(yīng)用目標(biāo)不同,數(shù)據(jù)挖掘可以采用或借鑒各種已經(jīng)存在的理論和算法,如信息論、數(shù)理邏輯、進(jìn)化計(jì)算、神經(jīng)計(jì)算、統(tǒng)計(jì)學(xué)等以及面向?qū)嵗膶W(xué)習(xí)的許多算法都可以應(yīng)用于數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)中。水文數(shù)據(jù)挖掘可以應(yīng)用決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、覆蓋正例排斥反例、粗糙集(Rough Set)、概念樹(shù)、遺傳算法、公式發(fā)現(xiàn)、統(tǒng)計(jì)分析、模糊論等理論與技術(shù),并在可視化技術(shù)的支持下,構(gòu)造滿(mǎn)足不同目的的水文數(shù)據(jù)挖掘應(yīng)用系統(tǒng)。
視頻數(shù)據(jù)的數(shù)據(jù)挖掘
目前,多媒體數(shù)據(jù)已逐漸成為信息處理領(lǐng)域中主要的信息媒體形式,尤其是視頻數(shù)據(jù),由于它能記錄、保留空間和時(shí)間上的各種信息,其內(nèi)容豐富,但使人們能夠以最接近自然的方式獲得更多的細(xì)節(jié)。視頻數(shù)據(jù)在生活中的應(yīng)用越來(lái)越廣泛,已產(chǎn)生了大量的數(shù)字視頻庫(kù),目前的研究主要集中在數(shù)字視頻庫(kù)的組織管理和使用上,特別是基于內(nèi)容的視頻檢索技術(shù)?;趦?nèi)容的視頻信息檢索技術(shù)雖然在某種程度上解決了視頻搜索和資源發(fā)現(xiàn)問(wèn)題,但是,視頻信息檢索只能獲取用戶(hù)要求的視頻“信息”,而不能從大量視頻數(shù)據(jù)中分析出蘊(yùn)含的有價(jià)值的用視頻媒體表示的“知識(shí)”。為此,需要研究比檢索和查詢(xún)層次更高的視頻分析方法,那就是視頻挖掘(Video Mining)。視頻挖掘就是通過(guò)綜合分析視頻數(shù)據(jù)的視聽(tīng)特性、時(shí)間結(jié)構(gòu)、事件關(guān)系和語(yǔ)義信息,發(fā)現(xiàn)隱含的、有價(jià)值的、可理解的視頻模式,得出視頻表示事件的趨向和關(guān)聯(lián),改善視頻信息管理的智能程度。
個(gè)人數(shù)據(jù)挖掘
個(gè)人數(shù)據(jù)挖掘的應(yīng)用非常廣泛,例如,可以挖掘公司記錄,選擇最好的合作伙伴;挖掘個(gè)人家庭醫(yī)療史,確定和遺傳有關(guān)的醫(yī)學(xué)模式,從而對(duì)生活方式和健康做出最優(yōu)決策;挖掘股票和公司業(yè)績(jī)來(lái)選擇最優(yōu)投資方式等。
數(shù)據(jù)挖掘工具的評(píng)價(jià)標(biāo)準(zhǔn)
如何選擇滿(mǎn)足自己需要的數(shù)據(jù)挖掘工具呢?評(píng)價(jià)一個(gè)數(shù)據(jù)挖掘工具,需要從以下幾個(gè)方面來(lái)考慮:
1產(chǎn)生的模式種類(lèi)的多少。
2解決復(fù)雜問(wèn)題的能力。
數(shù)據(jù)量的增大,對(duì)模式精細(xì)度、準(zhǔn)確度要求的增高都會(huì)導(dǎo)致問(wèn)題復(fù)雜性的增大。數(shù)據(jù)挖掘系統(tǒng)可以提供下列方法解決復(fù)雜問(wèn)題:
多種模式多種類(lèi)別模式的結(jié)合使用有助于發(fā)現(xiàn)有用的模式,降低問(wèn)題復(fù)雜性。例如,首先用聚類(lèi)的方法把數(shù)據(jù)分組,然后再在各個(gè)組上挖掘預(yù)測(cè)性的模式,將會(huì)比單純?cè)谡麄€(gè)數(shù)據(jù)集上進(jìn)行操作更有效、準(zhǔn)確度更高。
多種算法很多模式,特別是與分類(lèi)有關(guān)的模式,可以有不同的算法來(lái)實(shí)現(xiàn),各有各的優(yōu)缺點(diǎn),適用于不同的需求和環(huán)境。數(shù)據(jù)挖掘系統(tǒng)提供多種途徑產(chǎn)生同種模式,將更有能力解決復(fù)雜問(wèn)題。驗(yàn)證方法在評(píng)估模式時(shí),有多種可能的驗(yàn)證方法。比較成熟的方法像N層交叉驗(yàn)證或Bootstrapping等可以控制,以達(dá)到最大的準(zhǔn)確度。
數(shù)據(jù)選擇和轉(zhuǎn)換模式通常被大量的數(shù)據(jù)項(xiàng)隱藏。有些數(shù)據(jù)是冗余的,有些數(shù)據(jù)是完全無(wú)關(guān)的。而這些數(shù)據(jù)項(xiàng)的存在會(huì)影響到有價(jià)值的模式的發(fā)現(xiàn)。數(shù)據(jù)挖掘系統(tǒng)的一個(gè)很重要功能就是能夠處理數(shù)據(jù)復(fù)雜性,提供工具,選擇正確的數(shù)據(jù)項(xiàng)和轉(zhuǎn)換數(shù)據(jù)值。
可視化工具提供直觀、簡(jiǎn)潔的機(jī)制表示大量的信息。這有助于定位重要的數(shù)據(jù),評(píng)價(jià)模式的質(zhì)量,從而減少建模的復(fù)雜性。 擴(kuò)展性為了更有效地提高處理大量數(shù)據(jù)的效率,數(shù)據(jù)挖掘系統(tǒng)的擴(kuò)展性十分重要。需要了解的是:數(shù)據(jù)挖掘系統(tǒng)能否充分利用硬件資源?是否支持并行計(jì)算?算法本身設(shè)計(jì)為并行的或利用了DBMS的并行性能?支持哪種并行計(jì)算機(jī),SMP服務(wù)器還是MPP服務(wù)器?當(dāng)處理器的數(shù)量增加時(shí),計(jì)算規(guī)模是否相應(yīng)增長(zhǎng)?是否支持?jǐn)?shù)據(jù)并行存儲(chǔ)?
為單處理器的計(jì)算機(jī)編寫(xiě)的數(shù)據(jù)挖掘算法不會(huì)在并行計(jì)算機(jī)上自動(dòng)以更快的速度運(yùn)行。為充分發(fā)揮并行計(jì)算的優(yōu)點(diǎn),需要編寫(xiě)支持并行計(jì)算的算法。
3易操作性
易操作性是一個(gè)重要的因素。有的工具有圖形化界面,引導(dǎo)用戶(hù)半自動(dòng)化地執(zhí)行任務(wù),有的使用腳本語(yǔ)言。有些工具還提供數(shù)據(jù)挖掘的API,可以嵌入到像C、VisualBasic、PowerBuilder這樣的編程語(yǔ)言中。
模式可以運(yùn)用到已存在或新增加的數(shù)據(jù)上。有的工具有圖形化的界面,有的允許通過(guò)使用C這樣的程序語(yǔ)言或SQL中的規(guī)則集,把模式導(dǎo)出到程序或數(shù)據(jù)庫(kù)中。
4數(shù)據(jù)存取能力
好的數(shù)據(jù)挖掘工具可以使用SQL語(yǔ)句直接從DBMS中讀取數(shù)據(jù)。這樣可以簡(jiǎn)化數(shù)據(jù)準(zhǔn)備工作,并且可以充分利用數(shù)據(jù)庫(kù)的優(yōu)點(diǎn)(比如平行讀?。](méi)有一種工具可以支持大量的DBMS,但可以通過(guò)通用的接口連接大多數(shù)流行的DBMS。Microsoft的ODBC就是一個(gè)這樣的接口。
5與其他產(chǎn)品的接口
有很多別的工具可以幫助用戶(hù)理解數(shù)據(jù),理解結(jié)果。這些工具可以是傳統(tǒng)的查詢(xún)工具、可視化工具、OLAP工具。數(shù)據(jù)挖掘工具是否能提供與這些工具集成的簡(jiǎn)易途徑?
國(guó)外的許多行業(yè)如通信、信用卡公司、銀行和股票交易所、保險(xiǎn)公司、廣告公司、商店等已經(jīng)大量利用數(shù)據(jù)挖掘工具來(lái)協(xié)助其業(yè)務(wù)活動(dòng),國(guó)內(nèi)在這方面的應(yīng)用還處于起步階段,對(duì)數(shù)據(jù)挖掘技術(shù)和工具的研究人員以及開(kāi)發(fā)商來(lái)說(shuō),我國(guó)是一個(gè)有巨大潛力的市場(chǎng)。
評(píng)論
查看更多