在當(dāng)今的大數(shù)據(jù)時代,數(shù)據(jù)來源越來越多,包括網(wǎng)站、企業(yè)應(yīng)用、社交媒體、移動設(shè)備和物聯(lián)網(wǎng)以及物聯(lián)網(wǎng)產(chǎn)生的越來越多的數(shù)據(jù)。對于企業(yè)來說,如何從這些數(shù)據(jù)中獲得真正的業(yè)務(wù)價值變得越來越重要,數(shù)據(jù)挖掘是數(shù)據(jù)分析過程中有針對性的環(huán)節(jié)。優(yōu)秀的數(shù)據(jù)分析師將使用智能挖掘操作,使復(fù)雜的數(shù)據(jù)更加方便。
術(shù)語中數(shù)據(jù)挖掘通常用于收集、提取、存儲和分析數(shù)據(jù)等各種大型數(shù)據(jù)處理活動。它還可以用來幫助改進(jìn)應(yīng)用程序和技術(shù)的決策,如人工智能、機(jī)器學(xué)習(xí)和商業(yè)智能。
今日我們就來談?wù)剶?shù)據(jù)挖掘技術(shù)能給企業(yè)帶來什么。
發(fā)現(xiàn)有價值的數(shù)據(jù)
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指通過大量的程序,通過數(shù)據(jù)分析確定趨勢和模式,建立關(guān)系,從而解決業(yè)務(wù)問題。換句話說,數(shù)據(jù)挖掘是從大量、不完整的、噪音的、模糊的、隨機(jī)的數(shù)據(jù)中提取出來的。而人們事先不知道的是一種潛在有用的數(shù)據(jù)和知識過程。
二、與數(shù)據(jù)分析的區(qū)別
數(shù)據(jù)分析和數(shù)據(jù)挖掘都是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的,所以我們稱之為數(shù)據(jù)分析和數(shù)據(jù)挖掘。但是嚴(yán)格來說,數(shù)據(jù)挖掘才是真正意義上的數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge?discovery?in?database,KDD)。
數(shù)據(jù)分析以數(shù)據(jù)庫為基礎(chǔ),通過統(tǒng)計、計算、抽樣等相關(guān)方法從數(shù)據(jù)庫中獲取數(shù)據(jù)表示的知識,即從數(shù)據(jù)庫中獲取一些有代表性的信息。數(shù)據(jù)挖掘是通過機(jī)器學(xué)習(xí)或數(shù)學(xué)算法從數(shù)據(jù)庫中獲取深層知識(如規(guī)則或?qū)傩蚤g預(yù)測)的技術(shù)。
三、數(shù)據(jù)挖掘,有利有弊
數(shù)據(jù)挖掘原則上可應(yīng)用于任何類型的數(shù)據(jù)存儲庫和瞬態(tài)數(shù)據(jù)(如數(shù)據(jù)流),如數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)市場、事務(wù)數(shù)據(jù)庫、空間數(shù)據(jù)庫(如地圖)、工程設(shè)計數(shù)據(jù)(如建筑設(shè)計)、多媒體數(shù)據(jù)(文本、圖像、視頻、音頻)、網(wǎng)絡(luò)、時間序列數(shù)據(jù)庫。
因此,數(shù)據(jù)挖掘具有以下特點(diǎn):
1、數(shù)據(jù)集大而不完整。
數(shù)據(jù)挖掘所需的數(shù)據(jù)集非常大。數(shù)據(jù)集越大,得到的規(guī)律就越接近正確的實際規(guī)律,結(jié)果就越準(zhǔn)確。此外,數(shù)據(jù)往往不完整。
2、數(shù)據(jù)不準(zhǔn)確。
數(shù)據(jù)挖掘的不準(zhǔn)確性主要是由噪聲數(shù)據(jù)引起的。例如,在業(yè)務(wù)中,用戶可能會提供虛假數(shù)據(jù);在工廠環(huán)境中,正常數(shù)據(jù)經(jīng)常受到超過正常值的電磁或輻射干擾。這些異常和絕對不可能的數(shù)據(jù)被稱為噪聲,這將導(dǎo)致數(shù)據(jù)挖掘不準(zhǔn)確。
3、數(shù)據(jù)模糊隨機(jī)。
數(shù)據(jù)挖掘模糊隨機(jī)。這里的歧義可能與不準(zhǔn)確有關(guān)。由于數(shù)據(jù)不準(zhǔn)確,我們只能從整體上觀察數(shù)據(jù),或者由于隱私信息,我們不能知道一些具體的內(nèi)容。此時,如果我們想做相關(guān)的分析操作,我們只能做一些一般的分析,不能做出準(zhǔn)確的判斷。
對數(shù)據(jù)的隨機(jī)性有兩種解釋。一是收集數(shù)據(jù)的隨機(jī)性;我們不知道用戶填寫了什么。第二,分析結(jié)果是隨機(jī)的。若將數(shù)據(jù)交給機(jī)器進(jìn)行判斷和學(xué)習(xí),則所有操作均屬于灰箱操作。
由此可見,數(shù)據(jù)挖掘作為一種強(qiáng)大的工具,有其優(yōu)缺點(diǎn)。只有在適當(dāng)?shù)臅r候使用,我們才能事半功倍。
四、業(yè)務(wù)數(shù)據(jù)挖掘技術(shù)的可持續(xù)發(fā)展不容忽視
1、開發(fā)模型更方便
多年來,首要原則模型(first-principlemodels)是科學(xué)工程領(lǐng)域最經(jīng)典的模型。比如想知道一輛車從起步到穩(wěn)定速度的距離,首先要計算從起步到穩(wěn)定的時間、穩(wěn)定的速度、加速度等參數(shù);然后利用牛頓第二定律(或其他物理公式)建立模型;最后,根據(jù)車輛的多次試驗結(jié)果,列出方程組來計算模型參數(shù)。
通過這個過程,你就相當(dāng)于學(xué)習(xí)了一門知識——汽車從起步到穩(wěn)定速度的具體型號。然后將車輛的啟動參數(shù)輸入模型,自動計算車輛達(dá)到穩(wěn)定速度前的行駛距離。
然而,在數(shù)據(jù)挖掘的思想中,知識學(xué)習(xí)不需要建模具體問題的專業(yè)知識。如果我記錄了100種車型和性能相似的車輛從起步到穩(wěn)定速度的距離,我可以計算出這100個數(shù)據(jù)的平均值并得到結(jié)果。顯然,這個過程直接面向數(shù)據(jù),或者我們直接從數(shù)據(jù)開發(fā)模型。
這實際上是對人們最初學(xué)習(xí)過程的模擬。例如,如果你想預(yù)測一個人跑100米需要多長時間,你必須估計像他這樣的人跑100米需要多長時間,而不是使用牛頓定律。
2、計算機(jī)技術(shù)的成熟
數(shù)據(jù)挖掘理論涉及面廣,其實來自很多學(xué)科。例如,建模部分主要來自統(tǒng)計和機(jī)器學(xué)習(xí)。統(tǒng)計方法由模型驅(qū)動,通常建立能夠產(chǎn)生數(shù)據(jù)的模型;機(jī)器學(xué)習(xí)是由算法驅(qū)動的,它允許計算機(jī)通過執(zhí)行算法來發(fā)現(xiàn)知識。
隨著互聯(lián)網(wǎng)工具的發(fā)展,共享和合作的成本大大降低。我們每天用手機(jī)聊天、購物、刷短視頻、看新聞等日常無意行為,為互聯(lián)網(wǎng)行業(yè)提供大量數(shù)據(jù)。這些數(shù)據(jù)通常收集并存儲在大型數(shù)據(jù)存儲庫中。沒有強(qiáng)大的工具,我們無法理解它們。數(shù)據(jù)挖掘技術(shù)的出現(xiàn)解決了這個問題。它可以從海量數(shù)據(jù)中提取有價值的信息,作為決策的重要依據(jù)。
3、預(yù)測企業(yè)的生產(chǎn)和銷售
數(shù)據(jù)挖掘的真正價值在于可以以數(shù)據(jù)中的模式和關(guān)系的形式挖掘隱藏的寶石,可以用來預(yù)測對企業(yè)的重大影響。比如一個公司確定某個特定的營銷活動,導(dǎo)致某個特定型號的產(chǎn)品在國內(nèi)某些地區(qū)銷量很高,但在其他地區(qū)沒有,那么以后可以重新調(diào)整廣告活動,實現(xiàn)最大回報。
該技術(shù)的優(yōu)勢可能因業(yè)務(wù)類型和目標(biāo)而異。例如,零售業(yè)的銷售和營銷經(jīng)理可能會以不同的方式挖掘客戶信息,以提高轉(zhuǎn)化率,這與航空公司或金融服務(wù)業(yè)非常不同。
無論哪個行業(yè),過去應(yīng)用于銷售模式和客戶行為的數(shù)據(jù)挖掘都可以用來創(chuàng)建模型來預(yù)測未來的銷售和行為。數(shù)據(jù)挖掘也有助于消除可能危害企業(yè)的活動。例如,您可以使用數(shù)據(jù)挖掘來提高產(chǎn)品安全性或檢測保險和金融服務(wù)交易中的欺詐行為。
四、數(shù)據(jù)挖掘工具
數(shù)據(jù)挖掘系統(tǒng)可以獨(dú)立于數(shù)據(jù)倉庫系統(tǒng)。但為了提高挖掘效率,一般以數(shù)據(jù)倉庫為基礎(chǔ),利用挖掘算法從準(zhǔn)備好的數(shù)據(jù)中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,降低風(fēng)險,做出正確的決策。
預(yù)測未來不是依靠任何法術(shù)或天書,而是采用科學(xué)的方法和先進(jìn)的Smartbi數(shù)據(jù)挖掘科學(xué)平臺,分析和挖掘隱藏在大量數(shù)據(jù)中的秘密,揭示數(shù)據(jù)之間的關(guān)系,判斷事務(wù)發(fā)展趨勢。
傳統(tǒng)的數(shù)據(jù)分析揭示了已知的。過去的數(shù)據(jù)關(guān)系,而數(shù)據(jù)挖掘揭示了未知的。未來的數(shù)據(jù)關(guān)系;傳統(tǒng)的數(shù)據(jù)分析采用計算機(jī)技術(shù),而數(shù)據(jù)挖掘不僅采用計算機(jī)技術(shù),還涉及統(tǒng)計、模型算法等技術(shù)。因為數(shù)據(jù)挖掘發(fā)現(xiàn)了未來的信息,所以主要用于預(yù)測!預(yù)測公司未來的銷量,預(yù)測產(chǎn)品未來的價格等。
Smartbi數(shù)據(jù)挖掘科學(xué)平臺提供一站式數(shù)據(jù)挖掘服務(wù),涵蓋數(shù)據(jù)預(yù)處理、機(jī)器學(xué)習(xí)算法應(yīng)用、模型訓(xùn)練、評估、部署和服務(wù)發(fā)布的全生命周期。
它廣泛應(yīng)用于各個領(lǐng)域,包括企業(yè)運(yùn)營、生產(chǎn)控制、市場分析、工程設(shè)計、城市規(guī)劃和科學(xué)探索,從大量數(shù)據(jù)中挖掘出有用的信息和知識,以更好地指導(dǎo)我們的工作;該功能具有以下特點(diǎn):
1.Spark分布式云計算。
2.直觀的流式建模和拖拽操作。
3.實用統(tǒng)計分析。探索可視化數(shù)據(jù)。
4.預(yù)測、聚類等成熟機(jī)器學(xué)習(xí)算法。
5.算法極簡配置,門檻低。
6.支持Python擴(kuò)展。
7.模型集中管理,易于發(fā)布到BI平臺。
編輯:jq
評論
查看更多