0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

了解數(shù)據(jù)挖掘的概念和特點

如意 ? 來源:百家號 ? 作者:看數(shù)據(jù)說事兒 ? 2020-06-29 17:31 ? 次閱讀

數(shù)據(jù)挖掘源自《從數(shù)據(jù)庫中發(fā)現(xiàn)知識》(縮寫為KDD)。它首次出現(xiàn)在1989年8月在底特律舉行的第十一屆國際聯(lián)合人工智能會議上。為了統(tǒng)一理解,F(xiàn)ayyad,Piatetsky-Shapiro和Smyth在權威文章集《知識發(fā)現(xiàn)與數(shù)據(jù)進展》中給出了KDD和數(shù)據(jù)挖掘的最新定義。從中總結了1996年該領域的進展,并予以區(qū)分:

KDD的定義是:KDD是從數(shù)據(jù)中識別有效,新穎,潛在有用且最終可以理解的模式的過程。

數(shù)據(jù)挖掘的定義是:數(shù)據(jù)挖掘是KDD中的一步,它使用特定算法在可接受的計算效率限制內生成特定模式。

數(shù)據(jù)挖掘技術的特點

1.基于大量數(shù)據(jù):不是說無法挖掘小數(shù)據(jù)量。實際上,大多數(shù)數(shù)據(jù)挖掘算法都可以在較小的數(shù)據(jù)量上運行并獲得結果。但是,一方面,過小的數(shù)據(jù)量可以通過手動分析來總結,另一方面,小數(shù)據(jù)量通常不能反映現(xiàn)實世界的一般特征。

2.非平凡性:所謂非平凡的意思是指所挖掘的知識是不簡單的。一定不能與著名體育評論員所說的相似:“經(jīng)過我的計算,直到比賽結束我才發(fā)現(xiàn)了一個有趣的現(xiàn)象。本屆世界杯的進球數(shù)和失球數(shù)都是相同的。非常巧合!”這種知識。這似乎沒有必要,但是許多不了解業(yè)務知識的數(shù)據(jù)挖掘新手經(jīng)常會犯此錯誤。

3.隱含性:數(shù)據(jù)挖掘是發(fā)現(xiàn)數(shù)據(jù)深處的知識,而不是直接出現(xiàn)在數(shù)據(jù)表面的信息。常用的BI工具(例如億信BI和豌豆BI)完全可以讓用戶找到此信息。

4.新奇性:挖掘的知識以前應該是未知的,否則僅是為了驗證業(yè)務專家的經(jīng)驗。只有新知識才能幫助公司獲得進一步的洞察力。

5.價值性:挖掘的結果必須為企業(yè)帶來直接或間接的利益。有人說數(shù)據(jù)挖掘只是“殺龍技術”。它看起來牛氣哄哄,但沒有用。這只是一個錯誤的想法。不可否認的是,在某些數(shù)據(jù)挖掘項目中,由于缺乏明確的業(yè)務目標,或者由于數(shù)據(jù)質量不足,或者由于人們抵制不斷變化的業(yè)務流程,又或者由于挖掘人員缺乏經(jīng)驗,都會導致結果不佳甚至根本沒有效果。但是,大量成功的案例也證明了數(shù)據(jù)挖掘確實可以成為提高效率的武器。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關推薦

    什么是大屏數(shù)據(jù)可視化?特點有哪些?

    介紹: 特點 直觀易懂:大屏數(shù)據(jù)可視化通過圖表、圖形和其他可視化元素,將復雜的數(shù)據(jù)轉化為直觀易懂的形式,使得用戶無需深入挖掘數(shù)據(jù)細節(jié)即可快速
    的頭像 發(fā)表于 12-16 16:59 ?218次閱讀

    DAC81408的建立時間為12uS,如何理解數(shù)據(jù)手冊中的12uS建立時間這個參數(shù)呢?

    中建立時間曲線,±20V輸出,如果按照數(shù)據(jù)手冊中4V/uS爬升速率計算,0到20V跳變時間為5uS,從以上兩圖頁可以看出,信號在5uS內達到設定值20V,該時間也小于建立時間典型值12uS。 請問如何理解數(shù)據(jù)手冊中的12uS建立時間這個參數(shù)呢
    發(fā)表于 12-09 08:33

    了解無功補償?shù)?b class='flag-5'>概念

    關注“acrelzx”微信號,了解更多產(chǎn)品資訊,可咨詢相關案例 (具體咨詢安科瑞187021張欣11310) 無功補償,是一種在電力供電系統(tǒng)中起提高電網(wǎng)的功率因數(shù)的作用,降低供電變壓器及輸送線
    的頭像 發(fā)表于 11-15 09:08 ?160次閱讀
    <b class='flag-5'>了解</b>無功補償?shù)?b class='flag-5'>概念</b>

    如何進行有效的eda分析

    進行有效的EDA(Exploratory Data Analysis,探索性數(shù)據(jù)分析)分析,是數(shù)據(jù)科學中的關鍵步驟,它能夠幫助分析人員深入了解數(shù)據(jù)、發(fā)現(xiàn)潛在的模式,并為進一步的分析和建模提供
    的頭像 發(fā)表于 11-13 10:48 ?309次閱讀

    如何利用traceroute命令發(fā)現(xiàn)網(wǎng)絡中的負載均衡

    在網(wǎng)絡管理和故障排除中,了解數(shù)據(jù)包的路徑和識別負載均衡節(jié)點是非常重要的。traceroute 命令是一個用于跟蹤數(shù)據(jù)包在網(wǎng)絡中經(jīng)過的路由路徑的工具。本文將詳細介紹如何利用 traceroute 命令發(fā)現(xiàn)網(wǎng)絡中的負載均衡,并解釋相關的概念
    的頭像 發(fā)表于 08-07 15:13 ?451次閱讀
    如何利用traceroute命令發(fā)現(xiàn)網(wǎng)絡中的負載均衡

    中科曙光受邀參加第十屆中國數(shù)據(jù)挖掘會議

    近日,國內數(shù)據(jù)挖掘領域最主要的學術活動之一—第十屆中國數(shù)據(jù)挖掘會議(CCDM2024)于山東泰安舉行,中科曙光參與并分享了曙光AI構建產(chǎn)學研用的生態(tài)實踐。
    的頭像 發(fā)表于 08-01 10:43 ?603次閱讀

    數(shù)字電路的基礎概念:MOS晶體管

    對于從事芯片行業(yè)的人員來說,還是有必要了解數(shù)字電路中的一些基本概念,例如用作邏輯開關的 MOS 晶體管。當然,我們的目的是了解現(xiàn)代芯片中的行為本質,而不需要陷入半導體物理方程。
    的頭像 發(fā)表于 07-29 10:02 ?830次閱讀
    數(shù)字電路的基礎<b class='flag-5'>概念</b>:MOS晶體管

    BP網(wǎng)絡的基本概念和訓練原理

    )的多層前饋神經(jīng)網(wǎng)絡。BP網(wǎng)絡自1985年提出以來,因其強大的學習和適應能力,在機器學習、數(shù)據(jù)挖掘、模式識別等領域得到了廣泛應用。以下將對BP網(wǎng)絡的基本概念、訓練原理及其優(yōu)缺點進行詳細闡述。
    的頭像 發(fā)表于 07-19 17:24 ?1691次閱讀

    卷積神經(jīng)網(wǎng)絡的基本概念、原理及特點

    的基本概念、原理、特點以及在不同領域的應用情況。 一、卷積神經(jīng)網(wǎng)絡的基本概念 卷積神經(jīng)網(wǎng)絡是一種深度學習算法,它由多層卷積層和池化層堆疊而成。卷積層負責提取圖像中的局部特征,而池化層則負責降低特征的空間維度,同時增加對圖像位移的
    的頭像 發(fā)表于 07-11 14:38 ?1127次閱讀

    增材制造技術的概念特點

    增材制造技術,又稱為3D打印技術,是一種通過逐層疊加材料來制造三維實體的先進制造技術。本文將詳細介紹增材制造技術的概念、特點、應用領域以及發(fā)展趨勢。 一、增材制造技術的概念 增材制造技術
    的頭像 發(fā)表于 06-07 14:37 ?3705次閱讀

    耗盡型MOSFET的基本概念、特點及工作原理

    型MOSFET作為MOSFET的一種重要類型,在電子設計和工程領域中有著其獨特的地位。本文將對耗盡型MOSFET的基本概念、特點以及工作原理進行詳細的探討。
    的頭像 發(fā)表于 05-12 17:19 ?2260次閱讀

    數(shù)據(jù)中臺工具的選型要點

    數(shù)據(jù)中臺工具扮演著舉足輕重的角色。想要全面理解數(shù)據(jù)中臺工具的意義、作用以及應用方式,就必須深入探討這一概念以及相關實踐。
    的頭像 發(fā)表于 04-24 15:07 ?314次閱讀

    數(shù)據(jù)中心市場的關鍵以太網(wǎng)解決方案

    了解數(shù)據(jù)中心市場動態(tài)的關鍵在于以太網(wǎng)解決方案。Synopsys負責產(chǎn)品管理和高性能計算IP的副總裁Michael Posner說:“以太網(wǎng)在數(shù)據(jù)中心中根深蒂固……雖然它并不廣為人知,但60%的數(shù)據(jù)中心硬件都是通過以太網(wǎng)通信的。
    發(fā)表于 03-12 09:53 ?461次閱讀
    <b class='flag-5'>數(shù)據(jù)</b>中心市場的關鍵以太網(wǎng)解決方案

    深入理解數(shù)據(jù)備份的關鍵原則:應用一致性與崩潰一致性的區(qū)別

    深入理解數(shù)據(jù)備份的關鍵原則:應用一致性與崩潰一致性的區(qū)別 在數(shù)字化時代,數(shù)據(jù)備份成為了企業(yè)信息安全的核心環(huán)節(jié)。但在備份過程中,兩個關鍵概念——應用一致性和崩潰一致性,常常被誤解或混淆。本文旨在闡明
    的頭像 發(fā)表于 03-11 11:29 ?956次閱讀
    深入理<b class='flag-5'>解數(shù)據(jù)</b>備份的關鍵原則:應用一致性與崩潰一致性的區(qū)別

    數(shù)據(jù)挖掘的應用領域,并舉例說明

    數(shù)據(jù)挖掘(Data Mining)是一種從大量數(shù)據(jù)中提取出有意義的信息和模式的技術。它結合了數(shù)據(jù)庫、統(tǒng)計學、機器學習和人工智能等領域的理論和方法,通過高效的算法和工具,對大
    的頭像 發(fā)表于 02-03 14:19 ?3159次閱讀