資料介紹
提出了一種基于局部孤立系數(shù)(LOC)的孤立點(diǎn)挖掘算法。該算法是對(duì)基于局部稀疏系數(shù)(LSC)孤立點(diǎn)挖掘論文中局部稀疏率和局部稀疏系數(shù)計(jì)算的一種改進(jìn)。實(shí)驗(yàn)表明,LOC 算法在發(fā)現(xiàn)孤立點(diǎn)方面比LSC 算法更高效。
孤立點(diǎn)檢測(cè)在數(shù)據(jù)挖掘領(lǐng)域是一項(xiàng)重要的挖掘技術(shù)。孤立點(diǎn)檢測(cè)的研究對(duì)象是數(shù)據(jù)集中
偏離絕大多數(shù)對(duì)象的很小一部分?jǐn)?shù)據(jù)。在許多KDD 應(yīng)用中,研究孤立點(diǎn)比研究聚類更有用、更重要。因?yàn)椋谀承?yīng)用領(lǐng)域中研究孤立點(diǎn)的異常行為能發(fā)現(xiàn)隱藏在數(shù)據(jù)集中更有價(jià)值的知識(shí)。諸如,在欺詐探測(cè)中,孤立點(diǎn)可能預(yù)示著欺詐行為;在市場(chǎng)分析中,可用于確定極低或極高的收入的消費(fèi)行為;在醫(yī)療分析中,用于發(fā)現(xiàn)對(duì)多種治療方式的不尋常的反映;因此,孤立點(diǎn)檢測(cè)是一個(gè)重要的數(shù)據(jù)挖掘任務(wù),稱為孤立點(diǎn)挖掘或異常挖掘。孤立點(diǎn)挖掘可以描述如下:給定一個(gè)n 個(gè)數(shù)據(jù)點(diǎn)或?qū)ο蟮募?,及預(yù)期的孤立點(diǎn)的數(shù)目k,發(fā)現(xiàn)與剩余的數(shù)據(jù)相比是顯著相異的、異常的或不一致的頭k 個(gè)對(duì)象[1]。
在數(shù)據(jù)挖掘中,孤立點(diǎn)檢測(cè)算法大體上可分為以下幾類:統(tǒng)計(jì)學(xué)方法,基于距離的方法,基于偏離的方法和基于密度的方法。
基于密度的方法能夠挖掘出比基于距離異常算法所不能識(shí)別的一類異常數(shù)據(jù)—局部異
常。局部異常觀點(diǎn)擯棄了以前所有的異常定義中非此即彼的絕對(duì)異常觀念,這更加符合現(xiàn)實(shí)生活中的應(yīng)用。近年來(lái),一些研究人員提出局部孤立點(diǎn)探測(cè)[2,3,4,5],就是對(duì)每個(gè)對(duì)象賦予某個(gè)度,這個(gè)度決定了這個(gè)對(duì)象成為孤立點(diǎn)的程度。每個(gè)點(diǎn)的孤立程度只與它和周圍點(diǎn)的距離有關(guān),而與數(shù)據(jù)集中其他的點(diǎn)沒(méi)有任何關(guān)系,這就體現(xiàn)了“局部”的特性。局部稀疏系數(shù)(LSC)就是其中一種,Malik Agyemang 提出的基于局部稀疏系數(shù) (LSC)孤立點(diǎn)挖掘[4]算法的主要思想是對(duì)數(shù)據(jù)集中每個(gè)對(duì)象,計(jì)算出離它最近K 個(gè)對(duì)象的距離,并從中選出最大的距離作為該點(diǎn)的K-距離,對(duì)數(shù)據(jù)集中每個(gè)對(duì)象計(jì)算出與它的距離不大于該對(duì)象K-距離的鄰近對(duì)象形成一個(gè)集合,然后計(jì)算每個(gè)對(duì)象與其對(duì)應(yīng)集合的所有對(duì)象之間平均距離的反比,即局部稀疏率,最后計(jì)算集合內(nèi)所有對(duì)象的局部稀疏率之和與該點(diǎn)的局部稀疏率比值的平均比率,即局部稀疏系數(shù)(LSC);根據(jù)每個(gè)對(duì)象的LSC 值從大到小的順序排列整個(gè)數(shù)據(jù)集,并把前n 個(gè)對(duì)象作為孤立點(diǎn)。
在局部稀疏系數(shù)(LSC)算法中,需要計(jì)算數(shù)據(jù)集中每個(gè)對(duì)象的局部稀疏率和局部稀疏
系數(shù),當(dāng)數(shù)據(jù)集很大時(shí),計(jì)算每個(gè)對(duì)象的局部稀疏率和局部稀疏系數(shù)耗費(fèi)很大的計(jì)算量。本文提出了基于局部孤立系數(shù)(LOC)孤立點(diǎn)算法,它是對(duì)LSC 算法的改進(jìn),LOC 算法的主要思想是:對(duì)于數(shù)據(jù)集中每個(gè)點(diǎn),計(jì)算出離它最近K 個(gè)對(duì)象的距離并選出其中最大距離作為該點(diǎn)的K-距離,并把最近K 個(gè)距離的和作為該點(diǎn)的局部距離之和;然后計(jì)算每個(gè)點(diǎn)的局部距離之和與它K-距離內(nèi)每個(gè)對(duì)象的局部距離之和的總和平均值的比率(LOC)作為該點(diǎn)的孤立因子,按LOC 值從大到小的順序選出前n 個(gè)作為孤立點(diǎn)。本文給出了LSC 算法和LOC 算法的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果表明LOC 算法在發(fā)現(xiàn)孤立點(diǎn)方面比LSC 算法效率高。
孤立點(diǎn)檢測(cè)在數(shù)據(jù)挖掘領(lǐng)域是一項(xiàng)重要的挖掘技術(shù)。孤立點(diǎn)檢測(cè)的研究對(duì)象是數(shù)據(jù)集中
偏離絕大多數(shù)對(duì)象的很小一部分?jǐn)?shù)據(jù)。在許多KDD 應(yīng)用中,研究孤立點(diǎn)比研究聚類更有用、更重要。因?yàn)椋谀承?yīng)用領(lǐng)域中研究孤立點(diǎn)的異常行為能發(fā)現(xiàn)隱藏在數(shù)據(jù)集中更有價(jià)值的知識(shí)。諸如,在欺詐探測(cè)中,孤立點(diǎn)可能預(yù)示著欺詐行為;在市場(chǎng)分析中,可用于確定極低或極高的收入的消費(fèi)行為;在醫(yī)療分析中,用于發(fā)現(xiàn)對(duì)多種治療方式的不尋常的反映;因此,孤立點(diǎn)檢測(cè)是一個(gè)重要的數(shù)據(jù)挖掘任務(wù),稱為孤立點(diǎn)挖掘或異常挖掘。孤立點(diǎn)挖掘可以描述如下:給定一個(gè)n 個(gè)數(shù)據(jù)點(diǎn)或?qū)ο蟮募?,及預(yù)期的孤立點(diǎn)的數(shù)目k,發(fā)現(xiàn)與剩余的數(shù)據(jù)相比是顯著相異的、異常的或不一致的頭k 個(gè)對(duì)象[1]。
在數(shù)據(jù)挖掘中,孤立點(diǎn)檢測(cè)算法大體上可分為以下幾類:統(tǒng)計(jì)學(xué)方法,基于距離的方法,基于偏離的方法和基于密度的方法。
基于密度的方法能夠挖掘出比基于距離異常算法所不能識(shí)別的一類異常數(shù)據(jù)—局部異
常。局部異常觀點(diǎn)擯棄了以前所有的異常定義中非此即彼的絕對(duì)異常觀念,這更加符合現(xiàn)實(shí)生活中的應(yīng)用。近年來(lái),一些研究人員提出局部孤立點(diǎn)探測(cè)[2,3,4,5],就是對(duì)每個(gè)對(duì)象賦予某個(gè)度,這個(gè)度決定了這個(gè)對(duì)象成為孤立點(diǎn)的程度。每個(gè)點(diǎn)的孤立程度只與它和周圍點(diǎn)的距離有關(guān),而與數(shù)據(jù)集中其他的點(diǎn)沒(méi)有任何關(guān)系,這就體現(xiàn)了“局部”的特性。局部稀疏系數(shù)(LSC)就是其中一種,Malik Agyemang 提出的基于局部稀疏系數(shù) (LSC)孤立點(diǎn)挖掘[4]算法的主要思想是對(duì)數(shù)據(jù)集中每個(gè)對(duì)象,計(jì)算出離它最近K 個(gè)對(duì)象的距離,并從中選出最大的距離作為該點(diǎn)的K-距離,對(duì)數(shù)據(jù)集中每個(gè)對(duì)象計(jì)算出與它的距離不大于該對(duì)象K-距離的鄰近對(duì)象形成一個(gè)集合,然后計(jì)算每個(gè)對(duì)象與其對(duì)應(yīng)集合的所有對(duì)象之間平均距離的反比,即局部稀疏率,最后計(jì)算集合內(nèi)所有對(duì)象的局部稀疏率之和與該點(diǎn)的局部稀疏率比值的平均比率,即局部稀疏系數(shù)(LSC);根據(jù)每個(gè)對(duì)象的LSC 值從大到小的順序排列整個(gè)數(shù)據(jù)集,并把前n 個(gè)對(duì)象作為孤立點(diǎn)。
在局部稀疏系數(shù)(LSC)算法中,需要計(jì)算數(shù)據(jù)集中每個(gè)對(duì)象的局部稀疏率和局部稀疏
系數(shù),當(dāng)數(shù)據(jù)集很大時(shí),計(jì)算每個(gè)對(duì)象的局部稀疏率和局部稀疏系數(shù)耗費(fèi)很大的計(jì)算量。本文提出了基于局部孤立系數(shù)(LOC)孤立點(diǎn)算法,它是對(duì)LSC 算法的改進(jìn),LOC 算法的主要思想是:對(duì)于數(shù)據(jù)集中每個(gè)點(diǎn),計(jì)算出離它最近K 個(gè)對(duì)象的距離并選出其中最大距離作為該點(diǎn)的K-距離,并把最近K 個(gè)距離的和作為該點(diǎn)的局部距離之和;然后計(jì)算每個(gè)點(diǎn)的局部距離之和與它K-距離內(nèi)每個(gè)對(duì)象的局部距離之和的總和平均值的比率(LOC)作為該點(diǎn)的孤立因子,按LOC 值從大到小的順序選出前n 個(gè)作為孤立點(diǎn)。本文給出了LSC 算法和LOC 算法的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果表明LOC 算法在發(fā)現(xiàn)孤立點(diǎn)方面比LSC 算法效率高。
下載該資料的人也在下載
下載該資料的人還在閱讀
更多 >
- 解決辦法:虛擬機(jī)狀態(tài)顯示孤立的,打開(kāi)電源失敗
- 集成流挖掘和圖挖掘的內(nèi)網(wǎng)異常檢測(cè)方法 7次下載
- 如何使用MATLAB進(jìn)行語(yǔ)音識(shí)別算法研究的論文資料免費(fèi)下載 43次下載
- 自適應(yīng)局部均值的EMD方法 0次下載
- 含高滲透率光伏電源的孤立電網(wǎng)機(jī)組組合 0次下載
- 孤立微電網(wǎng)分布式二級(jí)功率優(yōu)化控制 11次下載
- 基于神經(jīng)網(wǎng)絡(luò)的漢語(yǔ)孤立詞語(yǔ)音識(shí)別_朱淑琴 0次下載
- 柔性直流輸電改善孤立電網(wǎng)穩(wěn)定性的研究 21次下載
- 基于TMS320C6711 DSP的非特定人、孤立詞語(yǔ)音識(shí)別
- 基于片上系統(tǒng)SoC的孤立詞語(yǔ)音識(shí)別算法設(shè)計(jì)
- 基于片上系統(tǒng)SoC的孤立詞語(yǔ)音識(shí)別算法設(shè)計(jì)
- 稅務(wù)系統(tǒng)信息集成的研究和實(shí)現(xiàn)
- 基于灰色關(guān)聯(lián)分析的孤立點(diǎn)挖掘算法
- 工程熱力學(xué)試卷試題-華南理工大學(xué)2004年研究生入學(xué)考試試卷
- 基于平均密度的孤立點(diǎn)檢測(cè)研究
- 開(kāi)關(guān)電容加法器的電路詳解 459次閱讀
- 噪聲系數(shù)是什么?噪聲系數(shù)在系統(tǒng)中的應(yīng)用有哪些? 2297次閱讀
- 數(shù)字PLL孤立頻點(diǎn)失鎖是什么原因?又應(yīng)該怎么解決呢? 1014次閱讀
- 通過(guò)RepSurf點(diǎn)云結(jié)構(gòu)實(shí)現(xiàn)多項(xiàng)任務(wù)SOTA 1435次閱讀
- 局部放電以及為什么應(yīng)該檢測(cè)局部放電? 5063次閱讀
- 使用STM32實(shí)現(xiàn)云連接應(yīng)用的資料概述 3615次閱讀
- 局部放電的定義_局部放電的類型和特點(diǎn) 1.9w次閱讀
- 局部放電的危害_局部放電產(chǎn)生原因 1.1w次閱讀
- 熱擴(kuò)散系數(shù)的定義及測(cè)量 1.6w次閱讀
- 關(guān)于Velodyne LiDAR的時(shí)間同步 2w次閱讀
- 梯度下降兩大痛點(diǎn):陷入局部極小值和過(guò)擬合 1.9w次閱讀
- 怎么學(xué)習(xí)數(shù)據(jù)挖掘_如何系統(tǒng)地學(xué)習(xí)數(shù)據(jù)挖掘 4725次閱讀
- 什么叫數(shù)據(jù)挖掘_數(shù)據(jù)挖掘技術(shù)解析 1.9w次閱讀
- 基于Matlab的孤立逆變電源設(shè)計(jì)方案 3614次閱讀
- 通信連接器的分類及應(yīng)用 3438次閱讀
下載排行
本周
- 1HFSS電磁仿真設(shè)計(jì)應(yīng)用詳解PDF電子教程免費(fèi)下載
- 24.30 MB | 126次下載 | 1 積分
- 2H橋中的電流感測(cè)
- 545.39KB | 7次下載 | 免費(fèi)
- 3雷達(dá)的基本分類方法
- 1.25 MB | 4次下載 | 4 積分
- 4I3C–下一代串行通信接口
- 608.47KB | 3次下載 | 免費(fèi)
- 5電感技術(shù)講解
- 827.73 KB | 2次下載 | 免費(fèi)
- 6從 MSP430? MCU 到 MSPM0 MCU 的遷移指南
- 1.17MB | 2次下載 | 免費(fèi)
- 7有源低通濾波器設(shè)計(jì)應(yīng)用說(shuō)明
- 1.12MB | 2次下載 | 免費(fèi)
- 8RA-Eco-RA2E1-48PIN-V1.0開(kāi)發(fā)板資料
- 35.59 MB | 2次下載 | 免費(fèi)
本月
- 12024年工控與通信行業(yè)上游發(fā)展趨勢(shì)和熱點(diǎn)解讀
- 2.61 MB | 763次下載 | 免費(fèi)
- 2HFSS電磁仿真設(shè)計(jì)應(yīng)用詳解PDF電子教程免費(fèi)下載
- 24.30 MB | 126次下載 | 1 積分
- 3繼電保護(hù)原理
- 2.80 MB | 36次下載 | 免費(fèi)
- 4正激、反激、推挽、全橋、半橋區(qū)別和特點(diǎn)
- 0.91 MB | 32次下載 | 1 積分
- 5labview實(shí)現(xiàn)DBC在界面加載配置
- 0.57 MB | 21次下載 | 5 積分
- 6在設(shè)計(jì)中使用MOSFET瞬態(tài)熱阻抗曲線
- 1.57MB | 15次下載 | 免費(fèi)
- 7GBT 4706.1-2024家用和類似用途電器的安全第1部分:通用要求
- 7.43 MB | 13次下載 | 免費(fèi)
- 8PADS-3D庫(kù)文件
- 2.70 MB | 10次下載 | 2 積分
總榜
- 1matlab軟件下載入口
- 未知 | 935113次下載 | 10 積分
- 2開(kāi)源硬件-PMP21529.1-4 開(kāi)關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
- 1.48MB | 420061次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233084次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191360次下載 | 10 積分
- 5十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程 下載
- 158M | 183329次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81578次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費(fèi)下載
- 0.02 MB | 73804次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65985次下載 | 10 積分
評(píng)論
查看更多