電子發(fā)燒友App

硬聲App

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示
創(chuàng)作
電子發(fā)燒友網(wǎng)>電子資料下載>模擬數(shù)字>混合型缺失數(shù)據(jù)的填補(bǔ)方法研究論文資料免費(fèi)下載

混合型缺失數(shù)據(jù)的填補(bǔ)方法研究論文資料免費(fèi)下載

2019-02-11 | pdf | 2.63 MB | 次下載 | 免費(fèi)

資料介紹

  隨著科技的不斷發(fā)展,數(shù)據(jù)的獲取及存儲能力有了極大提升,致使數(shù)據(jù)規(guī)模呈現(xiàn)急速膨脹態(tài)勢。這為數(shù)據(jù)挖掘和數(shù)據(jù)分析帶來更多機(jī)遇的同時(shí),各種數(shù)據(jù)質(zhì)量問題的研究也給我們提出了巨大的挑戰(zhàn),其中數(shù)據(jù)缺失是影響數(shù)據(jù)質(zhì)量的重點(diǎn)問題之一。數(shù)據(jù)庫中大量的缺失值不僅嚴(yán)重影響應(yīng)用者的查詢質(zhì)量,還會對數(shù)據(jù)挖掘與數(shù)據(jù)分析結(jié)果的正確性造成影響,進(jìn)而誤導(dǎo)決策。因此,本文針對缺失數(shù)據(jù)填補(bǔ)這類問題展開深入研究。目前缺失數(shù)據(jù)的填補(bǔ)方法很多,大部分方法是針對不完整數(shù)據(jù)中存在一種缺失類型的數(shù)據(jù)進(jìn)行填補(bǔ),但隨著數(shù)據(jù)量的增長,龐雜的數(shù)據(jù)中缺失類型往往是混合的,單純地應(yīng)用現(xiàn)有的方法達(dá)不到一個(gè)很好的填補(bǔ)效果。為此,本文針對不同缺失類型同時(shí)出現(xiàn)在不完整數(shù)據(jù)中的這種復(fù)雜情況展開研究。主要工作如下:

  首先,本文針對常規(guī)型缺失數(shù)據(jù)的特點(diǎn)結(jié)合關(guān)聯(lián)規(guī)則的原理,提出了一種基于弱可用項(xiàng)集的數(shù)據(jù)填補(bǔ)方法,從關(guān)聯(lián)規(guī)則填補(bǔ)缺失值存在的兩個(gè)問題展開深入研究。第一,針對頻繁項(xiàng)集挖掘時(shí)間長這個(gè)問題提出了一種基于布爾矩陣的關(guān)聯(lián)規(guī)則挖掘方法,該方法結(jié)合布爾矩陣運(yùn)算的特點(diǎn)來快速求解相關(guān)參數(shù),減少 I/O 操作的同時(shí)也從整體上優(yōu)化了頻繁項(xiàng)集的挖掘效率。第二,針對產(chǎn)生規(guī)則少影響填補(bǔ)率這個(gè)問題提出了一種基于弱可用項(xiàng)集的填補(bǔ)方法,該方法通過在頻繁與弱可用項(xiàng)集之間建立連接,一方面利用挖掘出的連接規(guī)則提高了填補(bǔ)率;另一方面利用挖掘出的互斥規(guī)則為下一步的填補(bǔ)提供了更有效的計(jì)算依據(jù)。

  然后,本文針對異常型缺失數(shù)據(jù)的特點(diǎn)結(jié)合推薦算法的思想,提出了一種基于元組相似度的數(shù)據(jù)填補(bǔ)方法。從相似元組的查找效率和求解元組相似度的準(zhǔn)確性上進(jìn)行優(yōu)化,一方面通過建立項(xiàng)目-元組倒排表來提高相似元組的查找效率;另一方面基于屬性貢獻(xiàn)度來計(jì)算元組相似度,最后利用 top-k 得分獲得最優(yōu)填補(bǔ)值。

  最后,本文采用一組真實(shí)的 UCI 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),證明了本文提出的這套填補(bǔ)方法在混合型缺失數(shù)據(jù)中更高效。

  隨著互聯(lián)網(wǎng)及信息技術(shù)的高速發(fā)展,數(shù)據(jù)作為這些技術(shù)不可或缺的資源正在被以指數(shù)級增長的速度開采和挖掘,龐大的數(shù)據(jù)給社會生產(chǎn)、經(jīng)濟(jì)研究、生物醫(yī)學(xué)、信息科學(xué)研究等諸多領(lǐng)域的改革創(chuàng)新帶來無限機(jī)遇的同時(shí),也帶來了越來越多的挑戰(zhàn),那就是如何挖掘出隱含在這些海量數(shù)據(jù)中有價(jià)值的信息和知識,因此,數(shù)據(jù)挖掘[1]作為一項(xiàng)重要的技術(shù)隨之應(yīng)運(yùn)而生,并得到社會生產(chǎn)、經(jīng)濟(jì)研究、生物醫(yī)療、科學(xué)研究等許多領(lǐng)域的廣泛應(yīng)用,取得了巨大的社會效益和經(jīng)濟(jì)效益。然而許多模型和算法都是建立在高質(zhì)量的數(shù)據(jù)集上,但現(xiàn)實(shí)世界中的數(shù)據(jù)集很多都存在數(shù)據(jù)缺失、數(shù)據(jù)不一致、數(shù)據(jù)冗余、噪聲數(shù)據(jù)等問題[2,3]。這些問題將嚴(yán)重影響數(shù)據(jù)挖掘的成功與否和適用性能,成為數(shù)據(jù)挖掘的障礙。因此,為了能有效地應(yīng)用數(shù)據(jù)挖掘的方法和提高挖掘的質(zhì)量,在對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析之前要對數(shù)據(jù)進(jìn)行預(yù)處理,其中數(shù)據(jù)缺失問題的處理是預(yù)處理中非常重要的一個(gè)環(huán)節(jié)。

  在現(xiàn)實(shí)社會的各個(gè)領(lǐng)域中,數(shù)據(jù)缺失現(xiàn)象可以說是無處不在,且處理不當(dāng)會對后續(xù)的生產(chǎn)和研究工作帶來很多不利影響。比如,在工業(yè)生產(chǎn)過程中,由于硬件設(shè)備等問題導(dǎo)致一些數(shù)據(jù)不能正常獲??;在大型普查過程中,可能因?yàn)闀r(shí)間、地理位置的變化導(dǎo)致普查結(jié)果的不完整;在醫(yī)療領(lǐng)域,經(jīng)常需要對各種病歷進(jìn)行臨床實(shí)驗(yàn),但由于有些病人的檢驗(yàn)結(jié)果不能第一時(shí)間獲取而導(dǎo)致實(shí)驗(yàn)數(shù)據(jù)缺失的情況;在市場調(diào)研時(shí),由于被調(diào)研者對于問題的理解程度不同,或是主觀的某些原因都會導(dǎo)致調(diào)研結(jié)果的缺失出現(xiàn)??梢钥闯鰯?shù)據(jù)缺失問題覆蓋了經(jīng)濟(jì)研究、社會生產(chǎn)、人們生活產(chǎn)品制造和科學(xué)研究的各個(gè)方面且不可避免,并且隨著數(shù)據(jù)量的激增呈現(xiàn)出一種上升的態(tài)勢,如果對缺失數(shù)據(jù)的處理僅僅停留在單一地處理(像刪除含缺失值記錄或使用均值填充)層面上,很難從整體上來把握數(shù)據(jù)的趨勢變化,更糟糕的是可能會因?yàn)檫@樣的分析結(jié)果導(dǎo)出錯(cuò)誤的決策,這不管對于科學(xué)研究還是社會生產(chǎn)等各個(gè)領(lǐng)域都是不愿看到的。

  為了能在海量數(shù)據(jù)中挖掘出有意義的信息資源從而為決策者提供科學(xué)依據(jù),

  數(shù)據(jù)質(zhì)量研究成為目前重要研究課題,其中合理填補(bǔ)缺失值、構(gòu)建更為準(zhǔn)確的完整數(shù)據(jù)集是課題研究中的一個(gè)難點(diǎn)和重點(diǎn)。因此,我們要認(rèn)識到填補(bǔ)缺失值對于數(shù)據(jù)挖掘及數(shù)據(jù)分析有著重要的意義。

  1. 填補(bǔ)缺失值能夠防止刪除含有少量缺失值的重要記錄,這樣使得數(shù)據(jù)集中某些重要信息得以保留從而為正確決策提供有效依據(jù)。

  2. 填補(bǔ)缺失值能夠重新修復(fù)出一個(gè)完整的數(shù)據(jù)集,從而讓數(shù)據(jù)挖掘能在一個(gè)全總的數(shù)據(jù)集上進(jìn)行分析,而不是在局部數(shù)據(jù)上進(jìn)行分析,避免了因局部分析結(jié)果的片面性而產(chǎn)生錯(cuò)誤的決策。

  3. 填補(bǔ)正確的缺失值可以避免因引入新的噪音而影響數(shù)據(jù)挖掘的效果。因此,深入研究數(shù)據(jù)缺失問題,不僅為了全面、準(zhǔn)確地利用現(xiàn)有數(shù)據(jù)去反映真實(shí)的實(shí)際情況,更是為了能夠進(jìn)行高層次的分析進(jìn)而挖掘出這些數(shù)據(jù)隱含的、有用的關(guān)系和規(guī)則。所以,本文的主要工作就在于對現(xiàn)有的主流填補(bǔ)方法進(jìn)行較全面的分析后,研究如何利用現(xiàn)有數(shù)據(jù)完成對數(shù)據(jù)集中存在的混合型缺失數(shù)據(jù)的填補(bǔ)工作,提出了一套新的缺失數(shù)據(jù)填補(bǔ)方法,并對其填補(bǔ)結(jié)果進(jìn)行分析與評價(jià),以期為實(shí)際數(shù)據(jù)預(yù)處理提供借鑒,具有非常重要的現(xiàn)實(shí)意義。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

下載該資料的人也在下載 下載該資料的人還在閱讀
更多 >

評論

请按住滑块,拖动到最右边
了解新功能

查看更多

广告

下載排行

本周

  1. 1電子電路原理第七版PDF電子教材免費(fèi)下載
  2. 0.00 MB  |  1490次下載  |  免費(fèi)
  3. 2單片機(jī)典型實(shí)例介紹
  4. 18.19 MB  |  92次下載  |  1 積分
  5. 3S7-200PLC編程實(shí)例詳細(xì)資料
  6. 1.17 MB  |  27次下載  |  1 積分
  7. 4筆記本電腦主板的元件識別和講解說明
  8. 4.28 MB  |  18次下載  |  4 積分
  9. 5開關(guān)電源原理及各功能電路詳解
  10. 0.38 MB  |  10次下載  |  免費(fèi)
  11. 6基于AT89C2051/4051單片機(jī)編程器的實(shí)驗(yàn)
  12. 0.11 MB  |  4次下載  |  免費(fèi)
  13. 7藍(lán)牙設(shè)備在嵌入式領(lǐng)域的廣泛應(yīng)用
  14. 0.63 MB  |  3次下載  |  免費(fèi)
  15. 89天練會電子電路識圖
  16. 5.91 MB  |  3次下載  |  免費(fèi)

本月

  1. 1OrCAD10.5下載OrCAD10.5中文版軟件
  2. 0.00 MB  |  234313次下載  |  免費(fèi)
  3. 2PADS 9.0 2009最新版 -下載
  4. 0.00 MB  |  66304次下載  |  免費(fèi)
  5. 3protel99下載protel99軟件下載(中文版)
  6. 0.00 MB  |  51209次下載  |  免費(fèi)
  7. 4LabView 8.0 專業(yè)版下載 (3CD完整版)
  8. 0.00 MB  |  51043次下載  |  免費(fèi)
  9. 5555集成電路應(yīng)用800例(新編版)
  10. 0.00 MB  |  33562次下載  |  免費(fèi)
  11. 6接口電路圖大全
  12. 未知  |  30320次下載  |  免費(fèi)
  13. 7Multisim 10下載Multisim 10 中文版
  14. 0.00 MB  |  28588次下載  |  免費(fèi)
  15. 8開關(guān)電源設(shè)計(jì)實(shí)例指南
  16. 未知  |  21539次下載  |  免費(fèi)

總榜

  1. 1matlab軟件下載入口
  2. 未知  |  935053次下載  |  免費(fèi)
  3. 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
  4. 78.1 MB  |  537791次下載  |  免費(fèi)
  5. 3MATLAB 7.1 下載 (含軟件介紹)
  6. 未知  |  420026次下載  |  免費(fèi)
  7. 4OrCAD10.5下載OrCAD10.5中文版軟件
  8. 0.00 MB  |  234313次下載  |  免費(fèi)
  9. 5Altium DXP2002下載入口
  10. 未知  |  233045次下載  |  免費(fèi)
  11. 6電路仿真軟件multisim 10.0免費(fèi)下載
  12. 340992  |  191183次下載  |  免費(fèi)
  13. 7十天學(xué)會AVR單片機(jī)與C語言視頻教程 下載
  14. 158M  |  183277次下載  |  免費(fèi)
  15. 8proe5.0野火版下載(中文版免費(fèi)下載)
  16. 未知  |  138039次下載  |  免費(fèi)