如何使用改進(jìn)后的K-Means進(jìn)行網(wǎng)絡(luò)自媒體空間數(shù)據(jù)挖掘概述
資料介紹
在手機(jī)、平板電腦等電子媒介的人均持有率大于一的今天,網(wǎng)絡(luò)自媒體的傳播達(dá)到了前所未有的巔峰。本文通過基于Hadoop平臺(tái)的mahout數(shù)據(jù)挖掘框架,選用經(jīng)過Canopy算法優(yōu)化后的K-means聚類分析算法,對(duì)數(shù)據(jù)進(jìn)行聚類分析,對(duì)內(nèi)涵眾多信息的網(wǎng)絡(luò)自媒體推文進(jìn)行數(shù)據(jù)挖掘,以發(fā)現(xiàn)微博數(shù)據(jù)中蘊(yùn)含的與當(dāng)下社會(huì)和生活相關(guān)的熱點(diǎn)詞,后通過ArcGIS,對(duì)文本類簇進(jìn)行核密度分析,再做漁網(wǎng)柵格化分析,使離散的類簇樣本具備鄰接性,能在可視化中直觀地看到類簇主題的主要分布情況,以研究人們?nèi)粘I钪械牧?xí)慣、了解單一個(gè)人的喜好,以及對(duì)某個(gè)社會(huì)事件的評(píng)價(jià)等日常生活中隱含著關(guān)于社會(huì)和生活相關(guān)的信息。
在互聯(lián)網(wǎng)技術(shù)快速發(fā)展的今天,網(wǎng)絡(luò)自媒體在近些年得到了爆炸式的增長,它以病毒傳播的形式快速地滲透到了各行各業(yè)中,給予了所有人展示自我和了解他人的途徑[1]。新浪微博作為國內(nèi)大型網(wǎng)絡(luò)自媒體平臺(tái)之一,它具有龐大的用戶基礎(chǔ),以及由這基數(shù)龐大的用戶群體所產(chǎn)生的與個(gè)人生活或社會(huì)現(xiàn)象等與各行各業(yè)相關(guān)的大量信息;隨著Web2.0 時(shí)代的發(fā)展成熟,微博除了基于常規(guī)數(shù)據(jù)的數(shù)據(jù)挖掘以外,還有大量的包含有經(jīng)緯度位置屬性的數(shù)據(jù);這些空間位置數(shù)據(jù)可以很好地將我們的信息挖掘結(jié)果通過各大地圖的前端API 很直觀地展示出來,讓我們能很好地發(fā)現(xiàn)各種個(gè)人生活或社會(huì)現(xiàn)象等與各行各業(yè)、個(gè)人相關(guān)的話題或者感興趣的商品等事物的空間分布規(guī)律等的空間信息,因此基于微博的數(shù)據(jù)挖掘研究是十分有價(jià)值的科研方向。
空間數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(SDMKD, Spatial Data Mining and Knowledge Discovery)是數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的分支學(xué)科,它通過對(duì)空間數(shù)據(jù)集進(jìn)行一系列的處理,最終得到空間特征規(guī)則、空間聚類規(guī)則以及空間分布規(guī)律等能夠直觀展現(xiàn)空間實(shí)體的信息。最早開始關(guān)注、了解空間數(shù)據(jù)挖掘這一領(lǐng)域的人,是李德仁院士,他曾經(jīng)在二十世紀(jì)末期召開的國際地理信息系統(tǒng)學(xué)術(shù)會(huì)議上,由他首次提出空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)理論,且研究并提出了空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的理論框架。在現(xiàn)存的空間數(shù)據(jù)庫里蘊(yùn)含著巨量的信息,其中包括山高、河寬等可以使用地理信息系統(tǒng)的查詢工具發(fā)現(xiàn)的淺層信息;但除了淺層信息以外還有很多深層次的,如空間分類規(guī)則、空間偏差等信息則難以利用地理信息系統(tǒng)的查詢方法來獲取,只能通過運(yùn)算或者挖掘等手段才能夠發(fā)現(xiàn)這些信息。
由于云計(jì)算的迅速崛起,為我們?cè)诮鉀Q機(jī)器學(xué)習(xí)中的聚類問題時(shí)面臨的復(fù)雜、大量的迭代計(jì)算提供了出色的解決方案;其中在眾多的分布式計(jì)算框架中,開源框架Hadoop 以其穩(wěn)定的性能和廉價(jià)的成本被眾多企業(yè)和科研機(jī)構(gòu)所青睞,與傳統(tǒng)并行框架相比,它具有高效、高可用、易部署等特點(diǎn);apache 組織在該平臺(tái)基礎(chǔ)上開發(fā)了一個(gè)針對(duì)機(jī)器學(xué)習(xí)算法的計(jì)算框架——mahout;本文將以使用mahout 加上Hadoop組成的平臺(tái)為基礎(chǔ):Hadoop 生態(tài)中的HDFS 為數(shù)據(jù)存儲(chǔ)系統(tǒng);Hadoop 生態(tài)中的MapReduce 為分布式計(jì)算框架;然后選用Canopy 算法優(yōu)化后的K-means 聚類分析算法,利用搭載在Hadoop 集群上的Mahout數(shù)據(jù)挖掘框架來實(shí)現(xiàn)并行的聚類算法操作,最后,使用可視化分析的手段,將帶有主題的類簇展示在地圖上,用這種更直觀的方式來分析這些微博數(shù)據(jù)所蘊(yùn)含的信息,以研究網(wǎng)絡(luò)輿論中隱含著關(guān)于社會(huì)和生活中相關(guān)的信息,為社會(huì)的和諧、穩(wěn)定的發(fā)展提供支持。
- 基于Oracle-Spatial空間數(shù)據(jù)共享系統(tǒng)設(shè)計(jì)
- 如何使用數(shù)據(jù)庫技術(shù)實(shí)現(xiàn)空間數(shù)據(jù)共享系統(tǒng)的設(shè)計(jì) 13次下載
- 海量空間數(shù)據(jù)庫應(yīng)該如何進(jìn)行實(shí)施策略 4次下載
- 如何使用K-Means聚類算法改進(jìn)的特征加權(quán)算法詳細(xì)資料概述 10次下載
- 如何使用多維網(wǎng)格空間進(jìn)行改進(jìn)K-means聚類算法資料概述 1次下載
- 什么是空間數(shù)據(jù)庫?有什么特點(diǎn)?如何進(jìn)行空間數(shù)據(jù)庫的設(shè)計(jì)? 21次下載
- 基于ORDB的空間數(shù)據(jù)庫的研究 0次下載
- GML空間數(shù)據(jù)壓縮技術(shù)研究 0次下載
- 論空間數(shù)據(jù)處理與空間數(shù)據(jù)挖掘 0次下載
- 改進(jìn)的k-means聚類算法在供電企業(yè)CRM中的應(yīng)用
- 基于Agent的分布式空間數(shù)據(jù)挖掘系統(tǒng)
- 基于MapObjcts的空間數(shù)據(jù)歷史管理研究
- 空間數(shù)據(jù)插件技術(shù)研究
- 基于改進(jìn)演化算法的空間數(shù)據(jù)聚類方法
- 面向網(wǎng)絡(luò)的海量影像空間數(shù)據(jù)在線分發(fā)技術(shù)
- 深入理解 Sora 的技術(shù)原理 1721次閱讀
- GIS可處理非地理空間數(shù)據(jù)嗎 388次閱讀
- 賦能現(xiàn)代時(shí)空數(shù)據(jù):PIE-Engine Server全面支持STAC時(shí)空資產(chǎn)目錄規(guī)范 1448次閱讀
- 基于距離的聚類算法K-means的設(shè)計(jì)實(shí)現(xiàn) 2088次閱讀
- 基于GIs和webGIS技術(shù)實(shí)現(xiàn)區(qū)域空間資源綜合管理系統(tǒng)的子系統(tǒng)設(shè)計(jì) 1307次閱讀
- 基本的k-means算法流程 1.9w次閱讀
- 基于FPGA上的仿真分析確定適合空間應(yīng)用的AES算法設(shè)計(jì)詳解 908次閱讀
- K-Means算法的簡單介紹 4835次閱讀
- Python無監(jiān)督學(xué)習(xí)的幾種聚類算法包括K-Means聚類,分層聚類等詳細(xì)概述 3w次閱讀
- K-means算法原理理論+opencv實(shí)現(xiàn) 6031次閱讀
- K-means的優(yōu)缺點(diǎn)及改進(jìn) 3.1w次閱讀
- k-means算法原理解析 8260次閱讀
- 關(guān)聯(lián)規(guī)則挖掘——Apriori算法的基本原理以及改進(jìn) 9325次閱讀
- 怎么學(xué)習(xí)數(shù)據(jù)挖掘_如何系統(tǒng)地學(xué)習(xí)數(shù)據(jù)挖掘 4725次閱讀
- 什么叫數(shù)據(jù)挖掘_數(shù)據(jù)挖掘技術(shù)解析 1.9w次閱讀
下載排行
本周
- 1基于Xilinx ZYNQ7000 FPGA嵌入式開發(fā)實(shí)戰(zhàn)指南
- 20.20 MB | 2次下載 | 免費(fèi)
- 2bq25890、bq25892雙級(jí)聯(lián)充電器EVM(PWR692)用戶指南
- 2.02MB | 1次下載 | 免費(fèi)
- 3ADC模數(shù)轉(zhuǎn)換實(shí)驗(yàn)
- 0.09 MB | 1次下載 | 5 積分
- 4MSP430FR4133 LaunchPad開發(fā)套件(MSP-EXP430FR4133)用戶指南
- 2.21MB | 1次下載 | 免費(fèi)
- 5MSP-EXP430FR5969快速入門指南
- 2.18MB | 1次下載 | 免費(fèi)
- 6MSP430FR5969 LaunchPad開發(fā)套件(MSP-EXP430FR5969)用戶指南
- 3.13MB | 1次下載 | 免費(fèi)
- 704-01-02-CBM317線性穩(wěn)壓器(LDO)
- 2.01 MB | 1次下載 | 免費(fèi)
- 8TCM控制雙向Buck/Boost變換器中高精度可變開關(guān)頻率ZVS調(diào)節(jié)的實(shí)用電流推導(dǎo)方法
- 1.87 MB | 次下載 | 1 積分
本月
- 12024PMIC市場(chǎng)洞察
- 2.23 MB | 158次下載 | 免費(fèi)
- 2開關(guān)電源設(shè)計(jì)原理手冊(cè)
- 1.83 MB | 40次下載 | 免費(fèi)
- 3FS5080E 5V升壓充電兩串鋰電池充電管理IC中文手冊(cè)
- 8.45 MB | 21次下載 | 免費(fèi)
- 4OAH0428最新規(guī)格書(中文)
- 2.52 MB | 15次下載 | 7 積分
- 5DMT0660數(shù)字萬用表產(chǎn)品說明書
- 0.70 MB | 13次下載 | 免費(fèi)
- 6UC3842/3/4/5電源管理芯片中文手冊(cè)
- 1.75 MB | 12次下載 | 免費(fèi)
- 7ST7789V2單芯片控制器/驅(qū)動(dòng)器英文手冊(cè)
- 3.07 MB | 11次下載 | 1 積分
- 8慧榮SM2263XT開卡軟件-B16_B17_FW_S0614B0_RDT_S0617A
- 3.03 MB | 9次下載 | 5 積分
總榜
- 1matlab軟件下載入口
- 未知 | 935119次下載 | 10 積分
- 2開源硬件-PMP21529.1-4 開關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
- 1.48MB | 420061次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233084次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191367次下載 | 10 積分
- 5十天學(xué)會(huì)AVR單片機(jī)與C語言視頻教程 下載
- 158M | 183335次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81581次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費(fèi)下載
- 0.02 MB | 73807次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65987次下載 | 10 積分
評(píng)論
查看更多