基于MapReduce的聚類算法在大數(shù)據(jù)運(yùn)行速度
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
隨著信息技術(shù)的進(jìn)步以及信息化社會(huì)的發(fā)展,出現(xiàn)各式各樣的海量數(shù)據(jù),大量的數(shù)據(jù)累積在數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中,理解它們已遠(yuǎn)遠(yuǎn)超出了人的能力。如何將這些堆積的“數(shù)據(jù)”轉(zhuǎn)變成人們理解的“知識(shí)”,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生o”。從技術(shù)角度看,數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的、看似雜亂的實(shí)際數(shù)據(jù)中,提取隱含在其中的、人們不知道的,但又是潛在有用的信息和知識(shí)的過程。聚類分析是一項(xiàng)非常實(shí)用的數(shù)據(jù)挖掘技術(shù)。但面對(duì)龐大的數(shù)據(jù)集規(guī)模,計(jì)算的效率受限于單機(jī)處理能力。如何提高海量數(shù)據(jù)下的聚類分析能力是迫切需要解決的問題。Google實(shí)驗(yàn)室提出的分布式并行編程模型或框架MapReducer3],它通過集群來處理海量數(shù)據(jù),是云計(jì)算平臺(tái)主流的并行數(shù)據(jù)處理模型。
Apache推出的Hadoop平臺(tái)用Java實(shí)現(xiàn)了MapReduce模型。Mahout是Hadoop平臺(tái)的組件之一,是一個(gè)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫(kù),它利用MapReduce編程模型實(shí)現(xiàn)了數(shù)據(jù)挖掘中的眾多算法,且具有良好的可擴(kuò)展性。本文在此基礎(chǔ)上,并基于Mahout進(jìn)行了聚類實(shí)例研究。
?
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
基于MapReduce的聚類算法在大數(shù)據(jù)運(yùn)行速度下載
相關(guān)電子資料下載
- 數(shù)據(jù)分析工具有哪幾種模式 83
- 中交興路入選2024北京“數(shù)據(jù)要素×”典型案例集 886
- 中國(guó)鐵塔與??低曔_(dá)成戰(zhàn)略合作 216
- spark運(yùn)行的基本流程 91
- 季豐電子與孤波科技攜手合作為車規(guī)量產(chǎn)提供大數(shù)據(jù)支持 740
- 智慧園區(qū)綜合安防系統(tǒng)解決方案 83
- 大數(shù)據(jù)采集系統(tǒng)分為幾類 269
- 如何在數(shù)字化時(shí)代實(shí)現(xiàn)精益生產(chǎn)的創(chuàng)新發(fā)展? 117
- 智慧水文監(jiān)測(cè)系統(tǒng) 87
- 大數(shù)據(jù)分析平臺(tái)網(wǎng)站 96