mapreduce編程實例

　　Mapreduce初析

　　Mapreduce是一個計算框架，既然是做計算的框架，那么表現(xiàn)形式就是有個輸入（input），mapreduce操作這個輸入（input），通過本身定義好的計算模型，得到一個輸出（output），這個輸出就是我們所需要的結(jié)果。

　　我們要學(xué)習(xí)的就是這個計算模型的運行規(guī)則。在運行一個mapreduce計算任務(wù)時候，任務(wù)過程被分為兩個階段：map階段和reduce階段，每個階段都是用鍵值對（key/value）作為輸入（input）和輸出（output）。而程序員要做的就是定義好這兩個階段的函數(shù)：map函數(shù)和reduce函數(shù)。

　　mapreduce編程實例

　　1、數(shù)據(jù)去重

　　“數(shù)據(jù)去重”主要是為了掌握和利用并行化思想來對數(shù)據(jù)進(jìn)行有意義的篩選。統(tǒng)計大數(shù)據(jù)集上的數(shù)據(jù)種類個數(shù)、從網(wǎng)站日志中計算訪問地等這些看似龐雜的任務(wù)都會涉及數(shù)據(jù)去重。下面就進(jìn)入這個實例的MapReduce程序設(shè)計。

　　1.1 實例描述

　　對數(shù)據(jù)文件中的數(shù)據(jù)進(jìn)行去重。數(shù)據(jù)文件中的每行都是一個數(shù)據(jù)。

　　樣例輸入如下所示：

　　1）file1：

　　? mapreduce編程實例

　　2）file2：

　? mapreduce編程實例

　　樣例輸出如下所示：

? mapreduce編程實例

　　1.2 設(shè)計思路

　　數(shù)據(jù)去重的最終目標(biāo)是讓原始數(shù)據(jù)中出現(xiàn)次數(shù)超過一次的數(shù)據(jù)在輸出文件中只出現(xiàn)一次。我們自然而然會想到將同一個數(shù)據(jù)的所有記錄都交給一臺reduce機(jī)器，無論這個數(shù)據(jù)出現(xiàn)多少次，只要在最終結(jié)果中輸出一次就可以了。具體就是reduce的輸入應(yīng)該以數(shù)據(jù)作為key，而對value-list則沒有要求。當(dāng)reduce接收到一個《key，value-list》時就直接將key復(fù)制到輸出的key中，并將value設(shè)置成空值。

　　在MapReduce流程中，map的輸出《key，value》經(jīng)過shuffle過程聚集成《key，value- list》后會交給reduce。所以從設(shè)計好的reduce輸入可以反推出map的輸出key應(yīng)為數(shù)據(jù)，value任意。繼續(xù)反推，map輸出數(shù) 據(jù)的key為數(shù)據(jù)，而在這個實例中每個數(shù)據(jù)代表輸入文件中的一行內(nèi)容，所以map階段要完成的任務(wù)就是在采用Hadoop默認(rèn)的作業(yè)輸入方式之后，將 value設(shè)置為key，并直接輸出（輸出中的value任意）。map中的結(jié)果經(jīng)過shuffle過程之后交給reduce。reduce階段不會管每個key有多少個value，它直接將輸入的key復(fù)制為輸出的key，并輸出就可以了（輸出中的value被設(shè)置成空了）。

　　1.3 程序代碼

　　程序代碼如下所示：

　　package com.hebut.mr;

　　import java.io.IOException;

　　import org.apache.hadoop.conf.Configuration;

　　import org.apache.hadoop.fs.Path;

　　import org.apache.hadoop.io.IntWritable;

　　import org.apache.hadoop.io.Text;

　　import org.apache.hadoop.mapreduce.Job;

　　import org.apache.hadoop.mapreduce.Mapper;

　　import org.apache.hadoop.mapreduce.Reducer;

　　import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

　　import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

　　import org.apache.hadoop.util.GenericOptionsParser;

　　public class Dedup {

　　//map將輸入中的value復(fù)制到輸出數(shù)據(jù)的key上，并直接輸出

　　public static class Map extends Mapper《Object，Text，Text，Text》{

　　private static Text line=new Text（）;//每行數(shù)據(jù)

　　//實現(xiàn)map函數(shù)

　　public void map（Object key，Text value，Context context）

　　throws IOException，InterruptedException{

　　line=value;

　　context.write（line， new Text（“”））;

　　}

　　//reduce將輸入中的key復(fù)制到輸出數(shù)據(jù)的key上，并直接輸出

　　public static class Reduce extends Reducer《Text，Text，Text，Text》{

　　//實現(xiàn)reduce函數(shù)

　　public void reduce（Text key，Iterable《Text》 values，Context context）

　　throws IOException，InterruptedException{

　　context.write（key， new Text（“”））;

　　}

　　public static void main（String［］ args） throws Exception{

　　Configuration conf = new Configuration（）;

　　//這句話很關(guān)鍵

　　conf.set（“mapred.job.tracker”， “192.168.1.2:9001”）;

　　String［］ ioArgs=new String［］{“dedup_in”，“dedup_out”};

　　String［］ otherArgs = new GenericOptionsParser（conf， ioArgs）.getRemainingArgs（）;

　　if （otherArgs.length ！= 2） {

　　System.err.println（“Usage： Data Deduplication 《in》《out》”）;

　　System.exit（2）;

　　}

　　Job job = new Job（conf， “Data Deduplication”）;

　　job.setJarByClass（Dedup.class）;

　　//設(shè)置Map、Combine和Reduce處理類

　　job.setMapperClass（Map.class）;

　　job.setCombinerClass（Reduce.class）;

　　job.setReducerClass（Reduce.class）;

　　//設(shè)置輸出類型

　　job.setOutputKeyClass（Text.class）;

　　job.setOutputValueClass（Text.class）;

　　//設(shè)置輸入和輸出目錄

　　FileInputFormat.addInputPath（job， new Path（otherArgs［0］））;

　　FileOutputFormat.setOutputPath（job， new Path（otherArgs［1］））;

　　System.exit（job.waitForCompletion（true）？ 0 ： 1）;

　　}　}

　　1.4 代碼結(jié)果

　　1）準(zhǔn)備測試數(shù)據(jù)

　　通過Eclipse下面的“DFS Locations”在“/user/hadoop”目錄下創(chuàng)建輸入文件“dedup_in”文件夾（備注：“dedup_out”不需要創(chuàng)建。）如圖1.4-1所示，已經(jīng)成功創(chuàng)建。

? mapreduce編程實例

　　然后在本地建立兩個txt文件，通過Eclipse上傳到“/user/hadoop/dedup_in”文件夾中，兩個txt文件的內(nèi)容如“實例描述”那兩個文件一樣。如圖1.4-2所示，成功上傳之后。

　　從SecureCRT遠(yuǎn)處查看“Master.Hadoop”的也能證實我們上傳的兩個文件。

　　? mapreduce編程實例

　　查看兩個文件的內(nèi)容如圖1.4-3所示：

　　? mapreduce編程實例

　　2）查看運行結(jié)果

　　這時我們右擊Eclipse 的“DFS Locations”中“/user/hadoop”文件夾進(jìn)行刷新，這時會發(fā)現(xiàn)多出一個“dedup_out”文件夾，且里面有3個文件，然后打開雙其“part-r-00000”文件，會在Eclipse中間把內(nèi)容顯示出來。如圖1.4-4所示。

　? mapreduce編程實例

　　此時，你可以對比一下和我們之前預(yù)期的結(jié)果是否一致。

閱讀全文

12 3 4 5 下一頁全文

MapReduce(6251) MapReduce(6251)

21個三菱PLC編程實例

21個三菱PLC編程實例，實現(xiàn)PLC從入門到精通

2022-10-25 09:27:04

7064

51的c編程實例

2012-08-11 16:46:29

MapReduce實例開發(fā)指南

MapReduce實例——wordcount（單詞統(tǒng)計）

2019-10-08 07:15:48

MapReduce數(shù)據(jù)壓縮的基本原則

黑猴子的家：MapReduce數(shù)據(jù)壓縮

2019-05-24 12:45:46

MapReduce框架音樂排行榜案例

Hadoop綜合實戰(zhàn)之MapReduce運算優(yōu)化——音樂排行榜

2019-10-16 12:20:15

MapReduce的三種運行模式

第二章關(guān)于MapReduce

2019-03-26 06:32:50

MapReduce的操作案例分析

一、MapReduce概述1、基本概念Hadoop核心組件之一：分布式計算的方案MapReduce，是一種編程模型，用于大規(guī)模數(shù)據(jù)集的并行運算，其中Map（映射）和Reduce（歸約

2021-01-05 17:01:44

MapReduce綜述

的午餐11.2 串行與并行編程21.3 并行基本概念22 MapReduce基本原理介紹52.1 計算單詞數(shù)WordCount 62.2 類型72.3 其它實例73 MapReduce實現(xiàn)83.1

2010-09-18 08:31:59

編程實例供大家參考

搜集的一些編程實例供大家參考

2012-04-20 13:17:59

編程實例說明

編程實例說明初學(xué)者的資料

2013-05-27 20:53:56

LABVIEW編程實例

LABVIEW編程實例?。。。?/div>

2013-12-21 18:58:37

MaxCompute MapReduce

摘要：大數(shù)據(jù)計算服務(wù)(MaxCompute)的功能詳解和使用心得點此查看原文：http://click.aliyun.com/m/41384/前言MapReduce已經(jīng)有文檔，用戶可以參考文檔

2018-01-31 17:08:45

PLC編程實例

2012-08-20 19:28:00

TLC1549的實例應(yīng)用及編程有哪些？

什么是TLC1549？TLC1549的工作原理是什么？TLC1549的實例應(yīng)用及編程有哪些？

2021-04-22 07:19:13

Yarn的偽分布部署步驟及MapReduce簡單使用

偽分布式部署yarn和MapReduce案例

2019-03-05 16:01:15

labview編程實例

編程實例，可供參考

2015-05-17 16:31:51

中斷編程實例

各種中斷編程實例，看完中斷編程毫無壓力……

2014-05-20 21:52:04

值得一看的MapReduce編程實例

MapReduce編程實例

2019-03-05 16:55:22

請問有基于USART IAP在線應(yīng)用編程的實例嗎？

有沒有基于USARTIAP在線應(yīng)用編程的實例啊.

2019-05-16 04:08:01

VISA編程及應(yīng)用實例

VISA編程及應(yīng)用實例 1、VISA編程概要在VISA編程過程中，面向儀器的所有操作都必須首先進(jìn)行打開VISA資源

2009-06-22 12:25:05

5862

C語言與MATLAB接口編程與實例

本書以簡潔的語言、豐富的實例系統(tǒng)地介紹了C語言與 MATLAB 接口函數(shù)(稱之為：C-MEX函數(shù))的編程方法。用實例詳細(xì)地介紹了MATLAB中所提供的數(shù)據(jù)類型在C-MEX函數(shù)中的編程方法。這些數(shù)據(jù)類

2011-08-08 11:23:00

abb_plc_500編程軟件使用實例

abb_plc_500編程軟件使用實例abb_plc_500編程軟件使用實例abb_plc_500編程軟件使用實例

2015-11-12 14:36:41

單片機(jī)C語言編程與實例

單片機(jī)C語言編程與實例學(xué)習(xí)單片機(jī)開發(fā)非常不錯的資料。

2016-01-11 14:50:21

單片機(jī)編程實例大全

受錄了多種實例的單片機(jī)編程，非常實用，與大家分享。

2016-03-23 17:06:41

PLC的原理、編程與應(yīng)用（實例）

PLC的原理、編程與應(yīng)用（實例）希望對大家有幫助

2016-08-03 18:20:02

Linux網(wǎng)絡(luò)編程實例詳解

網(wǎng)絡(luò)通訊教程學(xué)習(xí)之Linux網(wǎng)絡(luò)編程實例詳解

2016-09-01 14:55:49

VC_MFC編程實例

這是一個VC_MFC編程實例的文檔。學(xué)習(xí)教程。

2016-09-01 15:27:27

FX編程實例

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-07 15:24:16

光標(biāo)切_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 16:43:43

供水_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 16:43:43

攻牙機(jī)_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 16:02:59

廣告燈_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 16:43:43

廣州正佳廣場_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 16:43:43

家用程控_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:25:25

佳信達(dá)克爾布斯膠訂機(jī)_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:25:25

漿紗機(jī)_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:25:25

交通燈__PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:25:25

接菌機(jī)_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

開箱機(jī)程式_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

開平機(jī)程序_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

九層九站電梯_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

開料鋸_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

空壓機(jī)_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 16:10:18

克爾布斯膠訂機(jī)_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

拉絲_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

控制行車_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:01:36

離子水__PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:51:28

六層六站電梯_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:51:28

硫化機(jī)__PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:51:28

零帶_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:51:28

魯式集塵機(jī)程式_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:37:00

馬達(dá)控制_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:37:00

瑪斯蘭貳廠壹期_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:37:00

噴涂_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

泡沫機(jī)_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

氣壓控制_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

坡口銑床程序_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

搶答器_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

揉紋車間電梯編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:25:19

三菱PLC編程實例-A1S68AD

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 16:59:02

三菱PLC編程實例-FXComms.

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-04-27 15:13:32

三菱PLC編程實例-Fat Coater b

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:09:03

三菱PLC編程實例-DST for FX

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:09:03

三菱PLC編程實例-Daylight Savings Time

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-Brick Crane v5

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 17:07:45

三菱PLC編程實例-Analog Write

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-FX2N communicating to

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-Analog Read

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-Daylight Savings Time

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-PID[1].FX2N

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-Pick and Place

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-Mitsubishi Timer Examp

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-osp2 plc

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-osp1

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-pid

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 17:09:04

179

三菱PLC編程實例-Medoc sequence generat

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-jq

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-time

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-純水

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-Q[1].AD.DA

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱編程實例

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-12-10 14:58:28

C#編程實例與技巧

2017-01-02 19:57:54

基于MapReduce和矩陣的頻繁項集挖掘算法

基于MapReduce和矩陣的頻繁項集挖掘算法_周國軍

2017-01-07 18:39:17

Python編程實例

2017-01-08 14:14:39

MapReduce框架下的Skyline結(jié)果優(yōu)化算法_馬學(xué)森

MapReduce框架下的Skyline結(jié)果優(yōu)化算法_馬學(xué)森

2017-03-19 11:41:51

Mapreduce下改進(jìn)Skyline的高效算法_劉建邦

Mapreduce下改進(jìn)Skyline的高效算法_劉建邦

2017-03-19 18:58:18

MapReduce的誤差反向傳播算法

針對誤差反向傳播（BP）算法計算迭代的特點，給出了迭代式MapReduce框架實現(xiàn)BP算法的方法。迭代式MapReduce框架在傳統(tǒng)MapReduce框架上添加了傳送模塊，避免了傳統(tǒng)框架運用在迭代

2017-12-20 16:39:37

多階段劃分的MapReduce模型

針對已有的MapReduce模型階段劃分粒度不合理導(dǎo)致模型精度和復(fù)雜度存在的問題，提出了階段劃分粒度為5的多階段MapReduce模型（MR-Model）。首先綜述了MapReduce模型的研究現(xiàn)狀

2017-12-27 11:48:35

什么是mapreduce_mapreduce工作原理_mapreduce_mapreduce邏輯模型圖

Mapreduce概況 MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運算。概念Map（映射）和Reduce（歸約），是它們的主要思想，都是從函數(shù)式編程語言里借來的，還有

2018-01-02 10:39:34

24973

詳解MapReduce的模式、算法和用例

本文總結(jié)了幾種網(wǎng)上或者論文中常見的MapReduce模式和算法，并系統(tǒng)化的解釋了這些技術(shù)的不同之處。所有描述性的文字和代碼都使用了標(biāo)準(zhǔn)hadoop的MapReduce模型，包括Mappers， Reduces， Combiners， Partitioners，和 sorting。下面我將一一進(jìn)行分析。

2018-01-02 11:31:32

2233