MapReduce实例(数据去重)

数据去重：

原理(理解)：Mapreduce程序首先应该确认<k3,v3>,根据<k3,v3>确定<k2,v2>，原始数据中出现次数超过一次的数据在输出文件中只出现一次。Reduce的输出是不重复的数据，也就是每一行数据作为key，即k3。而v3为空或不需要设值。根据<k3，v3>得到k2为每一行的数据，v2为空。根据MapReduce框架设值可知，k1为每行的起始位置，v1为每行的内容。因此，v1需要赋值给k2，使得原来的v1作为新的k2，从而两个或更多文件通过在Reduce端聚合，得到去重后的数据。

数据：

file1.txt

2016-6-1 b
2016-6-2 a
2016-6-3 b
2016-6-4 d
2016-6-5 a
2016-6-6 c
2016-6-7 d
2016-6-3 c

file2.txt

2016-6-1 a
2016-6-2 b
2016-6-3 c
2016-6-4 d
2016-6-5 a
2016-6-6 b
2016-6-7 c
2016-6-3 c

*创建文件夹dedup_in并创建上述两文件，将该文件夹上传到HDFS中

[root@neusoft-master filecontent]# hadoop dfs -put dedup_in/ /neusoft/

[root@neusoft-master filecontent]# hadoop dfs -ls /neusoft

（1）自定义Mapper任务

     private static class MyMapper extends Mapper<Object, Text, Text, Text>{

         private static Text line=new Text();

         @Override

         protected void map(Object k1, Text v1,

                 Mapper<Object, Text, Text, Text>.Context context)

                 throws IOException, InterruptedException {

             line=v1;//v1为每行数据，赋值给line

             context.write(line, new Text(""));

         }

     }

（2）自定义Reduce任务

 private static class MyReducer extends Reducer<Text, Text, Text, Text>

     {

         @Override

         protected void reduce(Text k2, Iterable<Text> v2s,

                 Reducer<Text, Text, Text, Text>.Context context)

                 throws IOException, InterruptedException {

             context.write(k2, new Text(""));

         }

     }

（3）主函数(组织map和reduce)

 public static void main(String[] args) throws Exception {

         //必须要传递的是自定的mapper和reducer的类，输入输出的路径必须指定，输出的类型<k3,v3>必须指定

                 //2将自定义的MyMapper和MyReducer组装在一起

                 Configuration conf=new Configuration();

                 String jobName=DataDeduplication.class.getSimpleName();

                 //1首先寫job，知道需要conf和jobname在去創建即可

                 Job job = Job.getInstance(conf, jobName);

                 //*13最后，如果要打包运行改程序，则需要调用如下行

                 job.setJarByClass(DataDeduplication.class);

                 //3读取HDFS內容：FileInputFormat在mapreduce.lib包下

                 FileInputFormat.setInputPaths(job, new Path(args[0]));

                 //4指定解析<k1,v1>的类（谁来解析键值对）

                 //*指定解析的类可以省略不写，因为设置解析类默认的就是TextInputFormat.class

                 job.setInputFormatClass(TextInputFormat.class);

                 //5指定自定义mapper类

                 job.setMapperClass(MyMapper.class);

                 //6指定map输出的key2的类型和value2的类型  <k2,v2>

                 //*下面两步可以省略，当<k3,v3>和<k2,v2>类型一致的时候,<k2,v2>类型可以不指定

                 job.setMapOutputKeyClass(Text.class);

                 job.setMapOutputValueClass(Text.class);

                 //7分区(默认1个)，排序，分组，规约 采用 默认

                 job.setCombinerClass(MyReducer.class);

                 //接下来采用reduce步骤

                 //8指定自定义的reduce类

                 job.setReducerClass(MyReducer.class);

                 //9指定输出的<k3,v3>类型

                 job.setOutputKeyClass(Text.class);

                 job.setOutputValueClass(Text.class);

                 //10指定输出<K3,V3>的类

                 //*下面这一步可以省

                 job.setOutputFormatClass(TextOutputFormat.class);

                 //11指定输出路径

                 FileOutputFormat.setOutputPath(job, new Path(args[1]));

                 //12写的mapreduce程序要交给resource manager运行

                 job.waitForCompletion(true);

     }

数据去重源代码：

 package Mapreduce;

 import java.io.IOException;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 public class DataDeduplication {

     public static void main(String[] args) throws Exception {

         //必须要传递的是自定的mapper和reducer的类，输入输出的路径必须指定，输出的类型<k3,v3>必须指定

                 //2将自定义的MyMapper和MyReducer组装在一起

                 Configuration conf=new Configuration();

                 String jobName=DataDeduplication.class.getSimpleName();

                 //1首先寫job，知道需要conf和jobname在去創建即可

                 Job job = Job.getInstance(conf, jobName);

                 //*13最后，如果要打包运行改程序，则需要调用如下行

                 job.setJarByClass(DataDeduplication.class);

                 //3读取HDFS內容：FileInputFormat在mapreduce.lib包下

                 FileInputFormat.setInputPaths(job, new Path(args[0]));

                 //4指定解析<k1,v1>的类（谁来解析键值对）

                 //*指定解析的类可以省略不写，因为设置解析类默认的就是TextInputFormat.class

                 job.setInputFormatClass(TextInputFormat.class);

                 //5指定自定义mapper类

                 job.setMapperClass(MyMapper.class);

                 //6指定map输出的key2的类型和value2的类型  <k2,v2>

                 //*下面两步可以省略，当<k3,v3>和<k2,v2>类型一致的时候,<k2,v2>类型可以不指定

                 job.setMapOutputKeyClass(Text.class);

                 job.setMapOutputValueClass(Text.class);

                 //7分区(默认1个)，排序，分组，规约 采用 默认

                 job.setCombinerClass(MyReducer.class);

                 //接下来采用reduce步骤

                 //8指定自定义的reduce类

                 job.setReducerClass(MyReducer.class);

                 //9指定输出的<k3,v3>类型

                 job.setOutputKeyClass(Text.class);

                 job.setOutputValueClass(Text.class);

                 //10指定输出<K3,V3>的类

                 //*下面这一步可以省

                 job.setOutputFormatClass(TextOutputFormat.class);

                 //11指定输出路径

                 FileOutputFormat.setOutputPath(job, new Path(args[1]));

                 //12写的mapreduce程序要交给resource manager运行

                 job.waitForCompletion(true);

     }

     private static class MyMapper extends Mapper<Object, Text, Text, Text>{

         private static Text line=new Text();

         @Override

         protected void map(Object k1, Text v1,

                 Mapper<Object, Text, Text, Text>.Context context)

                 throws IOException, InterruptedException {

             line=v1;//v1为每行数据，赋值给line

             context.write(line, new Text(""));

         }

     }

     private static class MyReducer extends Reducer<Text, Text, Text, Text>

     {

         @Override

         protected void reduce(Text k2, Iterable<Text> v2s,

                 Reducer<Text, Text, Text, Text>.Context context)

                 throws IOException, InterruptedException {

             context.write(k2, new Text(""));

         }

     }

 }

数据去重

运行结果：

[root@neusoft-master filecontent]# hadoop jar DataDeduplication.jar /neusoft/dedup_in /out12

[root@neusoft-master filecontent]# hadoop dfs -text /out12/part-r-00000

结果验证正确~

注意：HDFS的显示形式

[root@neusoft-master filecontent]# hadoop dfs -ls hdfs://neusoft-master:9000/out12

[root@neusoft-master filecontent]# hadoop dfs -ls /out12

等价表示形式

/out12的完整表达形式hdfs://neusoft-master:9000/out12

MapReduce实例(数据去重)的更多相关文章

利用MapReduce实现数据去重
数据去重主要是为了利用并行化的思想对数据进行有意义的筛选. 统计大数据集上的数据种类个数.从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重. 示例文件内容: 此处应有示例文件设计思路数据 ...
hadoop mapreduce实现数据去重
实现原理分析: map函数数将输入的文本按照行读取, 并将Key--每一行的内容输出 value--空. reduce 会自动统计所有的key,我们让reduce输出key-> ...
MapReduce实现数据去重
一.原理分析 Mapreduce的处理过程,由于Mapreduce会在Map~reduce中,将重复的Key合并在一起,所以Mapreduce很容易就去除重复的行.Map无须做任何处理,设置Map中写 ...
[Hadoop]-从数据去重认识MapReduce
这学期刚好开了一门大数据的课,就是完完全全简简单单的介绍的那种,然后就接触到这里面最被人熟知的Hadoop了.看了官网的教程[吐槽一下,果然英语还是很重要!],嗯啊,一知半解地搭建了本地和伪分布式的, ...
hadoop —— MapReduce例子（数据去重）
参考:http://eric-gcm.iteye.com/blog/1807468 例子1: 概要:数据去重描述:将file1.txt.file2.txt中的数据合并到一个文件中的同时去掉重复的内容 ...
Mapreduce实例--去重
数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选.统计大数据集上的数据种类个数.从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重. 数据去重的最终目标是让原始数据中 ...
MapReduce实例
1.WordCount(统计单词) 经典的运用MapReuce编程模型的实例 1.1 Description 给定一系列的单词/数据,输出每个单词/数据的数量 1.2 Sample a is b is ...
Hadoop 数据去重
数据去重这个实例主要是为了读者掌握并利用并行化思想对数据进行有意义的筛选.统计大数据集上的数据种类个数.从网站日志中计算访问等这些看似庞杂的任务都会涉及数据去重.下面就进入这个实例的MapReduce ...
map/reduce实现数据去重
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.co ...

随机推荐

[SLAM] 02. Some basic algorithms of 3D reconstruction
链接:http://www.zhihu.com/question/29885222/answer/100043031 三维重建 3D reconstruction的一个算法思路介绍,帮助理解首先一切 ...
Java使用String类格式化当前日期
在输出日期信息时,经常需要输出不同格式的日期格式,本实例中介绍了String字符串类中的日期格式化方法,实例使用不同的方式输出String类的日期格式参数值,组合这些值可以实现特殊格式的日期字符串. ...
SqlServer当前月份时间
SqlServer当前月份时间 SELECT -DAY(getdate()+-DAY(getdate()))
[AX]AX2012 R2 出差申请和支出报告
AX2012中有个模块叫做出差和支出,用于管理出差以及相关的费用,用户只能在员工自助服务EP站点上提交出差申请.费用报销报告,在Client程序中做审核以及后续的支付动作等,最后形成相关的财务分录. ...
Spring整合quartz2.2.3总结，quartz动态定时任务，Quartz定时任务集群配置
Spring整合quartz2.2.3总结,quartz动态定时任务,Quartz定时任务集群配置 >>>>>>>>>>>>&g ...
【Android】水平居中垂直居中中心居中
android:layout_centerInParent 将该组件放置于水平方向中央及垂直中央的位置 android:layout_centerHorizontal 将该组件放置于水平方向中央的位置 ...
CentOS6.8_64位手动安装MySQL5.6
1.在CentOS6.8上安装mysql5.6 2.下载编译包 wget https://dev.mysql.com/get/Downloads/MySQL-5.6/mysql-5.6.35-linu ...
【权限维持】window几种隐藏技术
“真正”隐藏文件使用Attrib +s +a +h +r命令就是把原本的文件夹增加了系统文件属性.存档文件属性.只读文件属性和隐藏文件属性. attrib +s +a +h +r c:\test 这 ...
centos系统-java -jdk 环境配置
方法一:手动解压JDK的压缩包,然后设置环境变量 1.在/usr/目录下创建java目录 [root@localhost ~]# mkdir/usr/java[root@localhost ~]# c ...
iOS - UIScrollView 相关属性代理详解
一.UIScrollView的属性和代理方法详解属性: - (void)viewDidLoad { [super viewDidLoad]; _scrollView.backgroundColor ...

MapReduce实例(数据去重)

MapReduce实例(数据去重)的更多相关文章

随机推荐

热门专题