MapReduce编程实例:

MapReduce编程实例(一),详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析

MapReduce编程实例(二),计算学生平均成绩

MapReduce编程实例(三),数据去重

MapReduce编程实例(四),排序

MapReduce编程实例(五),MapReduce实现单表关联

 

排序,比较简单,上代码,代码中有注释,欢迎交流。

总体是利用MapReduce本身对Key进行排序的特性和按key值有序的分配到不同的partition。Mapreduce默认会对每个reduce按text类型key按字母顺序排序,对intwritable类型按大小进行排序。

    1. package com.t.hadoop;
    2. import java.io.IOException;
    3. import org.apache.hadoop.conf.Configuration;
    4. import org.apache.hadoop.fs.Path;
    5. import org.apache.hadoop.io.IntWritable;
    6. import org.apache.hadoop.io.Text;
    7. import org.apache.hadoop.mapreduce.Job;
    8. import org.apache.hadoop.mapreduce.Mapper;
    9. import org.apache.hadoop.mapreduce.Partitioner;
    10. import org.apache.hadoop.mapreduce.Reducer;
    11. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
    12. import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
    13. import org.apache.hadoop.util.GenericOptionsParser;
    14. /**
    15. * 排序
    16. * 利用MapReduce默认的对Key进行排序
    17. * 继承Partitioner类,重写getPartition使Mapper结果整体有序分到相应的Partition,输入到Reduce分别排序。
    18. * 利用全局变量统计位置
    19. * @author daT dev.tao@gmail.com
    20. *
    21. */
    22. public class Sort {
    23. public static class SortMapper extends Mapper<Object, Text, IntWritable, IntWritable>{
    24. //直接输出key,value,key为需要排序的值,value任意
    25. @Override
    26. protected void map(Object key, Text value,
    27. Context context)throws IOException, InterruptedException {
    28. System.out.println("Key: "+key+"  "+"Value: "+value);
    29. context.write(new IntWritable(Integer.valueOf(value.toString())),new IntWritable(1));
    30. }
    31. }
    32. public static class SortReducer extends Reducer<IntWritable, IntWritable, IntWritable, IntWritable>{
    33. public static IntWritable lineNum = new IntWritable(1);//记录该数据的位置
    34. //查询value的个数,有多少个就输出多少个Key值。
    35. @Override
    36. protected void reduce(IntWritable key, Iterable<IntWritable> value,
    37. Context context) throws IOException, InterruptedException {
    38. System.out.println("lineNum: "+lineNum);
    39. for(IntWritable i:value){
    40. context.write(lineNum, key);
    41. }
    42. lineNum = new IntWritable(lineNum.get()+1);
    43. }
    44. }
    45. public static class SortPartitioner extends Partitioner<IntWritable, IntWritable>{
    46. //根据key对数据进行分派
    47. @Override
    48. public int getPartition(IntWritable key, IntWritable value, int partitionNum) {
    49. System.out.println("partitionNum: "+partitionNum);
    50. int maxnum = 23492;//输入的最大值,自己定义的。mapreduce 自带的有采样算法和partition的实现可以用,此例没有用。
    51. int bound = maxnum/partitionNum;
    52. int keyNum = key.get();
    53. for(int i=0;i<partitionNum;i++){
    54. if(keyNum>bound*i&&keyNum<=bound*(i+1)){
    55. return i;
    56. }
    57. }
    58. return -1;
    59. }
    60. }
    61. public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException{
    62. Configuration conf = new Configuration();
    63. String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
    64. if(otherArgs.length<2){
    65. System.out.println("input parameters errors");
    66. System.exit(2);
    67. }
    68. Job job= new Job(conf);
    69. job.setJarByClass(Sort.class);
    70. job.setMapperClass(SortMapper.class);
    71. job.setPartitionerClass(SortPartitioner.class);//此例不需要combiner,需要设置Partitioner
    72. job.setReducerClass(SortReducer.class);
    73. job.setOutputKeyClass(IntWritable.class);
    74. job.setOutputValueClass(IntWritable.class);
    75. FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
    76. FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
    77. System.exit(job.waitForCompletion(true)?0:1);
    78. }
    79. }

MapReduce编程实例4的更多相关文章

  1. MapReduce编程实例6

    前提准备: 1.hadoop安装运行正常.Hadoop安装配置请参考:Ubuntu下 Hadoop 1.2.1 配置安装 2.集成开发环境正常.集成开发环境配置请参考 :Ubuntu 搭建Hadoop ...

  2. MapReduce编程实例5

    前提准备: 1.hadoop安装运行正常.Hadoop安装配置请参考:Ubuntu下 Hadoop 1.2.1 配置安装 2.集成开发环境正常.集成开发环境配置请参考 :Ubuntu 搭建Hadoop ...

  3. MapReduce编程实例3

    MapReduce编程实例: MapReduce编程实例(一),详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析 MapReduce编程实例(二),计算学生平均成绩 ...

  4. MapReduce编程实例2

    MapReduce编程实例: MapReduce编程实例(一),详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析 MapReduce编程实例(二),计算学生平均成绩 ...

  5. 三、MapReduce编程实例

    前文 一.CentOS7 hadoop3.3.1安装(单机分布式.伪分布式.分布式 二.JAVA API实现HDFS MapReduce编程实例 @ 目录 前文 MapReduce编程实例 前言 注意 ...

  6. hadoop2.2编程:使用MapReduce编程实例(转)

    原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html 从网上搜到的一篇hadoop的编程实例,对于初学者真是帮助太大 ...

  7. MapReduce编程实例

    MapReduce常见编程实例集锦. WordCount单词统计 数据去重 倒排索引 1. WordCount单词统计 (1) 输入输出 输入数据: file1.csv内容 hellod world ...

  8. hadoop之mapreduce编程实例(系统日志初步清洗过滤处理)

    刚刚开始接触hadoop的时候,总觉得必须要先安装hadoop集群才能开始学习MR编程,其实并不用这样,当然如果你有条件有机器那最好是自己安装配置一个hadoop集群,这样你会更容易理解其工作原理.我 ...

  9. Hadoop--mapreduce编程实例1

    前提准备: 1.hadoop安装运行正常.Hadoop安装配置请参考:Ubuntu下 Hadoop 1.2.1 配置安装 2.集成开发环境正常.集成开发环境配置请参考 :Ubuntu 搭建Hadoop ...

随机推荐

  1. WAF实现扫描器识别

    目前安全测试的软件越来越多,也越来越强大,越来越多的人成为[黑客],今天在网上看到一个文章说拦截wvs的扫描,勾起了我写这篇文章的欲望.   因为公司的三大业务之一就有一个云waf,每天拦截的日志里面 ...

  2. 阿里云NAS使用方法

    1.创建文件系统 #在创建文件系统页面,填写各项参数.根据项目需求选择存储类型 2.添加挂载点 文件系统实例创建完成后,您需要为文件系统添加挂载点,用于计算节点(ECS 实例.E-HPC 或容器服务) ...

  3. 【云计算】OpenShift容器服务参考

    https://docs.openshift.com/enterprise/latest/using_images/db_images/mysql.html 红帽发布OpenShift Dedicat ...

  4. Android开发之使用VideoView播放视频

    Android提供了 VideoView组件.它的作用与ImageView类似,仅仅是ImageView用于显示图片.而VideoView用于播放视频. 使用VideoView播放视频的过程例如以下: ...

  5. 云计算之路-试用Azure:拐弯抹角的负载均衡

    负载均衡是云服务商标配的免费服务.阿里云的对应产品叫SLB,UCloud的对应产品叫ULB,操作都很简单直观,进入负载均衡管理控制台,添加负载均衡,选择相应的虚拟机即可. 而Azure则完全不一样,在 ...

  6. SSL Pining Mode 设置iOS SSL 连接安全

    一:SSL Ping Mode 使用SSL来进行网络通信成为了很多mobile app的默认选择.最近一些文章发现:一些app并没有采用“额外的措施”来保证窃听不可以发生:这个“额外的步骤“就是SSL ...

  7. selenium获取html源代码

    # 执行js得到整个HTML html = driver.execute_script("return document.documentElement.outerHTML") 获 ...

  8. vue 项目心得

    v-bind 数据绑定 可以简写成 : 通过 props 将数据对象 传给 组件 export default { props: { seller: { type: Object } } } crea ...

  9. stderr和stdout详细解说(转)

    今天又查了一下fprintf,其中对第一个参数stderr特别感兴趣. int fprintf(FILE *stream,char *format,[argument]): 在此之前先区分一下:pri ...

  10. JavaMelody、prob系统监控工具使用配置

    分类: 工具 2014-04-23 14:41 1857人阅读 评论(1) 收藏 举报 目录(?)[+] 项 目开发结束了,需要做一下压力测试,就使用apache自带的ab程序进行压力测试,300个并 ...