MapReduce:实现文档倒序排序，且字符串拼接+年+月+日

写出MapReduce程序完成以下功能.

input1：

-- a

-- b

-- c

-- d

-- a

-- b

-- c

-- c

input2：

-- b

-- a

-- b

-- d

-- a

-- c

-- d

-- c

目标操作实现结果：

2012年3月3日 c

2012年3月7日 c

2012年3月6日 b

2012年3月5日 a

2012年3月4日 d

2012年3月3日 c

2012年3月2日 b

2012年3月1日 a

2012年3月3日 c

2012年3月7日 d

2012年3月6日 c

2012年3月5日 a

2012年3月4日 d

2012年3月3日 b

2012年3月2日 a

2012年3月1日 b

代码如下（由于水平有限，不保证完全正确，如果发现错误欢迎指正）：

package one;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class TestYear {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        Configuration config = new  Configuration();

        config.set("fs.defaultFS", "hdfs://192.168.0.100:9000");

        config.set("yarn.resourcemanager.hostname", "192.168.0.100");

        FileSystem fs = FileSystem.get(config);

        Job job = Job.getInstance(config);

        job.setJarByClass(TestYear.class);

        //设置所用到的map类

        job.setMapperClass(myMapper.class);

        job.setMapOutputKeyClass(NullWritable.class);

        job.setMapOutputValueClass(Text.class);

        //设置用到的reducer类

        job.setReducerClass(myReducer.class);

        job.setOutputKeyClass(NullWritable.class);

        job.setOutputValueClass(Text.class);

        //设置输出地址

        FileInputFormat.addInputPath(job, new Path("/zhoukao3/"));

        Path path = new Path("/output1/");

        if(fs.exists(path)){

            fs.delete(path, true);

        }

        //指定文件的输出地址

        FileOutputFormat.setOutputPath(job, path);

        //启动处理任务job

        boolean completion = job.waitForCompletion(true);

        if(completion){

            System.out.println("Job Success!");

        }

    }

    public static class myMapper extends Mapper<LongWritable, Text, NullWritable , Text>{

        @Override

        protected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {

            String values=value.toString();

            String words[]=values.split("[-]| ");//2012,3,1,a

            String s=words[]+"年"+words[]+"月"+words[]+"日"+"  "+words[];

            context.write(NullWritable.get(),new Text(s));

        }

    }

    public static class myReducer extends Reducer<NullWritable , Text,NullWritable , Text>{

        @Override

        protected void reduce(NullWritable key, Iterable<Text> values,Context context)throws IOException, InterruptedException {

            for (Text value  : values) {

                context.write(key, value);

            }

        }

    }

}

小结：把value-list作为map的value输出，这样就不会排序和去重，然后reduce再去接收并且context.write()出来，需要注意的是-号是特殊字符，需要做分割处理，所以可以加上\\或者[ ]，注意点这些小细节就能完成最终的效果。

如果您认为这篇文章还不错或者有所收获，您可以通过右边的“打赏”功能 打赏我一杯咖啡【物质支持】，也可以点击下方的【好文要顶】按钮【精神支持】，因为这两种支持都是使我继续写作、分享的最大动力！

MapReduce:实现文档倒序排序，且字符串拼接+年+月+日的更多相关文章

提取一个txt 文档中含指定字符串的所有行
将一个txt 文档中含指定字符串内容的所有行提取出来并保存至新的txt文档中例如,要提取 1.txt 中所有包含”aaa” 的行的内容只需在此文件夹中新建一个bat文件,输入以下代码,双击运行,便 ...
Spring+Swagger文档无法排序问题解决
项目中用到swagger用于自动生成文档,遇到了好多结合后的问题.而对于这个排序问题,在查看了后端Swagger原代码之后,发现视乎当前使用的swagger(不是springfox,应该不是官方的,网 ...
显示XML文档时排序数据
先看XML文档: 也可拷贝下面代码另存为XMl文档: <stepList> <steps> <step> <order>1</order> ...
文档碎片及xml讲解
1.将数据渲染到页面的几种方式 1.字符串拼接 2.dom循环 3.模板 4.文档碎片字符串拼接: 优势:只进行一次dom回流缺点:原有的dom事件会消失案例分析:原有list中有3个li,并且 ...
python 分词计算文档TF-IDF值并排序
文章来自于我的个人博客:python 分词计算文档TF-IDF值并排序该程序实现的功能是:首先读取一些文档,然后通过jieba来分词,将分词存入文件,然后通过sklearn计算每一个分词文档中的tf ...
elasticsearch——海量文档高性能索引系统
elasticsearch elasticsearch是一个高性能高扩展性的索引系统,底层基于apache lucene. 可结合kibana工具进行可视化. 概念: index 索引: 类似SQL中 ...
用Lucene对文档进行索引搜索
问题现在给出很多份文档,现在对某个搜索词感兴趣,想找到相关的文档. 简单搜索一种简单粗暴的做法是: 1.读取每个文档:2.找到其中含有搜索词的文档:3.对找到的文档中搜索词出现的次数统计:4.根据 ...
ElasticSearch 文档及操作
公号:码农充电站pro 主页:https://codeshellme.github.io 本节介绍 ES 文档,索引及其基本操作. 1,ES 中的文档在 ES 中,文档(Document)是可搜索数 ...
【.net 深呼吸】使用二进制格式来压缩XML文档
在相当多的情况下,咱们写入XML文件默认是使用文本格式来写入的,如果XML内容是通过网络传输,或者希望节省空间,特别是对于XML文档较大的情况,是得考虑尽可能地压缩XML文件的大小. XmlDicti ...

随机推荐

boost实用工具：assign库了解学习
许多时候,我们需要为容器初始化或者赋值,填入大量的数据; STL容器仅提供了容纳这些数据的方法,但是填充的步骤是相当地麻烦(insert.push_back); 于是,boost::assign出现了 ...
SQL Server 数据库分离与附加(图文教程)
from:http://www.jb51.net/article/36624.htm 一.概述 SQL Server提供了“分离/附加”数据库.“备份/还原”数据库.复制数据库等多种数据库的备份和恢复 ...
[转]廖雪峰Git教程总结
SQL Server快捷方式丢了怎么启动
为了帮助网友解决“SQL Server快捷方式丢了怎么启动”相关的问题,中国学网通过互联网对“SQL Server快捷方式丢了怎么启动”相关的解决方案进行了整理,用户详细问题包括:Microsoft ...
Mac中pico编辑器的使用方法
Pico是一个由华盛顿大学(University of Washington)计算与通讯研究所(Computing and Communications Group)编写并维护的文本编辑程序,在多个版 ...
Visual Studio 2010 如何改用 Beyond Compare 作为 TFS 的比较工具
Beyond Compare 是一套非常实用的文件及文件夹比较软件,不仅可以快速比较出两个文件夹的不同之处,还可以详细的比较文件之间的内容差异.最近改用 TFS 进行版本控管之后,说实在的还是习惯使用 ...
Delphi xe---FIREDAC
delphi xe 10.2 完成FireDAC支持NoSQL MongoDB数据库,包括新FireDAC MongoDB,包括新FireDAC MongoDB的驱动.
Powershell计算时间间隔（New-TimeSpan）
在Windows PowerShell里New-TimeSpan cmdlet提供了一种方法做日期算法. 计算时间间隔: 这个命令告诉你今天的日期与2006年除夕之间的天数: New-TimeSpan ...
jquery slibings选取同级其他元素
jquery选取同级其他元素可以使用slibings方法,end方法可以清除之前的链式操作,相当于重新开始. <script type="text/javascript"&g ...
reg_action
function check_email($win) { $win = trim($win); $reg = '/\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)* ...

MapReduce:实现文档倒序排序，且字符串拼接+年+月+日

MapReduce:实现文档倒序排序，且字符串拼接+年+月+日的更多相关文章

随机推荐

热门专题