对于两个输入文件，即文件A 和文件B ,请编写MapReduce程序，对两个文件进行合并排除其中重复的内容，得到一个新的输出文件C。

package org.apache.hadoop.examples;

import java.util.HashMap;

import java.io.IOException;

import java.util.Iterator;

import java.util.Map;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class A_formatSameString {

    public A_formatSameString() {

    }

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        conf.set("fs.defaultFS", "hdfs://localhost:9000");

        String[] otherArgs = new String[]{"input","output"};

        if(otherArgs.length < 2) {

            System.err.println("Usage: wordcount <in> [<in>...] <out>");

            System.exit(2);

        }

        Job job = Job.getInstance(conf, "clearSame");

        job.setJarByClass(A_formatSameString.class);

        job.setMapperClass(A_formatSameString.TokenizerMapper.class);

        job.setCombinerClass(A_formatSameString.IntSumReducer.class);

        job.setReducerClass(A_formatSameString.IntSumReducer.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);

        for(int i = 0; i < otherArgs.length - 1; ++i) {

            FileInputFormat.addInputPath(job, new Path(otherArgs[i]));

        }

        FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));

        System.exit(job.waitForCompletion(true)?0:1);

    }

    public static class IntSumReducer extends Reducer<Text, Text, Text, Text> {

    	private Text word2 = new Text();

        public IntSumReducer() {

        }

        public void reduce(Text key, Iterable<Text> values, Reducer<Text, Text, Text, Text>.Context context) throws IOException, InterruptedException {

        	Map dict = new HashMap();

            for(Iterator i$ = values.iterator(); i$.hasNext(); ) {

            	Text value = (Text)i$.next();

            	if(!dict.containsKey(value)){

                	dict.put(value,1);

                	this.word2.set(value);

                	context.write(key, this.word2);

            	}

            }

            //System.out.println(key.toString()+"\n"+result.toString());

        }

    }

    public static class TokenizerMapper extends Mapper<Object, Text, Text, Text> {

        private static final IntWritable one = new IntWritable(1);

        private Text word = new Text();

        private Text word2 = new Text();

        public TokenizerMapper() {

        }

        public void map(Object key, Text value, Mapper<Object, Text, Text, Text>.Context context) throws IOException, InterruptedException {

            StringTokenizer itr = new StringTokenizer(value.toString());

            //System.out.println(itr.toString());

            while(itr.hasMoreTokens()) {

            	String tmpstr = itr.nextToken();

            	String tmpstr2 = itr.nextToken();

                this.word.set(tmpstr);

                this.word2.set(tmpstr2);

                //System.out.println(tmpstr);

                context.write(this.word, this.word2);

            }

        }

    }

}

对于两个输入文件，即文件A 和文件B ,请编写MapReduce程序，对两个文件进行合并排除其中重复的内容，得到一个新的输出文件C。的更多相关文章

编写Java程序，在硬盘中选取一个 txt 文件，读取该文档的内容后，追加一段文字“[ 来自新华社 ]”，保存到一个新的 txt 文件内
查看本章节查看作业目录需求说明: 在硬盘中选取一个 txt 文件,读取该文档的内容后,追加一段文字"[ 来自新华社 ]",保存到一个新的 txt 文件内实现思路: 创建 Sa ...
在编译向该请求提供服务所需资源的过程中出现错误。请检查下列特定错误详细信息并适当地修改源代码。编译器错误消息: CS0016: 未能写入输出文件“c:\Windows\Microsoft.NET\Framework64\v4.0.30319\Temporary ASP.NET Files\root\41c191fd\ff9345c5\App_Web_login.cshtml.65793277
本地开发环境没问题,但是发布到服务器出现问题或则直接在IIS上修改东西就给我抛出以下错误: 未能写入输出文件"c:\Windows\Microsoft.NET\Framework64 \v4 ...
C#与dotNET项目想要另存为一个新项目sln文件丢了怎么办
如下图所示,我想要另存一个工程,把 V4.4整个的项目另存为V4.5,我可以把解决方案文件(.sln)改名字,但是我没法把文件夹改名字,改了打开sln就说找不到. 很简单的一个思路是反正sln是多余的 ...
Laptop Issue Letter (读取Excel中指定内容,然后生成新的Excel文件)
$xl = New-Object -ComObject "Excel.Application" $cmdbwb = $xl.Workbooks.Open("F:\Ivan ...
一个JSON字符串和文件处理的命令行神器jq，windows和linux都可用
这个命令行神器的下载地址:https://stedolan.github.io/jq/# Windows和Linux版本均只有两个可执行文件,大小不过2MB多. 以Windows版本为例,介绍其用法. ...
CS0016: 未能写入输出文件“c:\WINDOWS\Microsoft.NET\Framework\.。。”--“拒绝访问
aspx 常见错误 CS0016: 未能写入输出文件“c:/WINDOWS/Microsoft.NET/Framework/v2.0.50727/Temporary ASP.NET Files/... ...
Win7下：编译器错误信息: CS0016: 未能写入输出文件
错误如下: "/"应用程序中的服务器错误. 编译错误说明: 在编译向该请求提供服务所需资源的过程中出现错误.请检查下列特定错误详细信息并适当地修改源代码. 编译器错误消息: CS ...
编译器错误消息: CS0016: 未能写入输出文件“c:/Windows/Microsoft.NET/Framework/v2.0.50727/....dll”--“拒绝访问。
错误如下: “/”应用程序中的服务器错误. 编译错误说明: 在编译向该请求提供服务所需资源的过程中出现错误.请检查下列特定错误详细信息并适当地修改源代码. 编译器错误消息: CS0016: 未能写入 ...
访问svc 文件，编译器错误消息: CS0016，未能写入输出文件
编译错误说明: 在编译向该请求提供服务所需资源的过程中出现错误.请检查下列特定错误详细信息并适当地修改源代码. 编译器错误消息: CS0016: 未 ...

随机推荐

CCNP第二天之复习CCNA
1.静态路由的扩展配置: (1).环回接口: 在设备上用于测试TCP/IP协议栈能否正常使用.默认没有.需要手工创建 R1(config)#interface loopback 1 ...
spring-quartz整合
摘要 spring ,springboot整合quartz-2.3.2,实现spring管理jobBean 本文不涉及 JDBC存储的方式,springboot yml配置也没有可自行百度谷歌本 ...
[LeetCode]147. Insertion Sort List链表排序
插入排序的基本思想把排好的放在一个新的变量中,每次拿出新的,排进去这个新的变量要有超前节点,因为第一个节点可能会有变动 public ListNode insertionSortList(List ...
esx.problem.hyperthreading.unmitigated
是因为VMware新发布的一个漏洞补丁导致的具体解释可参阅VMware官方kb,有详细解释和版本说明. 可选择屏蔽该问题告警选中主机>配置>高级系统设置>编辑>修改" ...
WebService的开发手段
一.WebService的开发手段目前有关webService的开发手段有2种 1.JDK开发(jdk必须是1.6及以上版本,因为jdk是在1.6版本中引入并支持webservice开发的); 2. ...
Modbus java slave app
文章实现 Modbus slave app , 用 serial rtu 传输, 代码只实现监听功能(本人测试可行), 要实现写功能,可研究一下代码中 updateProcessImage 方法.完整 ...
JS中的多层次排序算法
引子排序在编程中随处可见,从开始学习变成,到项目开发,基本上或多或少会遇到一些排序问题,接下来我要写的是我在实际开发终于到的一个排序问题,一开始卡了我很久,后面随着知识积累,实践变多才解决掉了,不知 ...
你真会看idea中的Log吗？
在项目中提交代码时,我们时常忘了自己是否已经update代码或者push代码了,或者以为自己push,但是别人说你的代码没push,其实可以通过idea的Log日志中查看,你会发现里面有三种颜色的标签 ...
【Java基础】基本语法-程序流程控制
基本语法-程序流程控制程序流程控制流程控制语句是用来控制程序中各语句执行顺序的语句,可以把语句组合成能完成一定功能的小逻辑模块. 其流程控制方式采用结构化程序设计中规定的三种基本流程结构,即: 顺 ...
天梯赛练习 L3-010 是否完全二叉搜索树 (30分) 数组建树模拟
题目分析: 本题的要求是将n个数依次插入一个空的二叉搜索树(左大右小,且没有重复数字),最后需要输出其层次遍历以及判断是否是完全二叉搜索树,通过观察我们发现, 如果这个树是用数组建立的,那么最后输出的 ...

对于两个输入文件，即文件A 和文件B ,请编写MapReduce程序，对两个文件进行合并排除其中重复的内容，得到一个新的输出文件C。

对于两个输入文件，即文件A 和文件B ,请编写MapReduce程序，对两个文件进行合并排除其中重复的内容，得到一个新的输出文件C。的更多相关文章

随机推荐

热门专题