hadoop关联文件处理

c001.txt

------------------------------

c002.txt

----------------------------

a001.txt

-------------------------

filetype|addressid|address
addr|1|罗湖
addr|2|福田
addr|3|南山
addr|4|宝安

输出结果：

-----------------------

commid commname addr
15 福田小区6 福田
16 福田小区8 福田
6 福田小区1 福田
7 福田小区2 福田
13 南山小区6 南山
14 南山小区7 南山
4 南山小区1 南山
5 南山小区2 南山
9 南山3 南山
3 宝安小区1 宝安
8 宝安2 宝安
12 宝安小区5 宝安

----------------------------

代码：

package org.apache.hadoop.examples;

import java.io.IOException;

import java.util.ArrayList;

import java.util.Iterator;

import java.util.List;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.fs.Path;

public class TestUnion {

    public static int count=0;

    public static class TestUnionMapper extends Mapper<Object,Text,Text,Text>

    {

        public void map(Object key,Text values,Context context) throws IOException,InterruptedException

        {

            if(values.toString().indexOf("filetype")>=0)

            {

                return;

            }

            StringTokenizer itr=new StringTokenizer(values.toString(),"|");

            String fileType="";

            String fileTypeId="";

            while(itr.hasMoreTokens())

            {

                fileType=itr.nextToken();

                if(fileType.compareToIgnoreCase("addr")==0)

                {

                    String addressId=itr.nextToken();

                    String addressName=itr.nextToken();

                    fileTypeId="2";    //标记为地址

                    context.write(new Text(addressId),new Text(fileTypeId+"|"+addressName));

                }

                else if(fileType.compareToIgnoreCase("comm")==0)

                {

                    String commId=itr.nextToken();

                    String commName=itr.nextToken();

                    String addressId=itr.nextToken();

                    fileTypeId="1";    //标记为小区

                    context.write(new Text(addressId),new Text(fileTypeId+"|"+commId+"|"+commName));

                }

            }

        }

    }

    public static class TestUnionReducer extends Reducer<Text,Text,Text,Text>

    {

        public void reduce(Text key,Iterable<Text> values,Context context) throws IOException,InterruptedException

        {

            List<String> addrs=new ArrayList<String>();

            List<String> comms=new ArrayList<String>();

            if(count<=0)

            {

                count++;

                context.write(new Text("commid"),new Text("commname    addr"));

                return;

            }

            else

            {   　　　　　　

                for(Text val:values)

                {

                    String []astr=val.toString().trim().split("\\|"); // | 为特殊字符，必须转义

                    String fileTypeId=astr[0];

                    if(fileTypeId.compareToIgnoreCase("1")==0) //comm

                    {

                        String commId=astr[1];

                        String commName=astr[2];

                        comms.add(commId+"    "+commName);

                    }

                    else if(fileTypeId.compareToIgnoreCase("2")==0)  //addr

                    {

                        String addr=astr[1];

                        addrs.add(addr);

                    }

                }

            }

            if(comms.size()>0 && addrs.size()>0)

            {

                for(int m=0;m<comms.size();m++)

                    for(int n=0;n<addrs.size();n++)    //其实只有一条记录对应上面的

                        context.write(new Text(comms.get(m)),new Text(addrs.get(n)));

            }

        }

    }

    public static void main(String[] args) throws Exception{

        // TODO Auto-generated method stub

        if(args.length!=2)

        {

            System.err.println("please input two agrs:<in>  <out>");

            System.exit(2);

        }

        Configuration conf=new Configuration();

        Job    job=new Job(conf,"union data");

        job.setJarByClass(TestUnion.class);

        job.setMapperClass(TestUnionMapper.class);

        job.setReducerClass(TestUnionReducer.class);

        //job.setNumReduceTasks(0);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);

        FileInputFormat.addInputPath(job,new Path(args[0]));

        FileOutputFormat.setOutputPath(job,new Path(args[1]));

        System.exit(job.waitForCompletion(true)?0:1);

    }

}

主要利用了reduce函数相同的KEY值聚合在一起的规则。

hadoop关联文件处理的更多相关文章

eclipse中关联文件设置方法
在前几次的试验中,只是做了处于应用程序最上层的界面设计,其实还不知程序在运行过程中到底调用了哪些函数,这些函数是怎么实现的,由于搭建环境时没有进行文件关联,所以在环境中无法实现ctrl键+左击鼠标的方 ...
Hadoop HDFS文件常用操作及注意事项
Hadoop HDFS文件常用操作及注意事项 1.Copy a file from the local file system to HDFS The srcFile variable needs t ...
Delphi 7使用自定义图标关联文件类型
Delphi 7使用自定义图标关联文件类型 5.2 Delphi编程(40) 版权声明:本文为博主原创文章,未经博主允许不得转载. 在开发过程中,我们经常需要属于自己的文件类型,自定义的后缀名不仅可 ...
Hadoop的文件读写操作流程
以下主要讲解了Hadoop的文件读写操作流程: 读文件读文件时内部工作机制参看下图: 客户端通过调用FileSystem对象(对应于HDFS文件系统,调用DistributedFileSystem对 ...
hadoop 提高hdfs删文件效率----hadoop删除文件流程解析
前言这段时间在用hdfs,由于要处理的文件比较多,要及时产出旧文件,但是发现hdfs的blocks数一直在上涨,经分析是hdfs写入的速度较快,而block回收较慢,所以分心了一下hadoop删文件 ...
win10 uwp 关联文件
有时候应用需要打开后缀名为x的文件,那么如何从文件打开应用? 首先,需要打开 Package.appxmanifest 添加一个功能,需要添加最少有名称,文件类型. 上面的图就是我添加jpg 的方法, ...
<Hadoop><SequenceFile><Hadoop小文件>
Origin 我们首先理解一下SequenceFile试图解决什么问题,然后看SeqFile怎么解决这些问题. In HDFS 序列文件是解决Hadoop小文件问题的一个方法: 小文件是显著小于HDF ...
一图看懂hadoop分布式文件存储系统HDFS工作原理
一图看懂hadoop分布式文件存储系统HDFS工作原理
64位Win7中7zip无法关联文件的问题
问题1:win7x64中安装了7zip,在解压文件右键打开无法关联文件. 解决方法1:在开始菜单中打开7-zip File Manage->工具 ->选项 ->7-zip 勾选“添加 ...

随机推荐

ResNets和Inception的理解
ResNets和Inception的理解 ResNet解析
用Python中的tkinter模块作图
tkinter 可以用来创建完整的应用程序,比如简单的字处理软件,还有简单的绘图软件. 一.创建一个可以点的按钮用tkinter创建一个带按钮的简单程序,代码如下: >>> fro ...
第三百八十九节，Django+Xadmin打造上线标准的在线教育平台—列表筛选结合分页
第三百八十九节,Django+Xadmin打造上线标准的在线教育平台—列表筛选结合分页根据用户的筛选条件来结合分页实现原理就是,当用户点击一个筛选条件时,通过get请求方式传参将筛选的id或者值, ...
Mac环境下配置tomcat的步骤详解
前言相信对Java Web稍微知道一点,一般对Tomcat都不会陌生,Apache是普通服务器,本身只支持html即普通网页,可以通过插件支持PHP,还可以与Tomcat连通(单向Apache连接T ...
(转)FFmpeg源代码简单分析：avformat_find_stream_info()
目录(?)[+] ===================================================== FFmpeg的库函数源代码分析文章列表: [架构图] FFmpeg源代码结 ...
JSP内置对象—session
什么是session? session对象是用来在每个用户之间分别保存每个用户信息的对象,以便跟踪用户的操作状态.session的信息保存在server端,session的id保存在client的co ...
[Learn AF3]第二章 App Framework 3.0的组件View——AF3的驱动引擎
View:af3中的驱动引擎组件名称:View 使用说明:按照官方的说法,view组件是af3的“驱动引擎(driving force)”,view是af3应用的基础,一个app中可以包 ...
Thinkphp5笔记九：路由设置，隐藏indx.php
网站根目录下.htaccess <IfModule mod_rewrite.c> Options +FollowSymlinks -Multiviews RewriteEngine on ...
Pytest 生成Report
1. 生成JunitXML 格式的测试报告 JunitXML报告是一种很常用的测试报告,比如可以和Jenkins进行集成,在Jenkins的GUI上显示Pytest的运行结果,非常便利.运行完case ...
express项目创建步骤
安装nodejs 安装npm 安装express npm install -g express 安装express生成器 npm install -g express-generator 查看expr ...

hadoop关联文件处理

hadoop关联文件处理的更多相关文章

随机推荐

热门专题