数据导入(二):MapReduce

package test091201;

import java.io.IOException;

import java.text.SimpleDateFormat;

import java.util.Date;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;

import org.apache.hadoop.hbase.mapreduce.TableReducer;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

public class Demo3 {

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        //设置hbase表名称

        conf.set(TableOutputFormat.OUTPUT_TABLE, "waln2");

        //将该值改大，防止hbase超时退出

        conf.set("dfs.socket.timeout", "180000");

        conf.set("hbase.rootdir", "hdfs://ncst:9000/hbase");

        conf.set("hbase.zookeeper.quorum", "ncst");

        Job job = Job.getInstance(conf);

        job.setJarByClass(Demo3.class);

        job.setMapperClass(Demo3Mapper.class);

        job.setReducerClass(Demo3Reduce.class);

        //设置map的输出，不设置reduce的输出类型

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(Text.class);

        job.setInputFormatClass(TextInputFormat.class);

        //不再设置输出路径，而是设置输出格式类型

        job.setOutputFormatClass(TableOutputFormat.class);

        FileInputFormat.setInputPaths(job, new Path("hdfs://10.16.17.182:9000/test/wal_log"));

        job.waitForCompletion(true);

    }

    //map

    public static class Demo3Mapper extends Mapper<LongWritable, Text, Text, Text>{

        @Override

        protected void map(LongWritable key, Text value, Context context)

                throws IOException, InterruptedException {

            String[] splited = value.toString().split("\t");

            SimpleDateFormat dataformat = new SimpleDateFormat("yyyyMMddHHmmss");

            String string = splited[0];

            long parseLong = Long.parseLong(string.trim());

            Date date = new Date(parseLong);

            String format = dataformat.format(date);

            //Key=>TelNum:Date Value=>Line

            context.write(new Text(splited[1]+":"+format), value);

        }

    }

    //reduce

    public static class Demo3Reduce extends TableReducer<Text, Text, NullWritable>{

        @Override

        protected void reduce(Text key, Iterable<Text> v2s, Context context)

                throws IOException, InterruptedException {

            Put put = new Put(key.toString().getBytes());

            for (Text text : v2s) {

                String[] splited = text.toString().split("\t");

                put.add("info".getBytes(), "date".getBytes(), splited[0].getBytes());

                put.add("info".getBytes(), "tel".getBytes(), splited[1].getBytes());

                put.add("info".getBytes(), "upPack".getBytes(), splited[6].getBytes());

                put.add("info".getBytes(), "downPack".getBytes(), splited[7].getBytes());

                put.add("info".getBytes(), "upPay".getBytes(), splited[8].getBytes());

                put.add("info".getBytes(), "downPay".getBytes(), splited[9].getBytes());

            }

            context.write(NullWritable.get(), put);

        }

    }

}

数据导入(二):MapReduce的更多相关文章

MapReduce将HDFS文本数据导入HBase中
HBase本身提供了很多种数据导入的方式,通常有两种常用方式: 使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase 另一种方式就是使用HB ...
geotrellis使用（十二）再记录一次惨痛的伪BUG调试经历（数据导入以及读取瓦片）
Geotrellis系列文章链接地址http://www.cnblogs.com/shoufengwei/p/5619419.html 目录前言 BUG还原查找BUG 解决方案总结后记一.前 ...
将Excel中数据导入数据库（二）
在上篇文章中介绍到将Excel中数据导入到数据库中,但上篇文章例子只出现了nvachar类型,且数据量很小.今天碰到将Excel中数据导入数据库中的Excel有6419行,其中每行均有48个字段,有i ...
R语言基础入门之二：数据导入和描述统计
by 写长城的诗 • October 30, 2011 • Comments Off This post was kindly contributed by 数据科学与R语言 - go there t ...
使用MapReduce将HDFS数据导入Mysql
使用MapReduce将Mysql数据导入HDFS代码链接将HDFS数据导入Mysql,代码示例 package com.zhen.mysqlToHDFS; import java.io.DataI ...
使用MapReduce将mysql数据导入HDFS
package com.zhen.mysqlToHDFS; import java.io.DataInput; import java.io.DataOutput; import java.io.IO ...
java大数据最全课程学习笔记(6)--MapReduce精通(二)--MapReduce框架原理
目前CSDN,博客园,简书同步发表中,更多精彩欢迎访问我的gitee pages 目录 MapReduce精通(二) MapReduce框架原理 MapReduce工作流程 InputFormat数据 ...
NPOI EXECL数据导入，日期格式调用DateCellValue取值时，二次或后续调用出现报错！
NPOI version:2.5.1 EXCEL数据导入功能,第一次调用DateCellValue获得日期值OK,二次或后续调用出现报错"函数求值需要运行所有线程" 初步怀疑是版本 ...
Java实现大批量数据导入导出(100W以上)　-（二）导出
使用POI或JXLS导出大数据量(百万级)Excel报表常常面临两个问题: 1. 服务器内存溢出: 2. 一次从数据库查询出这么大数据,查询缓慢. 当然也可以分页查询出数据,分别生成多个Excel打包 ...

随机推荐

hdu1024 Max Sum Plus Plus[降维优化好题(貌似以后可以不用单调队列了)]
Max Sum Plus Plus Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others ...
URLSearchParams 接口定义处理 URL 参数串
基本使用方法如下 /* * URLSearchParams属性 * @语法:new URLSearchParams(parameter); */ (function(){ var str = &quo ...
由JS函数返回值引发的一场”血案"
---恢复内容开始--- 啊... 本来昨天晚上想写来着,结果陪老婆看电视剧就忘了... 呢滴神啊,原谅我吧. 背景:昨天在项目中做一个小功能的时候,出现了个小问题,而且一开始找了半天也没找到原因. ...
【BZOJ2434】[NOI2011]阿狸的打字机 AC自动机+DFS序+树状数组
[BZOJ2434][NOI2011]阿狸的打字机 Description 阿狸喜欢收藏各种稀奇古怪的东西,最近他淘到一台老式的打字机.打字机上只有28个按键,分别印有26个小写英文字母和'B'.'P ...
go http 文件下载
package main import ( "fmt" "net/http" "os" ) func DownFile() { userFi ...
Thrift Expected protocol id ffffff82 but got 0
如果服务端配的也是noblock=false;客户端不能改成noblock=true;
修改MySQL命令提示符
当前session可以直接用prompt修改 mysql> prompt \u@\h \d \r:\m:\s>PROMPT set to '\u@\h \d \r:\m:\s>'ro ...
Servlet + JSP 时代
Spring,Django,Rails,Express这些框架技术的出现都是为了解决什么问题,现在这些框架都应用在哪些方面? - 知乎 https://www.zhihu.com/question/2 ...
centos Linux系统日常管理2 tcpdump,tshark,selinux,strings命令, iptables ,crontab,TCP,UDP,ICMP,FTP网络知识第十五节课
centos Linux系统日常管理2 tcpdump,tshark,selinux,strings命令, iptables ,crontab,TCP,UDP,ICMP,FTP网络知识第十五节课 ...
给所有开发者的React Native详细入门指南
建议先下载好资料后,再阅读本文.demo代码和资料下载目录一.前言二.回答一些问题 1.为什么写此教程 2.本文适合哪些人看 3.如何使用本教程 4.需要先学习JavaScript.HTML.C ...

数据导入(二):MapReduce

数据导入(二):MapReduce的更多相关文章

随机推荐

热门专题