使用MapReduce将HDFS数据导入Mysql

将HDFS数据导入Mysql,代码示例

package com.zhen.mysqlToHDFS;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import java.sql.PreparedStatement;

import java.sql.ResultSet;

import java.sql.SQLException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.Writable;

import org.apache.hadoop.mapred.lib.db.DBWritable;

import org.apache.hadoop.mapreduce.Counter;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.db.DBConfiguration;

import org.apache.hadoop.mapreduce.lib.db.DBOutputFormat;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

/**

 * @author FengZhen

 * 将hdfs数据导入mysql

 * 使用DBOutputFormat将HDFS路径下的结构化数据写入mysql中，结构化数据如下,第一列为key,后边三列为数据

 * 0    1    Enzo    180.66

 * 1    2    Din    170.666

 *

 */

public class DBOutputFormatApp extends Configured implements Tool{

    /**

     * JavaBean

     * 需要实现Hadoop序列化接口Writable以及与数据库交互时的序列化接口DBWritable

     * 官方API中解释如下：

     * public class DBInputFormat<T extends DBWritable>

     *   extends InputFormat<LongWritable, T> implements Configurable

     * 即Mapper的Key是LongWritable类型，不可改变；Value是继承自DBWritable接口的自定义JavaBean

     */

    public static class BeanWritable implements Writable, DBWritable {

        private int id;

        private String name;

        private double height;

        public void readFields(ResultSet resultSet) throws SQLException {

            this.id = resultSet.getInt();

            this.name = resultSet.getString();

            this.height = resultSet.getDouble();

        }

        public void write(PreparedStatement preparedStatement) throws SQLException {

            preparedStatement.setInt(, id);

            preparedStatement.setString(, name);

            preparedStatement.setDouble(, height);

        }

        public void readFields(DataInput dataInput) throws IOException {

            this.id = dataInput.readInt();

            this.name = dataInput.readUTF();

            this.height = dataInput.readDouble();

        }

        public void write(DataOutput dataOutput) throws IOException {

            dataOutput.writeInt(id);

            dataOutput.writeUTF(name);

            dataOutput.writeDouble(height);

        }

        public void set(int id,String name,double height){

            this.id = id;

            this.name = name;

            this.height = height;

        }

        @Override

        public String toString() {

            return id + "\t" + name + "\t" + height;

        }

    }

    public static class DBOutputMapper extends Mapper<LongWritable, Text, NullWritable, BeanWritable>{

        private NullWritable outputKey;

        private BeanWritable outputValue;

        @Override

        protected void setup(Mapper<LongWritable, Text, NullWritable, BeanWritable>.Context context)

                throws IOException, InterruptedException {

            this.outputKey = NullWritable.get();

            this.outputValue = new BeanWritable();

        }

        @Override

        protected void map(LongWritable key, Text value,

                Mapper<LongWritable, Text, NullWritable, BeanWritable>.Context context)

                throws IOException, InterruptedException {

            //插入数据库成功的计数器

            final Counter successCounter = context.getCounter("exec", "successfully");

            //插入数据库失败的计数器

            final Counter faildCounter = context.getCounter("exec", "faild");

            //解析结构化数据

            String[] fields = value.toString().split("\t");

            //DBOutputFormatApp这个MapReduce应用导出的数据包含long类型的key，所以忽略key从1开始

            if (fields.length > ) {

                int id = Integer.parseInt(fields[]);

                String name = fields[];

                double height = Double.parseDouble(fields[]);

                this.outputValue.set(id, name, height);

                context.write(outputKey, outputValue);

                //如果插入数据库成功则递增1，表示成功计数

                successCounter.increment(1L);

            }else{

                //如果插入数据库失败则递增1，表示失败计数

                faildCounter.increment(1L);

            }

        }

    }

    /**

     * 输出的key必须是继承自DBWritable的类型，DBOutputFormat要求输出的key必须是DBWritable类型

     * */

    public static class DBOutputReducer extends Reducer<NullWritable, BeanWritable, BeanWritable, NullWritable>{

        @Override

        protected void reduce(NullWritable key, Iterable<BeanWritable> values,

                Reducer<NullWritable, BeanWritable, BeanWritable, NullWritable>.Context context)

                throws IOException, InterruptedException {

            for (BeanWritable beanWritable : values) {

                context.write(beanWritable, key);

            }

        }

    }

    public int run(String[] arg0) throws Exception {

        Configuration configuration = getConf();

        //在创建Configuration的时候紧接着配置数据库连接信息

        DBConfiguration.configureDB(configuration, "com.mysql.jdbc.Driver", "jdbc:mysql://localhost:3306/hadoop", "root", "123qwe");

        Job job = Job.getInstance(configuration, DBOutputFormatApp.class.getSimpleName());

        job.setJarByClass(DBOutputFormatApp.class);

        job.setMapperClass(DBOutputMapper.class);

        job.setMapOutputKeyClass(NullWritable.class);

        job.setMapOutputValueClass(BeanWritable.class);

        job.setReducerClass(DBOutputReducer.class);

        job.setOutputFormatClass(DBOutputFormat.class);

        job.setOutputKeyClass(BeanWritable.class);

        job.setOutputValueClass(NullWritable.class);

        job.setInputFormatClass(TextInputFormat.class);

        FileInputFormat.setInputPaths(job, arg0[]);

        //配置当前作业输出到数据库表、字段信息

        DBOutputFormat.setOutput(job, "people", new String[]{"id","name","height"});

        return job.waitForCompletion(true)?:;

    }

    public static int createJob(String[] args){

        Configuration conf = new Configuration();

        conf.set("dfs.datanode.socket.write.timeout", "");

        conf.set("mapreduce.input.fileinputformat.split.minsize", "");

        conf.set("mapreduce.input.fileinputformat.split.maxsize", "");

        int status = ;

        try {

            status = ToolRunner.run(conf,new DBOutputFormatApp(), args);

        } catch (Exception e) {

            e.printStackTrace();

        }

        return status;

    }

    public static void main(String[] args) {

        args = new String[]{"/user/hadoop/mapreduce/mysqlToHdfs/people"};

        int status = createJob(args);

        System.exit(status);

    }

}

打成jar包，放在服务器上，执行hadoop jar命令

hadoop jar /Users/FengZhen/Desktop/Hadoop/other/mapreduce_jar/HDFSToMysql.jar com.zhen.mysqlToHDFS.DBOutputFormatApp

任务结束后mysql表中即可发现数据已经有了。

使用MapReduce将HDFS数据导入Mysql的更多相关文章

通过sqoop将hdfs数据导入MySQL
简介:Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracl ...
使用MapReduce将HDFS数据导入到HBase（二）
package com.bank.service; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf. ...
使用MapReduce将HDFS数据导入到HBase（一）
package com.bank.service; import java.io.IOException; import org.apache.hadoop.conf.Configuration;im ...
使用MapReduce将HDFS数据导入到HBase（三）
使用MapReduce生成HFile文件,通过BulkLoader方式(跳过WAL验证)批量加载到HBase表中 package com.mengyao.bigdata.hbase; import j ...
将Excel数据导入mysql数据库的几种方法
将Excel数据导入mysql数据库的几种方法 “我的面试感悟”有奖征文大赛结果揭晓! 前几天需要将Excel表格中的数据导入到mysql数据库中,在网上查了半天,研究了半天,总结出以下几种方法,下面 ...
使用MySQL Migration Toolkit快速将Oracle数据导入MySQL[转]
使用MySQL Migration Toolkit快速将Oracle数据导入MySQL上来先说点废话本人最近在学习一些数据库方面的知识,之前接触过Oracle和MySQL,最近又很流行MongoDB非 ...
SQLServer2005数据导入Mysql到详细教程
如果转载请注明转载地址,谢谢. SQL SERVER数据导入MYSQL目录 1.Navicat for MySQL 版本10.0.9 2.创建目标数据库 3.创建正确的SQL SERVER数据库ODB ...
Excel连接到MySQL，将Excel数据导入MySql，MySQL for Excel，，
Excel连接到MySQL 即使当今时代我们拥有了类似微软水晶报表之类的强大报表工具和其他一些灵活的客户管理应用工具,众多企业在分析诸如销售统计和收入信息的时候,微软的Excel依然是最常用的工具. ...
使用MySQL Migration Toolkit快速将Oracle数据导入MySQL
MySQL GUI Tools中的MySQL Migration Toolkit可以非常方便快捷的将Oracle数据导到MySQL中,该软件可以在http://dev.mysql.com/downlo ...

随机推荐

php给图片添加文字水印方法汇总
在php中要给图片加水印我们需要给php安装GD库了,这里我们不介绍GD库安装,只介绍怎么利用php给图片添加文字水印的4种方法的汇总.有需要的小伙伴可以参考下. 1: 面向过程的编写方法 1 2 3 ...
Mybatis_遇到的问题汇总
1.The setting logImpl is not known 我在参考某个网站学习mybatis时,出现这个错误,后来找到的原因是因为mybatis的版本(3.1.1)太低,换成3.3.1就没 ...
WAF绕过方法
1.大小写绕过这个大家都很熟悉,对于一些太垃圾的WAF效果显著,比如拦截了union,那就使用Union UnIoN等等绕过. 2.简单编码绕过比如WAF检测关键字,那么我们让他检测不到就可以了. ...
TCP可靠传输详解
TCP提供了可靠的传输服务,这是通过下列方式提供的: 分块发送:应用数据被分割成TCP认为最适合发送的数据块.由TCP传递给IP的信息单位称为报文段或段(segment) 定时确认重传:当TCP发出一 ...
Http协议详解（转载）
http://blog.csdn.net/gueter/archive/2007/03/08/1524447.aspx 引言 HTTP是一个属于应用层的面向对象的协议,由于其简捷.快速的方式,适用于分 ...
.net Socket编程
1. 什么是TCP/IP.UDP?2. Socket在哪里呢?3. Socket是什么呢?4. 你会使用它们吗? 什么是TCP/IP.U ...
C语言基础知识【变量】
C 变量1.变量其实只不过是程序可操作的存储区的名称.C 中每个变量都有特定的类型,类型决定了变量存储的大小和布局,该范围内的值都可以存储在内存中,运算符可应用于变量上.变量的名称可以由字母.数字和下 ...
local variable 'xxx' referenced before assignment（犯过同样的错）
这个问题很囧,在外面定义了一个变量 xxx ,然后在Python的一个函数里面引用这个变量,并改变它的值,结果报错local variable 'xxx' referenced before assi ...
Excel中批量把数字类型转换为文本类型
客户给的excel文件中的内容全部是数值类型,这些我们要当成文本存入到数据库,所以需要把所有的数值转换为文本,但是直接通过修改单元格属性来修改的话会变成科学技数法,还有一种方法是在数值得前面加个英文的 ...
EasyDarwin开源流媒体服务器Golang版本：服务端录像功能发布
EasyDarwin开源流媒体服务器(www.easydarwin.org)现在使用Go版本实现了.最新的代码提交,已经支持了推流(或者拉流)的同时进行本地存储. 本地存储的原理,是在推流的同时启动f ...

使用MapReduce将HDFS数据导入Mysql

使用MapReduce将HDFS数据导入Mysql的更多相关文章

随机推荐

热门专题