需求

两张表，一张click表记录某广告某一天的点击量，另一张total_click表记录某广告的总点击量

建表

CREATE TABLE `click` (

  `id` int(20) NOT NULL AUTO_INCREMENT,

  `ad_id` int(20) DEFAULT NULL, -- 广告ID

  `click_num` int(30) DEFAULT NULL, -- 某天的点击数量

  `day` date,

  PRIMARY KEY (`id`)

);

CREATE TABLE `total_click` (

  `id` int(20) NOT NULL AUTO_INCREMENT,

  `ad_id` int(20) DEFAULT NULL, -- 广告ID

  `total_click_num` int(50) DEFAULT NULL, -- 总点击数量

  PRIMARY KEY (`id`)

)

pom依赖

<dependencies>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-client</artifactId>

            <version>2.7.3</version>

        </dependency>

        <dependency>

            <groupId>junit</groupId>

            <artifactId>junit</artifactId>

            <version>4.11</version>

        </dependency>

        <dependency>

            <groupId>log4j</groupId>

            <artifactId>log4j</artifactId>

            <version>1.2.17</version>

        </dependency>

        <dependency>

            <groupId>mysql</groupId>

            <artifactId>mysql-connector-java</artifactId>

            <version>5.1.45</version>

        </dependency>

    </dependencies>

代码

自定义类

Writable是为了与MapReduce进行对接，而DBWritable是为了与MySQL进行对接。

import org.apache.hadoop.io.Writable;

import org.apache.hadoop.mapreduce.lib.db.DBWritable;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import java.sql.PreparedStatement;

import java.sql.ResultSet;

import java.sql.SQLException;

public class MyDBWritable implements DBWritable, Writable {

    private String ad_id;

    private int click_num;

    private int total_click_num;

    public MyDBWritable(){

    }

    public MyDBWritable(String name, int age) {

        this.ad_id = name;

        this.click_num = age;

        this.total_click_num = total_click_num;

    }

    public void write(DataOutput out) throws IOException {

        out.writeUTF(ad_id);

        out.writeInt(click_num);

        out.writeInt(total_click_num);

    }

    //写数据的过程

    public void write(PreparedStatement statement) throws SQLException {

        //要和SQL_Run类的DBOutputFormat.setOutput(job,"total_click","ad_id","total_click_num")语句里字段的顺序保持一致

        statement.setString(1,ad_id);

        statement.setInt(2, total_click_num);

    }

    //读数据的过程

    public void readFields(ResultSet resultSet) throws SQLException {

        ad_id =resultSet.getString(1);

        click_num =resultSet.getInt(2);

    }

    public void readFields(DataInput in) throws IOException {

        ad_id =in.readUTF();

        click_num =in.readInt();

        total_click_num =in.readInt();

    }

    public String getAd_id() {

        return ad_id;

    }

    public void setAd_id(String ad_id) {

        this.ad_id = ad_id;

    }

    public int getClick_num() {

        return click_num;

    }

    public void setClick_num(int click_num) {

        this.click_num = click_num;

    }

    public int getTotal_click_num() {

        return total_click_num;

    }

    public void setTotal_click_num(int total_click_num) {

        this.total_click_num = total_click_num;

    }

}

Map

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class SQLMapper extends Mapper<LongWritable,MyDBWritable,Text,IntWritable> {

    @Override

    protected void map(LongWritable key, MyDBWritable value, Context context) throws IOException, InterruptedException {

        context.write(new Text(value.getAd_id()),new IntWritable(value.getClick_num()));

    }

}

Reduce

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class SQLReducer extends Reducer<Text,IntWritable,MyDBWritable,NullWritable> {

    @Override

    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        int total = 0;

        for(IntWritable i :values) {

            total+= i.get();

        }

        MyDBWritable myDBWritable = new MyDBWritable();

        myDBWritable.setAd_id(key.toString());

        myDBWritable.setTotal_click_num(total);

        context.write(myDBWritable,NullWritable.get());

    }

}

App

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.db.DBConfiguration;

import org.apache.hadoop.mapreduce.lib.db.DBInputFormat;

import org.apache.hadoop.mapreduce.lib.db.DBOutputFormat;

public class SQL_Run {

    public static void main(String[] args) throws Exception {

        Configuration conf=new Configuration();

        //假如是本地测试，需要设置fs.defaultFS

        conf.set("fs.defaultFS","file:///");

        Job job = Job.getInstance(conf);

        FileSystem fs=FileSystem.get(conf);

        job.setJobName("SQL_TEST");

        job.setJarByClass(SQL_Run.class);

        job.setMapperClass(SQLMapper.class);

        job.setReducerClass(SQLReducer.class);

        //配置数据库信息

        String driveclass="com.mysql.jdbc.Driver";

        String url="jdbc:mysql://192.168.0.8:3306/bigdata";

        String username="root";

        String password="123456";

        DBConfiguration.configureDB(job.getConfiguration(),driveclass,url,username,password);

        //设置数据库输入

        //需要通过总的记录数来计算切片

        DBInputFormat.setInput(job,MyDBWritable.class,"select ad_id,click_num from click","select count(id) from click");

        //设置数据库输出  //total_click是表名，后面参数是字段值（可以多个）

        DBOutputFormat.setOutput(job,"total_click","ad_id","total_click_num");

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(IntWritable.class);

        job.setOutputKeyClass(MyDBWritable.class);

        job.setOutputValueClass(NullWritable.class);

        job.waitForCompletion(true);

    }

}

Hadoop读写mysql的更多相关文章

Hadoop 中利用 mapreduce 读写 mysql 数据
Hadoop 中利用 mapreduce 读写 mysql 数据有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP ...
一步一步跟我学习hadoop(7)----hadoop连接mysql数据库运行数据读写数据库操作
为了方便 MapReduce 直接訪问关系型数据库(Mysql,Oracle).Hadoop提供了DBInputFormat和DBOutputFormat两个类.通过DBInputFormat ...
shell中读写mysql数据库
本文介绍了如何在shell中读写mysql数据库.主要介绍了如何在shell 中连接mysql数据库,如何在shell中创建数据库,创建表,插入csv文件,读取mysql数据库,导出mysql数据库为 ...
本地通过Eclipse链接Hadoop操作Mysql数据库问题小结
前一段时间,在上一篇博文中描述了自己抽时间在构建的完全分布式Hadoop环境过程中遇到的一些问题以及构建成功后,通过Eclipse操作HDFS的时候遇到的一些问题,最近又想进一步学习学习Hadoop操 ...
R语言使用RMySQL连接及读写Mysql数据库测试通过
R语言使用RMySQL连接及读写Mysql数据库简单说下安装过程,一般不会有问题,重点是RMySQL的使用方式. 系统环境说明 Redhat系统:Linux 460-42.6.32-431.29.2 ...
JDBC读写MySQL的大字段数据
JDBC读写MySQL的大字段数据不管你是新手还是老手,大字段数据的操作常常令你感到很头痛.因为大字段有些特殊,不同数据库处理的方式不一样,大字段的操作常常是以流的方式来处理的.而非一般的字段 ...
spark读写mysql
spark读写mysql除官网例子外还要指定驱动名称 travels.write .mode(SaveMode.Overwrite) .format("jdbc") .option ...
mac安装Hadoop，mysql，hive,sqoop教程
在安装Hadoop,mysql,hive之前,首先要保证电脑上安装了jdk 一.配置jdk 1. 下载jdk http://www.oracle.com/technetwork/java/javase ...
五.hadoop 从mysql中读取数据写到hdfs
目录: 目录见文章1 本文是基于windows下来操作,linux下,mysql-connector-java-5.1.46.jar包的放置有讲究. mr程序 import java.io.DataI ...

随机推荐

python flask框架学习——开启debug模式
学习自:知了课堂Python Flask框架——全栈开发 1.flask的几种debug模式的方法 # 1.app.run 传参debug=true app.run(debug=True) #2 设置 ...
【计算机视觉】OpenCV篇(4) - Pycharm+PyQt5+Python小项目实战
1.下载安装 (1)Pycharm:下载链接 (2)推荐使用Qt Designer来设计界面,如果你装的是Anaconda的话,就已经自带了designer.exe,我这里使用的是Pycharm的虚拟 ...
Java以UTF-8格式读写及追加写文件示例
package test; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; im ...
Node.js Sequelize如何实现数据库的读写分离
一.前言在构建高并发的Web应用时,除了应用层要采取负载均衡方案外,数据库也要支持高可用和高并发性.使用较多的数据库优化方案是:通过主从复制(Master-Slave)的方式来同步数据,再通过读写分 ...
Linux查看CPU和内存使用情况总结
Linux查看CPU和内存使用情况:http://www.cnblogs.com/xd502djj/archive/2011/03/01/1968041.html 在做Linux系统优化的时候,物理内 ...
selenium3+Python3+sublime text3自动化登录
前言: 对于初学者来说,python自带的IDLE,精简又方便,不过一个好的编辑器能让python编码变得更方便,更加优美些. 不过呢,也可以自己去下载其他更好用的代码编辑器,在这推荐: PyChar ...
C# 文档注释规范
C# 提供一种机制,使程序员可以使用含有 XML 文本的特殊注释语法为他们的代码编写文档.在源代码文件中,具有某种格式的注释可用于指导某个工具根据这些注释和它们后面的源代码元素生成 XML.使用这类语 ...
常见问题:MySQL/B+树
平衡二叉树此前讲红黑树时也提到了平衡二叉树,红黑树和AVL树都是能保证树不退化的平衡二叉树,平衡二叉树采用二分思想组织数据,能大大提高单点查找数据的效率,其组装过程略. 作为对比,此处也列出平衡二叉 ...
微信小程序,内容组件中兼容的H5组件
受信任的HTML节点及属性全局支持class和style属性,不支持id属性. 节点属性 a abbr address article aside b bdi bdo ...
mac upgrade node and npm
一直以来, 我们都可以很轻松的更新npm: npm install npm -g 而Node我却是很久没有更新了, 记得当时好像是使用安装包安装的, 实际上有更加简单的安装方法. 实际上Mac上有一个 ...

Hadoop读写mysql

需求

建表

pom依赖

代码

自定义类

Map

Reduce

App

Hadoop读写mysql的更多相关文章

随机推荐

热门专题