spark之JDBC开发（连接数据库测试）

以下操作属于本地模式操作：

1、在Eclipse4.5中建立工程RDDToJDBC，并创建一个文件夹lib用于放置第三方驱动包

[hadoop@CloudDeskTop software]$ cd /project/RDDToJDBC/
[hadoop@CloudDeskTop RDDToJDBC]$ mkdir -p lib
[hadoop@CloudDeskTop RDDToJDBC]$ ls
bin lib src

2、添加必要的环境

2.1、将MySql的jar包拷贝到工程目录RDDToJDBC下的lib目录下
[hadoop@CloudDeskTop software]$ cp -a /software/hive-1.2.2/lib/mysql-connector-java-3.0.17-ga-bin.jar /project/RDDToJDBC/lib/
2.1、将Spark的开发库Spark2.1.1-All追加到RDDToJDBC工程的classpath路径中去(可以通过添加用户库的方式来解决)；Spark2.1.1-All中包含哪些包，请点击此处

3、准备spark的源数据：

[hadoop@CloudDeskTop spark]$ cd /home/hadoop/test/jdbc/

[hadoop@CloudDeskTop jdbc]$ ls

myuser  testJDBC.txt

[hadoop@CloudDeskTop jdbc]$ cat myuser

lisi 123456 165 1998-9-9

lisan 123ss 187 2009-10-19

wangwu 123qqwe 177 1990-8-3

4、开发源码：

package com.mmzs.bigdata.spark.core.local;

import java.io.File;

import java.sql.Connection;

import java.sql.Date;

import java.sql.DriverManager;

import java.sql.PreparedStatement;

import java.sql.SQLException;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple4;

public class TestMain {

    /**

     * 全局计数器

     */

    private static int count;

    /**

     * 数据库连接

     */

    private static Connection conn;

    /**

     * 预编译语句

     */

    private static PreparedStatement pstat;

    private static final File OUT_PATH=new File("/home/hadoop/test/jdbc/output");

    static{

        delDir(OUT_PATH);

        try {

            String sql="insert into myuser(userName,passWord,height,birthday) values(?,?,?,?)";

            String url="jdbc:mysql://127.0.0.1:3306/test?useUnicode=true&characterEncoding=utf8";

            Class.forName("com.mysql.jdbc.Driver");

            conn=DriverManager.getConnection(url, "root", "123456");

            pstat=conn.prepareStatement(sql);

        } catch (ClassNotFoundException e) {

            e.printStackTrace();

        } catch (SQLException e) {

            e.printStackTrace();

        }

    }

    /**

     * 删除任何目录或文件

     * @param f

     */

    private static void delDir(File f){

        if(!f.exists())return;

        if(f.isFile()||(f.isDirectory()&&f.listFiles().length==0)){

            f.delete();

            return;

        }

        File[] files=f.listFiles();

        for(File fp:files)delDir(fp);

        f.delete();

    }

    private static void batchSave(Tuple4<String,String,Double,Date> line,boolean isOver){

        try{

            pstat.setString(1, line._1());

            pstat.setString(2, line._2());

            pstat.setDouble(3, line._3());

            pstat.setDate(4, line._4());

            if(isOver){//如果结束了循环则直接写磁盘

                pstat.addBatch();

                pstat.executeBatch();

                pstat.clearBatch();

                pstat.clearParameters();

            }else{ //如果没有结束则将sql语句添加到批处理中去

                pstat.addBatch();

                count++;

                if(count%100==0){ //如果满一个批次就提交一次批处理操作

                    pstat.executeBatch();

                    pstat.clearBatch();

                    pstat.clearParameters();

                }

            }

        }catch(SQLException e){

            e.printStackTrace();

        }

    }

    /**

     * 将RDD集合中的数据存储到关系数据库MYSql中去

     * @param statResRDD

     */

    private static void saveToDB(JavaRDD<String> statResRDD){

        final long rddNum=statResRDD.count();

        statResRDD.foreach(new VoidFunction<String>(){

            private long count=0;

            @Override

            public void call(String line) throws Exception {

                String[] fields=line.split(" ");

                String userName=fields[0];

                String passWord=fields[1];

                Double height=Double.parseDouble(fields[2]);

                Date birthday=Date.valueOf(fields[3]);

                Tuple4<String,String,Double,Date> fieldTuple=new Tuple4<String,String,Double,Date>(userName,passWord,height,birthday);

                if(++count<rddNum){

                    batchSave(fieldTuple,false);

                }else{

                    batchSave(fieldTuple,true);

                }

            }

        });

        try{

            if(null!=pstat)pstat.close();

            if(null!=conn)conn.close();

        }catch(SQLException e){

            e.printStackTrace();

        }

    }

    public static void main(String[] args) {

        SparkConf conf=new SparkConf();

        conf.setAppName("Java Spark local");

        conf.setMaster("local");

        //根据Spark配置生成Spark上下文

        JavaSparkContext jsc=new JavaSparkContext(conf);

        //读取本地的文本文件成内存中的RDD集合对象

        JavaRDD<String> lineRdd=jsc.textFile("/home/hadoop/test/jdbc/myuser");

        //...........其它转换或统计操作................

        //存储统计之后的结果到磁盘文件中去

        //lineRdd.saveAsTextFile("/home/hadoop/test/jdbc/output");

        saveToDB(lineRdd);

        //关闭Spark上下文

        jsc.close();

    }

}

5、初始化MySql数据库服务(节点在192.168.154.134上)

A、启动MySql数据库服务

[root@DB03 ~]# cd /software/mysql-5.5.32/multi-data/3306/

[root@DB03 3306]# ls

data my.cnf my.cnf.bak mysqld

[root@DB03 3306]# ./mysqld start

Starting MySQL...

B、建立test库

[root@CloudDeskTop 3306]# cd /software/mysql-5.5.32/bin/

[root@CloudDeskTop bin]# ./mysql -h192.168.154.134 -P3306 -uroot -p123456 -e "show databases;"

+--------------------+

| Database           |

+--------------------+

| information_schema |

| mysql              |

| performance_schema |

+--------------------+

[root@CloudDeskTop bin]# ./mysql -h192.168.154.134 -P3306 -uroot -p123456 -e "create database test character set utf8;"

[root@CloudDeskTop bin]# ./mysql -h192.168.154.134 -P3306 -uroot -p123456 -e "show databases;"

+--------------------+

| Database           |

+--------------------+

| information_schema |

| mysql              |

| performance_schema |

| test               |

+--------------------+

C、建立myuser表：

[root@CloudDeskTop bin]# ./mysql -h192.168.154.134 -P3306 -uroot -p123456 -e "create table if not exists test.myuser(uid int(11) auto_increment primary key,username varchar(30),password varchar(30),height double(10,1),birthday date)engine=myisam charset=utf8;"

[root@CloudDeskTop bin]# ./mysql -h192.168.154.134 -P3306 -uroot -p123456 -e "use test;show tables;"

+-------------------+

| Tables_in_test    |

+-------------------+

| myuser            |

+-------------------+

[root@CloudDeskTop bin]# ./mysql -h192.168.154.134 -P3306 -uroot -p123456 -e "use test;desc test.myuser;"

+----------+--------------+------+-----+---------+----------------+

| Field    | Type         | Null | Key | Default | Extra          |

+----------+--------------+------+-----+---------+----------------+

| uid      | int(11)      | NO   | PRI | NULL    | auto_increment |

| username | varchar(30)  | YES  |     | NULL    |                |

| password | varchar(30)  | YES  |     | NULL    |                |

| height   | double(10,1) | YES  |     | NULL    |                |

| birthday | date         | YES  |     | NULL    |                |

+----------+--------------+------+-----+---------+----------------+

#目前数据库表中还没有数据

[root@CloudDeskTop bin]# ./mysql -h192.168.154.134 -P3306 -uroot -p123456 -e "select * from test.myuser;"

6、运行并查看数据库中结果

6.1、在Eclipse4.5中直接运行Spark代码，观察Eclipse控制台输出

6.2、检查在关系数据库MySql中是否已经存在数据

[root@CloudDeskTop bin]# ./mysql -h192.168.154.134 -P3306 -uroot -p123456 -e "select * from test.myuser;"

+-----+----------+----------+--------+------------+

| uid | username | password | height | birthday   |

+-----+----------+----------+--------+------------+

|   1 | lisi     | 123456   |  165.0 | 1998-09-09 |

|   2 | lisan    | 123ss    |  187.0 | 2009-10-19 |

|   3 | wangwu   | 123qqwe  |  177.0 | 1990-08-03 |

+-----+----------+----------+--------+------------+

spark之JDBC开发（连接数据库测试）的更多相关文章

spark之JDBC开发（实战）
一.概述 Spark Core.Spark-SQL与Spark-Streaming都是相同的,编写好之后打成jar包使用spark-submit命令提交到集群运行应用$SPARK_HOME/bin#. ...
JDBC开发,数据库的连接
JDBC开发步骤 1.建完工程后,右击工程,new,新建一个文件夹Folder,装jar包, 2.将下载好的驱动包打开,找到jar文件,CTRL+C,选中装jar包的文件夹,CTRL+V ...
spark Intellij IDEA开发环境搭建
(1)创建Scala项目 File->new->Project,如下图选择Scala 然后next 其中Project SDK指定安装的JDK,Scala SDK指定安装的Scala(这 ...
springboot区分开发、测试、生产多环境的应用配置(二)
转:https://www.jb51.net/article/139119.htm springboot区分开发.测试.生产多环境的应用配置(二) 这篇文章主要给大家介绍了关于maven profil ...
漫画｜你还记得原生的JDBC怎么连接数据库吗？
数据表的设计范式在实际开发中最为常见的设计范式有三个: 第一范式是最基本的范式.如果数据库表中的所有字段值都是不可分解的原子值,就说明该数据库表满足了第一范式: 第二范式需要确保数据库表中的每一列都 ...
Java学习（JDBC java连接数据库）
一.概述 JDBC(Java Data Base Connectivity,java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写 ...
JAVA基础之JDBC开发、JSTL语法、EL表达式与数据分页
一.直接使用JDBC开发的问题 1.当表中的列很多时,需要写很长的SQL语句还需要写大量 setXXX() 设置参数语句读取数据时还需要写大量setXXXX()设置属性语句 2.非常容易出错,而且 ...
spark通过JDBC读取外部数据库，过滤数据
官网链接: http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases http:// ...
Spark使用jdbc时的并行度
Spark SQL支持数据源使用JDBC从其他数据库读取数据. 与使用JdbcRDD相比,应优先使用此功能. 这是因为结果以DataFrame的形式返回,并且可以轻松地在Spark SQL中进行处理或 ...

随机推荐

【转】python3 内循环中遍历map，遍历一遍后再次进入内循环，map为空
今天在使用python map的过程中,发现了一个奇怪问题,map遍历完成后,再次访问map,发现map为空了,特记录下来,以备日后查看. 如下代码,期望的结果是每次从外循环进入内循环,map都从头开 ...
ubuntu安装苹果Windows以及微软雅黑consolas字体
ubuntu安装苹果Windows以及微软雅黑consolas字体 ubuntu安装苹果字体 wget http://drive.noobslab.com/data/Mac/macfonts.zip ...
js基础知识：字面量关键字和保留字
js中的字面量概念我的理解就是:字体表面的常量如:数字 100, 字符串 "ssss"或'ssss' 布尔值:false ,正则以及null对象. 这些都是常量. 关键字: ...
OC字典的使用
在OC中,字符串.数组.字典是最常见的对象类型,但是在这三个当中,字典的用法相对较少,因为字典的属性和方法比较少,但是一个字典的用法比较复杂,因为在一个字典当中,既可以包含字符串,也可以包含数组,数组 ...
ubuntu自带截图工具--方便好用（转）
一般用到的截图类型有三种:全屏.当前活动窗口.自定义区域,其中自定义区域截图是最灵活也是我们用的最多的方式.在ubuntu下可以通过其自带的截图工具轻松实现这三种功能. ubuntu自带的截图工具为s ...
vue-router的history模式发布配置
如果你正在尝试将基于vue-router的项目部署到windows中,希望本文能够有所帮助. iis配置无需安装其他组件,将错误页指向index.html即可 <?xml version=&q ...
【渗透攻防】深入了解Windows
前言本篇是基础教程,带大家了解Windows常用用户及用户组,本地提取用户密码,远程利用Hash登录到本地破解Hash.初步掌握Windows基础安全知识. 目录第一节初识Windows 第二节 ...
redis订阅关闭异常解决
redis订阅关闭异常解决应用程序模块订阅redis运行一段时间出现一直重连Redis服务,日志如下: 2019-04-28 10:06:17,551 ERROR org.springframewo ...
Python shuffle() 函数
描述 shuffle() 方法将序列的所有元素随机排序. 语法以下是 shuffle() 方法的语法: import random random.shuffle (lst ) 注意:shuffle( ...
Spring Boot 的 10 个核心模块
学习 Spring Boot 必须得了解它的核心模块,和 Spring 框架一样,Spring Boot 也是一个庞大的项目,也是由许多核心子模块组成的. 你所需具备的基础告诉你,Spring Bo ...