SparkSQL读写外部数据源-通过jdbc读写mysql数据库

object JdbcDatasourceTest {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession

      .builder()

      .appName("JdbcDatasourceTest")

      .master("local")

      .getOrCreate()

    //url:

    // jdbc:mysql://master:3306/test

    // jdbc:oracle://master:3306/test

    // jdbc:db2://master:3306/test

    // jdbc:derby://master:3306/test

    // jdbc:sqlserver://master:3306/test

    // jdbc:postgresql://master:3306/test

    val mysqlUrl = "jdbc:mysql://master:3306/test"

    //1: 读取csv文件数据

    val optsMap = Map("header" -> "true", "inferSchema" -> "true")

    val df = spark.read.options(optsMap).csv(s"${BASE_PATH}/jdbc_demo_data.csv")

    df.show()

    val properties = new Properties()

    properties.put("user", "root")

    properties.put("password", "root")

    //向Mysql数据库写数据

    df.write.mode(SaveMode.Overwrite).jdbc(mysqlUrl, "person", properties)

    //从mysql数据库读取数据

    val jdbcDFWithNoneOption = spark.read.jdbc(mysqlUrl, "person", properties)

    jdbcDFWithNoneOption.show()

    //写数据的过程：

    //1 : 建表

    //第一次写的时候，需要创建一张表，建表语句类似如下：

    //CREATE TABLE t (name string) ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1

    //ENGINE=InnoDB使用innodb引擎 DEFAULT CHARSET=utf8 数据库默认编码为utf-8 AUTO_INCREMENT=1 自增键的起始序号为1

    //.InnoDB，是MySQL的数据库引擎之一，为MySQL AB发布binary的标准之一

    //属性配置ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1可以通过参数createTableOptions传给spark

    var writeOpts =

      Map[String, String]("createTableOptions" -> "ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1")

    df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties)

    //2: 设置表的schema

    // 一般表的schema是和DataFrame是一致的，字段的类型是从spark sql的DataType翻译到各个数据库对应的数据类型

    // 如果字段在数据库中的类型不是你想要的，

    // 你可以通过参数createTableColumnTypes来设置createTableColumnTypes=age long,name string

    writeOpts = Map[String, String]("createTableColumnTypes" -> "id long,age long")

    df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties)

    //3: 事务隔离级别的设置，通过参数isolationLevel设置

    //  NONE 不支持事物1

    // READ_UNCOMMITTED 会出现脏读、不可重复读以及幻读

    // READ_COMMITTED 不会出现脏读，但是还是会出现不可重复读以及幻读

    // REPEATABLE_READ  不会出现脏读以及不可重复读，但是还会出现幻读

    // SERIALIZABLE   脏读、不可重复读以及幻读都不会出现了

    writeOpts = Map[String, String]("isolationLevel" -> "READ_UNCOMMITTED")

    df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties)

    //4：写数据

    //写数据的过程中可以采用批量写数据，每一批写的数据量的大小可以通过参数batchsize设置，默认是：1000

    writeOpts = Map[String, String]("batchsize" -> "100")

    df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties)

    //5：第二次写数据的时候，这个时候表已经存在了，所以需要区分SaveMode

    //当SaveMode=Overwrite 的时候，需要先清理表，然后再写数据。清理表的方法又分两种：

    //  第一种是truncate即清空表，如果是这种的话，则先清空表，然后再写数据

    //  第二种是drop掉表，如果是这种的话，则先drop表，然后建表，最后写数据

    //以上两种方式的选择，可以通过参数truncate(默认是false)控制。因为truncate清空数据可能会失败，所以可以使用drop table的方式

    //而且不是所有的数据库都支持truncate table,其中PostgresDialect就不支持

    //当SaveMode=Append 的时候,则直接写数据就行

    //当SaveMode=ErrorIfExists 的时候,则直接抛异常

    //当SaveMode=Ignore 的时候,则直接不做任何事情

    writeOpts = Map[String, String]("truncate" -> "false")

    df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties)

    //按照某个分区字段进行分区读数据

    //partitionColumn 分区的字段，这个字段必须是integral类型的

    //lowerBound  用于决定分区步数的partitionColumn的最小值

    //upperBound  用于决定分区步数的partitionColumn的最大值

    //numPartitions 分区数，和lowerBound以及upperBound一起来为每一个分区生成sql的where字句

    //如果upperBound - lowerBound >= numPartitions,那么我们就取numPartitions个分区，

    // 否则我们取upperBound - lowerBound个分区数

    // 8 - 3 = 5 > 3 所以我们取3个分区

    // where id < 3 + 1 这个1是通过 8／3 - 3／3 = 1得来的

    // where id >= 3 + 1 and id < 3 + 1 + 1

    // where id >= 3 + 1 + 1

    //配置的方式

    val readOpts = Map[String, String]("numPartitions" -> "3", "partitionColumn" -> "id",

      "lowerBound" -> "3", "upperBound" -> "8", "fetchsize" -> "100")

    val jdbcDF = spark.read.options(readOpts).jdbc(mysqlUrl, "person", properties)

    jdbcDF.rdd.partitions.size

    jdbcDF.rdd.glom().collect()

    jdbcDF.show()

    //api的方式

    spark.read.jdbc(mysqlUrl, "person", "id", 3, 8, 3, properties).show()

    //参数predicates: Array[String],用于决定每一个分区对应的where子句，分区数就是数组predicates的大小

    val conditionDF = spark.read.jdbc(mysqlUrl,

      "person", Array("id > 2 and id < 5", "id >= 5 and id < 8"), properties)

    conditionDF.rdd.partitions.size

    conditionDF.rdd.glom().collect()

    conditionDF.show()

    //每次读取的时候，可以采用batch的方式读取数据，batch的数量可以由参数fetchsize来设置。默认为：0，表示jdbc的driver来估计这个batch的大小

    //不管是读还是写，都有分区数的概念，

    // 读的时候是通过用户设置numPartitions参数设置的，

    // 而写的分区数是DataFrame的分区数

    //需要注意一点的是不管是读还是写，每一个分区都会打开一个jdbc的连接，所以分区不宜太多，要不然的话会搞垮数据库

    //写的时候，可以通过DataFrame的coalease接口来减少分区数

    spark.stop()

  }

}

SparkSQL读写外部数据源-通过jdbc读写mysql数据库的更多相关文章

Java通过JDBC 进行MySQL数据库操作
转自: http://blog.csdn.net/tobetheender/article/details/52772157 Java通过JDBC 进行MySQL数据库操作原创 2016年10月10 ...
JDBC连接MySQL数据库及演示样例
JDBC是Sun公司制定的一个能够用Java语言连接数据库的技术. 一.JDBC基础知识 JDBC(Java Data Base Connectivity,java数据库连接)是一种用 ...
JDBC连接MySQL数据库及示例
JDBC是Sun公司制定的一个可以用Java语言连接数据库的技术. 一.JDBC基础知识 JDBC(Java Data Base Connectivity,java数据库连接)是一 ...
JDBC连接MySQL数据库代码
******************************************************1********************************************* ...
[原创]java使用JDBC向MySQL数据库批次插入10W条数据测试效率
使用JDBC连接MySQL数据库进行数据插入的时候,特别是大批量数据连续插入(100000),如何提高效率呢?在JDBC编程接口中Statement 有两个方法特别值得注意:通过使用addBatch( ...
JDBC连接MySQL数据库代码模板
下面这个例子是最简单的JDBC连接MySQL数据库的例子. 一般步骤: 1.注册驱动: 2.建立连接: 3.创建语句: 4.处理结果: 5.释放资源. 注意: 1.软件开发环境:MyEclipse 8 ...
java jdbc 连接mysql数据库实现增删改查
好久没有写博文了,写个简单的东西热热身,分享给大家. jdbc相信大家都不陌生,只要是个搞java的,最初接触j2ee的时候都是要学习这么个东西的,谁叫程序得和数据库打交道呢!而jdbc就是和数据库打 ...
JDBC操作MySQL数据库案例
JDBC操作MySQL数据库案例 import java.sql.Connection; import java.sql.DriverManager; import java.sql.Prepared ...
Crystal Reports 2008(水晶报表) JDBC连接mysql数据库
在本blog中,主要介绍的是Crystal Reports 2008使用JDBC连接mysql数据库. 在连接之间,首先要确认你电脑上面都安装了mysql数据库. 其次,就是jdbc连接数据时候所使用 ...

随机推荐

ThinkPHP3(命名空间、RBAC)
命名空间当开发大型项目的时候,可以会需要成千上万的文件面向对象通过命名空间来解决这个问题的. PHP命名空间是PHP5.3以后才出现的. 命名空间中可以出现:类,函数,常量只有const定义的常 ...
Kubernetes exec API串接分析
本篇将说明Kubernetes exec API的运作方式,并以简单范例进行开发在前后端上.虽然Kubernetes提供了不同资源的RESTful API来进行CRUD操作,但是部分API并非单纯的回 ...
Python3 - 数字类型
在 Python 中,数字并不是一个真正的对象类型,而是一组类似类型的分类.Python 不仅支持通常的数字类型(整数和浮点数),而且还能够通过常量去直接创建数字以及处理数字的表达式.数字数据类型是不 ...
关于nslookup以及dig命令的研究报告
我们在日常上网时都是用域名访问网路,如www.baidu.com,而在实际寻址过程中,是使用IP地址,如180.101.49.11,域名到IP地址的解析是通过DNS服务器来实现的,系统中我们可以用一些 ...
jquery加载数据时显示loading加载动画特效
插件下载:http://www.htmleaf.com/jQuery/Layout-Interface/201505061788.html 插件使用: 使用该loading加载插件首先要引入jQuer ...
Python 读取excel指定的列
一.摘要在这篇文章中: https://www.cnblogs.com/xiao987334176/p/9330368.html#autoid-4-5-2 介绍了使用 xlrd 模块,读取指定坐标的 ...
docker容器的使用整理
2019/10/24, docker 19.03.4 摘要:docker容器常用命令整理 gitbooks文档 docker脚本安装使用官方脚本安装docker,从阿里云下载: curl -fsSL ...
C# 利用MS的 EntLib的Database类编写的DbHelper
C# 利用MS的 EntLib的Database类编写的DbHelper,由于MS的EntLib对Oracle.SQL Server和MySql已经封装,所以可以该DbHelper可以适用这三种数据库 ...
Python基础知识(五)------字典
Python基础知识(四)------字典字典一丶什么是字典 dict关键字 , 以 {} 表示, 以key:value形式保存数据 ,每个逗号分隔键: 必须是可哈希,(不可变的数据类型 ...
poll_wait阻塞/唤醒
1. 应用阻塞应用程序使用 select() 或 poll() 调用设备驱动程序的 poll() 函数,该函数把输入输出复用处理的等待队列追加到由内核管理的进程的 poll_table()上 #in ...

SparkSQL读写外部数据源-通过jdbc读写mysql数据库

SparkSQL读写外部数据源-通过jdbc读写mysql数据库的更多相关文章

随机推荐

热门专题