object JdbcDatasourceTest {
def main(args: Array[String]): Unit = {
val spark = SparkSession
.builder()
.appName("JdbcDatasourceTest")
.master("local")
.getOrCreate() //url:
// jdbc:mysql://master:3306/test
// jdbc:oracle://master:3306/test
// jdbc:db2://master:3306/test
// jdbc:derby://master:3306/test
// jdbc:sqlserver://master:3306/test
// jdbc:postgresql://master:3306/test
val mysqlUrl = "jdbc:mysql://master:3306/test" //1: 读取csv文件数据
val optsMap = Map("header" -> "true", "inferSchema" -> "true")
val df = spark.read.options(optsMap).csv(s"${BASE_PATH}/jdbc_demo_data.csv")
df.show() val properties = new Properties()
properties.put("user", "root")
properties.put("password", "root")
//向Mysql数据库写数据
df.write.mode(SaveMode.Overwrite).jdbc(mysqlUrl, "person", properties)
//从mysql数据库读取数据
val jdbcDFWithNoneOption = spark.read.jdbc(mysqlUrl, "person", properties)
jdbcDFWithNoneOption.show() //写数据的过程:
//1 : 建表
//第一次写的时候,需要创建一张表,建表语句类似如下:
//CREATE TABLE t (name string) ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1
//ENGINE=InnoDB使用innodb引擎 DEFAULT CHARSET=utf8 数据库默认编码为utf-8 AUTO_INCREMENT=1 自增键的起始序号为1
//.InnoDB,是MySQL的数据库引擎之一,为MySQL AB发布binary的标准之一
//属性配置ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1可以通过参数createTableOptions传给spark
var writeOpts =
Map[String, String]("createTableOptions" -> "ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1")
df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties) //2: 设置表的schema
// 一般表的schema是和DataFrame是一致的,字段的类型是从spark sql的DataType翻译到各个数据库对应的数据类型
// 如果字段在数据库中的类型不是你想要的,
// 你可以通过参数createTableColumnTypes来设置createTableColumnTypes=age long,name string
writeOpts = Map[String, String]("createTableColumnTypes" -> "id long,age long")
df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties) //3: 事务隔离级别的设置,通过参数isolationLevel设置
// NONE 不支持事物1
// READ_UNCOMMITTED 会出现脏读、不可重复读以及幻读
// READ_COMMITTED 不会出现脏读,但是还是会出现不可重复读以及幻读
// REPEATABLE_READ 不会出现脏读以及不可重复读,但是还会出现幻读
// SERIALIZABLE 脏读、不可重复读以及幻读都不会出现了
writeOpts = Map[String, String]("isolationLevel" -> "READ_UNCOMMITTED")
df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties) //4:写数据
//写数据的过程中可以采用批量写数据,每一批写的数据量的大小可以通过参数batchsize设置,默认是:1000
writeOpts = Map[String, String]("batchsize" -> "100")
df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties) //5:第二次写数据的时候,这个时候表已经存在了,所以需要区分SaveMode
//当SaveMode=Overwrite 的时候,需要先清理表,然后再写数据。清理表的方法又分两种:
// 第一种是truncate即清空表,如果是这种的话,则先清空表,然后再写数据
// 第二种是drop掉表,如果是这种的话,则先drop表,然后建表,最后写数据
//以上两种方式的选择,可以通过参数truncate(默认是false)控制。因为truncate清空数据可能会失败,所以可以使用drop table的方式
//而且不是所有的数据库都支持truncate table,其中PostgresDialect就不支持
//当SaveMode=Append 的时候,则直接写数据就行
//当SaveMode=ErrorIfExists 的时候,则直接抛异常
//当SaveMode=Ignore 的时候,则直接不做任何事情
writeOpts = Map[String, String]("truncate" -> "false")
df.write.mode(SaveMode.Overwrite).options(writeOpts).jdbc(mysqlUrl, "person", properties) //按照某个分区字段进行分区读数据
//partitionColumn 分区的字段,这个字段必须是integral类型的
//lowerBound 用于决定分区步数的partitionColumn的最小值
//upperBound 用于决定分区步数的partitionColumn的最大值
//numPartitions 分区数,和lowerBound以及upperBound一起来为每一个分区生成sql的where字句 //如果upperBound - lowerBound >= numPartitions,那么我们就取numPartitions个分区,
// 否则我们取upperBound - lowerBound个分区数
// 8 - 3 = 5 > 3 所以我们取3个分区
// where id < 3 + 1 这个1是通过 8/3 - 3/3 = 1得来的
// where id >= 3 + 1 and id < 3 + 1 + 1
// where id >= 3 + 1 + 1
//配置的方式
val readOpts = Map[String, String]("numPartitions" -> "3", "partitionColumn" -> "id",
"lowerBound" -> "3", "upperBound" -> "8", "fetchsize" -> "100")
val jdbcDF = spark.read.options(readOpts).jdbc(mysqlUrl, "person", properties)
jdbcDF.rdd.partitions.size
jdbcDF.rdd.glom().collect()
jdbcDF.show() //api的方式
spark.read.jdbc(mysqlUrl, "person", "id", 3, 8, 3, properties).show() //参数predicates: Array[String],用于决定每一个分区对应的where子句,分区数就是数组predicates的大小
val conditionDF = spark.read.jdbc(mysqlUrl,
"person", Array("id > 2 and id < 5", "id >= 5 and id < 8"), properties)
conditionDF.rdd.partitions.size
conditionDF.rdd.glom().collect()
conditionDF.show() //每次读取的时候,可以采用batch的方式读取数据,batch的数量可以由参数fetchsize来设置。默认为:0,表示jdbc的driver来估计这个batch的大小 //不管是读还是写,都有分区数的概念,
// 读的时候是通过用户设置numPartitions参数设置的,
// 而写的分区数是DataFrame的分区数
//需要注意一点的是不管是读还是写,每一个分区都会打开一个jdbc的连接,所以分区不宜太多,要不然的话会搞垮数据库
//写的时候,可以通过DataFrame的coalease接口来减少分区数 spark.stop()
}
}

  

SparkSQL读写外部数据源-通过jdbc读写mysql数据库的更多相关文章

  1. Java通过JDBC 进行MySQL数据库操作

    转自: http://blog.csdn.net/tobetheender/article/details/52772157 Java通过JDBC 进行MySQL数据库操作 原创 2016年10月10 ...

  2. JDBC连接MySQL数据库及演示样例

    JDBC是Sun公司制定的一个能够用Java语言连接数据库的技术. 一.JDBC基础知识         JDBC(Java Data Base Connectivity,java数据库连接)是一种用 ...

  3. JDBC连接MySQL数据库及示例

      JDBC是Sun公司制定的一个可以用Java语言连接数据库的技术. 一.JDBC基础知识         JDBC(Java Data Base Connectivity,java数据库连接)是一 ...

  4. JDBC连接MySQL数据库代码

    ******************************************************1********************************************* ...

  5. [原创]java使用JDBC向MySQL数据库批次插入10W条数据测试效率

    使用JDBC连接MySQL数据库进行数据插入的时候,特别是大批量数据连续插入(100000),如何提高效率呢?在JDBC编程接口中Statement 有两个方法特别值得注意:通过使用addBatch( ...

  6. JDBC连接MySQL数据库代码模板

    下面这个例子是最简单的JDBC连接MySQL数据库的例子. 一般步骤: 1.注册驱动: 2.建立连接: 3.创建语句: 4.处理结果: 5.释放资源. 注意: 1.软件开发环境:MyEclipse 8 ...

  7. java jdbc 连接mysql数据库 实现增删改查

    好久没有写博文了,写个简单的东西热热身,分享给大家. jdbc相信大家都不陌生,只要是个搞java的,最初接触j2ee的时候都是要学习这么个东西的,谁叫程序得和数据库打交道呢!而jdbc就是和数据库打 ...

  8. JDBC操作MySQL数据库案例

    JDBC操作MySQL数据库案例 import java.sql.Connection; import java.sql.DriverManager; import java.sql.Prepared ...

  9. Crystal Reports 2008(水晶报表) JDBC连接mysql数据库

    在本blog中,主要介绍的是Crystal Reports 2008使用JDBC连接mysql数据库. 在连接之间,首先要确认你电脑上面都安装了mysql数据库. 其次,就是jdbc连接数据时候所使用 ...

随机推荐

  1. leetcode动态规划笔记一---一维DP

    动态规划 刷题方法 告别动态规划,连刷 40 道题,我总结了这些套路,看不懂你打我 - 知乎 北美算法面试的题目分类,按类型和规律刷题 题目分类 一维dp House Robber : 求最大最小值 ...

  2. pytest_assert断言

    前言 断言是写自动化测试基本最重要的一步,一个用例没有断言,就失去了自动化测试的意义了.什么是断言呢? 简单来讲就是实际结果和期望结果去对比,符合预期那就测试pass,不符合预期那就测试 failed ...

  3. Spring @Autowired 注入为 null

    原因 配置缺失,比如为开启注解扫描驱动.注入组件为注册: 使用 new 关键字创建的对象不受spring容器管理,无法注入: 注入静态变量, 静态变量/类变量不是对象的属性,而是一个类的属性,spri ...

  4. Spring-AOP切面编程(3)

    https://www.jianshu.com/p/be69b874a2a9 目录 1. Web MVC发展史历程2.Spring概要3.Spring-依赖注入概要(IOC)4.属性注入的三种实现方式 ...

  5. java之spring之依赖注入

    一.DI: Dependency injection; 依赖注入 依赖注入和控制反转是同一个概念的不同说法. 对象的创建依赖于容器.对象属性的设置是由容器来设置. 对象属性的赋值过程称为注入. 二.S ...

  6. JVM性能优化--Java的垃圾回收机制

    一.Java内存结构 1.Java堆(Java Heap) java堆是java虚拟机所管理的内存中最大的一块,是被所有线程共享的一块内存区域,在虚拟机启动时创建.此内存区域的唯一目的就是存放对象实例 ...

  7. 笔记本用hdmi连接显示器后无法播放声音问题

    打开控制面板的声音选项,把默认播放音频的设备设置成笔记本扬声器.这种方法直接利用笔记本扬声器

  8. Python进阶(十三)----面向对象

    Python进阶(十三)----面向对象 一丶面向过程编程vs函数式编程vs面向对象编程 面向过程: ​ 简而言之,step by step 一步一步完成功能,就是分析出解决问题所需要的步骤,然后用函 ...

  9. Python进阶(十一)----包,logging模块

    Python进阶(十一)----包,logging模块 一丶包的使用 什么是包: ​ 包是通过使用 .模块名的方式组织python模块名称空间的方式. 通俗来说,含有一个__init__.py文件的文 ...

  10. MySQLNonTransientConnectionException: Could not create connection to database server.

    MySQLNonTransientConnectionException: Could not create connection to database server. Spring整合mybati ...