一、JDBC connection properties（属性名称和含义）

url：要连接的JDBC URL。列如：jdbc:mysql://ip:3306

dbtable:应该读取的JDBC表。可以使用括号中的子查询代替完整表。

driver:用于连接到此URL的JDBC驱动程序的类名,列如：com.mysql.jdbc.Driver

partitionColumn, lowerBound, upperBound, numPartitions：

这些options仅适用于read数据。这些options必须同时被指定。他们描述，如何从多个workers并行读取数据时，分割表。

partitionColumn：必须是表中的数字列。

lowerBound和upperBound仅用于决定分区的大小，而不是用于过滤表中的行。

表中的所有行将被分割并返回。

fetchsize：仅适用于read数据。JDBC提取大小，用于确定每次获取的行数。这可以帮助JDBC驱动程序调优性能，这些驱动程序默认具有较低的提取大小（例如，Oracle每次提取10行）。

batchsize：仅适用于write数据。JDBC批量大小，用于确定每次insert的行数。

这可以帮助JDBC驱动程序调优性能。默认为1000。

isolationLevel：仅适用于write数据。事务隔离级别，适用于当前连接。它可以是一个NONE，READ_COMMITTED，READ_UNCOMMITTED，REPEATABLE_READ，或SERIALIZABLE，对应于由JDBC的连接对象定义，缺省值为标准事务隔离级别READ_UNCOMMITTED。请参阅文档java.sql.Connection。

truncate：仅适用于write数据。当SaveMode.Overwrite启用时，此选项会truncate在MySQL中的表，而不是删除，再重建其现有的表。这可以更有效，并且防止表元数据（例如，索引）被去除。但是，在某些情况下，例如当新数据具有不同的模式时，它将无法工作。它默认为false。

createTableOptions：仅适用于write数据。此选项允许在创建表（例如CREATE TABLE t (name string) ENGINE=InnoDB.）时设置特定的数据库表和分区选项。

二、spark jdbc read MySQL

val jdbcDF11 = spark.read.format("jdbc")

      .option("driver", "com.mysql.jdbc.Driver")

      .option("url", "jdbc:mysql://ip:3306")

      .option("dbtable", "db.user_test")

      .option("user", "test")

      .option("password", "123456")

      .option("fetchsize", "3")

      .load()

jdbcDF11.show

val jdbcDF12 = spark.read.format("jdbc").options(

      Map(

        "driver" -> "com.mysql.jdbc.Driver",

        "url" -> "jdbc:mysql://ip:3306",

        "dbtable" -> "db.user_test",

        "user" -> "test",

        "password" -> "123456",

        "fetchsize" -> "3")).load()

jdbcDF12.show

三、jdbc(url: String, table: String, properties: Properties): DataFrame

import java.util.Properties

// jdbc(url: String, table: String, properties: Properties): DataFrame

val readConnProperties1 = new Properties()

readConnProperties1.put("driver", "com.mysql.jdbc.Driver")

readConnProperties1.put("user", "test")

readConnProperties1.put("password", "123456")

readConnProperties1.put("fetchsize", "3")

val jdbcDF1 = spark.read.jdbc(

  "jdbc:mysql://ip:3306",

  "db.user_test",

  readConnProperties1)

jdbcDF1.show

+---+------+---+

|uid|gender|age|

+---+------+---+

|  2|     2| 20|

|  3|     1| 30|

|  4|     2| 40|

|  5|     1| 50|

|  6|     2| 60|

|  7|     1| 25|

|  8|     2| 35|

|  9|     1| 70|

| 10|     2| 80|

|  1|     1| 18|

+---+------+---+

//默认并行度为1

jdbcDF1.rdd.partitions.size

Int = 1

//-------------------------

// jdbc(url: String, table: String, properties: Properties): DataFrame

val readConnProperties4 = new Properties()

readConnProperties4.put("driver", "com.mysql.jdbc.Driver")

readConnProperties4.put("user", "test")

readConnProperties4.put("password", "123456")

readConnProperties4.put("fetchsize", "3")

val jdbcDF4 = spark.read.jdbc(

  "jdbc:mysql://ip:3306",

  "(select * from db.user_test where gender=1) t",  // 注意括号和表别名，必须得有，这里可以过滤数据

  readConnProperties4)

jdbcDF4.show

+---+------+---+

|uid|gender|age|

+---+------+---+

|  3|     1| 30|

|  5|     1| 50|

|  7|     1| 25|

|  9|     1| 70|

|  1|     1| 18|

+---+------+---+

四、jdbc(url: String, table: String, columnName: String, lowerBound: Long, upperBound: Long, numPartitions: Int, connectionProperties: Properties): DataFrame

import java.util.Properties

val readConnProperties2 = new Properties()

readConnProperties2.put("driver", "com.mysql.jdbc.Driver")

readConnProperties2.put("user", "test")

readConnProperties2.put("password", "123456")

readConnProperties2.put("fetchsize", "2")

val columnName = "uid"

val lowerBound = 1

val upperBound = 6

val numPartitions = 3

val jdbcDF2 = spark.read.jdbc(

  "jdbc:mysql://ip:3306",

  "db.user_test",

  columnName,

  lowerBound,

  upperBound,

  numPartitions,

  readConnProperties2)

jdbcDF2.show

+---+------+---+

|uid|gender|age|

+---+------+---+

|  2|     2| 20|

|  1|     1| 18|

|  3|     1| 30|

|  4|     2| 40|

|  5|     1| 50|

|  6|     2| 60|

|  7|     1| 25|

|  8|     2| 35|

|  9|     1| 70|

| 10|     2| 80|

+---+------+---+

// 并行度为3，对应于numPartitions

jdbcDF2.rdd.partitions.size

Int = 3

四、jdbc(url: String, table: String, predicates: Array[String], connectionProperties: Properties): DataFrame predicates: Condition in the WHERE clause for each partition.

import java.util.Properties

val readConnProperties3 = new Properties()

readConnProperties3.put("driver", "com.mysql.jdbc.Driver")

readConnProperties3.put("user", "test")

readConnProperties3.put("password", "123456")

readConnProperties3.put("fetchsize", "2")

val arr = Array(

  (1, 50),

  (2, 60))

// 此处的条件，既可以分割数据用作并行度，也可以过滤数据

val predicates = arr.map {

  case (gender, age) =>

    s" gender = $gender " + s" AND age < $age "

}

val predicates1 =

  Array(

    "2017-05-01" -> "2017-05-20",

    "2017-06-01" -> "2017-06-05").map {

      case (start, end) =>

        s"cast(create_time as date) >= date '$start' " + s"AND cast(create_time as date) <= date '$end'"

    }

val jdbcDF3 = spark.read.jdbc(

  "jdbc:mysql://ip:3306",

  "db.user_test",

  predicates,

  readConnProperties3)

jdbcDF3.show

+---+------+---+

|uid|gender|age|

+---+------+---+

|  3|     1| 30|

|  7|     1| 25|

|  1|     1| 18|

|  2|     2| 20|

|  4|     2| 40|

|  8|     2| 35|

+---+------+---+

// 并行度为2，对应arr数组中元素的个数

jdbcDF3.rdd.partitions.size

Int = 2

五、spark jdbc write MySQL

import spark.implicits._

val dataList: List[(Double, String, Double, Double, String, Double, Double, Double, Double)] = List(

  (0, "male", 37, 10, "no", 3, 18, 7, 4),

  (0, "female", 27, 4, "no", 4, 14, 6, 4),

  (0, "female", 32, 15, "yes", 1, 12, 1, 4),

  (0, "male", 57, 15, "yes", 5, 18, 6, 5),

  (0, "male", 22, 0.75, "no", 2, 17, 6, 3),

  (0, "female", 32, 1.5, "no", 2, 17, 5, 5),

  (0, "female", 22, 0.75, "no", 2, 12, 1, 3),

  (0, "male", 57, 15, "yes", 2, 14, 4, 4),

  (0, "female", 32, 15, "yes", 4, 16, 1, 2))

val colArray: Array[String] = Array("affairs", "gender", "age", "yearsmarried", "children", "religiousness", "education", "occupation", "rating")

val df = dataList.toDF(colArray: _*)

df.write.mode("overwrite").format("jdbc").options(

  Map(

    "driver" -> "com.mysql.jdbc.Driver",

    "url" -> "jdbc:mysql://ip:3306",

    "dbtable" -> "db.affairs",

    "user" -> "test",

    "password" -> "123456",

    "batchsize" -> "1000",

    "truncate" -> "true")).save()

Spark JDBC方式连接MySQL数据库的更多相关文章

jmeter中通过jdbc方式连接mysql数据库的配置参考
jmeter中通过jdbc方式连接mysql数据库的配置参考: Database URL=jdbc:mysql://ip:port/dbname?useUnicode=true&allowMu ...
Ubuntu jsp平台使用JDBC来连接MySQL数据库
Ubuntu 7.04 搭建Ubuntu jsp平台开发环境MySQL+tomcat+apache+j2sdk1.6在所有安装开始前先在Terminal中输入 rpm -q -a查看是否安装过rpm ...
JDBC Java 连接 MySQL 数据库
MySQL 版本:Server version: 5.7.17-log MySQL Community Server (GPL) 用于测试的 MySQL 数据库:game 查看数据库中的表 mysql ...
C++ API方式连接mysql数据库实现增删改查
这里复制的 http://www.bitscn.com/pdb/mysql/201407/226252.html 一.环境配置 1,装好mysql,新建一个C++控制台工程(从最简单的弄起,这个会了, ...
2.PHP利用PDO连接方式连接mysql数据库
代码如下 <?php$serverName = "这里填IP地址";$dbName = "这里填数据库名";$userName = "这里填用户 ...
JAVA高级编程序——JDBC（连接mysql数据库）——（一）
java要想连接数据库,就要用JDBC(java database connection),用这个jar包 (mysql-connector-java-xxx-xx-bin.jar) sun公司为我们 ...
JDBC中连接MySQL数据库
package qddx.JDBC; import java.sql.*; public class JDBC_Connection { static String driverName = &quo ...
Spring Boot使用JDBC方式连接MySQL
首先去spring官网下载一个名为test的Spring Boot项目模板:https://start.spring.io/ 然后在mysql中的testdb数据库中新建一张名为test_user的表 ...
Oracle 12c JDBC方式连接PDB数据库
1.配置监听这里假定CDB数据库名为ORCL,PDB在CDB下面名称为PDBORCLlistener.ora添加(#后面为注释,不要添加进去) SID_LIST_LISTENER = (SID_LI ...

随机推荐

openbmc编译错误汇总，持续更新，建议收藏
本文汇总自己在编译openbmc时遇到的一些问题及解决思路,希望对有兴趣研究openbmc的同学有一些帮助. 项目地址:https://github.com/openbmc/openbmc 编译步骤: ...
Linux下Oracle19c离线rpm安装
一.基础环境配置 1.关闭系统防火墙 systemctl stop firewalld syustemctl disable firewalld 2.关闭selinux vim /etc/selinu ...
hadoop集群中zkfc的作用和工作过程
一. 简单了解NameNode的ZKFC机制 NameNode的HA可以个人认为简单分为共享editLog机制和ZKFC对NameNode状态的控制一般导致NameNode切换的原因 ZKFC的作用 ...
总结(2019CSP之后)，含题解
从$\mathcal{CSP}$ 爆炸到现在,已经有$3$个月了.这三个月间,我--这个小蒟蒻又接触了许多听不懂的东西 $\mathcal{No.}1$ 字符串\(\mathcal{ha ...
TCP连接的建立与释放（超详细）
前言:在计算机网络协议中,TCP只是其中一个,然而在网络使用中,TCP也是最离不开的协议之一,它的重要性毋庸置疑,最最重要的是,面试的重点就是它啊,呜呜~~,今天我们一起来看下TCP的连接建立与释放, ...
js 数组的方法总结
1.Array.map() 此方法是将数组中的每个元素调用一个提供的函数,结果作为一个新的数组返回,并没有改变原来的数组 let arr = [1, 2, 3, 4, 5] let newAr ...
Java JVM——9.方法区
前言方法区是运行时数据区的最后一个部分: 从线程共享与否的角度来看: 大家可能在这里有些疑惑,方法区和元空间的关系到底是怎样的?请往下看,下面会为大家解惑. 栈.堆.方法区的交互关系下面就涉及了对 ...
kubernets集群的安全防护(下)
一集群角色以及集群角色绑定 1.1 前面我们提到过角色以及角色绑定,那么现在为什么会出现集群级别的角色以及角色绑定,作用有如下所示我们如果需要在所有的命名的空间创建某个角色或者角色绑定的时候 ...
WPF NET5 Prism8.0的升级指南
前言曾经我以学习的目的写了关于在.NET Core3.1使用Prism的系列文章.NET Core 3 WPF MVVM框架 Prism系列文章索引,也谢谢大家的支持,事实上当初的版本则是Pri ...
微人事项目-mybatis-持久层
摘要最近将微人事这个开源项目进行了复现,这篇文章记录mybaits访问数据库这一块. 其中MyBatis是一个流行的持久层框架,支持自定义SQL.存储过程和高级映射.MyBatis消除了几乎所有的J ...

Spark JDBC方式连接MySQL数据库