Spark JDBC系列--取数的四种方式

一、单分区模式
二、指定Long型column字段的分区模式
三、高自由度的分区模式
四、自定义option参数模式
五、JDBC To Other Databases

5.1Scala
5.2Java
5.3Python

一、二、三、四标题原文地址：

一、单分区模式

函数：

def jdbc(url: String, table: String, properties: Properties): DataFrame

使用示例：

val url = "jdbc:mysql://mysqlHost:3306/database"

val tableName = "table"

// 设置连接用户&密码

val prop = new java.util.Properties

prop.setProperty("user","username")

prop.setProperty("password","pwd")

// 取得该表数据

val jdbcDF = sqlContext.read.jdbc(url,tableName,prop)

// 一些操作

....

从入参可以看出，只需要传入JDBC URL、表名及对应的账号密码Properties即可。但是计算此DF的分区数后发现，这种不负责任的写法，并发数是1

jdbcDF.rdd.partitions.size=1

操作大数据集时，spark对MySQL的查询语句等同于可怕的：select * from table; ,而单个分区会把数据都集中在一个executor，当遇到较大数据集时，都会产生不合理的资源占用：MySQL可能hang住，spark可能会OOM，所以不推荐生产环境使用；

二、指定Long型column字段的分区模式

函数：

def jdbc(

  url: String,

  table: String,

  columnName: String,

  lowerBound: Long,

  upperBound: Long,

  numPartitions: Int,

  connectionProperties: Properties): DataFrame

使用id做分片字段的示例：

val url = "jdbc:mysql://mysqlHost:3306/database"

val tableName = "table"

val columnName = "id"

val lowerBound = getMinId()

val upperBound = getMaxId()

val numPartitions = 200

// 设置连接用户&密码

val prop = new java.util.Properties

prop.setProperty("user","username")

prop.setProperty("password","pwd")

// 取得该表数据

val jdbcDF = sqlContext.read.jdbc(url,tableName, columnName, lowerBound, upperBound,numPartitions,prop)

// 一些操作

....

从入参可以看出，通过指定 id 这个数字型的column作为分片键，并设置最大最小值和指定的分区数，可以对数据库的数据进行并发读取。是不是numPartitions传入多少，分区数就一定是多少呢？其实不然，通过对源码的分析可知：

if upperBound-lowerBound >= numPartitions:

    jdbcDF.rdd.partitions.size = numPartitions

else

    jdbcDF.rdd.partitions.size = upperBound-lowerBound

拉取数据时，spark会按numPartitions均分最大最小ID，然后进行并发查询，并最终转换成RDD，例如：

入参为：

lowerBound=1, upperBound=1000, numPartitions=10

对应查询语句组为：

JDBCPartition(id < 101 or id is null,0),

JDBCPartition(id >= 101 AND id < 201,1),

JDBCPartition(id >= 201 AND id < 301,2),

JDBCPartition(id >= 301 AND id < 401,3),

JDBCPartition(id >= 401 AND id < 501,4),

JDBCPartition(id >= 501 AND id < 601,5),

JDBCPartition(id >= 601 AND id < 701,6),

JDBCPartition(id >= 701 AND id < 801,7),

JDBCPartition(id >= 801 AND id < 901,8),

JDBCPartition(id >= 901,9)

建议在使用此方式进行分片时，需要评估好 numPartitions 的个数，防止单片数据过大；同时需要column字段的索引建立情况，防止查询语句出现慢SQL影响取数效率。

如果column的数字是离散型的，为了防止拉取时出现过多空分区，以及不必要的一些数据倾斜，需要使用特殊手段进行处理，具体可以参考Spark JDBC系列–读取优化。

三、高自由度的分区模式

函数：

def jdbc(

  url: String,

  table: String,

  predicates: Array[String],

  connectionProperties: Properties): DataFrame

使用给定分区数组的示例：

  /**

   * 将近90天的数据进行分区读取

   * 每一天作为一个分区，例如

   * Array(

   * "2015-09-17" -> "2015-09-18",

   * "2015-09-18" -> "2015-09-19",

   * ...)

   **/

   def getPredicates = {

    val cal = Calendar.getInstance()

    cal.add(Calendar.DATE, -90)

    val array = ArrayBuffer[(String,String)]()

    for (i <- 0 until 90) {

      val start = new SimpleDateFormat("yyyy-MM-dd").format(cal.getTime())

      cal.add(Calendar.DATE, +1)

      val end = new SimpleDateFormat("yyyy-MM-dd").format(cal.getTime())

      array += start -> end

    }

    val predicates = array.map {

      case (start, end) => s"gmt_create >= '$start' AND gmt_create < '$end'"

    }

    predicates.toArray

    }

    val predicates = getPredicates

    //链接操作

    ...

从函数可以看出，分区数组是多个并行的自定义where语句，且分区数为数据size：

jdbcDF.rdd.partitions.size = predicates.size

建议在使用此方式进行分片时，需要评估好 predicates.size 的个数，防止防止单片数据过大；同时需要自定义where语句的查询效率，防止查询语句出现慢SQL影响取数效率。

四、自定义option参数模式

函数示例：

val jdbcDF = sparkSession.sqlContext.read.format("jdbc")

  .option("url", url)

  .option("driver", "com.mysql.jdbc.Driver")

  .option("dbtable", "table")

  .option("user", "user")

  .option("partitionColumn", "id")

  .option("lowerBound", 1)

  .option("upperBound", 10000)

  .option("fetchsize", 100)

  .option("xxx", "xxx")

  .load()

从函数可以看出，option模式其实是一种开放接口，spark会根据具体的参数，来决定使用上述三种方式中的某一种。

五、JDBC To Other Databases

Spark官方API文档：

JDBC To Other Databases

5.1Scala

// Note: JDBC loading and saving can be achieved via either the load/save or jdbc methods

// Loading data from a JDBC source

val jdbcDF = spark.read

  .format("jdbc")

  .option("url", "jdbc:postgresql:dbserver")

  .option("dbtable", "schema.tablename")

  .option("user", "username")

  .option("password", "password")

  .load()

val connectionProperties = new Properties()

connectionProperties.put("user", "username")

connectionProperties.put("password", "password")

val jdbcDF2 = spark.read

  .jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties)

// Specifying the custom data types of the read schema

connectionProperties.put("customSchema", "id DECIMAL(38, 0), name STRING")

val jdbcDF3 = spark.read

  .jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties)

// Saving data to a JDBC source

jdbcDF.write

  .format("jdbc")

  .option("url", "jdbc:postgresql:dbserver")

  .option("dbtable", "schema.tablename")

  .option("user", "username")

  .option("password", "password")

  .save()

jdbcDF2.write

  .jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties)

// Specifying create table column data types on write

jdbcDF.write

  .option("createTableColumnTypes", "name CHAR(64), comments VARCHAR(1024)")

  .jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties)

5.2Java

// Note: JDBC loading and saving can be achieved via either the load/save or jdbc methods

// Loading data from a JDBC source

Dataset<Row> jdbcDF = spark.read()

  .format("jdbc")

  .option("url", "jdbc:postgresql:dbserver")

  .option("dbtable", "schema.tablename")

  .option("user", "username")

  .option("password", "password")

  .load();

Properties connectionProperties = new Properties();

connectionProperties.put("user", "username");

connectionProperties.put("password", "password");

Dataset<Row> jdbcDF2 = spark.read()

  .jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties);

// Saving data to a JDBC source

jdbcDF.write()

  .format("jdbc")

  .option("url", "jdbc:postgresql:dbserver")

  .option("dbtable", "schema.tablename")

  .option("user", "username")

  .option("password", "password")

  .save();

jdbcDF2.write()

  .jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties);

// Specifying create table column data types on write

jdbcDF.write()

  .option("createTableColumnTypes", "name CHAR(64), comments VARCHAR(1024)")

  .jdbc("jdbc:postgresql:dbserver", "schema.tablename", connectionProperties);

5.3Python

# Note: JDBC loading and saving can be achieved via either the load/save or jdbc methods

# Loading data from a JDBC source

jdbcDF = spark.read \

    .format("jdbc") \

    .option("url", "jdbc:postgresql:dbserver") \

    .option("dbtable", "schema.tablename") \

    .option("user", "username") \

    .option("password", "password") \

    .load()

jdbcDF2 = spark.read \

    .jdbc("jdbc:postgresql:dbserver", "schema.tablename",

          properties={"user": "username", "password": "password"})

# Specifying dataframe column data types on read

jdbcDF3 = spark.read \

    .format("jdbc") \

    .option("url", "jdbc:postgresql:dbserver") \

    .option("dbtable", "schema.tablename") \

    .option("user", "username") \

    .option("password", "password") \

    .option("customSchema", "id DECIMAL(38, 0), name STRING") \

    .load()

# Saving data to a JDBC source

jdbcDF.write \

    .format("jdbc") \

    .option("url", "jdbc:postgresql:dbserver") \

    .option("dbtable", "schema.tablename") \

    .option("user", "username") \

    .option("password", "password") \

    .save()

jdbcDF2.write \

    .jdbc("jdbc:postgresql:dbserver", "schema.tablename",

          properties={"user": "username", "password": "password"})

# Specifying create table column data types on write

jdbcDF.write \

    .option("createTableColumnTypes", "name CHAR(64), comments VARCHAR(1024)") \

    .jdbc("jdbc:postgresql:dbserver", "schema.tablename",

          properties={"user": "username", "password": "password"})

Spark JDBC系列--取数的四种方式的更多相关文章

JSP向后台传递参数的四种方式
一.通过Form表单提交传值客户端通过Form表单提交到服务器端,服务器端通过 Java代码 request.getParameter(String xx); 来取得参数(xx)为参数名称.通过ge ...
160624、Spark读取数据库(Mysql)的四种方式讲解
目前Spark支持四种方式从数据库中读取数据,这里以Mysql为例进行介绍. 一.不指定查询条件这个方式链接MySql的函数原型是: 1 def jdbc(url: String, table: S ...
Excel VBA 从外部工作簿取数的5种方法
'======================================================= '1.循环单元格取数,效率最低,不可取,初学者易犯 '2.区域相等取数 '3.复制粘贴 ...
Spark入Hbase的四种方式效率对比
一.方式介绍本次测试一种采用了四种方式进行了对比,分别是:1.在RDD内部调用java API.2.调用saveAsNewAPIHadoopDataset()接口.3.saveAsHadoopDat ...
EF5+MVC4系列(7) 后台SelectListItem传值给前台显示Select下拉框;后台Action接收浏览器传值的4种方式; 后台Action向前台View视图传递数据的四种方式(ViewDate,TempDate,ViewBag,Model (实际是ViewDate.Model传值))
一:后台使用SelectListItem 传值给前台显示Select下拉框我们先来看数据库的订单表,里面有3条订单,他们的用户id对应了 UserInfo用户表的数据,现在我们要做的是添加一个Ord ...
iOS 登陆的实现四种方式
iOS 登陆的实现四种方式一. 网页加载: http://www.cnblogs.com/tekkaman/archive/2013/02/21/2920218.ht ml [iOS登陆的实现] A ...
.net core 2.x - 缓存的四种方式
其实这些微软docs都有现成的,但是现在的人想对浮躁些,去看的不会太多,所以这里就再记录下 ,大家一起懒一起浮躁,呵呵. 0.基础知识通过减少生成内容所需的工作,缓存可以显著提高应用的性能和可伸缩性 ...
C#批量插入数据到Sqlserver中的四种方式
我的新书ASP.NET MVC企业级实战预计明年2月份出版,感谢大家关注! 本篇,我将来讲解一下在Sqlserver中批量插入数据. 先创建一个用来测试的数据库和表,为了让插入数据更快,表中主键采用的 ...
C#_批量插入数据到Sqlserver中的四种方式
先创建一个用来测试的数据库和表,为了让插入数据更快,表中主键采用的是GUID,表中没有创建任何索引.GUID必然是比自增长要快的,因为你生成一个GUID算法所花的时间肯定比你从数据表中重新查询上一条记 ...

随机推荐

Mapreduce实例--二次排序
前言部分: 在Map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordRed ...
Service Mesh——微服务中的流量管理中间件
Service Mesh--微服务中的流量管理中间件摘自-https://zhuanlan.zhihu.com/p/28794062 Service mesh 与 Cloud Native Kube ...
docker容器中布置静态网站
docker容器中布置静态网站(基于云服务器ubuntu系统) 服务器准备(ubuntu) docker nginx 静态网页制作浏览器测试服务器布置这里推荐使用云服务器(阿里云.华为云.腾讯云 ...
小米11和iphone12参数对比哪个好
小米11:搭载最新一代三星的AMOLED屏幕,120Hz屏幕刷新,iPhone12使用全新一代的视网膜屏,6.1英寸屏幕,支持60Hz屏幕刷新,支持HDR显示,P3广色域小米手机爆降800 优惠力度空 ...
ORA-28001: the password has expired解决方法
Oracle提示错误消息ORA-28001: the password has expired,是由于Oracle11G的新特性所致, Oracle11G创建用户时缺省密码过期限制是180天(即6个月 ...
SqlLoad的简单使用
sqlload的简单使用: 能实现: 快速导入大量数据 1.先安装oracle 客户端机器.有点大,600M+, 2.安装时选择管理员安装(1.1g) 3.第三步的时候我的出错了.说是环境变量校验不通 ...
MATLAB OPC错误OPCenum service is not operating correctly解决办法
错误截图: 出错原因:C:\Windows\SysWOW64下没有OpcEnum.exe等文件,opc需要这些文件才能正常运行.有些系统内置了,有些系统没有. 解决方法:去opc官网https://o ...
腾讯QQ，人人都是高手
今天,腾讯果然给出了官方回应,具体表述如下: 可能你看不太懂,其实我也看的不太懂,不过这就是公关的能力体现,就像我"人人都是高手"的大连车务组微机室小编一样,把一个降级flash描 ...
【Linux】记一次xfs分区数据恢复
项目有一块磁盘无法挂载,而且还没有做RAID.... # mount /dev/sda /xxx 报错 mount: special device /dev/sda/ does not exist ...
【MYSQL】win7安装mysql-5.7.10绿色版
1.下载 :mysql下载地址 2.解压缩 3.环境变量配置 MYSQL_HOME=D:\mysql-5.7.11-win32 PATH=%MYSQL_HOME%\bin 4.修改配置文件 a.)将m ...

Spark JDBC系列--取数的四种方式

Spark JDBC系列--取数的四种方式

一、单分区模式

二、指定Long型column字段的分区模式

三、高自由度的分区模式

四、自定义option参数模式

五、JDBC To Other Databases

5.1Scala

5.2Java

5.3Python

Spark JDBC系列--取数的四种方式的更多相关文章

随机推荐

热门专题