spark 存取mysql

1.先上代码，存入mysql

val spark = SparkSession.builder()

      .appName("jdbc")

      .getOrCreate()

    import spark.implicits._

    val pathcsv = "/user/xxx/private/moviecsv"

    val csvdf = spark.read.format("csv")

      .option("sep", ",")

      .option("inferSchema", "true")

      .option("header", "true")

      .load(pathcsv)

    csvdf.write

      .format("jdbc")

      .mode(SaveMode.Overwrite)

      .option("url", "jdbc:mysql://ip:port/database?useUnicode=true&characterEncoding=utf-8")

      .option("dbtable", "database.table")

      .option("user", "root")

      .option("password", "")

      .option("batchsize", "")
      .option("createTableOptions", "engine=MyISAM")
      .option("createTableColumnTypes", "Ratings varchar(200)")
      .option("truncate", "true") .option("numPartitions", "") .save() spark.stop()

参数解释

url：连接mysql 的url

user：登陆mysql的用户

password ：登陆密码

dbtable: 要访问的数据库点表

batchsize ：当条数达到batchsize时会往mysql插入一次数据

truncate ：当savemode是 overwrite时，若dataframe 与原mysql 结构相同，则只truncate mysql，不会重新建表

numPartions : 访问mysql的并发数，注意：当dataframe的分区数小于numPartitions 时，并发数是dataframe的分区数，否则并发数是numPartitions

createTableOptions：建表时的一些额外选项，比如指定engine， "engine=MyISAM"，源码中是这样处理createTableOptions 的val sql = s"CREATE TABLE $table ($strSchema) $createTableOptions"

createTableColumnTypes：可以用来替换默认的字段类型，比如name 字段默认是text 类型，可以手动指定为 “name varchar(200)”

2.spark 读取mysql

   val jdbccdf = spark.read.format("jdbc")

      .option("url", "jdbc:mysql://192.168.100.200:1234/data_store?useUnicode=true&characterEncoding=utf-8")

      .option("dbtable", "data_store.movieaa")

      .option("user", "root")

      .option("password", "")

      .option("fetchsize", "")

      .option("truncate", "true")

      .option("numPartitions", "")

      .option("partitionColumn", "UserID")

      .option("lowerBound", "")

      .option("upperBound", "")

      .load()

dbtable除了1 中的写法还可以是一个 query ：option("dbtable", "(select * from data_store.movieaa where userid between 1000 and 2000) as tt")
partitionColumn：分区列，只支持数值类型，当此参数存在时，lowerBound 和upperBound 必须存在，bound 和numpartition 起到了分区的作用，bound 并不会去过滤数据

spark 存取mysql的更多相关文章

使用Apache Spark 对 mysql 调优查询速度提升10倍以上
在这篇文章中我们将讨论如何利用 Apache Spark 来提升 MySQL 的查询性能. 介绍在我的前一篇文章Apache Spark with MySQL 中介绍了如何利用 Apache Spa ...
记录一次spark连接mysql遇到的问题
版权声明:本文为博主原创文章,未经博主允许不得转载在使用spark连接mysql的过程中报错了,错误如下 08:51:32.495 [main] ERROR - Error loading fact ...
[Spark][Python]Spark 访问 mysql , 生成 dataframe 的例子：
[Spark][Python]Spark 访问 mysql , 生成 dataframe 的例子: mydf001=sqlContext.read.format("jdbc").o ...
spark SQL学习（spark连接 mysql）
spark连接mysql(打jar包方式) package wujiadong_sparkSQL import java.util.Properties import org.apache.spark ...
spark练习--mysql的读取
前面我们一直操作的是,通过一个文件来读取数据,这个里面不涉及数据相关的只是,今天我们来介绍一下spark操作中存放与读取 1.首先我们先介绍的是把数据存放进入mysql中,今天介绍的这个例子是我们前两 ...
spark读写mysql
spark读写mysql除官网例子外还要指定驱动名称 travels.write .mode(SaveMode.Overwrite) .format("jdbc") .option ...
Spark操作MySQL，Hive并写入MySQL数据库
最近一个项目,需要操作近70亿数据进行统计分析.如果存入MySQL,很难读取如此大的数据,即使使用搜索引擎,也是非常慢.经过调研决定借助我们公司大数据平台结合Spark技术完成这么大数据量的统计分析. ...
大数据项目实践：基于hadoop+spark+mongodb+mysql+c#开发医院临床知识库系统
一.前言从20世纪90年代数字化医院概念提出到至今的20多年时间,数字化医院(Digital Hospital)在国内各大医院飞速的普及推广发展,并取得骄人成绩.不但有数字化医院管理信息系统(HIS ...
spark 连接 mysql 数据库
在所有master和slave上也要在spark/conf/spark-conf.sh里面设置driver的classpath,解决编译找不到driver的问题 http://www.iteblog. ...

随机推荐

代码语法高亮踩坑-原理，问题, PRE元素及htmlentity
语法高亮库基础原理在研究使用能够在web页面上代码语法高显的解决方案时,发现有很多现成的开源库.比较中意的有prism.js,highlightjs.他们的原理基本上核心就两点: 1. 利用html ...
uni-app常用 HTML5+APP 设置
1.锁定屏幕方向锁定屏幕方向后屏幕只能按锁定的屏幕方向显示,关闭当前页面后仍然有效. 可再次调用此方法修改屏幕锁定方向或调用 unlockOrientation() 方法恢复到应用的默认值. 锁定屏 ...
SQL报错注入
0x00:前言 sqli-libs第11关的报错注入,之前没有具体学习了解过,所以单独学习一下. 0x01:例子 uname=1&passwd=1' union select count(*) ...
Linux从入门到放弃、零基础入门Linux(第二篇)：在虚拟机vmware中安装linux（一）超详细手把手教你安装centos分步图解
一.Vmware vmware介绍:VMware,Inc. (Virtual Machine ware)是一个“虚拟PC”软件公司,提供服务器.桌面虚拟化的解决方案.其虚拟化平台的产品包括播放器:它能 ...
Jenkins+GitLab+Ansible-playbook的环境安装(yum)
1.安装GitLab 1.1 配置gitlab的yum源 # 参考:https://packages.gitlab.com/gitlab/gitlab-ce/install#bash-rpm curl ...
VSCode在Ubuntu下快捷键和Ｗindows下不一致的解决办法
Windows下切换前一次和后一次光标位置,用的快捷键是Alt+<-和Alt+->.很遗憾,Ubuntu下并不是这个快捷键.不清楚为什么VSCode不提供统一的快捷键,但对于我来说,我很想 ...
apache2.4
介绍 Apache HTTP server是Apache软件基金会的一个开源的网页服务器,可以运行在几乎所有广泛使用的计算机平台上,由于跨平台和安全性被广泛使用,是目前最流行的web服务器软件之一,目 ...
Spring Cloud Sleuth + Zipkin 链路监控
原文:https://blog.csdn.net/hubo_88/article/details/80878632 在微服务系统中,随着业务的发展,系统会变得越来越大,那么各个服务之间的调用关系也就变 ...
小学四则运算口算练习app---No.1
因为对app不是很了解,对环境的配置也不是很舒心,今天主要配置了环境,了解了一些相关app的简单操作以及安卓stdiuo的使用!如下: 我自己连接的自己的手机(还是不要拿自己的手机做测试哦!模拟器虽然 ...
【MyEclipse】安装svn插件
svn插件包下载:http://subclipse.tigris.org/servlets/ProjectDocumentList?folderID=2240 重启myeclipse 看import就 ...

spark 存取mysql

spark 存取mysql的更多相关文章

随机推荐

热门专题