Spark将计算结果写入到Mysql中

今天主要来谈谈如何将Spark计算的结果写入到Mysql或者其他的关系型数据库里面。其实方式也很简单，代码如下：

package scala

import java.sql.{DriverManager, PreparedStatement, Connection}

import org.apache.spark.{SparkContext, SparkConf}

object RDDtoMysql {

  case class Blog(name: String, count: Int)

  def myFun(iterator: Iterator[(String, Int)]): Unit = {

    var conn: Connection = null

    var ps: PreparedStatement = null

    val sql = "insert into blog(name, count) values (?, ?)"

    try {

      conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/spark",

　　　　"root", "")

      iterator.foreach(data => {

        ps = conn.prepareStatement(sql)

        ps.setString(, data._1)

        ps.setInt(, data._2)

        ps.executeUpdate()

      }

      )

    } catch {

      case e: Exception => println("Mysql Exception")

    } finally {

      if (ps != null) {

        ps.close()

      }

      if (conn != null) {

        conn.close()

      }

    }

  }

  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("RDDToMysql").setMaster("local")

    val sc = new SparkContext(conf)

    val data = sc.parallelize(List(("www", ), ("iteblog", ), ("com", )))

    data.foreachPartition(myFun)

  }

}

其实是通过foreachPartition遍历RDD的每个分区，并调用普通的Scala方法来写数据库。在运行程序之前需要确保数据库里面存在blog表，可以通过下面语句创建：

CREATE TABLE `blog` (

  `name` varchar() NOT NULL,

  `count` int() unsigned DEFAULT NULL

) ENGINE=InnoDB DEFAULT CHARSET=utf-

然后直接运行上述的代码即可。运行完成你就可以在数据库里面查询结果：

SELECT * FROM blog b;

www　　

iteblog　　

com

需要注意的是：
　　1、你最好使用foreachPartition 函数来遍历RDD，并且在每台Work上面创建数据库的connection。
　　2、如果你的数据库并发受限，可以通过控制数据的分区来减少并发。
　　3、在插入Mysql的时候最好使用批量插入。
　　4、确保你写入数据库过程能够处理失败，因为你插入数据库的过程可能会经过网络，这可能会导致数据插入到数据库失败。
　　5、不建议将你的RDD数据写入到Mysql等关系型数据库中。

Spark将计算结果写入到Mysql中的更多相关文章

spark读取mongodb数据写入hive表中
一环境: spark-: hive-; scala-; hadoop--cdh-; jdk-1.8; mongodb-2.4.10; 二.数据情况: MongoDB数据格式{ "_i ...
spark streaming将处理结果存入mysql中（使用c3p0连接池）
1.c3p0相应的架包导入工程中将以下四个架包导入工程, 主要有三个架包:c3p0-0.9.5.2.jar c3p0-oracle-thin-extras-0.9.5.2.jar mchange-c ...
Spark操作dataFrame进行写入mysql，自定义sql的方式
业务场景: 现在项目中需要通过对spark对原始数据进行计算,然后将计算结果写入到mysql中,但是在写入的时候有个限制: 1.mysql中的目标表事先已经存在,并且当中存在主键,自增长的键id 2. ...
通过Spark Streaming的foreachRDD把处理后的数据写入外部存储系统中
转载自:http://blog.csdn.net/erfucun/article/details/52312682 本博文主要内容包括: 技术实现foreachRDD与foreachPartition ...
NET MVC全局异常处理（一）【转载】网站遭遇DDoS攻击怎么办使用 HttpRequester 更方便的发起 HTTP 请求 C#文件流。 Url的Base64编码以及解码 C#计算字符串长度，汉字算两个字符 2019周笔记（2.18-2.23） Mysql语句中当前时间不能直接使用C#中的Date.Now传输 Mysql中Count函数的正确使用
NET MVC全局异常处理(一) 目录 .NET MVC全局异常处理 IIS配置静态错误页配置 .NET错误页配置程序设置全局异常配置 .NET MVC全局异常处理一直知道有.NET有相关 ...
Spark使用Java、Scala 读取mysql、json、csv数据以及写入操作
Spark使用Java读取mysql数据和保存数据到mysql 一.pom.xml 二.spark代码 2.1 Java方式 2.2 Scala方式三.写入数据到mysql中四.DataFrame ...
flink04 -----1 kafkaSource 2. kafkaSource的偏移量的存储位置 3 将kafka中的数据写入redis中去 4 将kafka中的数据写入mysql中去
1. kafkaSource 见官方文档 2. kafkaSource的偏移量的存储位置默认存在kafka的特殊topic中,但也可以设置参数让其不存在kafka的特殊topic中 3 将k ...
mysql中计算两个日期的时间差函数TIMESTAMPDIFF用法
mysql中计算两个日期的时间差函数TIMESTAMPDIFF用法: 语法: TIMESTAMPDIFF(interval,datetime_expr1,datetime_expr2) 说明: 返回日 ...
Spark比MR快是因为在内存中计算？错！
MapReduce 就像一台又慢又稳的老爷车,虽然距离 MapReduce 面市到现在已经过去了十几年的时间,但它始终没有被淘汰,任由大数据技术日新月异.蓬蓬勃勃.花里胡哨地发展,这个生态圈始终有它的 ...

随机推荐

Ubuntu apt-get彻底卸载软件包
https://blog.csdn.net/get_set/article/details/51276609 如果你关注搜索到这篇文章,那么我可以合理怀疑你被apt-get的几个卸载命令有点搞晕了. ...
【linux】nginx options 跨域问题请求HTTP错误405 用于访问该页的HTTP动作未被许可 Method Not Allowed
JavaScript JS 跨域问题 HTTP 错误 405 - 用于访问该页的 HTTP 动作未被许可HTTP 错误 405.0 - Method Not Allowed Nginx 处理跨域问题. ...
namespace main
c++程序运行的入口是::main 如果把main放到某个命名空间中,则系统就无法找到入口. 所以就有了为了测试功能的tools和test,其中没有命名空间.
如何修改 Ubuntu 的字符集？
步骤: 1.编辑 local 文件输入: vi /var/lib/locales/supported.d/local 将 zh_CN.GB2312 加入到后面,保存. 2.执行:locale-gen ...
Win 7打开任务管理器的几种方法
1. 按住Ctrl和Alt键和Delete键 2. 快速启动栏打开win7任务管理器 3. Ctrl键+Shift键+Esc键的组合键 4. 桌面新建一个文本文档也叫记事本,打开,输入“C:\Wind ...
Windows平台下PHP7添加Sqlserver扩展
1.7.0.x 7.0.x的扩展下载地址: Microsoft Drivers for PHP for SQL Server https://www.microsoft.com/en-us/down ...
题目1439：Least Common Multiple(求m个正数的最小公倍数lcm)
题目链接:http://ac.jobdu.com/problem.php?pid=1439 详解链接:https://github.com/zpfbuaa/JobduInCPlusPlus 参考代码: ...
Python守护进程和脚本单例运行
Python 守护进程守护进程简介进程运行有时候需要脱离当前运行环境,尤其是Linux和Unix环境中需要脱离Terminal运行,这个时候就要用到守护进程.守护进程可以脱离当前环境要素来执行,这 ...
【BZOJ2310】ParkII 插头DP
[BZOJ2310]ParkII Description Hnoi2007-Day1有一道题目 Park:给你一个 m * n 的矩阵,每个矩阵内有个权值V(i,j) (可能为负数),要求找一条回路, ...
9.13Django ORM那些事
2018-9-13 14:23:22 ORM那些事参考 : https://www.cnblogs.com/liwenzhou/p/8660826.html 今天的都是ORM的查询更详细进阶了! ...

Spark将计算结果写入到Mysql中

Spark将计算结果写入到Mysql中的更多相关文章

随机推荐

热门专题