【sparkStreaming】将DStream保存在MySQL

package SparkDemo

import java.sql.{Connection, DriverManager, PreparedStatement}

import org.apache.spark.SparkConf

import org.apache.spark.streaming.{Seconds, StreamingContext}

object DStreamToMySQL {

    //定义更新函数

    def updateFunc(newValues : Seq[Int],state :Option[Int]):Option[Int] = {

        val currentCount = newValues.foldLeft(0)(_+_)

        val  previousCount = state.getOrElse(0)

        Some(currentCount+previousCount)

    }

    def main(args : Array[String]): Unit ={

        //建立SparkStream

        val conf = new SparkConf().setAppName("DStreamToMySQL")

        val ssc = new StreamingContext(conf,Seconds(1))

        //设置日志等级

        StreamingLoggingExample.setStreamingLogLevels()

        val lines = ssc.textFileStream("/tmp/yuhang.zhang/data")

        val words = lines.flatMap(_.split(" "))

        val pairWord = words.map((_,1))

        //累计更新

        val stateWordCount = pairWord.updateStateByKey[Int](updateFunc)

        //将stateWordCount存入数据库

        //stateWordCount中包含一堆的Rdd

        //我们需要对每个Rdd中的每条数据进行处理储存

        stateWordCount.foreachRDD(rdd => {

            //每个rdd中包含的数据类型为(String,Int)

            //我们把所有数据records定义为Iterator类型，方便我们遍历

            def func(records:Iterator[(String,Int)]): Unit ={

                //注意，conn和stmt定义为var不能是val

                var conn: Connection = null

                var stmt : PreparedStatement = null

                try{

                    //连接数据库

                    val url = "jdbc:mysql://localhost:3306/spark" //地址+数据库

                    val user = "root"

                    val password = ""

                    conn = DriverManager.getConnection(url,user,password)

                    //

                    records.foreach(p =>{

                        //wordcount为表名，word和count为要插入数据的属性

                        //插入数据

                        val sql = "insert into wordcount(word,count) values(?,?)"

                        stmt = conn.prepareStatement(sql)

                        stmt.setString(1,p._1.trim)

                        stmt.setInt(2,p._2.toInt)

                        stmt.executeUpdate()

                    })

                }catch {

                    case e : Exception => e.printStackTrace()

                }finally {

                    if(stmt != null)

                        stmt.close()

                    if(conn != null)

                        conn.close()

                }

            }

            val repairtitionedRDD = rdd.repartition(3)//将每个rdd重新分区

            repairtitionedRDD.foreachPartition(func)//对重新分区后的rdd执行func函数

        })

        ssc.start()//启动

        ssc.awaitTermination()//等待终止命令

    }

}

【sparkStreaming】将DStream保存在MySQL的更多相关文章

消费kafka的消息，并将其SparkStreaming结果保存到mysql
将数据保存到mysql,需要用到jdbc.为了提高保存速度,我写了一个连接池 1.保存到mysql的代码 package test05 import org.apache.log4j.{Level, ...
实时统计每天pv,uv的sparkStreaming结合redis结果存入mysql供前端展示
最近有个需求,实时统计pv,uv,结果按照date,hour,pv,uv来展示,按天统计,第二天重新统计,当然了实际还需要按照类型字段分类统计pv,uv,比如按照date,hour,pv,uv,typ ...
Asp.net Session 保存到MySql中
一网站项目引入"mysql.web.dll" 二 web.config配置中添加mysql数据库连接字符串 <connectionStrings> <remov ...
pandas对象保存到mysql出错提示“BLOB/TEXT column used in key specification without a key length”解决办法
问题将DataFrame数据保存到mysql中时,出现错误提示: BLOB/TEXT column used in key specification without a key length 原因 ...
php将图片以二进制保存到mysql数据库并显示
一.存储图片的数据表结构: -- -- 表的结构 `image` -- CREATE TABLE IF NOT EXISTS `image` ( `id` int(3) NOT NULL AUTO_I ...
Python scrapy爬虫数据保存到MySQL数据库
除将爬取到的信息写入文件中之外,程序也可通过修改 Pipeline 文件将数据保存到数据库中.为了使用数据库来保存爬取到的信息,在 MySQL 的 python 数据库中执行如下 SQL 语句来创建 ...
微信昵称有特殊符号怎么保存到mysql库里？
微信昵称有特殊符号怎么保存到mysql库里? mysql库怎么保存emoji表情? 这里提供 1 种稳妥有效的方法: // 入库之前,使用 Base64 编码 String nickname = re ...
爬取伯乐在线文章（四）将爬取结果保存到MySQL
Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item. 每个Item Pipeline ...
将爬取的数据保存到mysql中
为了把数据保存到mysql费了很多周折,早上再来折腾,终于折腾好了安装数据库 1.pip install pymysql(根据版本来装) 2.创建数据打开终端键入mysql -u root -p ...

随机推荐

面试常见的selenium问题
1.如何切换iframe 问题:如果你在一个default content中查找一个在iframe中的元素,那肯定是找不到的.反之你在一个iframe中查找另一个iframe元素或default co ...
目标检测之R-FCN
R-FCN:Object Detection via Region-based Fully Convolutional Networks R-FCN的网络结构一个Base的convolutional ...
always on 之路实践（未完）
概念及参考:http://www.mssqlmct.cn/dba/?post=97 准备:利用vmvare workstation12 克隆了4台windows server 2008 datacen ...
CAS单点登录实践（spring cas client配置）
前言: 最近的项目需要将多个站点统一登录,查阅了资料Jasig cas(Central Authentication Service)(官方站点:http://www.jasig.org/cas)使用 ...
PHP获取与操作php.ini文件的几个函数示例
php有一套设置和获取配置信息的函数,用于设置与修改相关参数信息. 1.ini_get()获取配置参数,ini_set()设置配置参数 <?php 2.ini_get_all()获取所有配置 ...
Codeforces Round #302 (Div. 2)
A. Set of Strings 题意:能否把一个字符串划分为n段,且每段第一个字母都不相同? 思路:判断字符串中出现的字符种数,然后划分即可. #include<iostream> # ...
html4与html5的区别
一.HTML5更加灵活,支持下列多种形式 1.标签名可以大写(不推荐) -<SpAN>这个HTML5也的认</SpAN> 2.属性双引号可选(推荐添加双引号) -<div ...
Could not find com.android.support:appcompat-v7:23.1.1
在刚接触Android Studio的时候,这玩意整起来确实费劲,现在接触多了,感觉还好,毕竟还有一段提升的空间,以后的必然趋势,所以还是潜心下来好好搞搞. 废话少说,切入正题. 如图所示的error ...
Spring_HelloWorld
目录: 各个类文件: pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="h ...
cnetos升级内核玩docker
最近在学习docker容器.在阿里云上的服务器内核版本比较低.所以,需要先升级. 查看内核命令:uname -r 升级内核,网上也有很多种方式.一般都是下载内核包,然后自己编译.不过这种方式需要注意的 ...

【sparkStreaming】将DStream保存在MySQL

【sparkStreaming】将DStream保存在MySQL的更多相关文章

随机推荐

热门专题