Spark streaming的正确使用。。

转自http://bit1129.iteye.com/blog/2198531

代码如下：

package spark.examples.streaming  

import java.sql.{PreparedStatement, Connection, DriverManager}

import java.util.concurrent.atomic.AtomicInteger  

import org.apache.spark.SparkConf

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.streaming._

import org.apache.spark.streaming.StreamingContext._  

//No need to call Class.forName("com.mysql.jdbc.Driver") to register Driver?  

object SparkStreamingForPartition {

  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("NetCatWordCount")

    conf.setMaster("local[3]")

    val ssc = new StreamingContext(conf, Seconds(5))

    val dstream = ssc.socketTextStream("192.168.26.140", 9999)

    //foreachRDD是DStream的动作函数，会触发Job执行，然后对一个时间间隔内创建的RDD进行处理。如果RDD执行RDD的动作函数，是否继续触发Job执行？

    dstream.foreachRDD(rdd => {

      //embedded function

      def func(records: Iterator[String]) {

        var conn: Connection = null

        var stmt: PreparedStatement = null

        try {

          val url = "jdbc:mysql://192.168.26.140:3306/person";

          val user = "root";

          val password = ""

          conn = DriverManager.getConnection(url, user, password)

          records.flatMap(_.split(" ")).foreach(word => {

            val sql = "insert into TBL_WORDS(word) values (?)";

            stmt = conn.prepareStatement(sql);

            stmt.setString(1, word)

            stmt.executeUpdate();

          })

        } catch {

          case e: Exception => e.printStackTrace()

        } finally {

          if (stmt != null) {

            stmt.close()

          }

          if (conn != null) {

            conn.close()

          }

        }

      }

      ///对RDD进行重新分区，以改变处理的并行度

      val repartitionedRDD = rdd.repartition(3)

      ///对每个分区调用func函数，func函数的参数就是一个分区对应的数据的遍历器(Iterator)

      repartitionedRDD.foreachPartition(func)

    })

    ssc.start()

    ssc.awaitTermination()

  }

}

其实我想说的，我之前使用的时候总是collect，其实应该使用foreachRdd或者直接foreachPartition，然后里边会是一系列的分区数据，然后再做操作。

我之前不敢使用foreach，我担心这是对每条数据的foreach，因为我要连接数据库，我担心如果是按每条做循环，那如果我一次吞吐1000条，那就是要连接1000次，我觉得太可怕了。。。后来发现完全不是这么回事啦~~

Spark streaming的正确使用。。的更多相关文章

Spark streaming消费Kafka的正确姿势
前言在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不 ...
Storm介绍及与Spark Streaming对比
Storm介绍 Storm是由Twitter开源的分布式.高容错的实时处理系统,它的出现令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求.Storm常用于在实时分析.在线机器学 ...
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
Storm与Spark Streaming比较
前言spark与hadoop的比较我就不多说了,除了对硬件的要求稍高,spark应该是完胜hadoop(Map/Reduce)的.storm与spark都可以用于流计算,但storm对应的场景是毫秒级 ...
Spark Streaming容错的改进和零数据丢失
本文来自Spark Streaming项目带头人 Tathagata Das的博客文章,他现在就职于Databricks公司.过去曾在UC Berkeley的AMPLab实验室进行大数据和Spark ...
Spark Streaming官方文档学习--上
官方文档地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html Spark Streaming是spark ap ...
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
Spark Streaming编程指南
Overview A Quick Example Basic Concepts Linking Initializing StreamingContext Discretized Streams (D ...
通过Spark Streaming的foreachRDD把处理后的数据写入外部存储系统中
转载自:http://blog.csdn.net/erfucun/article/details/52312682 本博文主要内容包括: 技术实现foreachRDD与foreachPartition ...

随机推荐

HGOI 20181030晚题解
Problem:给出全班人的个数总分和小明的分数(满分100分),求小明最低排名和最高排名 sol:假设小明的排名为k,总分为sum,小明的分数是r, 贪心求解, 最坏情况下,小明前面的比小明高一分( ...
winform程序关闭界面时弹出提示框
void Form1_FormClosing(object sender, FormClosingEventArgs e){ if (MessageBox.Show( "窗口关闭后,数据即将 ...
Tomcat：IOException while loading persisted sessions: java.io.EOFException
Tomcat:IOException while loading persisted sessions: java.io.EOFException 产生原因: 最近将项目名称修改了一下,然后启动项目, ...
KVM安装、镜像创建（一）
环境准备 VMware Workstation Pro启动虚拟化查看启动的系统是否支持vmx或svm grep -E '(vmx|svm)' /proc/cpuinfo 备注:操作系统centos ...
P2889 [USACO07NOV]挤奶的时间Milking Time
P2889 [USACO07NOV]挤奶的时间Milking Time 奶牛Bessie在0~N时间段产奶.农夫约翰有M个时间段可以挤奶,时间段f,t内Bessie能挤到的牛奶量e.奶牛产奶后需要休息 ...
Spark记录-Scala异常与处理
Scala try-catch语句 Scala提供try和catch块来处理异常.try块用于包含可疑代码.catch块用于处理try块中发生的异常.可以根据需要在程序中有任意数量的try...cat ...
ngx_lua_API 指令详解（四）ngx.exec指令
https://github.com/openresty/lua-nginx-module#ngxexec 参照:http://blog.csdn.net/weiyuefei/article/deta ...
流媒体技术学习笔记之（十二）Linux（Ubuntu）环境运行EasyDarwin
Debug问题??? ./easydarwin -c ./easydarwin.xml & //这样的话是80端口 ./easydarwin -c ./easydarwin.xml -d // ...
一个ssm综合小案例-商品订单管理-第一天
项目需求分析: 功能需求:登录,商品列表查询,修改项目环境及技术栈: 项目构成及环境: 本项目采用 maven 构建环境要求: IDEA Version: 2017.2.5 Tomcat Vers ...
v140平台工具集与v110工具集选择
今天在编译用vs2012编译C++动态库提示:error MSB8020: The builds tools for v140_xp (Platform Toolset = 'v140_xp') ca ...

Spark streaming的正确使用。。

Spark streaming的正确使用。。的更多相关文章

随机推荐

热门专题