转载自:http://blog.csdn.net/jiangpeng59/article/details/53318761

foreachRDD通常用来把SparkStream运行得到的结果保存到外部系统比如HDFS、Mysql、Redis等等。了解下面的知识可以帮助我们避免很多误区

误区1:实例化外部连接对象的位置不正确,比如下面代码


  1. dstream.foreachRDD { rdd =>
  2. val connection = createNewConnection()  // executed at the driver
  3. rdd.foreach { record =>
  4. connection.send(record) // executed at the worker
  5. }
  6. }  ​

其实例化的连接对象在driver中,然后通过序列化的方式发送到各个Worker,但实际上Connection的序列化通常是无法正确序列化的

误区2:为每条记录都创建一个连接对象


  1. dstream.foreachRDD { rdd =>
  2. rdd.foreach { record =>
  3. val connection = createNewConnection()
  4. connection.send(record)
  5. connection.close()
  6. }
  7. }  ​

虽然误区1的问题得到了解决,但通常情况下,外部系统如mysql,其连接对象是非常可贵的,如果一条记录就申请一个连接资源,系统性能会非常糟糕

然后,给出了一个比较好的方法,为每一个分区创建一个连接对象,其具体代码如下

 

  1. dstream.foreachRDD { rdd =>
  2. rdd.foreachPartition { partitionOfRecords =>
  3. val connection = createNewConnection()
  4. partitionOfRecords.foreach(record => connection.send(record))
  5. connection.close()
  6. }
  7. }  ​

最后给出一个较优的方案,使用一个连接池来维护连接对象

 

  1. dstream.foreachRDD { rdd =>
  2. rdd.foreachPartition { partitionOfRecords =>
  3. // ConnectionPool is a static, lazily initialized pool of connections
  4. val connection = ConnectionPool.getConnection()
  5. partitionOfRecords.foreach(record => connection.send(record))
  6. ConnectionPool.returnConnection(connection)  // return to the pool for future reuse
  7. }
  8. }  ​

正如上面代码阐述的,连接对象推荐是使用lazy关键字来修饰,用到的时候才去实例化

下面给出网上一段把SparkStream的结果保存到Mysql中的代码示例


  1. package spark.examples.streaming
  2. import java.sql.{PreparedStatement, Connection, DriverManager}
  3. import java.util.concurrent.atomic.AtomicInteger
  4. import org.apache.spark.SparkConf
  5. import org.apache.spark.streaming.{Seconds, StreamingContext}
  6. import org.apache.spark.streaming._
  7. import org.apache.spark.streaming.StreamingContext._
  8. object SparkStreamingForPartition {
  9. def main(args: Array[String]) {
  10. val conf = new SparkConf().setAppName("NetCatWordCount")
  11. conf.setMaster("local[3]")
  12. val ssc = new StreamingContext(conf, Seconds(5))
  13. //The DStream is a collection of RDD, which makes the method foreachRDD reasonable
  14. val dstream = ssc.socketTextStream("192.168.26.140", 9999)
  15. dstream.foreachRDD(rdd => {
  16. //embedded function
  17. def func(records: Iterator[String]) {
  18. var conn: Connection = null
  19. var stmt: PreparedStatement = null
  20. try {
  21. val url = "jdbc:mysql://192.168.26.140:3306/person";
  22. val user = "root";
  23. val password = ""
  24. conn = DriverManager.getConnection(url, user, password)
  25. records.flatMap(_.split(" ")).foreach(word => {
  26. val sql = "insert into TBL_WORDS(word) values (?)";
  27. stmt = conn.prepareStatement(sql);
  28. stmt.setString(1, word)
  29. stmt.executeUpdate();
  30. })
  31. } catch {
  32. case e: Exception => e.printStackTrace()
  33. } finally {
  34. if (stmt != null) {
  35. stmt.close()
  36. }
  37. if (conn != null) {
  38. conn.close()
  39. }
  40. }
  41. }
  42. val repartitionedRDD = rdd.repartition(3)
  43. repartitionedRDD.foreachPartition(func)
  44. })
  45. ssc.start()
  46. ssc.awaitTermination()
  47. }
  48. }  ​

注意的细节:

Dstream和RDD一样是延迟执行,只有遇到action操作才会真正去计算。因此在Dstream的内部RDD必须包含Action操作才能是接受到的数据得到处理。即使代码中包含foreachRDD,但在内部却没有action的RDD,SparkStream只会简单地接受数据数据而不进行处理

 

SparkStream:4)foreachRDD详解的更多相关文章

  1. 58、Spark Streaming: DStream的output操作以及foreachRDD详解

    一.output操作 1.output操作 DStream中的所有计算,都是由output操作触发的,比如print().如果没有任何output操作,那么,压根儿就不会执行定义的计算逻辑. 此外,即 ...

  2. Linq之旅:Linq入门详解(Linq to Objects)

    示例代码下载:Linq之旅:Linq入门详解(Linq to Objects) 本博文详细介绍 .NET 3.5 中引入的重要功能:Language Integrated Query(LINQ,语言集 ...

  3. 架构设计:远程调用服务架构设计及zookeeper技术详解(下篇)

    一.下篇开头的废话 终于开写下篇了,这也是我写远程调用框架的第三篇文章,前两篇都被博客园作为[编辑推荐]的文章,很兴奋哦,嘿嘿~~~~,本人是个很臭美的人,一定得要截图为证: 今天是2014年的第一天 ...

  4. EntityFramework Core 1.1 Add、Attach、Update、Remove方法如何高效使用详解

    前言 我比较喜欢安静,大概和我喜欢研究和琢磨技术原因相关吧,刚好到了元旦节,这几天可以好好学习下EF Core,同时在项目当中用到EF Core,借此机会给予比较深入的理解,这里我们只讲解和EF 6. ...

  5. Java 字符串格式化详解

    Java 字符串格式化详解 版权声明:本文为博主原创文章,未经博主允许不得转载. 微博:厉圣杰 文中如有纰漏,欢迎大家留言指出. 在 Java 的 String 类中,可以使用 format() 方法 ...

  6. Android Notification 详解(一)——基本操作

    Android Notification 详解(一)--基本操作 版权声明:本文为博主原创文章,未经博主允许不得转载. 微博:厉圣杰 源码:AndroidDemo/Notification 文中如有纰 ...

  7. Android Notification 详解——基本操作

    Android Notification 详解 版权声明:本文为博主原创文章,未经博主允许不得转载. 前几天项目中有用到 Android 通知相关的内容,索性把 Android Notificatio ...

  8. Git初探--笔记整理和Git命令详解

    几个重要的概念 首先先明确几个概念: WorkPlace : 工作区 Index: 暂存区 Repository: 本地仓库/版本库 Remote: 远程仓库 当在Remote(如Github)上面c ...

  9. Drawable实战解析:Android XML shape 标签使用详解(apk瘦身,减少内存好帮手)

    Android XML shape 标签使用详解   一个android开发者肯定懂得使用 xml 定义一个 Drawable,比如定义一个 rect 或者 circle 作为一个 View 的背景. ...

随机推荐

  1. input搜索框:根据历史记录自动填充后,去除默认黄色背景

    如果是纯色背景,直接通过box-shadow覆盖即可: input:-webkit-autofill { color: #333!important; -webkit-text-fill-color: ...

  2. L360 Most People Spend Their Time in Just 25 Places

    Some people are always out on the town, going to concerts, restaurant openings, you name it. They're ...

  3. c++ string 转double

    #include <iostream>#include <sstream> //使用stringstream需要引入这个头文件using namespace std; Type ...

  4. 四、fgets与fputs

    fgets 描述:从流中读取最多size个字符,遇到文件末尾或\n则停止读取,该函数会在读取到的字符最后加上\0. 原型:char *fgets(char *s, int size, FILE *st ...

  5. Selenium-java测试环境搭建

    1.1背景 Selenium也是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE.Mozilla Firefox.Mozilla ...

  6. python基础一之课后作业:编写登录接口

    1 # Author : Mamba 2 3 #python基础一之课后作业:编写登录接口 4 5 # 输入用户名密码 6 # 认证成功后显示欢迎信息 7 # 用户名3次输入错误后,退出程序 8 # ...

  7. 【转】干货 | 【虚拟货币钱包】从 BIP32、BIP39、BIP44 到 Ethereum HD Wallet

    虚拟货币钱包 钱包顾名思义是存放$$$.但在虚拟货币世界有点不一样,我的帐户资讯(像是我有多少钱)是储存在区块链上,实际存在钱包中的是我的帐户对应的 key.有了这把 key 我就可以在虚拟货币世界证 ...

  8. ODI Scenario 场景

    ODI中,场景的作用类似发布版本,当映射最终修改版完成时,可以生成场景.无论是映射(Mapping)还是包(Package)都可以生成场景. 包调用映射和调用场景的区别: 1,包直接调用映射,当映射修 ...

  9. timestamp时间格式

    时间戳(timestamp),通常是一个字符序列,唯一地标识某一刻的时间. 时间戳是指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的 ...

  10. mysql数据库查询和聚合函数

    1.模糊查询 like % 表示多个任意字符 _ 表示任意一个字符 例如:查询黄姓同学 select * from student where name '黄%' select * from stud ...