Kafka连接SparkStreaming的两种方式

第一种方式代码:

 import org.apache.spark.storage.StorageLevel

 import org.apache.spark.{HashPartitioner, SparkConf}

 import org.apache.spark.streaming.kafka.KafkaUtils

 import org.apache.spark.streaming.{Seconds, StreamingContext}

 object KafkaWordCount {

   val updateFunc = (iter: Iterator[(String, Seq[Int], Option[Int])]) => {

     //iter.flatMap(it=>Some(it._2.sum + it._3.getOrElse(0)).map(x=>(it._1,x)))

     iter.flatMap { case (x, y, z) => Some(y.sum + z.getOrElse(0)).map(i => (x, i)) }

   }

   def main(args: Array[String]) {

     LoggerLevels.setStreamingLogLevels()

     val Array(zkQuorum, group, topics, numThreads) = args

     val sparkConf = new SparkConf().setAppName("KafkaWordCount").setMaster("local[2]")

     val ssc = new StreamingContext(sparkConf, Seconds(5))

     ssc.checkpoint("c://ck2")

     //"alog-2016-04-16,alog-2016-04-17,alog-2016-04-18"

     //"Array((alog-2016-04-16, 2), (alog-2016-04-17, 2), (alog-2016-04-18, 2))"

     val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap

     val data = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap, StorageLevel.MEMORY_AND_DISK_SER)

     val words = data.map(_._2).flatMap(_.split(" "))

     val wordCounts = words.map((_, 1)).updateStateByKey(updateFunc, new HashPartitioner(ssc.sparkContext.defaultParallelism), true)

     wordCounts.print()//老师给的代码文件中没有这句话  必须要有一个Action,否则报错

     //java.lang.IllegalArgumentException: requirement failed: No output operations registered, so nothing to execute

     ssc.start()

     ssc.awaitTermination()

   }

 }

第二种方式代码:

 import kafka.serializer.StringDecoder

 import org.apache.log4j.{Level, Logger}

 import org.apache.spark.SparkConf

 import org.apache.spark.rdd.RDD

 import org.apache.spark.streaming.kafka.{KafkaManager, KafkaUtils}

 import org.apache.spark.streaming.{Seconds, StreamingContext}

 object DirectKafkaWordCount {

   /*  def dealLine(line: String): String = {

       val list = line.split(',').toList

   //    val list = AnalysisUtil.dealString(line, ',', '"')// 把dealString函数当做split即可

       list.get(0).substring(0, 10) + "-" + list.get(26)

     }*/

   def processRdd(rdd: RDD[(String, String)]): Unit = {

     val lines = rdd.map(_._2)

     val words = lines.map(_.split(" "))

     val wordCounts = words.map(x => (x, 1L)).reduceByKey(_ + _)

     wordCounts.foreach(println)

   }

   def main(args: Array[String]) {

     if (args.length < 3) {

       System.err.println(

         s"""

            |Usage: DirectKafkaWordCount <brokers> <topics> <groupid>

            |  <brokers> is a list of one or more Kafka brokers

            |  <topics> is a list of one or more kafka topics to consume from

            |  <groupid> is a consume group

            |

         """.stripMargin)

       System.exit(1)

     }

     Logger.getLogger("org").setLevel(Level.WARN)

     val Array(brokers, topics, groupId) = args

     // Create context with 2 second batch interval

     val sparkConf = new SparkConf().setAppName("DirectKafkaWordCount")

     sparkConf.setMaster("local[*]")

     sparkConf.set("spark.streaming.kafka.maxRatePerPartition", "5")

     sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

     val ssc = new StreamingContext(sparkConf, Seconds(2))

     // Create direct kafka stream with brokers and topics

     val topicsSet = topics.split(",").toSet

     val kafkaParams = Map[String, String](

       "metadata.broker.list" -> brokers,

       "group.id" -> groupId,

       "auto.offset.reset" -> "smallest"

     )

     val km = new KafkaManager(kafkaParams)

     val messages = km.createDirectStream[String, String, StringDecoder, StringDecoder](

       ssc, kafkaParams, topicsSet)

     messages.foreachRDD(rdd => {

       if (!rdd.isEmpty()) {

         // 先处理消息

         processRdd(rdd)

         // 再更新offsets

         km.updateZKOffsets(rdd)

       }

     })

     ssc.start()

     ssc.awaitTermination()

   }

 }

关于第二种方式可以参考:

http://blog.csdn.net/ligt0610/article/details/47311771

Kafka连接SparkStreaming的两种方式的更多相关文章

ADB连接手机的两种方式（usb数据线连接和wifi连接）
ADB(Android Debug Bridge)安卓测试桥,它是连接电脑开发端和安卓设备的桥梁,这个安卓设备可以是真实的安卓手机或者平板,也可以是虚拟的安卓模拟器, 这里介绍ADB连接手机的两种 ...
利用adb查看手机设备ip和连接手机的两种方式
电脑安装adb(查看菜鸟adb教程) [cmd]->输入adb devices (设置了path,否则需要 ./路径/adb devices)如图: 查看ip两种方法(可能有更多,目前我还没看到 ...
网络协议 finally{ return问题注入问题 jdbc注册驱动问题 PreparedStatement 连接池目的 1.2.1DBCP连接池 C3P0连接池 MYSQL两种方式进行实物管理 JDBC事务 DBUtils事务 ThreadLocal 事务特性并发访问隔离级别
1.1.1 API详解:注册驱动 DriverManager.registerDriver(new com.mysql.jdbc.Driver());不建议使用原因有2个: >导致驱动被注册2 ...
adb连接手机的两种方式
adb连接手机进行调试有两种方式,一种使用USB线,一种使用无线WiFi. 第一种使用USB线连接 1. 在手机上启用USB调试 2. CMD窗口输入adb devices,此时可以看到自己的设备 ...
Java连接Neo4j的两种方式
1.Neo4j数据库的两种方式 Neo4j可以以两种方式运行: Java应用程序中的嵌入式数据库通过REST的独立服务器不管哪一种方式,这个选择不会影响查询和使用数据库的方式. 它是由应用程序的性 ...
C++连接mysql的两种方式(ADO连接和mysql api连接)
一.ADO连接mysql 1.安装mysql-5.5.20-win32.msi和mysql-connector-odbc-5.3.4-win32.msi(一般两个安装程序要匹配,否则可能连接不上) ...
配置Java连接池的两种方式：tomcat方式以及spring方式
1. tomcat方式:在context.xml配置连接池,然后在web.xml中写配置代码(也能够在server.xml文件里配置连接池).这两种方法的差别是:在tomcat6版本号及以上中cont ...
php7 连接 mysql 的两种方式
PHP 5 的使用者可以使用 MySQL extension,mysqli 和 PDO_MYSQL .php 7移除了mysql extension,只剩下后面两种选择.这份文档解释了每个API 的术 ...
JDBC 连接池的两种方式——dbcp & c3p0
申明:本文对于连接资源关闭采用自定义的 JDBCUtils 工具: package com.test.utils; import java.sql.Connection; import java.sq ...

随机推荐

iconfont阿里巴巴矢量图标库批量保存
F12输入——var iconList = document.querySelectorAll('.icon-gouwuche1');for (var i = 0; i < iconList.l ...
php $_SERVER中的一些选项说明
1, $_SERVER['SCRIPT_FILENAME'] 和常量 __FILE__的区别(一般情况下两者的显示相同,都是显示文件的绝对路径,包括文件名,显示的起点是电脑根目录 /) ①,如果在 ...
VIP之FrameBuffer
2.VIP Frame Buffer 1.原来我是一直存在一个疑惑,demo上说VIP Frame Buffer输出是固定的60fps,但是在NiosII的程序中我没有找到设置输出为60fps的设置 ...
ubuntu server 在 virtualbox中安装增强包
原文链接:http://luzl.iteye.com/blog/1010597 首先说下增强包能干什么,在desktop下面有了增强包桌面就能变大了,在server下也是类似,那个黑屏就能变大了,还有 ...
通用的进程监控脚本process_monitor.sh使用方法
不用做任何修改,即可用process_monitor.sh监控各种进程. 源码下载:https://github.com/eyjian/libmooon/blob/master/shell/proce ...
Linux 下socket通信终极指南（附TCP、UDP完整代码）
linux下用socket通信,有TCP.UDP两种协议,网上的很多教程把两个混在了一起,或者只讲其中一种.现在我把自己这两天研究的成果汇总下来,写了一个完整的,适合初学者参考,也方便自己以后查阅. ...
C语言中：static与extern对变量和函数的作用
1.两者对全局变量 static对全局变量,表示定义一个内部变量 extern对全局变量,表示声明一个外部变量说明: 1.内部变量:定义的变量只能在本文件中访问,不能被其他文件访问. 2.不同文件中 ...
通过mybatis向数据库中插入日期数据
遇到的问题: 通过mybatis向数据库中插入日期格式数据,发现只有年月日, 没有小时分钟和秒当你想在实体类中使用java.util.Date类型,而且还想在数据库中保存时分秒时, 解决办法: 你可 ...
iOS cell左滑出现多个功能按钮(IOS8以后支持)
#import "ViewController.h" #import "Swift_OC-Swift.h" @interface ViewController ...
Tencent interview
1.常见的聚类算法 1):划分法:k-means 2):基于密度的方法: 2.EM 算法 EM算法是在概率模型中寻找参数的最大似然估计或者最大后验概率的算法,其中概率模型依赖于无法观测的隐藏变量.EM ...

Kafka连接SparkStreaming的两种方式

Kafka连接SparkStreaming的两种方式的更多相关文章

随机推荐

热门专题