spark streaming kafka example

// scalastyle:off println

package org.apache.spark.examples.streaming

import kafka.serializer.StringDecoder

import org.apache.spark.SparkConf

import org.apache.spark.streaming._

import org.apache.spark.streaming.kafka._

import org.apache.spark.streaming.scheduler.StreamingListener

import scala.util.parsing.json.JSON

/**

 * Consumes messages from one or more topics to analysis log

 * calaculate the threadhold under certain time window

 */

object LogAnalysisB {

  def main(args: Array[String]) {

    if (args.length < 2) {

      System.err.println(s"""

        |Usage: DirectKafkaWordCount <brokers> <topics>

        |  <brokers> is a list of one or more Kafka brokers

        |  <topics> is a list of one or more kafka topics to consume from

        |

        """.stripMargin)

      System.exit(1)

    }

    val WINDOW_LENGTH = new Duration(30 * 1000)

    val SLIDE_INTERVAL = new Duration(10 * 1000)

    StreamingExamples.setStreamingLogLevels()

    val Array(brokers, topics) = args

    val sparkConf = new SparkConf().setAppName("ELK Log Analysis windows Threhold")

    val ssc = new StreamingContext(sparkConf,SLIDE_INTERVAL)

    ssc.addStreamingListener(new RuleFileListenerB())

    // Create direct kafka stream with brokers and topics

    val topicsSet = topics.split(",").toSet

    val kafkaParams = Map[String, String]("metadata.broker.list" -> brokers)

    val messages = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](

      ssc, kafkaParams, topicsSet)

    // Get the lines, split them into words, count the words and print

    val lines = messages.map(_._2).map(HostAppLog.parseLogLine)

    val windowDStream = lines.window(WINDOW_LENGTH,SLIDE_INTERVAL)

    windowDStream.foreachRDD( logs=>

    {

      val topChar = logs

        .map(log => (log.msg, 1))

        .reduceByKey(_ + _)

        .top(3)(OrderingUtils.SecondValueOrdering)

      println("$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$")

      println( s"""Top Endpoints: ${topChar.mkString("[", ",", "]")}""")

      val topTest = logs

      .map(log =>(log.host+log.app,if (log.msg.contains("A")) 1 else 0))

      .reduceByKey(_+_)

      .filter(_._2 > 5)

      .take(10)

      println( s"""A > 5 times: ${topTest.mkString("[", ",", "]")}""")

    }

    )

    // Start the computation

    ssc.start()

    ssc.awaitTermination()

  }

   def wc(ssc:StreamingContext,map:Map[Any,Any]): Unit =

   {

     if( map.get("message").toString().contains("A"))

       println("find A in message:" + map.toString())

   }

}

class RuleFileListenerB extends StreamingListener {

  override def onBatchStarted(batchStarted : org.apache.spark.streaming.scheduler.StreamingListenerBatchStarted) {

    println("---------------------------------------------------------------------------------------------------------------------------------------------")

        println("check whether the file's modified date is change, if change then reload the configuration file")

    //val source = scala.io.Source.fromFile("D:/code/scala/test")

    //val lines = try source.mkString finally source.close()

    //println(lines)

    println("---------------------------------------------------------------------------------------------------------------------------------------------")

  }

}

// scalastyle:on println

spark streaming kafka example的更多相关文章

Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
Spark Streaming+Kafka
Spark Streaming+Kafka 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端, ...
spark streaming - kafka updateStateByKey 统计用户消费金额
场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额,我们可以使用updateStateByKey来实现从kafka接收用户消费json数据,统计每分钟用户的消费情况,并且统计所有时间所有用户 ...
Spark Streaming + Kafka整合(Kafka broker版本0.8.2.1+)
这篇博客是基于Spark Streaming整合Kafka-0.8.2.1官方文档. 本文主要讲解了Spark Streaming如何从Kafka接收数据.Spark Streaming从Kafka接 ...
【Spark】Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用
Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用 streaming offset设置_百度搜索将 Spark Streaming + K ...
Spark踩坑记：Spark Streaming+kafka应用及调优
前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从k ...
Spark streaming + Kafka 流式数据处理，结果存储至MongoDB、Solr、Neo4j（自用）
KafkaStreaming.scala文件 import kafka.serializer.StringDecoder import org.apache.spark.SparkConf impor ...
IDEA Spark Streaming Kafka数据源-Consumer
import org.apache.spark.SparkConf import org.apache.spark.streaming.kafka.KafkaUtils import org.apac ...
4、spark streaming+kafka
一.Receiver模式 1. receiver模式原理图在SparkStreaming程序运行起来后,Executor中会有receiver tasks接收kafka推送过来的数据.数据会被持久化 ...

随机推荐

Windows应用程序快捷方式创建工具
说明在windows中经常用到将程序添加到桌面或者是开始菜单,乘着休息时间就做了这么一个快捷的工具. 程序展示: 用法 1. 命令行(CMD命令窗口) 命令: C:\Users\Administra ...
.net winform的IsMdiContainer属性
.net winform的IsMdiContainer属性获取或设置一个值,该值指示窗体是否为多文档界面 (MDI) 子窗体的容器. 当你想让某个窗体成为其他窗体的父窗体时,请先把窗体的IsMdiC ...
把NetDimension.NanUI项目从C#6.0语法还原到C#5.0
前言找Cef资料时看到一个比较好的封装NanUI for Winform发布,让Winform界面设计拥有无限可能,下载代码后发现是Vs2015+C#6.0开发的,本机没有VS2015也不想安装.于 ...
MVC依赖性注入概述
MVC框架之所以如此受欢迎的原因之一就是它十分注意支持关注分离,使各个功能部件尽量能够相互独立.今天我们就来看看MVC4如何使用DI方法实现一些组件的独立,使本来结合紧密的部件,松耦合.我现在所说的对 ...
Mybats中字符串判断
<if test=" name=='你好' "> <if> 这样会有问题,换成 <if test=' name=="你好" ' ...
JAVAWEB贵美网上商城完整项目源码(SSH2)
JAVAWEB贵美网上商城完整项目源码(SSH2) 贵美网上商城原是北大青鸟的一个内部项目,项目采用 struts2+spring4+hibernate4+MySQL等技术实现,数据库连接池采用c3p ...
[moka同学笔记]WINDOWS中cmd的切换目录cd命令失效
症状: 解决办法: 二.解决问题原因是没有切换盘符步骤一:C:\Users\Administrator>D:步骤二:D:\>
Linux Cmd Tool 系列之—history & search command history
History cmd is for list Bash's log of the historical cmd you typed 1. List last n commands history n ...
git的使用以及github
现在公司使用的是svn,然而,技多不压身,现在学习一下github http://blog.csdn.net/llf369477769/article/details/51917557这篇博客总结的很 ...
文章转载利用border、transparent实现微风
微风效果预览微风源码 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> & ...

spark streaming kafka example

spark streaming kafka example的更多相关文章

随机推荐

热门专题