spark与kafka集成进行实时 nginx代理这种sdk埋点原生日志实时解析处理

日志格式
202.108.16.254^A1546795482.600^A/cntv.gif?appId=3&areaId=8213&srcContId=2535575&areaType=1&srcContName=%E5%88%87%E7%89%B9%E9%87%8C%E6%A2%85%E5%BC%80%E4%BA%8C%E5%BA%A6+%E5%8D%B0%E5%BA%A64-1%E5%A4%A7%E8%83%9C%E6%B3%B0%E5%9B%BD%E5%96%9C%E8%BF%8E%E5%BC%80%E9%97%A8%E7%BA%A2&clientChannel=vivo&clientVersion=2.7.2&contId=2535584&serverIp=172.16.42.154&menuId=8212&visitTime=20190107012442630&url=http%3A%2F%2Fm.cctv4g.com%2Fcntv%2Fresource%2Fcltv2%2FdramaDetailPage.jsp%3FcontId%3D2535575%26dataType%3D3%26stats_menuId%3D8212%26stats_areaId%3D8213%26stats_areaType%3D1%26stats_contId%3D2535584%26stats_srcContType%3D3%26stats_srcContId%3D2535575%26wdChannelName%3Dvivo%26wdVersionName%3D2.7.2%26wdClientType%3D1%26wdAppId%3D3%26wdNetType%3D4G%26uuid%3De8fb9e0c-5b59-36f6-80d7-88df323fa750&srcContType=3&appName=CCTV%E6%89%8B%E6%9C%BA%E7%94%B5%E8%A7%86++%EF%BC%88V2%EF%BC%89&netType=4G&areaName=%E6%B5%B7%E6%8A%A5&contName=%E5%88%87%E7%89%B9%E9%87%8C%E6%A2%85%E5%BC%80%E4%BA%8C%E5%BA%A6+%E5%8D%B0%E5%BA%A64-1%E5%A4%A7%E8%83%9C%E6%B3%B0%E5%9B%BD%E5%96%9C%E8%BF%8E%E5%BC%80%E9%97%A8%E7%BA%A2&sessionId=59787199A5F8278836AD26F672743C29&ua=yichengtianxia&en=e_pv&uuid=e8fb9e0c-5b59-36f6-80d7-88df323fa750&clientIp=223.104.105.169&menuName=2019%E5%B9%B4%E9%98%BF%E8%81%94%E9%85%8B%E4%BA%9A%E6%B4%B2%E6%9D%AF&clientType=1

数据视频审核记录与用户访问记录 进行了实时解析 （demo程序）
改进：硬编码改为软编码 ，解析构建成解析类，代码优化 与逻辑判断加强（多次测试还未出错）
1.离线数据后续可将转为dataframe存入hive进行仓库存储进行离线分析（spark core，sql都可以）=》存入mysql进行datav ，或者后端报表
2.实时存入mysql或者hbase进行实时展示 （前面几篇已经记载了）

import java.net.URLDecoder

import java.sql.{Connection, DriverManager}

import com.spark.common.{EventLogConstants, LoggerUtil, Test, TimeUtil}

import kafka.serializer.StringDecoder

import org.apache.hadoop.hbase.client.{ConnectionFactory, Put}

import org.apache.hadoop.hbase.util.Bytes

import org.apache.hadoop.hbase.{HBaseConfiguration, TableName}

import org.apache.log4j.Logger

import org.apache.spark.streaming.dstream.DStream

import org.apache.spark.streaming.kafka.KafkaUtils

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.immutable.HashMap

object SxRlStatDemo extends Serializable {

  val logger = Logger.getLogger(classOf[LoggerUtil])

  private val serialVersionUID = -4892194648703458595L

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

    conf.setMaster("local[2]").setAppName("sxdemo")

      .set("spark.streaming.kafka.maxRatePerPartition", "100")

      .set("spark.streaming.backpressure.enabled", "true")

    //开启被压

    val sc = SparkContext.getOrCreate(conf)

    val ssc = new StreamingContext(sc, Seconds(1))

    // 二、DStream的构建

    // kafka的Simple consumer API的连接参数， 只有两个

    // metadata.broker.list: 给定Kafka的服务器路径信息

    // auto.offset.reset：给定consumer的偏移量的值，largest表示设置为最大值，smallest表示设置为最小值(最大值&最小值指的是对应的分区中的日志数据的偏移量的值) ==> 每次启动都生效

    val kafkaParams = Map[String, String](

      "metadata.broker.list" -> "hadoop04:9092,hadoop05:9092,hadoop06:9092",

      "auto.offset.reset" -> "largest",

      "key.serializer" -> "org.apache.kafka.common.serialization.StringSerializer",

      "value.serializer" -> "org.apache.kafka.common.serialization.StringSerializer")

    //      "spark.serializer"->"org.apache.spark.serializer.KryoSerializer")

    // 给定一个由topic名称组成的set集合

    val topics = Set("topic_bc")

    val stream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics).map(_._2)

      //      .mapog => {

      //

      //      })

      .transform(rdd => {

      rdd.map(log => {

        var map: Map[String, String] = new HashMap[String, String]

        val splits = log.split("\\^A")

        if (splits.length==3){

        val ip = splits(0).trim

        val nginxTime = TimeUtil.parseNginxServerTime2Long(splits(1).trim).toString;

        if (nginxTime != "-1") {

          nginxTime.toString

        }

        val requestStr = splits(2)

        val index = requestStr.indexOf("?")

        if (index > -1) { // 有请求参数的情况下，获取？后面的参数

          val requestBody: String = requestStr.substring(index + 1)

          var areaInfo = if (ip.nonEmpty) Test.getInfo(ip) else Array("un", "un", "un")

          val requestParames = requestBody.split("&")

          for (e <- requestParames) {

            val index = e.indexOf("=")

            if (index < 1) {

              logger.debug("次日志无法解析")

            }

            var key = ""; var value = "";

            key = e.substring(0, index)

            value = URLDecoder.decode(e.substring(index + 1), EventLogConstants.LOG_PARAM_CHARSET)

            map.+=(key -> value)

          }

          map.+=("ip" -> ip, "s_time" -> nginxTime, "country" -> areaInfo(0), "provence" -> areaInfo(1), "city" -> areaInfo(2))

        }else{ logger.debug("次日志无法解析")}

        }

        map

      })

    })

    stream.cache()

    ssc.checkpoint("checkpoint")

    val bc_personAmt = stream.filter(log => log.contains("en") && log("en") == "e_sx")

      // combine_map.get("test_101").getOrElse("不存在") //根据key取value值,如果不存在返回后面的值

      //  scala> a.get(1)

      // res0: Option[Int] = Some(2) get返回的是Option[Int]类型 不可能等于" " ==Some("e_la")

      .map(log => (log("bc_person"), 1))

      .updateStateByKey[Long]((seq: Seq[Int], state: Option[Long]) => {

      //seq:Seq[Long] 当前批次中每个相同key的value组成的Seq

      val currentValue = seq.sum

      //state:Option[Long] 代表当前批次之前的所有批次的累计的结果，val对于wordcount而言就是先前所有批次中相同单词出现的总次数

      val preValue = state.getOrElse(0L)

      Some(currentValue + preValue)

    })

spark与kafka集成进行实时 nginx代理这种sdk埋点原生日志实时解析处理的更多相关文章

Kafka集成SparkStreaming
Spark Streaming + Kafka集成指南 Kafka项目在版本0.8和0.10之间引入了一个新的消费者API,因此有两个独立的相应Spark Streaming包可用.请选择正确的包, ...
spark读取 kafka nginx网站日志消息并写入HDFS中（转）
原文链接:spark读取 kafka nginx网站日志消息并写入HDFS中 spark 版本为1.0 kafka 版本为0.8 首先来看看kafka的架构图详细了解请参考官方我这边有三台机器用 ...
Spark Streaming和Kafka集成深入浅出
写在前面本文主要介绍Spark Streaming基本概念.kafka集成.Offset管理本文主要介绍Spark Streaming基本概念.kafka集成.Offset管理一.概述 Spar ...
Spark Streaming之四：Spark Streaming 与 Kafka 集成分析
前言 Spark Streaming 诞生于2013年,成为Spark平台上流式处理的解决方案,同时也给大家提供除Storm 以外的另一个选择.这篇内容主要介绍Spark Streaming 数据接收 ...
Spark Streaming与Kafka集成
Spark Streaming与Kafka集成 1.介绍 kafka是一个发布订阅消息系统,具有分布式.分区化.多副本提交日志特点.kafka项目在0.8和0.10之间引入了一种新型消费者API,注意 ...
Openresty+Lua+Kafka实现日志实时采集
简介在很多数据采集场景下,Flume作为一个高性能采集日志的工具,相信大家都知道它.许多人想起Flume这个组件能联想到的大多数都是Flume跟Kafka相结合进行日志的采集,这种方案有很多他的优点 ...
Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
Spark Streaming+Kafka
Spark Streaming+Kafka 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端, ...
Nginx - 代理、缓存
Nginx 标签 : nginx 代理代理服务可简单的分为正向代理和反向代理: 正向代理: 用于代理内部网络对Internet的连接请求(如VPN/NAT),客户端指定代理服务器,并将本来要直接发送 ...

随机推荐

每周工作4小时，蒂莫西·费里斯最理想的工作方式和生活方式，QQ群666243547
内容简介 · · · · · · <每周工作4小时>是一本从观念到行为,彻底改变你的工作方式和生活方式的书.它既是数字时代的职场励志书和创业指导书,也是新新人类的全球化生存手册和人生哲学 ...
PowerTCP FTP for .NET 在线e文文档
http://www.dart.com/help/ptftpnet/webframe.html
搭建简单SBT工程实践
在本机jdk(主要配置环境变量).scala(主要配置环境变量).sbt(主要配置①私服repositories ②sbtconfig.txt)都已经安装且配置好的情况下. repositories ...
k8s 高级调度亲和力和反亲和力、绑定标签、污点容忍污点
通过标签绑定 spec: nodeSelector: bigdata-node: bigdata containers: - env: pod只能运行在有bigdata-node: bigdata 标 ...
[LeetCode] 74. Search a 2D Matrix_Medium tag: Binary Search
Write an efficient algorithm that searches for a value in an m x n matrix. This matrix has the follo ...
System.Web.UI.Page的页面基类
服务器端的page类所有我们编写的页面都继承自page类,可见page类是非常重要的,page类提供了哪些功能,直接决定了我们的页面类可以继承什么功能,或者说,直接决定了我们的页面类功能的强大与否! ...
django 【form表单】
#########################根据类来生成表单################# ''' django form类通模型类的属性映射到数据库的字段一样,表单类的字段会映射到HTM ...
使用dynamic引发的异常：无法对 null 引用执行运行时绑定
今天上午运营反映有商户的账单没有生成. 查看日志,在批量生成账单服务执行过程中,因为如下异常而中断了: 跑批异常 Microsoft.CSharp.RuntimeBinder.RuntimeBinde ...
解决Nginx重启时提示nginx: [emerg] bind() to 0.0.0.0:80错误
Nginx是一款轻量级的Web服务器,特点是占有内存少,并发能力强,因而使用比较广泛,蜗牛今天在一个VPS上重启Nginx时提示“nginx: [emerg] bind() to 0.0.0.0:80 ...
Java之.jdk安装-Windows
jdk安装-windows 1. window + r,然后输入:cmd,打开黑窗口. 2. 分别输入 java -version .javac -version,检查jdk版本信息. 如果javac ...

spark与kafka集成进行实时 nginx代理 这种sdk埋点 原生日志实时解析 处理

spark与kafka集成进行实时 nginx代理 这种sdk埋点 原生日志实时解析 处理的更多相关文章

随机推荐

热门专题

spark与kafka集成进行实时 nginx代理这种sdk埋点原生日志实时解析处理

spark与kafka集成进行实时 nginx代理这种sdk埋点原生日志实时解析处理的更多相关文章