Flink--sink到kafka

package com.flink.DataStream

import java.util.Properties

import org.apache.flink.api.common.serialization.SimpleStringSchema

import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}

import org.apache.flink.streaming.connectors.kafka.{FlinkKafkaConsumer09, FlinkKafkaProducer09}

import org.apache.flink.streaming.api.functions.source.SourceFunction

import org.apache.flink.streaming.api.functions.source.SourceFunction.SourceContext

import org.apache.flink.api.scala._

import org.apache.kafka.common.serialization.ByteArraySerializer

/**

  * Created by angel；

  */

object DataSource_kafka {

  def main(args: Array[String]): Unit = {

    //1指定kafka数据流的相关信息

    val zkCluster = "hadoop01,hadoop02,hadoop03:2181"

    val kafkaCluster = "hadoop01:9092,hadoop02:9092,hadoop03:9092"

    val kafkaTopicName = "test"

    val sinkKafka = "test2"

    //2.创建流处理环境

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //3.创建kafka数据流

    val properties = new Properties()

    properties.setProperty("bootstrap.servers", kafkaCluster)

    properties.setProperty("zookeeper.connect", zkCluster)

    properties.setProperty("group.id", kafkaTopicName)

    val kafka09 = new FlinkKafkaConsumer09[String](kafkaTopicName, new SimpleStringSchema(), properties)

    //4.添加数据源addSource(kafka09)

    val text = env.addSource(kafka09).setParallelism(4)

    /**

      * test#CS#request http://b2c.csair.com/B2C40/query/jaxb/direct/query.ao?t=S&c1=HLN&c2=CTU&d1=2018-07-12&at=2&ct=2&inf=1#CS#POST#CS#application/x-www-form-urlencoded#CS#t=S&json={'adultnum':'1','arrcity':'NAY','childnum':'0','depcity':'KHH','flightdate':'2018-07-12','infantnum':'2'}#CS#http://b2c.csair.com/B2C40/modules/bookingnew/main/flightSelectDirect.html?t=R&c1=LZJ&c2=MZG&d1=2018-07-12&at=1&ct=2&inf=2#CS#123.235.193.25#CS#Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1#CS#2018-01-19T10:45:13:578+08:00#CS#106.86.65.18#CS#cookie

      * */

    val values: DataStream[ProcessedData] = text.map{

      line =>

        var encrypted = line

        val values = encrypted.split("#CS#")

        val valuesLength = values.length

        var regionalRequest =  if(valuesLength > 1) values(1) else ""

        val requestMethod = if (valuesLength > 2) values(2) else ""

        val contentType = if (valuesLength > 3) values(3) else ""

        //Post提交的数据体

        val requestBody = if (valuesLength > 4) values(4) else ""

        //http_referrer

        val httpReferrer = if (valuesLength > 5) values(5) else ""

        //客户端IP

        val remoteAddr = if (valuesLength > 6) values(6) else ""

        //客户端UA

        val httpUserAgent = if (valuesLength > 7) values(7) else ""

        //服务器时间的ISO8610格式

        val timeIso8601 = if (valuesLength > 8) values(8) else ""

        //服务器地址

        val serverAddr = if (valuesLength > 9) values(9) else ""

        //获取原始信息中的cookie字符串

        val cookiesStr = if (valuesLength > 10) values(10) else ""

        ProcessedData(regionalRequest,

          requestMethod,

          contentType,

          requestBody,

          httpReferrer,

          remoteAddr,

          httpUserAgent,

          timeIso8601,

          serverAddr,

          cookiesStr)

    }

    values.print()

    val remoteAddr: DataStream[String] = values.map(line => line.remoteAddr)

    remoteAddr.print()

      //TODO sink到kafka

    val p: Properties = new Properties

    p.setProperty("bootstrap.servers", "hadoop01:9092,hadoop02:9092,hadoop03:9092")

    p.setProperty("key.serializer", classOf[ByteArraySerializer].getName)

    p.setProperty("value.serializer", classOf[ByteArraySerializer].getName)

    val sink = new FlinkKafkaProducer09[String](sinkKafka, new SimpleStringSchema(), properties)

    remoteAddr.addSink(sink)

    //5.触发运算

    env.execute("flink-kafka-wordcunt")

  }

}

//保存结构化数据

case class ProcessedData(regionalRequest: String,

                         requestMethod: String,

                         contentType: String,

                         requestBody: String,

                         httpReferrer: String,

                         remoteAddr: String,

                         httpUserAgent: String,

                         timeIso8601: String,

                         serverAddr: String,

                         cookiesStr: String

                         )

Flink--sink到kafka的更多相关文章

如何用Flink把数据sink到kafka多个(成百上千)topic中
需求与场景上游某业务数据量特别大,进入到kafka一个topic中(当然了这个topic的partition数必然多,有人肯定疑问为什么非要把如此庞大的数据写入到1个topic里,历史留下的问题,现 ...
如何用Flink把数据sink到kafka多个不同(成百上千)topic中
需求与场景上游某业务数据量特别大,进入到kafka一个topic中(当然了这个topic的partition数必然多,有人肯定疑问为什么非要把如此庞大的数据写入到1个topic里,历史留下的问题,现 ...
构建一个flink程序,从kafka读取然后写入MYSQL
最近flink已经变得比较流行了,所以大家要了解flink并且使用flink.现在最流行的实时计算应该就是flink了,它具有了流计算和批处理功能.它可以处理有界数据和无界数据,也就是可以处理永远生产 ...
flink引出的kafka不同版本的兼容性
参考: 官网协议介绍:http://kafka.apache.org/protocol.html#The_Messages_Fetch kafka协议兼容性 http://www.cnblogs.c ...
flink⼿手动维护kafka偏移量量
flink对接kafka,官方模式方式是自动维护偏移量但并没有考虑到flink消费kafka过程中,如果出现进程中断后的事情! 如果此时,进程中段: 1:数据可能丢失从获取了了数据,但是在执⾏行行 ...
Flink SQL结合Kafka、Elasticsearch、Kibana实时分析电商用户行为
body { margin: 0 auto; font: 13px / 1 Helvetica, Arial, sans-serif; color: rgba(68, 68, 68, 1); padd ...
An Overview of End-to-End Exactly-Once Processing in Apache Flink (with Apache Kafka, too!)
01 Mar 2018 Piotr Nowojski (@PiotrNowojski) & Mike Winters (@wints) This post is an adaptation o ...
关于Flink slot 和kafka topic 分区关系的说明
今天又有小伙伴在群里问 slot 和 kafka topic 分区(以下topic,默认为 kafka 的 topic )的关系,大概回答了一下,这里整理一份首先必须明确的是,Flink Task ...
使用Flink时从Kafka中读取Array[Byte]类型的Schema
使用Flink时,如果从Kafka中读取输入流,默认提供的是String类型的Schema: val myConsumer = new FlinkKafkaConsumer08[String](&qu ...
Flink 中的kafka何时commit?
https://ci.apache.org/projects/flink/flink-docs-release-1.6/internals/stream_checkpointing.html @Ove ...

随机推荐

PYTHON深拷贝与浅拷贝
浅拷贝就是对引用的拷贝,深拷贝就是对对象的资源的拷贝浅拷贝浅拷贝仅仅复制了容器中元素的地址赋值的原则 1.赋值是将一个对象的地址赋值给一个变量,让变量指向该地址( 旧瓶装旧酒 ). 2.修改不可 ...
HDU 5446
题意: 大组合数取余 (素数连乘) 思路: 对于答案 X X % pi = ai === C(m,n) % pi: 然后就是用孙子定理求出X, ai 用卢卡斯定理求得中间 LL * LL 会爆, ...
CF 489C 暴力处理
题意: 给你数的长度 m, 数的每个数的和 Sum: 输出这个数最小值和最大值 #include<bits/stdc++.h> using namespace std; int ma ...
postman 设置api_token,测试数据等操作
在postman的环境变量中先设置好一个用户的token(事先你的数据库里面要有用户的这个数据),如下图: 然后在api请求的url 的head头部添加对应的token键名,value值用花括号{{t ...
iptables防护CC和DDos和PPTP穿透脚本
一.iptables优化脚本案例 #!/bin/bash #脚本下载地址:#wget www.mrliangqi.com/pack/shell/iptables.sh #脚本使用:#bash ipta ...
Oracle Package的全局变量与Session
Oracle Package的全局变量与Session2012-07-26 aaie_ 阅 3595 转 10简单讲,同一个session下pageckage中的全局变量时公共的,会导致冲突.以下是一 ...
better-scroll项目中遇到的问题
1.在项目中发现个问题,用better-scroll实现的轮播图和页面滚动条俩个效果一起出现的时候,当鼠标或手指放在轮播图位置的时候,上下滚动的时候,页面滚动条不动发现最新的版本就会出这个问题,就是 ...
TeamLab安装及使用
http://blog.csdn.net/crazin/article/details/9529061 最近想装个项目管理管理系统方便项目管理,调研了下这方面开源的软件还是比较多的,国内的有禅道,试用 ...
Android 自动化测试框架
Android常用的自动化测试工具框架: Monkey,MonkeyRunner,UIAutomator,Robotium,Appium,Monkey Talk...... 但这些工具框架都是什么呢有 ...
django rest framework（4）
目录一.分页二.视图三.路由四.渲染器一.分页试问如果当数据量特别大的时候,你是怎么解决分页的? 方式a.记录当前访问页数的数据id 方式b.最多显示120页等方式c.只显示上一页,下一 ...

Flink--sink到kafka

Flink--sink到kafka的更多相关文章

随机推荐

热门专题