Flink--sink到kafka

package com.flink.DataStream

import java.util.Properties

import org.apache.flink.api.common.serialization.SimpleStringSchema

import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}

import org.apache.flink.streaming.connectors.kafka.{FlinkKafkaConsumer09, FlinkKafkaProducer09}

import org.apache.flink.streaming.api.functions.source.SourceFunction

import org.apache.flink.streaming.api.functions.source.SourceFunction.SourceContext

import org.apache.flink.api.scala._

import org.apache.kafka.common.serialization.ByteArraySerializer

/**

  * Created by angel；

  */

object DataSource_kafka {

  def main(args: Array[String]): Unit = {

    //1指定kafka数据流的相关信息

    val zkCluster = "hadoop01,hadoop02,hadoop03:2181"

    val kafkaCluster = "hadoop01:9092,hadoop02:9092,hadoop03:9092"

    val kafkaTopicName = "test"

    val sinkKafka = "test2"

    //2.创建流处理环境

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //3.创建kafka数据流

    val properties = new Properties()

    properties.setProperty("bootstrap.servers", kafkaCluster)

    properties.setProperty("zookeeper.connect", zkCluster)

    properties.setProperty("group.id", kafkaTopicName)

    val kafka09 = new FlinkKafkaConsumer09[String](kafkaTopicName, new SimpleStringSchema(), properties)

    //4.添加数据源addSource(kafka09)

    val text = env.addSource(kafka09).setParallelism(4)

    /**

      * test#CS#request http://b2c.csair.com/B2C40/query/jaxb/direct/query.ao?t=S&c1=HLN&c2=CTU&d1=2018-07-12&at=2&ct=2&inf=1#CS#POST#CS#application/x-www-form-urlencoded#CS#t=S&json={'adultnum':'1','arrcity':'NAY','childnum':'0','depcity':'KHH','flightdate':'2018-07-12','infantnum':'2'}#CS#http://b2c.csair.com/B2C40/modules/bookingnew/main/flightSelectDirect.html?t=R&c1=LZJ&c2=MZG&d1=2018-07-12&at=1&ct=2&inf=2#CS#123.235.193.25#CS#Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1#CS#2018-01-19T10:45:13:578+08:00#CS#106.86.65.18#CS#cookie

      * */

    val values: DataStream[ProcessedData] = text.map{

      line =>

        var encrypted = line

        val values = encrypted.split("#CS#")

        val valuesLength = values.length

        var regionalRequest =  if(valuesLength > 1) values(1) else ""

        val requestMethod = if (valuesLength > 2) values(2) else ""

        val contentType = if (valuesLength > 3) values(3) else ""

        //Post提交的数据体

        val requestBody = if (valuesLength > 4) values(4) else ""

        //http_referrer

        val httpReferrer = if (valuesLength > 5) values(5) else ""

        //客户端IP

        val remoteAddr = if (valuesLength > 6) values(6) else ""

        //客户端UA

        val httpUserAgent = if (valuesLength > 7) values(7) else ""

        //服务器时间的ISO8610格式

        val timeIso8601 = if (valuesLength > 8) values(8) else ""

        //服务器地址

        val serverAddr = if (valuesLength > 9) values(9) else ""

        //获取原始信息中的cookie字符串

        val cookiesStr = if (valuesLength > 10) values(10) else ""

        ProcessedData(regionalRequest,

          requestMethod,

          contentType,

          requestBody,

          httpReferrer,

          remoteAddr,

          httpUserAgent,

          timeIso8601,

          serverAddr,

          cookiesStr)

    }

    values.print()

    val remoteAddr: DataStream[String] = values.map(line => line.remoteAddr)

    remoteAddr.print()

      //TODO sink到kafka

    val p: Properties = new Properties

    p.setProperty("bootstrap.servers", "hadoop01:9092,hadoop02:9092,hadoop03:9092")

    p.setProperty("key.serializer", classOf[ByteArraySerializer].getName)

    p.setProperty("value.serializer", classOf[ByteArraySerializer].getName)

    val sink = new FlinkKafkaProducer09[String](sinkKafka, new SimpleStringSchema(), properties)

    remoteAddr.addSink(sink)

    //5.触发运算

    env.execute("flink-kafka-wordcunt")

  }

}

//保存结构化数据

case class ProcessedData(regionalRequest: String,

                         requestMethod: String,

                         contentType: String,

                         requestBody: String,

                         httpReferrer: String,

                         remoteAddr: String,

                         httpUserAgent: String,

                         timeIso8601: String,

                         serverAddr: String,

                         cookiesStr: String

                         )

Flink--sink到kafka的更多相关文章

如何用Flink把数据sink到kafka多个(成百上千)topic中
需求与场景上游某业务数据量特别大,进入到kafka一个topic中(当然了这个topic的partition数必然多,有人肯定疑问为什么非要把如此庞大的数据写入到1个topic里,历史留下的问题,现 ...
如何用Flink把数据sink到kafka多个不同(成百上千)topic中
需求与场景上游某业务数据量特别大,进入到kafka一个topic中(当然了这个topic的partition数必然多,有人肯定疑问为什么非要把如此庞大的数据写入到1个topic里,历史留下的问题,现 ...
构建一个flink程序,从kafka读取然后写入MYSQL
最近flink已经变得比较流行了,所以大家要了解flink并且使用flink.现在最流行的实时计算应该就是flink了,它具有了流计算和批处理功能.它可以处理有界数据和无界数据,也就是可以处理永远生产 ...
flink引出的kafka不同版本的兼容性
参考: 官网协议介绍:http://kafka.apache.org/protocol.html#The_Messages_Fetch kafka协议兼容性 http://www.cnblogs.c ...
flink⼿手动维护kafka偏移量量
flink对接kafka,官方模式方式是自动维护偏移量但并没有考虑到flink消费kafka过程中,如果出现进程中断后的事情! 如果此时,进程中段: 1:数据可能丢失从获取了了数据,但是在执⾏行行 ...
Flink SQL结合Kafka、Elasticsearch、Kibana实时分析电商用户行为
body { margin: 0 auto; font: 13px / 1 Helvetica, Arial, sans-serif; color: rgba(68, 68, 68, 1); padd ...
An Overview of End-to-End Exactly-Once Processing in Apache Flink (with Apache Kafka, too!)
01 Mar 2018 Piotr Nowojski (@PiotrNowojski) & Mike Winters (@wints) This post is an adaptation o ...
关于Flink slot 和kafka topic 分区关系的说明
今天又有小伙伴在群里问 slot 和 kafka topic 分区(以下topic,默认为 kafka 的 topic )的关系,大概回答了一下,这里整理一份首先必须明确的是,Flink Task ...
使用Flink时从Kafka中读取Array[Byte]类型的Schema
使用Flink时,如果从Kafka中读取输入流,默认提供的是String类型的Schema: val myConsumer = new FlinkKafkaConsumer08[String](&qu ...
Flink 中的kafka何时commit?
https://ci.apache.org/projects/flink/flink-docs-release-1.6/internals/stream_checkpointing.html @Ove ...

随机推荐

zabbix3监控php-fpm的状态
php-fpm和nginx一样内建了一个状态页,对于想了解php-fpm的状态以及监控php-fpm非常有帮助 . 启用php-fpm状态功能 [root@node1:~]# vim /usr/loc ...
使用lld自动发现监控多实例redis
zabbix 可以通过常见的手段监控到各种服务,通过编写脚本来获取返回值并将获取到的值通过图形来展现出来,包括(系统.服务.业务)层面.可是有些时候在一些不固定的场合监控一些不固定的服务就比较麻烦.例 ...
sed 用法记录
sed是一个很好的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替换.删除.新增.选取等特定工作,下面先了解一下sed的用法sed命令行格式为: sed ...
Find Lines
(Uva 6955可以直接随机,湖大OJ 13348 要优化) 题意:给出 n个点的坐标, 一个百分数p, 求是否有一条直线上有 n * p /100个点… 随机化算法,但也要优化下……(TLE, ...
Laravel-Excel 导入 Excel 文件----为什么只获取到最后一行数据？
### 今天使用了Laravel-Excel 到类文件,想做一个excel 文件到导入和导出,但是看了官方到文档示例,自己做了一下,发现只取到到最后一行到数据, 有点摸不着头脑! 网上找了一下, ...
[Linux]流媒体服务器概述
二.何为流媒体与流式传输? 2.1 流媒体「流媒体」是指采用「流式传输」的方式在Internet播放的媒体格式,流媒体最大的特点就是「边下边播」,常用的流媒体格式有FLV(使用FLASH作为视频播放 ...
Jquery简单使用
展示:$("#id").show(); 隐藏:$("#id").hide();
Bootstrap如何配合字体自适应
Bootstrap框架中,字体不会自适应,及时使用rem都不行,那么就只有使用媒体查询来做.这样可能会有点麻烦,但是这是我目前找到的一个方法直接上代码了 div { font-size: 12px; ...
Android组件化demo实现以及遇坑分享
首先贴出demo的github地址:GitHub - TenzLiu/TenzModuleDemo: android组件化demo 作者:TenzLiu原文链接:https://www.jianshu ...
Confluence 6 安全相关问题提交链接
找到和报告安全漏洞 Atlassian 有关安全漏洞的报告细节,请参考如何报告一个安全问题(How to Report a Security Issue)链接. 发布 Confluence 安全公共 ...

Flink--sink到kafka

Flink--sink到kafka的更多相关文章

随机推荐

热门专题