Flink在流处理上常见的Source和sink操作

flink在流处理上的source和在批处理上的source基本一致。大致有4大类

1.基于本地集合的source（Collection-based-source）

2.基于文件的source（File-based-source）

3.基于网络套接字的source（Socket-based-source）

4.自定义的source（Custom-source）

基于集合的source

import org.apache.flink.streaming.api.scala.{StreamExecutionEnvironment, _}

import scala.collection.immutable.{Queue, Stack}

import scala.collection.mutable

import scala.collection.mutable.{ArrayBuffer, ListBuffer}

object DataSource001 {

  def main(args: Array[String]): Unit = {

    val senv = StreamExecutionEnvironment.getExecutionEnvironment

    //0.用element创建DataStream(fromElements)

    val ds0: DataStream[String] = senv.fromElements("spark", "flink")

    ds0.print()

    //1.用Tuple创建DataStream(fromElements)

    val ds1: DataStream[(Int, String)] = senv.fromElements((1, "spark"), (2, "flink"))

    ds1.print()

    //2.用Array创建DataStream

    val ds2: DataStream[String] = senv.fromCollection(Array("spark", "flink"))

    ds2.print()

    //3.用ArrayBuffer创建DataStream

    val ds3: DataStream[String] = senv.fromCollection(ArrayBuffer("spark", "flink"))

    ds3.print()

    //4.用List创建DataStream

    val ds4: DataStream[String] = senv.fromCollection(List("spark", "flink"))

    ds4.print()

    //5.用List创建DataStream

    val ds5: DataStream[String] = senv.fromCollection(ListBuffer("spark", "flink"))

    ds5.print()

    //6.用Vector创建DataStream

    val ds6: DataStream[String] = senv.fromCollection(Vector("spark", "flink"))

    ds6.print()

    //7.用Queue创建DataStream

    val ds7: DataStream[String] = senv.fromCollection(Queue("spark", "flink"))

    ds7.print()

    //8.用Stack创建DataStream

    val ds8: DataStream[String] = senv.fromCollection(Stack("spark", "flink"))

    ds8.print()

    //9.用Stream创建DataStream（Stream相当于lazy List，避免在中间过程中生成不必要的集合）

    val ds9: DataStream[String] = senv.fromCollection(Stream("spark", "flink"))

    ds9.print()

    //10.用Seq创建DataStream

    val ds10: DataStream[String] = senv.fromCollection(Seq("spark", "flink"))

    ds10.print()

    //11.用Set创建DataStream(不支持)

    //val ds11: DataStream[String] = senv.fromCollection(Set("spark", "flink"))

    //ds11.print()

    //12.用Iterable创建DataStream(不支持)

    //val ds12: DataStream[String] = senv.fromCollection(Iterable("spark", "flink"))

    //ds12.print()

    //13.用ArraySeq创建DataStream

    val ds13: DataStream[String] = senv.fromCollection(mutable.ArraySeq("spark", "flink"))

    ds13.print()

    //14.用ArrayStack创建DataStream

    val ds14: DataStream[String] = senv.fromCollection(mutable.ArrayStack("spark", "flink"))

    ds14.print()

    //15.用Map创建DataStream(不支持)

    //val ds15: DataStream[(Int, String)] = senv.fromCollection(Map(1 -> "spark", 2 -> "flink"))

    //ds15.print()

    //16.用Range创建DataStream

    val ds16: DataStream[Int] = senv.fromCollection(Range(1, 9))

    ds16.print()

    //17.用fromElements创建DataStream

    val ds17: DataStream[Long] = senv.generateSequence(1, 9)

    ds17.print()

    senv.execute(this.getClass.getName)

  }

}

基于文件的source（File-based-source）

//TODO 2.基于文件的source（File-based-source）

//0.创建运行环境

val env = StreamExecutionEnvironment.getExecutionEnvironment

//TODO 1.读取本地文件

val text1 = env.readTextFile("data2.csv")

text1.print()

//TODO 2.读取hdfs文件

val text2 = env.readTextFile("hdfs://hadoop01:9000/input/flink/README.txt")

text2.print()

env.execute()

基于网络套接字的source（Socket-based-source）

val source = env.socketTextStream("IP", PORT)

自定义的source（Custom-source,以kafka为例）

Kafka基本命令：

 ● 查看当前服务器中的所有topic

bin/kafka-topics.sh --list --zookeeper  hadoop01:2181

  ● 创建topic

bin/kafka-topics.sh --create --zookeeper hadoop01:2181 --replication-factor 1 --partitions 1 --topic test

  ● 删除topic

sh bin/kafka-topics.sh --delete --zookeeper zk01:2181 --topic test

需要server.properties中设置delete.topic.enable=true否则只是标记删除或者直接重启。

  ● 通过shell命令发送消息

sh bin/kafka-console-producer.sh --broker-list hadoop01:9092 --topic test

  ● 通过shell消费消息

bin/kafka-console-consumer.sh --zookeeper hadoop01:2181 --from-beginning --topic test1

  ● 查看消费位置

bin/kafka-run-cla.ss.sh kafka.tools.ConsumerOffsetChecker --zookeeper zk01:2181 --group testGroup

  ● 查看某个Topic的详情

bin/kafka-topics.sh --topic test --describe --zookeeper zk01:2181

  ● 对分区数进行修改

kafka-topics.sh --zookeeper  zk01 --alter --partitions 15 --topic   utopic

使用flink消费kafka的消息（不规范，其实需要自己手动维护offset）：

import java.util.Properties

import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}

import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer09

import org.apache.flink.streaming.util.serialization.SimpleStringSchema

import org.apache.flink.api.scala._

/**

  * Created by angel；

  */

object DataSource_kafka {

  def main(args: Array[String]): Unit = {

    //1指定kafka数据流的相关信息

    val zkCluster = "hadoop01,hadoop02,hadoop03:2181"

    val kafkaCluster = "hadoop01:9092,hadoop02:9092,hadoop03:9092"

    val kafkaTopicName = "test"

    //2.创建流处理环境

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //3.创建kafka数据流

    val properties = new Properties()

    properties.setProperty("bootstrap.servers", kafkaCluster)

    properties.setProperty("zookeeper.connect", zkCluster)

    properties.setProperty("group.id", kafkaTopicName)

    val kafka09 = new FlinkKafkaConsumer09[String](kafkaTopicName,

      new SimpleStringSchema(), properties)

    //4.添加数据源addSource(kafka09)

    val text = env.addSource(kafka09).setParallelism(4)

    /**

      * test#CS#request http://b2c.csair.com/B2C40/query/jaxb/direct/query.ao?t=S&c1=HLN&c2=CTU&d1=2018-07-12&at=2&ct=2&inf=1#CS#POST#CS#application/x-www-form-urlencoded#CS#t=S&json={'adultnum':'1','arrcity':'NAY','childnum':'0','depcity':'KHH','flightdate':'2018-07-12','infantnum':'2'}#CS#http://b2c.csair.com/B2C40/modules/bookingnew/main/flightSelectDirect.html?t=R&c1=LZJ&c2=MZG&d1=2018-07-12&at=1&ct=2&inf=2#CS#123.235.193.25#CS#Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1#CS#2018-01-19T10:45:13:578+08:00#CS#106.86.65.18#CS#cookie

      * */

    val values: DataStream[ProcessedData] = text.map{

      line =>

        var encrypted = line

        val values = encrypted.split("#CS#")

        val valuesLength = values.length

        var regionalRequest =  if(valuesLength > 1) values(1) else ""

        val requestMethod = if (valuesLength > 2) values(2) else ""

        val contentType = if (valuesLength > 3) values(3) else ""

        //Post提交的数据体

        val requestBody = if (valuesLength > 4) values(4) else ""

        //http_referrer

        val httpReferrer = if (valuesLength > 5) values(5) else ""

        //客户端IP

        val remoteAddr = if (valuesLength > 6) values(6) else ""

        //客户端UA

        val httpUserAgent = if (valuesLength > 7) values(7) else ""

        //服务器时间的ISO8610格式

        val timeIso8601 = if (valuesLength > 8) values(8) else ""

        //服务器地址

        val serverAddr = if (valuesLength > 9) values(9) else ""

        //获取原始信息中的cookie字符串

        val cookiesStr = if (valuesLength > 10) values(10) else ""

        ProcessedData(regionalRequest,

          requestMethod,

          contentType,

          requestBody,

          httpReferrer,

          remoteAddr,

          httpUserAgent,

          timeIso8601,

          serverAddr,

          cookiesStr)

    }

    values.print()

    val remoteAddr: DataStream[String] = values.map(line => line.remoteAddr)

    remoteAddr.print()

    //5.触发运算

    env.execute("flink-kafka-wordcunt")

  }

}

//保存结构化数据

case class ProcessedData(regionalRequest: String,

                         requestMethod: String,

                         contentType: String,

                         requestBody: String,

                         httpReferrer: String,

                         remoteAddr: String,

                         httpUserAgent: String,

                         timeIso8601: String,

                         serverAddr: String,

                         cookiesStr: String

                         )

Flink在流处理上常见的Source和sink操作的更多相关文章

Flink之流处理理论基础
目录 Introduction to Stateful Stream Processing Traditional Data Infrastructures Stateful Stream Proce ...
flink批处理中的source以及sink介绍
一.flink在批处理中常见的source flink在批处理中常见的source主要有两大类: 1.基于本地集合的source(Collection-based-source) 2.基于文件的sou ...
Flink：动态表上的连续查询
用SQL分析数据流越来越多的公司在采用流处理技术,并将现有的批处理应用程序迁移到流处理或者为新的应用设计流处理方案.其中许多应用程序专注于分析流数据.分析的数据流来源广泛,如数据库交易,点击,传感器 ...
Plink v0.1.0 发布——基于Flink的流处理平台
Plink是一个基于Flink的流处理平台,旨在基于 [Apache Flink]封装构建上层平台. 提供常见的作业管理功能.如作业的创建,删除,编辑,更新,保存,启动,停止,重启,管理,多作业模板配 ...
Flink的流处理API(二)
一.Environment 1,getExecutionEnvironment getExecutionEnvironment会根据查询运行的方式决定返回什么样的运行环境,是最常用的一种创建执行环境的 ...
《基于Apache Flink的流处理》读书笔记
前段时间详细地阅读了 <Apache Flink的流处理> 这本书,作者是 Fabian Hueske&Vasiliki Kalavri,国内崔星灿翻译的,这本书非常详细.全面得介 ...
Java中有几种类型的流？以及常见的实现类都有哪些？
Java中有几种类型的流?以及常见的实现类都有哪些? 首先应该从两个角度来看: 从输入输出方面来讲: Java中有输入流和输出流从流的编码方式上来讲: Java中有字节流和字符流 ...
「漏洞预警」Apache Flink 任意 Jar 包上传导致远程代码执行漏洞复现
漏洞描述 Apache Flink是一个用于分布式流和批处理数据的开放源码平台.Flink的核心是一个流数据流引擎,它为数据流上的分布式计算提供数据分发.通信和容错功能.Flink在流引擎之上构建批处 ...
Flink 自定义source和sink，获取kafka的key，输出指定key
--------20190905更新------- 沙雕了,可以用 JSONKeyValueDeserializationSchema,接收ObjectNode的数据,如果有key,会放在Objec ...

随机推荐

Linux inode与文件系统关系
inode只有在linux文件系统的概念(ext3,ext4) .inode节点数量与文件存储的关系. 二.在文件系统初始化时设置合适的节点数量. linux服务器在存储文件小而数量多的情况下,需要考 ...
数据库中关于convert的参数学习（转化函数用法）
该页面中的内容来之http://www.cnblogs.com/xionglee/articles/1444916.html,以前我一直不知道当中的1,2,3表示什么,现在才知道呀!style 格式: ...
Docker 导出 & 导入
Docker 容器因为它的快速部署被深受喜爱.本文记录 Docker 容器的导出与导入,分别用到 Docker 的 export 和 import 命令. 1.查看正在运行的容器: [root@loc ...
C和C++相互调用
在项目中融合C和C++有时是不可避免的,在调用对方的功能函数的时候,或许会出现这样那样的问题.近来在主程序是C语言,而调用C++功能函数的时候,C++的*.h头文件都能找到,功能函数也都定义了,最重要 ...
响应式页面-@media介绍
01 响应式页面-@media介绍, 我们为什么要写自适应的页面(响应式页面) 众所周知,电脑.平板.手机的屏幕是差距很大的,假如在电脑上写好了一个页面,在电脑上看起来不错,但是如果放到手机上的话 ...
Spring与Quartz实现定期任务
<!-- 任务调度测试实现一 : 自定义的任务对象com.bocloud.equipment.test.ExampleJob 必须继承QuartzJobBean类,实现抽象方法executeIn ...
29)django-ORM连表结构
连表结构一对多:models.ForeignKey(其他表) 多对多:models.ManyToManyField(其他表) 一对一:models.OneToOneField(其他表) 应用场景: ...
Mave------pom.xml标签详解
pom文件作为MAVEN中重要的配置文件,对于它的配置是相当重要.文件中包含了开发者需遵循的规则.缺陷管理系统.组织.licenses.项目信息.项目依赖性等.下面将重点介绍一下该文件的基本组成与功能 ...
JS 实现的浏览器系统通知 iNotify.js
注:本分非原创:信息来源 oschina 授权协议:MIT 开发语言:JavaScript 操作系统:跨平台软件作者:同一种调调 iNotify.js 详细介绍 JS 实现浏览器的 title 闪烁 ...
Confluence 6 在你用户宏中使用参数
你可以为你的用户宏指定参数.这样的话,用户可以使用参数来决定 Confluence 页面的显示情况. 如何在 Confluence 页面中使用你的宏参数当添加一个宏到 Confluence 页面中的 ...