Flink WorkCount代码

Flink-scala所需依赖

<properties>

    <flink.version>1.7.0</flink.version>

</properties>

<dependencies>

    <dependency>

        <groupId>org.apache.flink</groupId>

        <artifactId>flink-scala_2.11</artifactId>

        <version>${flink.version}</version>

    </dependency>

    <dependency>

        <groupId>org.apache.flink</groupId>

        <artifactId>flink-streaming-scala_2.11</artifactId>

        <version>${flink.version}</version>

    </dependency>

</dependencies>

流式处理WorkCount代码

import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}

import org.apache.flink.streaming.api.windowing.time.Time

object WordCount {

  //创建WordWithCount样例类，用来存储数据最终统计结果

  case class WordWithCount(word: String, count: Int)

  def main(args: Array[String]): Unit = {

    //获取上下文对象（初始化环境）

    val streamExecutionEnvironment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

    //获取netcat服务的数据

    val dataStream: DataStream[String] = streamExecutionEnvironment.socketTextStream("slave4", 9000)

    //必须要引入这个包，包含了计算用到的方法

    import org.apache.flink.api.scala._

    //对获取到的数据进行处理

    val dataStream1: DataStream[WordWithCount] = dataStream.flatMap(_.toLowerCase.split(" ") filter (_.nonEmpty))

      .map(WordWithCount(_, 1))

      .keyBy("word")

      .timeWindow(Time.seconds(2), Time.seconds(2))

      .reduce((a, b) => WordWithCount(a.word, a.count + b.count))

    //打印结果，设置并行度为1

    dataStream1.print.setParallelism(1)

    //启动执行

    streamExecutionEnvironment.execute("WordCount")

  }

}

批式处理WordCount代码

import org.apache.flink.api.scala.{DataSet, ExecutionEnvironment}

object WordCount {

  def main(args: Array[String]): Unit = {

    //获取上下文对象（初始化环境）

    val executionEnvironment: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment

    //获取文件中的数据

    val dataSet: DataSet[String] = executionEnvironment.readTextFile("./src/main/data/wordCount.txt")

    //必须要引入这个包，包含了计算用到的方法

    import org.apache.flink.api.scala._

    //对获取到的数据进行处理

    val aggregateDataSet: AggregateDataSet[(String, Int)] = dataSet.flatMap(_.toLowerCase.split(" ") filter (_.nonEmpty))

      .map((_, 1))

      .groupBy(0)0000000

      .sum(1)

    //打印结果

    aggregateDataSet.print

  }

}

流式处理与批式处理的区别

流式处理：Streaming

	初始化对象：StreamExecutionEnvironment

	返回值类型：DataStream

批式处理：Batch

	初始化对象：ExecutionEnvironment

	返回值类型：DataSet

Flink WorkCount代码的更多相关文章

Flink资料（8） -- Flink代码贡献的指导及准则
本文翻译自Contributing Code ----------------------------------------- Apache Flink是由自愿的代码贡献者维护.优化及扩展的.Apa ...
修改代码150万行！与 Blink 合并后的 Apache Flink 1.9.0 究竟有哪些重大变更？
8月22日,Apache Flink 1.9.0 正式发布,早在今年1月,阿里便宣布将内部过去几年打磨的大数据处理引擎Blink进行开源并向 Apache Flink 贡献代码.当前 Flink 1. ...
flink实时数仓从入门到实战
第一章.flink实时数仓入门一.依赖 <!--Licensed to the Apache Software Foundation (ASF) under oneor more contri ...
Flink - DataStream
先看例子, final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); D ...
新一代大数据处理引擎 Apache Flink
https://www.ibm.com/developerworks/cn/opensource/os-cn-apache-flink/index.html 大数据计算引擎的发展这几年大数据的飞速发 ...
如何参与flink开源项目
参与flink开源项目 https://flink.apache.org/how-to-contribute.html 1.回答社区问题 2.撰写bug报告 3.对于改进建议或新的特征 4.帮助别人并 ...
flink基础教程读书笔记
数据架构设计领域发生了重大的变化,基于流的处理是变化的核心. 分布式文件系统用来存储不经常更新的数据,他们也是大规模批量计算所以来的数据存储方式. 批处理架构(lambda架构)实现计数的方式:持续摄 ...
Flink（一）Flink的入门简介
一. Flink的引入这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop.Storm,以及后来的 Spark,他们都有着各自专注的应用场景.Spark 掀开了内存计算的先河 ...
什么是Apache Flink
大数据计算引擎的发展这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop.Storm,以及后来的 Spark,他们都有着各自专注的应用场景.Spark 掀开了内存计算的先河, ...

随机推荐

vue 百度地图多标注展示和点击标注进行的提示
index.html中加入script <script type="text/javascript" src="http://api.map.baidu.com/a ...
拼多多面试真题：如何用 Redis 统计独立用户访问量！
阅读本文大概需要 2.8 分钟. 作者:沙茶敏碎碎念众所周至,拼多多的待遇也是高的可怕,在挖人方面也是不遗余力,对于一些工作 3 年的开发,稍微优秀一点的,都给到 30K 的 Offer. 当然,拼 ...
java并发编程（三）cpu cache & 缓存一致性
一 cpu cache 1. cache的意义为什么需要CPU cache?因为CPU的频率太快了,快到主存跟不上,这样在处理器时钟周期内,CPU常常需要等待主存,浪费资源.所以cache的出 ...
load average 定义(网易面试)
1. load average 定义 linux系统中的Load对当前CPU工作量的度量.简单的说是进程队列的长度. Load Average 就是一段时间 (1 分钟.5分钟.15分钟) 内平均 L ...
test软件工程第三次作业
零.前言本次作业要求个人编写程序,截止日期2019年9月25日23:00. 请先阅读<构建之法>第一章至第三章的内容,并在下方作业里体现出阅读后的成果.特别是第2章中的效能分析及个人软件 ...
CentOS 使用官方源yum安装最新nginx版本
CentOS 使用官方源yum安装最新nginx版本 1.创建nginx.repo # vi /etc/yum.repos.d/nginx.repo 2.添加内容#如果是CentOS6,文件内容如下: ...
bootcss 之 .table-hover 类鼠标悬停
通过添加 .table-hover 类可以让 <tbody> 中的每一行对鼠标悬停状态作出响应. <table class="table table-hover" ...
.netcore项目部署到linux的docker里后，速度异常的慢
.netcore项目部署到linux的docker里后,速度异常的慢,部署在iis下速度非常快. 特别是接口里再调用其他接口,那速度绝对是蜗牛爬行的速度. 经过几个月的折腾,终于知道是什么问题了: ...
matlab学习笔记12单元数组和元胞数组 cell,celldisp,iscell,isa,deal,cellfun,num2cell,size
一起来学matlab-matlab学习笔记12 12_1 单元数组和元胞数组 cell array --cell,celldisp,iscell,isa,deal,cellfun,num2cell,s ...
Java 面向接口的编程
面向接口的编程什么是面向接口编程呢?我个人的定义是:在系统分析和架构中,分清层次和依赖关系,每个层次不是直接向其上层提供服务(即不是直接实例化在上层中),而是通过定义一组接口,仅向上层暴露其接口功能 ...

Flink WorkCount代码

Flink WorkCount代码的更多相关文章

随机推荐

热门专题