Flink WorkCount代码

Flink-scala所需依赖

<properties>

    <flink.version>1.7.0</flink.version>

</properties>

<dependencies>

    <dependency>

        <groupId>org.apache.flink</groupId>

        <artifactId>flink-scala_2.11</artifactId>

        <version>${flink.version}</version>

    </dependency>

    <dependency>

        <groupId>org.apache.flink</groupId>

        <artifactId>flink-streaming-scala_2.11</artifactId>

        <version>${flink.version}</version>

    </dependency>

</dependencies>

流式处理WorkCount代码

import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}

import org.apache.flink.streaming.api.windowing.time.Time

object WordCount {

  //创建WordWithCount样例类，用来存储数据最终统计结果

  case class WordWithCount(word: String, count: Int)

  def main(args: Array[String]): Unit = {

    //获取上下文对象（初始化环境）

    val streamExecutionEnvironment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

    //获取netcat服务的数据

    val dataStream: DataStream[String] = streamExecutionEnvironment.socketTextStream("slave4", 9000)

    //必须要引入这个包，包含了计算用到的方法

    import org.apache.flink.api.scala._

    //对获取到的数据进行处理

    val dataStream1: DataStream[WordWithCount] = dataStream.flatMap(_.toLowerCase.split(" ") filter (_.nonEmpty))

      .map(WordWithCount(_, 1))

      .keyBy("word")

      .timeWindow(Time.seconds(2), Time.seconds(2))

      .reduce((a, b) => WordWithCount(a.word, a.count + b.count))

    //打印结果，设置并行度为1

    dataStream1.print.setParallelism(1)

    //启动执行

    streamExecutionEnvironment.execute("WordCount")

  }

}

批式处理WordCount代码

import org.apache.flink.api.scala.{DataSet, ExecutionEnvironment}

object WordCount {

  def main(args: Array[String]): Unit = {

    //获取上下文对象（初始化环境）

    val executionEnvironment: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment

    //获取文件中的数据

    val dataSet: DataSet[String] = executionEnvironment.readTextFile("./src/main/data/wordCount.txt")

    //必须要引入这个包，包含了计算用到的方法

    import org.apache.flink.api.scala._

    //对获取到的数据进行处理

    val aggregateDataSet: AggregateDataSet[(String, Int)] = dataSet.flatMap(_.toLowerCase.split(" ") filter (_.nonEmpty))

      .map((_, 1))

      .groupBy(0)0000000

      .sum(1)

    //打印结果

    aggregateDataSet.print

  }

}

流式处理与批式处理的区别

流式处理：Streaming

	初始化对象：StreamExecutionEnvironment

	返回值类型：DataStream

批式处理：Batch

	初始化对象：ExecutionEnvironment

	返回值类型：DataSet

Flink WorkCount代码的更多相关文章

Flink资料（8） -- Flink代码贡献的指导及准则
本文翻译自Contributing Code ----------------------------------------- Apache Flink是由自愿的代码贡献者维护.优化及扩展的.Apa ...
修改代码150万行！与 Blink 合并后的 Apache Flink 1.9.0 究竟有哪些重大变更？
8月22日,Apache Flink 1.9.0 正式发布,早在今年1月,阿里便宣布将内部过去几年打磨的大数据处理引擎Blink进行开源并向 Apache Flink 贡献代码.当前 Flink 1. ...
flink实时数仓从入门到实战
第一章.flink实时数仓入门一.依赖 <!--Licensed to the Apache Software Foundation (ASF) under oneor more contri ...
Flink - DataStream
先看例子, final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); D ...
新一代大数据处理引擎 Apache Flink
https://www.ibm.com/developerworks/cn/opensource/os-cn-apache-flink/index.html 大数据计算引擎的发展这几年大数据的飞速发 ...
如何参与flink开源项目
参与flink开源项目 https://flink.apache.org/how-to-contribute.html 1.回答社区问题 2.撰写bug报告 3.对于改进建议或新的特征 4.帮助别人并 ...
flink基础教程读书笔记
数据架构设计领域发生了重大的变化,基于流的处理是变化的核心. 分布式文件系统用来存储不经常更新的数据,他们也是大规模批量计算所以来的数据存储方式. 批处理架构(lambda架构)实现计数的方式:持续摄 ...
Flink（一）Flink的入门简介
一. Flink的引入这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop.Storm,以及后来的 Spark,他们都有着各自专注的应用场景.Spark 掀开了内存计算的先河 ...
什么是Apache Flink
大数据计算引擎的发展这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop.Storm,以及后来的 Spark,他们都有着各自专注的应用场景.Spark 掀开了内存计算的先河, ...

随机推荐

HTTPS加密协议过程
1.客户端发起https请求指用户在浏览器中输入一个https网址,然后链接到server的443端口 2.服务端的配置在服务端向CA机构申请SSL数字证书.SSL证书就是一对公钥和私钥.公钥相当 ...
Google Dremel架构
Dremel 是Google 的“交互式”数据分析系统.Google开发了Dremel将处理时间缩短到秒级,作为MapReduce的有力补充.Apache推出Dremel的开源实现Drill,将Dre ...
ppt VBA 实现随机抽题
目录目标/最终效果关于VBA VBA简单示例检查环境步骤 VBA实现随机抽题 todo challenge 目标/最终效果目标是制作一个ppt,实现随机抽题,具体描述: 第一页幻灯片中:点击 ...
IntelliJ IDEA 调试 Apache RocketMQ 源码
克隆源码 mvn clean install 执行命令,跳过测试.我在执行测试的时候有时候卡住,所以干脆就跳过了. mvn clean install -DskipTests 准备环境在 D 盘创建 ...
Python80个练手项目列表
原文地址:https://www.shiyanlou.com/questions/102676/?utm_source=baidu&utm_medium=cpc&utm_campaig ...
python 3环境下，离线安装模块(modules)
说明: 需要在环境中安装python的模块,但是无法联网,就通过在Pypi上下载离线模块的包进行安装安装过程: 1.下载模块,如PyMySQL-0.9.3.tar.gz,下载地址:https://f ...
thinkphp项目部署在phpstudy里的nginx上
朋友的一个thinkphp做的项目,让我帮他部署一下的,LINUX服务器,用宝塔. 第一台服务器,装上宝塔,宝塔里装NGINX,PHP5.6,再建立网站,绑定域名,访问成功,一切正常! 昨天试着给另一 ...
使用leaflet绘制geoJson中国边界
绘制中国边界代码如下: function drawChina() { //设置样式 var myStyle = { "color": "#00f", &quo ...
java多线程（一）创建线程的四种方式
1. 什么是并发与并行要想学习多线程,必须先理解什么是并发与并行并行:指两个或多个事件在同一时刻发生(同时发生). 并发:指两个或多个事件在同一个时间段内发生. 2. 什么是进程.线程进 ...
Vue基础知识学习笔记
一.环境搭建1.安装nodejs ((https://nodejs.org/en/)2.安装脚手架 npm install --global vue-cli /cnmp install --globa ...

Flink WorkCount代码

Flink WorkCount代码的更多相关文章

随机推荐

热门专题