Flink WordCount入门

下面通过一个单词统计的案例，快速上手应用 Flink，进行流处理（Streaming）和批处理（Batch）

单词统计（批处理）

引入依赖

<!--flink核心包-->

  <dependency>

      <groupId>org.apache.flink</groupId>

      <artifactId>flink-java</artifactId>

      <version>1.7.2</version>

  </dependency>

  <!--flink流处理包-->

  <dependency>

      <groupId>org.apache.flink</groupId>

      <artifactId>flink-streaming-java_2.12</artifactId>

      <version>1.7.2</version>

  </dependency>

代码实现

public class WordCountBatch {

    public static void main(String[] args) throws Exception {

        String inputFile= "E:\\data\\word.txt";

        String outPutFile= "E:\\data\\wordResult.txt";

        ExecutionEnvironment executionEnvironment = ExecutionEnvironment.getExecutionEnvironment();

        //1. 读取数据

        DataSource<String> dataSource = executionEnvironment.readTextFile(inputFile);

        //2. 对数据进行处理，转成word,1的格式

        FlatMapOperator<String, Tuple2<String, Integer>> flatMapOperator = dataSource.flatMap(new FlatMapFunction<String, Tuple2<String, Integer>>() {

            @Override

            public void flatMap(String s, Collector<Tuple2<String, Integer>> collector) throws Exception {

                String[] words = s.split(" ");

                for (String word : words) {

                    collector.collect(new Tuple2<>(word, 1));

                }

            }

        });

        //3. 对数据分组，相同word的一个组

        UnsortedGrouping<Tuple2<String, Integer>> tuple2UnsortedGrouping = flatMapOperator.groupBy(0);

        //4. 对分组后的数据求和

        AggregateOperator<Tuple2<String, Integer>> sum = tuple2UnsortedGrouping.sum(1);

        //5. 写出数据

        sum.writeAsCsv(outPutFile).setParallelism(1);

        //执行

        executionEnvironment.execute("wordcount batch process");

    }

}

执行 main 方法，得出结果。我测试的 word.txt 内容如下：

ni hao hi

wang mei mei

liu mei

ni hao

wo hen hao

this is a good idea

Apache Flink

输出的文件结果：

a,1

mei,3

Apache,1

Flink,1

good,1

hen,1

hi,1

idea,1

ni,2

is,1

liu,1

this,1

wo,1

hao,3

wang,1

单词统计（流数据）

需求：Socket 模拟实时发送单词，使用 Flink 实时接收数据，对指定时间窗口内（如 5s）的数据进行聚合统计，每隔 1s 汇总计算一次，并且把时间窗口内计算结果打印出来

public class WordCountStream {

    public static void main(String[] args) throws Exception {

        int port = 7000;

        StreamExecutionEnvironment executionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment();

        DataStreamSource<String> textStream = executionEnvironment.socketTextStream("192.168.56.103", port, "\n");

        SingleOutputStreamOperator<Tuple2<String, Integer>> tuple2SingleOutputStreamOperator = textStream.flatMap(new FlatMapFunction<String, Tuple2<String, Integer>>() {

            @Override

            public void flatMap(String s, Collector<Tuple2<String, Integer>> collector) throws Exception {

                String[] split = s.split("\\s");

                for (String word : split) {

                    collector.collect(Tuple2.of(word, 1));

                }

            }

        });

        SingleOutputStreamOperator<Tuple2<String, Integer>> word = tuple2SingleOutputStreamOperator.keyBy(0)

                .timeWindow(Time.seconds(5),Time.seconds(1)).sum(1);

        word.print();

        executionEnvironment.execute("wordcount stream process");

    }

}

运行起来之后，我们就可以开始发送 socket 请求过去。我们测试可以使用 netcat 工具。

在 linux 上安装好后，使用下面的命令：

nc -lk 7000

然后发送数据即可。

Flink WordCount入门的更多相关文章

[转帖]Flink（一）Flink的入门简介
Flink(一)Flink的入门简介 https://www.cnblogs.com/frankdeng/p/9400622.html 一. Flink的引入这几年大数据的飞速发展,出现了很多热门的 ...
Flink从入门到放弃(入门篇2)-本地环境搭建&构建第一个Flink应用
戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Fli ...
Flink从入门到放弃(入门篇3)-DataSetAPI
戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Fli ...
Flink从入门到放弃(入门篇1)-Flink是什么
戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Fli ...
Flink从入门到放弃(入门篇4) DataStreamAPI
戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Fli ...
Flink从入门到精通系列文章
戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Fli ...
Flink快速入门--安装与示例运行
flink是一款开源的大数据流式处理框架,他可以同时批处理和流处理,具有容错性.高吞吐.低延迟等优势,本文简述flink在windows和linux中安装步骤,和示例程序的运行. 首先要想运行Flin ...
「Flink」使用Java lambda表达式实现Flink WordCount
本篇我们将使用Java语言来实现Flink的单词统计. 代码开发环境准备导入Flink 1.9 pom依赖 <dependencies> <dependency> < ...
Flink（一）Flink的入门简介
一. Flink的引入这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop.Storm,以及后来的 Spark,他们都有着各自专注的应用场景.Spark 掀开了内存计算的先河 ...

随机推荐

一颗完整意义的LPWAN SOC无线通信芯片——ASR6601
ASR6601是完整意义的LPWAN SOC无线通信芯片,该芯片集成了LORA射频收发器.调制解调器和32位RISC MCU.MCU采用cortex M4,频率48mhz.LORA射频收发器从150 ...
while 循环、do- while 循环和 for 循环之间的那点事
C语言自学之三种循环比较使用循环计算1-2+3-4+5-6+--100的值? 在编辑器中给出了三种循环体结构的部分代码,请选择合适的循环结构补全代码实现此功能. 运行结果为: sum=- ...
Spring 03 切面编程
简介 AOP(Aspect Oriented Programming),即面向切面编程这是对面向对象思想的一种补充. 面向切面编程,就是在程序运行时,不改变程序源码的情况下,动态的增强方法的功能. ...
java-正则、object中的两个方法的使用
正则: "."和"\" "."点儿,在正则表达式中表示任意一个字符. "\"在正则表达式中是转意字符,当我们需要描述一个 ...
我就获取个时间，机器就down了
本文主要讲解linux 时间管理系统中的一个问题背景:linux 时间管理,包含clocksource,clockevent,timer,tick,timekeeper等等概念 , 这些概念有机地组 ...
helm安装kube-state-metrics-4.16.0
Application version 2.5.0 Chart version 4.16.0 获取chart包 helm repo add prometheus-community https://p ...
【读书笔记】C#高级编程第三章对象和类型
(一)类和结构类和结构实际上都是创建对象的模板,每个对象都包含数据,并提供了处理和访问数据的方法. 类和结构的区别:内存中的存储方式.访问方式(类是存储在堆上的引用类型,结构是存储在栈的值类型)和它 ...
Ansible_基础模块
特点:无主从,即装即用,基于ssh 安装ansible yum install epel-release -y yum install ansible -y 定义主机清单 vim /etc/ansib ...
Vue3 封装 Element Plus Menu 无限级菜单组件
本文分别使用 SFC(模板方式)和 tsx 方式对 Element Plus el-menu 组件进行二次封装,实现配置化的菜单,有了配置化的菜单,后续便可以根据路由动态渲染菜单. 1 数据结构定义 ...
Openstack Neutron ：安全
目录 - iptable:起源 - tables - chains - rules - 方向 - Security group 安全组: - Firewall 防火墙: - 更高的安全 - 无处安放的 ...

Flink WordCount入门

单词统计（批处理）

单词统计（流数据）

Flink WordCount入门的更多相关文章

随机推荐

热门专题