Flink初体验-批处理与流处理

一、环境准备

本机环境：jdk11、scala2.12、maven3.6

新建一个maven项目，pom如下

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0"

         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <modelVersion>4.0.0</modelVersion>

    <groupId>org.wzy</groupId>

    <artifactId>flink-project</artifactId>

    <version>1.0-SNAPSHOT</version>

    <dependencies>

        <dependency>

            <groupId>org.apache.flink</groupId>

            <artifactId>flink-scala_2.12</artifactId>

            <version>1.10.2</version>

        </dependency>

        <dependency>

            <groupId>org.apache.flink</groupId>

            <artifactId>flink-streaming-scala_2.12</artifactId>

            <version>1.10.2</version>

        </dependency>

        <dependency>

            <groupId>org.apache.flink</groupId>

            <artifactId>flink-clients_2.12</artifactId>

            <version>1.10.2</version>

        </dependency>

    </dependencies>

    <build>

        <plugins>

            <plugin>

                <groupId>net.alchim31.maven</groupId>

                <artifactId>scala-maven-plugin</artifactId>

                <version>3.4.6</version>

                <executions>

                    <execution>

                        <!-- 声明绑定到 maven 的 compile 阶段 -->

                        <goals>

                            <goal>compile</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-assembly-plugin</artifactId>

                <version>3.0.0</version>

                <configuration>

                    <descriptorRefs>

                        <descriptorRef>jar-with-dependencies</descriptorRef>

                    </descriptorRefs>

                </configuration>

                <executions>

                    <execution>

                        <id>make-assembly</id>

                        <phase>package</phase>

                        <goals>

                            <goal>single</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

        </plugins>

    </build>

</project>

项目结构如下

1、添加scala源文件，新建一个scala的文件夹，并把它设置成源文件。设置方法 File -> Project Structure -> Modules
2、添加scala框架支持，右键项目 -> Add Framework Support -> scala(需要提前配置上scala的sdk)

二、wordcount批处理

新建一个txt文件，让程序读取文件里内容进行单词的统计

package wordcount

import org.apache.flink.api.scala._

/**

 * @description 批处理

 */

object WordCountBatch {

  def main(args: Array[String]): Unit = {

    // 创建执行环境

    val env = ExecutionEnvironment.getExecutionEnvironment

    // 从文件中读取数据

    val inputPath = "src/main/resources/wordcount.txt"

    val inputDS: DataSet[String] = env.readTextFile(inputPath)

    // 分词之后， 对单词进行 groupby 分组， 然后用 sum 进行聚合

    val wordCountDS: AggregateDataSet[(String, Int)] = inputDS

      .flatMap(_.split(" "))

      .map((_, 1))

      .groupBy(0)

      .sum(1)

    // 打印输出

    wordCountDS.print()

  }

}

打印结果如下

三、wordcount流处理

新建一个服务端口，让程序监听端口，收到一条处理一条，结果累加

开启临时服务命令：nc -lk 8088

手动输入单词回车就会发送出去

然后程序进行端口的监听

package wordcount

import org.apache.flink.streaming.api.scala._

/**

 * @description 流处理

 */

object WordCountStream {

  def main(args: Array[String]): Unit = {

    val host: String = "localhost"

    val port: Int = 8088

    // 创建流处理环境

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    // 接收 socket 文本流

    val textDstream: DataStream[String] = env.socketTextStream(host, port)

    // flatMap 和 Map 需要引用的隐式转换

    val dataStream: DataStream[(String, Int)] = textDstream

      .flatMap(_.split(" "))

      .filter(_.nonEmpty)

      .map((_, 1))

      .keyBy(0)

      .sum(1)

    dataStream.print()

    env.execute("wordcount job")

  }

}

打印结果如下，可以看到结果是累加的

Flink初体验-批处理与流处理的更多相关文章

Java高级特性1_流库_初体验
Java高级特性流库_初体验面对结果编程在编程里, 有两种编程方式, 一种是面对过程编程, 一种是面对结果编程. 两者区别如下面向过程编程面向过程编程需要编程程序让程序依次执行得到自己想要的结 ...
Apache Beam入门及Java SDK开发初体验
1 什么是Apache Beam Apache Beam是一个开源的统一的大数据编程模型,它本身并不提供执行引擎,而是支持各种平台如GCP Dataflow.Spark.Flink等.通过Apache ...
【Spark深入学习 -15】Spark Streaming前奏-Kafka初体验
----本节内容------- 1.Kafka基础概念 1.1 出世背景 1.2 基本原理 1.2.1.前置知识 1.2.2.架构和原理 1.2.3.基本概念 1.2.4.kafka特点 2.Kafk ...
深入浅出时序数据库之预处理篇——批处理和流处理，用户可定制，但目前流行influxdb没有做
时序数据是一个写多读少的场景,对时序数据库以及数据存储方面做了论述,数据查询和聚合运算同样是时序数据库必不可少的功能之一.如何支持在秒级对上亿数据的查询分组聚合运算成为了时序数据库产品必须要面对的挑战 ...
.NET平台开源项目速览(15)文档数据库RavenDB-介绍与初体验
不知不觉,“.NET平台开源项目速览“系列文章已经15篇了,每一篇都非常受欢迎,可能技术水平不高,但足够入门了.虽然工作很忙,但还是会抽空把自己知道的,已经平时遇到的好的开源项目分享出来.今天就给大家 ...
Microsoft IoT Starter Kit 开发初体验
1. 引子今年6月底,在上海举办的中国国际物联网大会上,微软中国面向中国物联网社区推出了Microsoft IoT Starter Kit ,并且免费开放1000套的申请.申请地址为:http:// ...
win7升win10，初体验
跟宿舍哥们聊着聊着,聊到最近发布正式版的win10,听网上各种评论,吐槽,撒花的,想想,倒不如自己升级一下看看,反正不喜欢还可以还原.于是就开始了win10的初体验了,像之前装黑苹果双系统一样的兴奋, ...
node.js 初体验
node.js 初体验 2011-10-31 22:56 by 聂微东, 174545 阅读, 118 评论, 收藏, 编辑 PS: ~ 此篇文章的进阶内容在为<Nodejs初阶之express ...
文档数据库RavenDB-介绍与初体验
文档数据库RavenDB-介绍与初体验阅读目录 1.RavenDB概述与特性 2.RavenDB安装 3.C#开发初体验 4.RavenDB资源不知不觉,“.NET平台开源项目速览“系列文章已经1 ...
FileTable初体验
FileTable初体验阅读导航启用FILESTREAM设置更改FILESTRAM设置启用数据库非事务性访问级别 FileTable 在我接触FileTable之前,存储文件都是存储文件的链接 ...

随机推荐

SRE网站可靠性工程师
SRE网站可靠性工程师 SRE需要做什么? 一般: 故障模式,尤其是SPOF(单点故障).消除SPOFs是你作为SRE最大的挑战和乐趣. 基础设施组件,从应用程序到硬件(服务器.交换机.路由器.互联网 ...
Linux下more命令高级用法
我们在 Linux 环境下工作时,每天肯定会跟各种各样的文本文件打交道.这些文件,有时候会非常长,无法在一屏的空间内显示完全.所以,在查看这种文件时,我们需要分页显示.这时,我们就可以使用 more ...
CM311-1A魔百和刷armbian或openwrt系统包
系统包下载链接:Openwrt:阿里云盘链接:https://www.aliyundrive.com/s/tEemRbs1TYB已失效下载后请解压!!!!!!!!! Armbian:链接:https: ...
jmeter使用：解决压测时获取token问题
在执行压测过程中,首先要执行登录接口来获取token.如果并发数比较大只需要一个用户的登录token,可以使用setup线程组.如果是模拟多个用户登录获取token,需要使用仅一次控制器. 一.添加s ...
Canvas上批量创建可视对象（DrawingVisual）管理，获取鼠标悬浮图形状态，并控制鼠标右键快捷菜单等...
近期公司有个新的定制,先简要说明下: 窗口上有个播放区域,区域上悬浮了很多可视对象(DrawingVisual),全部是动态生成的.... 现在的需求是在这些矩形框上需要添加右键快捷菜单... 需求知 ...
.NET CORE API接口的分组、版本管理
参照: Asp.net Core的Swagger接口根据模块.版本分组 (bbsmax.com)
CTF实验吧认真一点 SQL盲注
实验吧地址 http://ctf5.shiyanbar.com/web/earnest/index.php 很明显的返回两个不同得页面,判断为SQL盲注并且过滤了敏感字符测试的时候还发现过滤了s ...
codeup之矩阵转置
Description 将一个2行3列的矩阵(二维数组)行列互换,存储到另一个3行2列的矩阵中. 要求以整型数据为例来解答. Input 输入2行数据,每行3个整数,以空格分隔. Output 行列互 ...
【uni-app】在windows10系统中HBuliderX用iPhone苹果手机进行调试运行详细说明
测试准备: 1)iphone13 ios18.4.1 和一根可以读取数据的苹果线 2)HBuliderX打开uni-app项目文件(项目图标是正方形内一个U) 3)windows10系统测试目标 ...
你了解ConcurrentHashMap吗？ConcurrentHashMap九连问
多线程环境下,使用Hashmap进行put操作会造成数据覆盖,应该使用支持多线程的 ConcurrentHashMap. HashMap为什么线程不安全 put的不安全由于多线程对HashMap进行 ...

Flink初体验-批处理与流处理

Flink初体验-批处理与流处理的更多相关文章

随机推荐

热门专题