Flink学习（三）批流版本的wordcount Scala版本

批处理代码：

package com.wyh.wc

import org.apache.flink.api.scala._

/**

  * 批处理代码

  */

object WordCount {

  def main(args: Array[String]): Unit = {

    //创建一个批处理的一个环境

    val env = ExecutionEnvironment.getExecutionEnvironment

    val inputPath = "D:\\shujia\\shujia006\\FlinkWyh\\src\\main\\data\\word"

    val inputDataSet = env.readTextFile(inputPath)

    //分词之后做count

    val wordcountSet = inputDataSet

      .flatMap(lines => lines.split(" "))

      .map((_, 1))

      .groupBy(0)

      .sum(1)

    //打印

    wordcountSet.map(x => {

      x._1 + " " + x._2

    }).print()

  }

}

流处理代码：

package com.wyh.wc

import org.apache.flink.api.java.utils.ParameterTool

import org.apache.flink.streaming.api.scala._

object StreamWordCount {

  def main(args: Array[String]): Unit = {

    //创建一个流处理的执行环境

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //为了host和port不写死，flink提供了一个方法

    val params = ParameterTool.fromArgs(args)

//    val host = params.get("host")

//

//    val port = params.getInt("port")

    //env.disableOperatorChaining()//全局打散  一个算子一个任务

    //每一个算子也会有个方法  .disableChaining() 将这个算子单独拿出来

    //还有个方法.startNewChain() 将当前算子之前面和后面 分开

    //部署到集群中接收socket数据流

//    val dataStream: DataStream[String] = env.socketTextStream(host, port)

    //接收socket数据流

    val dataStream = env.socketTextStream("localhost", 9999)

    //逐一读取数据，打散进行WordCount

    val wordCountStream = dataStream.flatMap(_.split("\\s"))

      .filter(_.nonEmpty)

      .map((_, 1))

      .keyBy(0)

      .sum(1)

    wordCountStream.print().setParallelism(1)

    //比批处理多一个步骤

    //真正执行这个任务，启动它的Executor

    env.execute("WordCountStream")

  }

}

Flink学习（三）批流版本的wordcount Scala版本的更多相关文章

Flink 是如何统一批流引擎的
关注公众号:大数据技术派,回复"资料",领取1000G资料. 本文首发于我的个人博客:Flink 是如何统一批流引擎的 2015 年,Flink 的作者就写了 Apache Fli ...
flink学习笔记-各种Time
说明:本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKh ...
Flink学习笔记:Flink开发环境搭建
本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...
阿里重磅开源全球首个批流一体机器学习平台Alink，Blink功能已全部贡献至Flink
11月28日,Flink Forward Asia 2019 在北京国家会议中心召开,阿里在会上发布Flink 1.10版本功能前瞻,同时宣布基于Flink的机器学习算法平台Alink正式开源,这也是 ...
Flink Application Development DataStream API Execution Mode (Batch/Streaming)- Flink应用程序开发DataStream API执行模式（批/流）
目录什么时候可以/应该使用BATCH执行模式? 配置BATCH执行模式执行行为任务调度和网络随机shuffle 流执行模式批处理执行模式状态后端/状态处理顺序 Event Time/水印( ...
Flink学习笔记-新一代Flink计算引擎
说明:本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKh ...
入门大数据---Flink学习总括
第一节初识 Flink 在数据激增的时代,催生出了一批计算框架.最早期比较流行的有MapReduce,然后有Spark,直到现在越来越多的公司采用Flink处理.Flink相对前两个框架真正做到了高 ...
最佳实践：Pulsar 为批流处理提供融合存储
非常荣幸有机会和大家分享一下 Apache Pulsar 怎样为批流处理提供融合的存储.希望今天的分享对做大数据处理的同学能有帮助和启发. 这次分享,主要分为四个部分: 介绍与其他消息系统相比, Ap ...
flink学习笔记-快速生成Flink项目
说明:本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKh ...
Flink学习（一）
Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能. 现有的开源计算方案,会把流处理和批处理作为 ...

随机推荐

中电金信：院长寄语｜关于源启AI+行动的思考
自2022年8月19日发布以来,源启已经走上了她第三年的征途.今天,源启已经成为公司战略的支点,中电金信正致力于用"源启底座""源启+咨询""源启+应 ...
2024年1月Java项目开发指南18：自定义异常输出
一般情况下,报错信息一大堆,值得注意的只有三个地方: 哪个文件发生了错误哪一行发生了错误错误原因是什么只要知道这三个东西就能快速的定位到错误发生的位置并且根据提示解决. 如果你也喜欢我的这种异常 ...
【NAS】绿联NAS+alist+lsky+natfrp 实现图床服务
alist 安装与配置值得一提的就是,映射的data是配置相关的,让绿联直接默认路径就行,不需要手动设置但是文件保存位置的映射的话,为了方便,可以单独映射到一个方便访问的文件夹,(但是要注意下权限 ...
【Mybatis】学习笔记02：实现简单的查
Mybatis02:简单的查如果你没先去学增删改 ,然后直接看这篇记录,我想会有些困难.因为该文写的很粗劣,只是简单的截图.所以没基础的建议先去看 [Mybatis]学习笔记01:连接数据库,实现 ...
使用Apache commons-pool2实现高效的FTPClient连接池的方法
一. 连接池概述频繁的建立和关闭连接,会极大的降低系统的性能,而连接池会在初始化的时候会创建一定数量的连接,每次访问只需从连接池里获取连接,使用完毕后再放回连接池,并不是直接关闭连接,这样可以保证 ...
UDP与TCP+JAVA相关理论
相关知识目录相关知识 UDP UDP认识 UDP的特点(与TCP相比) UDP网络Socket编程(Java实现) 1.创建客户端 2.客户端图形界面 TCP Socket编程通信 JAVA 基础 ...
[转]CMake学习笔记（一）基本概念介绍、入门教程及CLion安装配置
原文链接:CMake学习笔记(一)基本概念介绍.入门教程及CLion安装配置
OGC——WFS服务
一.WFS简介 OGC的WMS和WMTS规范都是有关空间数据显示的标准,而WFS(Web Feature Service)则允许用户在分布式的环境下通过HTTP对空间数据进行增.删.改.查. 具 ...
微信后团队分享：微信后台基于Ray的分布式AI计算技术实践
本文由微信后台Astra项目团队分享,原题"Ray在微信AI计算中的大规模实践",下文进行了排版和内容优化. 1.引言微信存在大量AI计算的应用场景,主要分为三种:流量分发.产品 ...
Kubernetes系列(四) - Pod和Pod调度
目录 1. Pod的组成部分 2. Pod的优势 3. Pod的两种分类 3.1 普通的pod 3.2 静态pod(static pod) 4. 控制器controller的特点 4.1 Deploy ...

Flink学习（三） 批流版本的wordcount Scala版本

Flink学习（三） 批流版本的wordcount Scala版本的更多相关文章

随机推荐

热门专题

Flink学习（三）批流版本的wordcount Scala版本

Flink学习（三）批流版本的wordcount Scala版本的更多相关文章