flink batch wordcount

1、POJO方式

public class WordCountPojo {

    public static class Word{

        private String word;

        private int frequency;

        public Word() {

        }

        public Word(String word, int frequency) {

            this.word = word;

            this.frequency = frequency;

        }

        public String getWord() {

            return word;

        }

        public void setWord(String word) {

            this.word = word;

        }

        public int getFrequency() {

            return frequency;

        }

        public void setFrequency(int frequency) {

            this.frequency = frequency;

        }

        @Override

        public String toString() {

            return "Word=" + word + " freq=" + frequency;

        }

    }

    /**

     * Implements the string tokenizer that splits sentences into words as a user-defined

     * FlatMapFunction. The function takes a line (String) and splits it into

     * multiple Word objects.

     */

    public static final class Tokenizer implements FlatMapFunction<String, Word> {

        @Override

        public void flatMap(String value, Collector<Word> out) {

            // normalize and split the line

            String[] tokens = value.toLowerCase().split("\\W+");

            // emit the pairs

            for (String token : tokens) {

                if (token.length() > 0) {

                    out.collect(new Word(token, 1));

                }

            }

        }

    }

    public static void main(String args[]) throws Exception {

        final ParameterTool params = ParameterTool.fromArgs(args);

        // set up the execution environment

        final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        // make parameters available in the web interface

        env.getConfig().setGlobalJobParameters(params);

        // get input data

        DataSet<String> text;

        if (params.has("input")) {

            // read the text file from given input path

            text = env.readTextFile(params.get("input"));

        } else {

            // get default test text data

            System.out.println("Executing WordCount example with default input data set.");

            System.out.println("Use --input to specify file input.");

            text = WordCountData.getDefaultTextLineDataSet(env);

        }

        DataSet<Word> counts = text

                // split up the lines into Word objects (with frequency = 1)

                .flatMap(new Tokenizer())

                // group by the field word and sum up the frequency

                .groupBy("word")

                .reduce(new ReduceFunction<Word>() {

                    @Override

                    public Word reduce(Word value1, Word value2) throws Exception {

                        return new Word(value1.word, value1.frequency + value2.frequency);

                    }

                });

        if (params.has("output")) {

            counts.writeAsText(params.get("output"), FileSystem.WriteMode.OVERWRITE);

            // execute program

            env.execute("WordCount-Pojo Example");

        } else {

            System.out.println("Printing result to stdout. Use --output to specify output path.");

            counts.print();

        }

    }

}

2、元组方式

public class WordCount {

    /**

     * Implements the string tokenizer that splits sentences into words as a user-defined

     * FlatMapFunction. The function takes a line (String) and splits it into

     * multiple pairs in the form of "(word,1)" ({@code Tuple2<String, Integer>}).

     */

    public static final class Tokenizer implements FlatMapFunction<String, Tuple2<String, Integer>> {

        @Override

        public void flatMap(String value, Collector<Tuple2<String, Integer>> out) throws Exception {

            // normalize and split the line

            String[] tokens = value.toLowerCase().split("\\W+");

            // emit the pairs

            for (String token : tokens) {

                if (token.length() > 0) {

                    out.collect(new Tuple2<>(token, 1));

                }

            }

        }

    }

    public static void main(String args[]) throws Exception {

        final ParameterTool params = ParameterTool.fromArgs(args);

        // set up the execution environment

        final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        // make parameters available in the web interface

        env.getConfig().setGlobalJobParameters(params);

        // get input data

        DataSet<String> text;

        if (params.has("input")) {

            // read the text file from given input path

            text = env.readTextFile(params.get("input"));

        } else {

            // get default test text data

            System.out.println("Executing WordCount example with default input data set.");

            System.out.println("Use --input to specify file input.");

            text = WordCountData.getDefaultTextLineDataSet(env);

        }

        DataSet<Tuple2<String,Integer>> counts = text

                // split up the lines in pairs (2-tuples) containing: (word,1)

                .flatMap(new Tokenizer())

                // group by the tuple field "0" and sum up tuple field "1"

                .groupBy(0)

                .reduce(new ReduceFunction<Tuple2<String, Integer>>() {

                    @Override

                    public Tuple2<String, Integer> reduce(Tuple2<String, Integer> value1, Tuple2<String, Integer> value2) throws Exception {

                        return new Tuple2<>(value1.f0,value1.f1+value2.f1);

                    }

                }); //等效于sum(1)

//                .sum(1);

        // emit result

        if(params.has("output")){

            counts.writeAsCsv(params.get("output"),"\n"," ");

            // execute program

            env.execute("WordCount batch");

        }else {

            System.out.println("Printing result to stdout. Use --output to specify output path.");

            counts.print();

        }

    }

}

flink batch wordcount的更多相关文章

Flink Batch SQL 1.10 实践
Flink作为流批统一的计算框架,在1.10中完成了大量batch相关的增强与改进.1.10可以说是第一个成熟的生产可用的Flink Batch SQL版本,它一扫之前Dataset的羸弱,从功能和性 ...
Flink实例-Wordcount详细步骤
link实例之Wordcount详细步骤 1.我的IDE是IntelliJ IDEA.在官网上https://www.jetbrains.com/idea/下载最新版2018.2的IDEA,如下图.破 ...
Apache Flink - Batch(DataSet API)
Flink DataSet API编程指南: Flink中的DataSet程序是实现数据集转换的常规程序(例如,过滤,映射,连接,分组).数据集最初是从某些来源创建的(例如,通过读取文件或从本地集合创 ...
[Flink]Flink1.6三种运行模式安装部署以及实现WordCount
前言 Flink三种运行方式:Local.Standalone.On Yarn.成功部署后分别用Scala和Java实现wordcount 环境版本:Flink 1.6.2 集群环境:Hadoop2 ...
【Flink】Flink基础之WordCount实例（Java与Scala版本）
简述 WordCount(单词计数)作为大数据体系的标准示例,一直是入门的经典案例,下面用java和scala实现Flink的WordCount代码: 采用IDEA + Maven + Flink 环 ...
hadoop记录-[Flink]Flink三种运行模式安装部署以及实现WordCount（转载）
[Flink]Flink三种运行模式安装部署以及实现WordCount 前言 Flink三种运行方式:Local.Standalone.On Yarn.成功部署后分别用Scala和Java实现word ...
Apache Flink Quickstart
Apache Flink 是新一代的基于 Kappa 架构的流处理框架,近期底层部署结构基于 FLIP-6 做了大规模的调整,我们来看一下在新的版本(1.6-SNAPSHOT)下怎样从源码快速编译执行 ...
Apache 流框架 Flink，Spark Streaming，Storm对比分析（一）
本文由网易云发布. 1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意.Flink是原生的流处理系统,提供high level的API.Flink也提 ...
Flink的高可用集群环境
Flink的高可用集群环境 Flink简介 Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布,数据通信以及容错机制等功能. 因现在主要Flink这一块做先关方面的学习, ...

随机推荐

SSH使用ProxyCommand通过代理服务器远程连接其他服务器
当前环境拓扑图: 用户管理海外服务器,通过公网SSH远程时,由于网络质量原因公网丢包严重,这就导致管理员在对海外云主机进行管理时体验较差,表现形式可能是由于公网丢包严重执行命令卡顿,或者SSH进程 ...
c# 笔试面试题01
一.抽象与接口的区别: ,抽象(abstract): ()抽象类中可以有抽象方法,也可没有: ()抽象方法包含实现,也可以由子类实现: ()抽象类不能被sealed修饰,只能使用abstract关键字 ...
关于gcd
内容: \(gcd(a,b)=gcd(b,a\% b)\) 用途: 这不废话嘛,当然是用来求最大公约数啊证明:(这还是四月份的时候cdx巨佬给我讲的qwq) 设\(d=gcd(a.b)\) 则有\( ...
js数组检测
数组检测检测constructor v.constructor === Array 缺点: let arr = [] console.log(arr.constructor === Array); ...
[LeetCode] 255. Verify Preorder Sequence in Binary Search Tree 验证二叉搜索树的先序序列
Given an array of numbers, verify whether it is the correct preorder traversal sequence of a binary ...
Spring容器与SpringMVC容器的区别与联系
在spring整体框架的核心概念中,容器的核心思想是管理Bean的整个生命周期.但在一个项目中,Spring容器往往不止一个,最常见的场景就是在一个项目中引入Spring和SpringMVC这两个框架 ...
Spring Cloud Gateway重试机制
前言重试,我相信大家并不陌生.在我们调用Http接口的时候,总会因为某种原因调用失败,这个时候我们可以通过重试的方式,来重新请求接口. 生活中这样的事例很多,比如打电话,对方正在通话中啊,信号不好啊 ...
MySQL学习记录(导入Excel表到数据库，并筛选条件输出)
附上:重置mysql账号密码方法 ubuntu系统下mysql重置密码和修改密码操作 - skh2015java的博客 - CSDN博客(改完重启,登录mysql要root/sudo权限) Cento ...
CISCO 3750交换机堆叠
双交换机堆叠操作一.基本要求: ios版本要一致.专用的堆叠模块和堆叠线缆.最大堆叠个数9 二.堆叠的好处: 高密度端口.便于管理.堆叠的交换机可以看作一台交换机统一配置三.堆叠实例: 1:分别清 ...
android 自定义gridview（导航）
最近又重新做回安卓,做了个小项目.下绝心使用android studio,通过这一回实战,终于用上了.综合了前人的经验,搞了个自己满意的导航界面,用的是gridview. 代码: package co ...

flink batch wordcount

flink batch wordcount的更多相关文章

随机推荐

热门专题