7-Flink的分布式缓存

分布式缓存

Flink提供了一个分布式缓存，类似于hadoop，可以使用户在并行函数中很方便的读取本地文件，并把它放在taskmanager节点中，防止task重复拉取。此缓存的工作机制如下：程序注册一个文件或者目录(本地或者远程文件系统，例如hdfs或者s3)，通过ExecutionEnvironment注册缓存文件并为它起一个名称。当程序执行，Flink自动将文件或者目录复制到所有taskmanager节点的本地文件系统，仅会执行一次。用户可以通过这个指定的名称查找文件或者目录，然后从taskmanager节点的本地文件系统访问它。

示例

在ExecutionEnvironment中注册一个文件：

//获取运行环境

ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

//1：注册一个文件,可以使用hdfs上的文件 也可以是本地文件进行测试

env.registerCachedFile("/Users/wangzhiwu/WorkSpace/quickstart/text","a.txt");

复制代码

在用户函数中访问缓存文件或者目录(这里是一个map函数)。这个函数必须继承RichFunction,因为它需要使用RuntimeContext读取数据:

DataSet<String> result = data.map(new RichMapFunction<String, String>() {

            private ArrayList<String> dataList = new ArrayList<String>();

            @Override

            public void open(Configuration parameters) throws Exception {

                super.open(parameters);

                //2：使用文件

                File myFile = getRuntimeContext().getDistributedCache().getFile("a.txt");

                List<String> lines = FileUtils.readLines(myFile);

                for (String line : lines) {

                    this.dataList.add(line);

                    System.err.println("分布式缓存为:" + line);

                }

            }

            @Override

            public String map(String value) throws Exception {

                //在这里就可以使用dataList

                System.err.println("使用datalist：" + dataList + "------------" +value);

                //业务逻辑

                return dataList +"：" +  value;

            }

        });

        result.printToErr();

    }

复制代码

完整代码如下,仔细看注释：



public class DisCacheTest {

    public static void main(String[] args) throws Exception{

        //获取运行环境

        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        //1：注册一个文件,可以使用hdfs上的文件 也可以是本地文件进行测试

      //text 中有4个单词:hello flink hello FLINK env.registerCachedFile("/Users/wangzhiwu/WorkSpace/quickstart/text","a.txt");

        DataSource<String> data = env.fromElements("a", "b", "c", "d");

        DataSet<String> result = data.map(new RichMapFunction<String, String>() {

            private ArrayList<String> dataList = new ArrayList<String>();

            @Override

            public void open(Configuration parameters) throws Exception {

                super.open(parameters);

                //2：使用文件

                File myFile = getRuntimeContext().getDistributedCache().getFile("a.txt");

                List<String> lines = FileUtils.readLines(myFile);

                for (String line : lines) {

                    this.dataList.add(line);

                    System.err.println("分布式缓存为:" + line);

                }

            }

            @Override

            public String map(String value) throws Exception {

                //在这里就可以使用dataList

                System.err.println("使用datalist：" + dataList + "------------" +value);

                //业务逻辑

                return dataList +"：" +  value;

            }

        });

        result.printToErr();

    }

}//

复制代码

输出结果如下：

[hello, flink, hello, FLINK]：a

[hello, flink, hello, FLINK]：b

[hello, flink, hello, FLINK]：c

[hello, flink, hello, FLINK]：d

复制代码

公众号推荐

全网唯一一个从0开始帮助Java开发者转做大数据领域的公众号~
海量【java和大数据的面试题+视频资料】整理在公众号，关注后可以下载~
更多大数据技术欢迎和作者一起探讨~

作者：王知无
链接：https://juejin.im/post/5c769927f265da2d905849a0
来源：掘金
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

7-Flink的分布式缓存的更多相关文章

Flink的分布式缓存
分布式缓存 Flink提供了一个分布式缓存,类似于hadoop,可以使用户在并行函数中很方便的读取本地文件,并把它放在taskmanager节点中,防止task重复拉取.此缓存的工作机制如下:程序注册 ...
Flink分布式缓存Distributed Cache
1 分布式缓存 Flink提供了一个分布式缓存,类似于hadoop,可以使用户在并行函数中很方便的读取本地文件,并把它放在taskmanager节点中,防止task重复拉取. 此缓存的工作机制如下:程 ...
.net 分布式架构之分布式缓存中间件
开源git地址: http://git.oschina.net/chejiangyi/XXF.BaseService.DistributedCache 分布式缓存中间件方便实现缓存的分布式,集群, ...
CRL快速开发框架系列教程六(分布式缓存解决方案)
本系列目录 CRL快速开发框架系列教程一(Code First数据表不需再关心) CRL快速开发框架系列教程二(基于Lambda表达式查询) CRL快速开发框架系列教程三(更新数据) CRL快速开发框 ...
一个技术汪的开源梦 —— 公共组件缓存之分布式缓存 Redis 实现篇
Redis 安装 & 配置本测试环境将在 CentOS 7 x64 上安装最新版本的 Redis. 1. 运行以下命令安装 Redis $ wget http://download.redi ...
ASP.Net MVC4+Memcached+CodeFirst实现分布式缓存
ASP.Net MVC4+Memcached+CodeFirst实现分布式缓存 part 1:给我点时间,允许我感慨一下2016年正好有时间,总结一下最近使用的一些技术,也算是为2016年画上一个完 ...
CYQ.Data V5 分布式缓存Redis应用开发及实现算法原理介绍
前言: 自从CYQ.Data框架出了数据库读写分离.分布式缓存MemCache.自动缓存等大功能之后,就进入了频繁的细节打磨优化阶段. 从以下的更新列表就可以看出来了,3个月更新了100条次功能: 3 ...
CYQ.Data V5 分布式缓存MemCached应用开发介绍
前言今天大伙还在热议关于.NET Core的东西,我只想说一句:在.NET 跨平台叫了这么多年间,其实人们期待的是一个知名的跨平台案例,而不是一堆能跨平台的消息. 好,回头说说框架: 在框架完成数据 ...
C# Azure 存储-分布式缓存Redis在session中的配置
1. 开始对于分布式的缓存,平常的session的处理是一个用户对应一台分布式的机器,如果这台机器中途挂机或者不能处理这个用户session的情况发生,则此用户的session会丢失,会发生不可预知 ...

随机推荐

Cordova配置与WebApp混合开发环境配置
好久都没来更新随笔了,这阵子比较忙,不过还是在不断的学习当中,今天给大家分享一下Cordova的配置与搭建WebApp混合开发环境的配置. 准备好了吗?让我们一步步来咯!!! 1.配置JDK环境用的 ...
移动端去除onclick点击事件出现的背景色框
这个特效是实现在移动端点击某个地方的时候,比如说按钮或者超链接的时候,系统会默认加上一些灰色的背景和一些高亮的效果.但是有的时候我们并不想要这些效果.并且希望点击的时候实现神不知鬼不觉的感觉,,这个时 ...
计蒜客 2019 蓝桥杯省赛 B 组模拟赛（三）数字拆分
#include<iostream> #include<cstring> #include<cstdio> #include<algorithm> us ...
# 2019-2020-4 《Java 程序设计》结对项目总结
2019-2020-4 <Java 程序设计>结对项目阶段总结---<四则运算--整数> 一.需求分析实现一个命令行程序要求: 自动生成小学四则运算题目(加,减,乘,除): ...
从文件中读取数组数据————Java
自己总结一下Java文件的读取类似数组数据的方法,自己可以快速查看. 一.规整化数据: 对于数组数据是一一对应的情况 ArrayList<String> arrayList = new A ...
java日志系统中的 NDC
NDC https://www.cnblogs.com/smile361/p/3853404.html
初探ansible
Ansible 基于ssh的自动化运维工具 ansible 配置文件详解 ansible.cfg 文件文件默认放置在/etc/ansible下,ansible读取配置文件的顺序是: 当前命令执行目录 ...
JavaGC学习笔记
1.简介Java在JVM虚拟机上的垃圾回收(GC)机制,在合适的时间触发垃圾回收,将不需要的内存空间回收释放,避免无限制的内存增长导致的OOM. 1.1 Java堆内存结构Java将堆内存分为3大部分 ...
快乐python 零基础也能P图 —— PIL库
Python PIL PIL (Python Image Library) 库是Python 语言的一个第三方库,PIL库支持图像存储.显示和处理,能够处理几乎所有格式的图片. 一.PIL库简介 1. ...
处理Word文档中所有修订
打开现有文档进行编辑若要打开现有文档,您可以将 Word类实例化,如以下 using 语句所示. 为此,您可以使用Open(String, Boolean) 方法打开具有指定 fileName 的字 ...

7-Flink的分布式缓存

分布式缓存

示例

公众号推荐

7-Flink的分布式缓存的更多相关文章

随机推荐

热门专题