HDFS集中式缓存管理（Centralized Cache Management）

Hadoop从2.3.0版本号開始支持HDFS缓存机制，HDFS同意用户将一部分文件夹或文件缓存在HDFS其中。NameNode会通知拥有相应块的DataNodes将其缓存在DataNode的内存其中

集中式缓存管理有着很多显著的优势：

防止那些被频繁使用的数据从内存中清除
由于DataNode的缓存由NameNode来管理，applications在做任务安排时能够查询这个缓存的列表，使用一个被缓存的块副本能够提高读性能
当块被DataNode缓存之后。client能够使用一个新的、高效的、zero-copy的读API。由于缓存中的数据已经被计算过checksum，当使用新API时，client基本上是零开销的
能够提高集群的内存利用率。当使用操作系统的缓存时，对一个块的反复读会导致全部的副本都会被放到缓冲区其中，当使用集中式缓存时。用户能够指定n个副本中的m个才会被缓存，能够节约n-m的内存

使用方法

集中式缓存对那些频繁訪问的的文件是很实用的。比如hive中常常被使用的fact表就很适合缓存；还有一方面，缓存一年的查询结果可能没那么实用了。由于这个结果可能仅仅会被查看一次

也有助于提高混合类型作业的SLA性能。把高优先级的数据缓存起来能够确保它不会与低优先级的数据竞争磁盘IO

使用：

[hadoop@master hadoop]$ hdfs cacheadmin -addPool admin				【加入一个pool】

Successfully added cache pool admin.

[hadoop@master hadoop]$ hdfs cacheadmin -listPools							【查看pool列表】

Found 1 result.

NAME   OWNER   GROUP   MODE            LIMIT  MAXTTL

admin  hadoop  hadoop  rwxr-xr-x   unlimited   never

[hadoop@master hadoop]$ hdfs cacheadmin -addDirective -path /input -pool admin 【将一个文件夹加入pool】

Added cache directive 1

[hadoop@master hadoop]$ hdfs cacheadmin -listDirectives						【查看已缓存的数据】

Found 2 entries

 ID POOL    REPL EXPIRY  PATH

  1 admin      1 never   /input

  2 test       1 never   /output/0

[hadoop@master hadoop]$ hdfs cacheadmin -removeDirective 1				【按id清除缓存】

Removed cached directive 1

[hadoop@master hadoop]$ hdfs cacheadmin -listDirectives

Found 1 entry

 ID POOL   REPL EXPIRY  PATH

  2 test      1 never   /output/0

[hadoop@master hadoop]$ hdfs cacheadmin -removeDirectives -path /output/0	【按path清除缓存】

Removed cache directive 2

Removed every cache directive with path /output/0

[hadoop@master hadoop]$ hdfs cacheadmin -listDirectives

Found 0 entries

HDFS集中式缓存管理（Centralized Cache Management）的更多相关文章

Centralized Cache Management in HDFS
Overview(概述) Centralized cache management in HDFS is an explicit caching mechanism that allows users ...
十一：Centralized Cache Management in HDFS 集中缓存管理
集中的HDFS缓存管理,该机制可以让用户缓存特定的hdfs路径,这些块缓存在堆外内存中.namenode指导datanode完成这个工作. Centralized cache management i ...
HDFS集中式的缓存管理原理与代码剖析--转载
原文地址:http://yanbohappy.sinaapp.com/?p=468 Hadoop 2.3.0已经发布了,其中最大的亮点就是集中式的缓存管理(HDFS centralized cache ...
HDFS集中式的缓存管理原理与代码剖析
转载自:http://www.infoq.com/cn/articles/hdfs-centralized-cache/ HDFS集中式的缓存管理原理与代码剖析 Hadoop 2.3.0已经发布了,其 ...
HDFS集中化缓存管理
概述 HDFS中的集中化缓存管理是一个明确的缓存机制,它允许用户指定要缓存的HDFS路径.NameNode会和保存着所需快数据的所有DataNode通信,并指导他们把块数据缓存在off-heap缓存中 ...
Spring Boot 2.x基础教程：使用集中式缓存Redis
之前我们介绍了两种进程内缓存的用法,包括Spring Boot默认使用的ConcurrentMap缓存以及缓存框架EhCache.虽然EhCache已经能够适用很多应用场景,但是由于EhCache是进 ...
SpringBoot初始教程之Redis集中式Session管理
1.介绍有关Session的管理方式这里就不再进行讨论,目前无非就是三种单机Session(基于单机内存,无法部署多台机器).基于Cookie(安全性差).基于全局的统一Session管理(redi ...
Memcached 1.4.20 发布，集中式缓存系统
内存缓存Memcached 1.4.20发布.2014-05-12 上一个版本是2014-05-01的1.4.19 此版本只修正了一个1.4.18和1.4.19中引入的Bug. 此版本只是修复了导致 ...
HDFS中的集中缓存管理详解
一.背景 Hadoop设计之初借鉴GFS/MapReduce的思想:移动计算的成本远小于移动数据的成本.所以调度通常会尽可能将计算移动到拥有数据的节点上,在作业执行过程中,从HDFS角度看,计算和数据 ...

随机推荐

tornado框架基础02-输入和输出
01 输出 write bytes类型 class IndexHandler(tornado.web.RequestHandler): def get(self): self.write(b'Torn ...
LeetCode（10） Regular Expression Matching
题目 Implement regular expression matching with support for '.' and '*'. '.' Matches any single charac ...
Mac系统下VirtualBox装Centos7设置静态IP并连网
用Virtualbox装了三台Centos7,现在需要设置成三台之间可以相互通信,并且三台都可以连外网. 需求如下: 1. 三台内部相互通信 2. 可以上外网 3. 主机可以虚拟机可以相互通信(she ...
调用hcm接口同步员工数据更新员工信息没有同步到bdm
原来是更新的时候,baseEmployeeEntity的id为空,这时候需要把原先的baseEmployeeEntity1的id赋值给baseEmployeeEntity,问题解决
C#窗体学生成绩管理系统
c#学生成绩管理系统实现用户登录.注册所有成绩查询.个人成绩查询管理员审核.添加.删除用户项目源码GIT:https://github.com/soulsjie/StuScoreMa.git
POJ2421 Constructing Roads
Constructing Roads 这道题很水,就是一个裸的最小生成树,最不过把已经连接的节点的值再设为0. 代码: #include<cstdio> #include<cstri ...
ES6关于Promise的用法详解
Node的产生,大大推动了Javascript这门语言在服务端的发展,使得前端人员可以以很低的门槛转向后端开发. 当然,这并不代表迸发成了全栈.全栈的技能很集中,绝不仅仅是前端会写一些HTML和一些交 ...
uva12558 Egyptian Fractions (HARD version)（迭代深搜）
Egyptian Fractions (HARD version) 题解:迭代深搜模板题,因为最小个数,以此为乐观估价函数来迭代深搜,就可以了. #include<cstdio> #inc ...
BZOJ1703: [Usaco2007 Mar]Ranking the Cows 奶牛排名
n<=1000头牛各有一个未知值Ai,已知m<=10000条形如Ax>Ay的不等关系,求将整个序列排序的最少比较次数. Aa>Ab,Ab>Ac -------> A ...
【frameset】frameset设置不能拖动
<frameset rows='20%,*' >  <frame s ...

HDFS集中式缓存管理（Centralized Cache Management）

HDFS集中式缓存管理（Centralized Cache Management）的更多相关文章

随机推荐

热门专题