用mapreduce来操作hbase的优化

(1)scan.setCacheBlocks(false);

初始化map任务 TableMapReduceUtil.initTableMapperJob

本次mr任务scan的所有数据不放在缓存中，一方面节省了交换缓存的操作消耗，可以提升本次mr任务的效率，另一方面，一般mr任务scan的数据都是一次性或者非经常用到的，因此不需要将它们替换到缓存中，缓存中还是放一些正常的多次访问的数据，这样可以提升查询性能。

(2)conf.setBoolean("mapred.map.tasks.speculative.execution", false);

是否开启mr的map备用任务机制，如果设为true，则如果一个map任务占用时间较其他的明显长很多（策略由内部设置），在其他TT节点上新建一个map任务，两个一起做，谁先做完，便结束。

优化项是将其设为false，为何呢，跟hbase存储机制有关，hbase本地存储机制，即hbase会尽量把hdfs上的数据文件和rs上对应region存在一台机器上，即当前的map的数据肯定在当前的机器上有本地数据，不需要网络传输。如果启用备用任务机制，则新创建备用任务时，很有可能新建备用任务的机器上没有所需要的数据的备份，如此便需要网络传输数据，增加了网络的开销，其效率会大大的降低，还不如不开启备用任务，就让原来的map任务正常做呢。当然，即便关闭了此机制，如果创建map失败（比如由于oom异常）仍然会在其他节点上重新创建此map任务。

(3)HBase提供了scan.setCaching设置 cache数量，但是很多时候如果设置不当，会相当耗内存。
如果不设置该值，默认是1条。如果设置该值很大，是可以加快速度，同时也消耗了太多的内存。
所以合理的设置就很重要了。
当设置了setCaching(n)后，我们的server会从regin server上读取出n条数据。
那么client端读取数据的时候会直接从server的缓存中返回，
但是如果每次你只需要读取100条记录，但是设置了setCaching(1000),那么每次
都会从region server 多余的拿出900条记录，这样会让应用的server内存吃不消了
比较好的解决方案就是设置setCaching(n)为实际需要的记录数。

用mapreduce来操作hbase的优化的更多相关文章

mapreduce方式操作hbase
一.导入数据到hbase 1.配置hbase-site.xml指向hdfs <configuration> <property> <name>hbase.rootd ...
Hbase框架原理及相关的知识点理解、Hbase访问MapReduce、Hbase访问Java API、Hbase shell及Hbase性能优化总结
转自:http://blog.csdn.net/zhongwen7710/article/details/39577431 本blog的内容包含: 第一部分:Hbase框架原理理解第二部分:Hbas ...
大数据技术之_11_HBase学习_02_HBase API 操作 + HBase 与 Hive 集成 + HBase 优化
第6章 HBase API 操作6.1 环境准备6.2 HBase API6.2.1 判断表是否存在6.2.2 抽取获取 Configuration.Connection.Admin 对象的方法以及关 ...
Mapreduce操作HBase
这个操作和普通的Mapreduce还不太一样,比如普通的Mapreduce输入可以是txt文件等,Mapreduce可以直接读取Hive中的表的数据(能够看见是以类似txt文件形式),但Mapredu ...
Hbase第五章 MapReduce操作HBase
容易遇到的坑: 当用mapReducer操作HBase时,运行jar包的过程中如果遇到 java.lang.NoClassDefFoundError 类似的错误时,一般是由于hadoop环境没有hba ...
HBase性能优化方法总结（二）：写表操作
转自:http://www.cnblogs.com/panfeng412/archive/2012/03/08/hbase-performance-tuning-section2.html 本文主要是 ...
HBase性能优化方法总结（三）：读表操作
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法.有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客. 下面是本文总结的第三部分内容:读表操作相关的优化方法 ...
HBase 相关API操练(三)：MapReduce操作HBase
MapReduce 操作 HBase 在 HBase 系统上运行批处理运算,最方便和实用的模型依然是 MapReduce,如下图所示. HBase Table 和 Region 的关系类似 HDFS ...
7.MapReduce操作Hbase
7 HBase的MapReduce HBase中Table和Region的关系,有些类似HDFS中File和Block的关系.由于HBase提供了配套的与MapReduce进行交互的API如 Ta ...

随机推荐

BZOJ1001: [BeiJing2006]狼抓兔子 (最小割转最短路)
浅析最大最小定理在信息学竞赛中的应用---周东 ↑方法介绍对于一个联通的平面图G(满足欧拉公式) 在s和t间新连一条边e; 然后建立一个原图的对偶图G*,G*中每一个点对应原图中每一个面,每一条边对 ...
20162327WJH 实验三《敏捷开发与XP实践》实验报告
20162327WJH 实验三 <敏捷开发与XP实践> 实验报告一.实验内容 1.XP基础 2.XP核心实践 3.相关工具二.实验要求 1.没有Linux基础的同学建议先学习<L ...
20162327WJH四则运算第二周总结
学号 20162327 <程序设计与数据结构>四则运算第二次实验报告 1.需求分析 1.本周我们进行了四则运算的后续完善,因为学习的比较欠缺,所以我负责比较简单的部分,就是只包含一个运算符 ...
bzoj 2770 堆的中序遍历性质
我们知道二叉搜索树的中序遍历是一个已经排好序的序列,知道序列我们无法确定树的形态(因为有多种). 但是,Treap如果告诉我们它的关键字以及权值,那么就可以唯一确定树的形态(Treap的O(logn) ...
bzoj 1051 强连通分量
反建图,计算强连通分量,将每个分量看成一个点,缩点后的图是一个DAG,如果是一棵树,则根代表的连通分量的大小就是答案,否则答案为0. 收获: 图的东西如果不好解决,可以尝试缩点(有向图将每个强连通分量 ...
bzoj 1015 维护连通块个数，离线并查集
水. /************************************************************** Problem: 1015 User: idy002 Langua ...
UESTC 2015dp专题 H 邱老师选妹子数位dp
邱老师选妹子 Time Limit: 20 Sec Memory Limit: 256 MB 题目连接 http://acm.uestc.edu.cn/#/contest/show/65 Descr ...
mmap函数使用
UNIX网络编程第二卷进程间通信对mmap函数进行了说明.该函数主要用途有三个:1.将一个普通文件映射到内存中,通常在需要对文件进行频繁读写时使用,这样用内存读写取代I/O读写,以获得较高的性能:2. ...
HttpClient post提交数据，汉字转码
public static String post(String url, String data) throws ClientProtocolException, IOException { Htt ...
ListVIew点击事件失效
转自:http://blog.csdn.net/zhufuing/article/details/8677407 记录下自己所犯的错误,在写ListView的点击事件时OnItemClickListe ...

用mapreduce来操作hbase的优化

用mapreduce来操作hbase的优化的更多相关文章

随机推荐

热门专题