hbase 程序优化参数调整方法

hbase读数据用scan，读数据加速的配置参数为：

Scan scan = new Scan();

scan.setCaching(500);        // 1 is the default in Scan, which will be bad for MapReduce jobs

scan.setCacheBlocks(false);  // don't set to true for MR jobs

其中，

public Scan setCacheBlocks(boolean cacheBlocks)//Set whether blocks should be cached for this Scan

    默认值为true, 分内存，缓存和磁盘，三种方式，一般数据的读取为内存->缓存->磁盘；setCacheBlocks不适合MapReduce工作：

    MR程序为非热点数据，不需要缓存，因为Blockcache is        LRU，也就是最近最少访问算法（扔掉最少访问的），那么，前一个请求（比如map读取）读入Blockcache的

    所有记录在后一个请求（新的map读取）中都没有用，就必须全部被swap，那么RegionServer要不断的进行无意义的swapping data，也就是无意义的输入和输出BlockCache，增加了无必要的IO。而普通读取时局部查找，或者查找最热数据时，会有提升性能的帮助。

public Scan setCaching(int caching)

//增加缓存读取条数(一次RPC调用返回多行记录)，加快scaners读取速度，但耗费内存增加，设太大会响应慢、超时、或者OOM，

找到RPC操作的数据和内存占用情况的一个折中，默认使用Configuration setting HConstants.HBASE_CLIENT_SCANNER_CACHING，值为1

public void setBatch(int batch) //设置获取记录的列个数，默认无限制，也就是返回所有的列。实际上就是控制一次next()传输多少个columns,如setBatch(5)则每个Result实例返回5个columns，(http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/client/Scan.html)

setBatch使用场景为，用客户端的scanner缓存进行批量交互从而提高性能时，非常大的行可能无法放入客户端的内存，这时需要用HBase客户端API中进行batching处理。

通过调整setCaching和setBatch这两个参数，可以观察对RPC交互数量的影响，也就是时间性能的影响：

一个简单的例子，一个表含两个column family，每个column family下10个column，10行数据，比较效果的组合

    Caching: 1, Batch: 1, Results: 200, RPCs: 201

    Caching: 200, Batch: 1, Results: 200, RPCs: 2

    Caching: 5, Batch:100, Results: 10, RPCs: 3

    Caching: 5, Batch:20, Results: 10, RPCs: 3

    Caching: 10, Batch:10, Results: 20, RPCs: 3

计算RPC的次数：将行数result与column数相乘，再除以batch和column数中的较小值，最后除以caching大小。

===================================================

其他的参数优化配置：

参考http://joshuasabrina.iteye.com/blog/1798239

1. Write Buffer Size

HTable htable = new HTable(config, tablename);

htable.setWriteBufferSize(10 * 1024 * 1024);

htable.setAutoFlush(false);

2.map中间结果压缩

参考(

http://blog.csdn.net/yangbutao/article/details/8474731

http://m.blog.csdn.net/blog/u012875880/21874293

http://developer.51cto.com/art/201204/331337.htm

)

老版本中用

        conf.setCompressMapOutput(true);

        conf.setMapOutputCompressorClass(GzipCodec.class);

新的设置方法为

    conf.setBoolean("mapred.compress.map.output", true);

    //conf.setClass("mapred.map.output.compression.codec",GzipCodec.class, CompressionCodec.class);

    默认使用GzipCodec，可以指定GzipCodec.class,SnappyCodec.class,LzopCodec.class,

其中lzo、snappy需要操作系统安装native库才可以支持。

数据格式为TextFile，Sequence，以及其他用户自定义的文件格式的文件都可以压缩,不同的场合用不同的压缩算法，bzip2和GZIP是比较消耗CPU的，压缩比最高。但GZIP不能被分块并行处理；

Snappy和LZO差不多，稍微胜出一点，cpu消耗的比GZIP少。

comparison between compression algorithms

Algorithm   % remaining Encoding    Decoding

GZIP    13.4%   21 MB/s 118 MB/s

LZO 20.5%   135 MB/s    410 MB/s

Snappy  22.2%   172 MB/s    409 MB/s

运行时报错处理

1,客户端收到报错

ScannerTimeoutException:org.apache.hadoop.hbase.client.ScannerTimeoutException

    这是当从服务器传输数据到客户端的时间，或者客户端处理数据的时间大于了scanner设置的超时时间，scanner超时报错，可在客户端代码中设置超时时间

    Configuration conf = HBaseConfiguration.create()

    conf.setLong(HConstants.HBASE_REGIONSERVER_LEASE_PERIOD_KEY,120000)

    但由于scan超时时间是配在Region Server上的，所以此配置无用。修改该值必须在Region Server上修改hbase-site.xml，重启集群。

2,报错org.apache.hadoop.hbase.regionserver.LeaseException: org.apache.hadoop.hbase.regionserver.LeaseException: lease ” does not exist

    首先介绍，租约（Lease）过期或租约不存在，指的是hbase client端每次和regionserver交互时，服务器端会生成一个租约（Lease),其有效期时间由参数hbase.regionserver.lease.period确定。

    原理如下：

    客户端在regionserver取数据时，如果hbase中存的数据过大且很多region时，客户端请求的region不在内存中，或是没有被cache住，需要从磁盘中加载。而当加载时间超过了hbase.regionserver.lease.period的设置时间，且客户端没有和regionserver报告其还活着，那么regionserver就会认为本次租约已经过期，并从LeaseQueue中删掉本次租约，当regionserver加载完成后，拿已经被删除的租约再去取数据的时候，就会出现如上的错误现象。

    解决办法一般是增加租约时间，设置hbase.regionserver.lease.period参数（默认为60000，一分钟）

        conf.setLong(HConstants.HBASE_REGIONSERVER_LEASE_PERIOD_KEY,120000)。

    如果还报错，则可能是hbase.rpc.timeout的问题，增大hbase.regionserver.lease.period的时候应该同时增大hbase.rpc.timeout，同时hbase.rpc.timeout应该等于或大于hbase.regionserver.lease.period

        conf.setLong("hbase.rpc.timeout", 1200000);

hbase 程序优化参数调整方法的更多相关文章

Odoo环境下Ubuntu服务器性能优化--参数调整
公司在使用Odoo进行内部信息化管理,随着业务增长,服务器性能问题变成了瓶颈,为了解决这些问题,最近的工作重点将移到性能调整上来,同时也会在此记录整个处理过程,以便日后回顾. 1.根据相关资料建议,在 ...
我的四轴专用PID参数整定方法及原理---超长文慎入(转)
给四轴调了好久的PID,总算是调好了,现分享PID参数整定的心得给大家,还请大家喷的时候手下留情. 首先说明一下,这篇文章的主旨并不是直接教你怎么调,而是告诉你这么调有什么道理,还要告诉大家为什么'只 ...
HBase性能优化方法总结(转)
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法.有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客. 1. 表的设计 1.1 Pr ...
HBase性能优化方法总结（转）
原文链接:HBase性能优化方法总结(一):表的设计本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法.有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客. ...
HBase性能优化方法总结（三）：读表操作
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法.有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客. 下面是本文总结的第三部分内容:读表操作相关的优化方法 ...
[转帖]PostgreSQL 参数调整(性能优化)
PostgreSQL 参数调整(性能优化) https://www.cnblogs.com/VicLiu/p/11854730.html 知道一个 shared_pool 文章写的挺好的还没仔细看 ...
HBase性能优化方法总结（三）：读表操作（转）
转自:http://www.cnblogs.com/panfeng412/archive/2012/03/08/hbase-performance-tuning-section3.html 本文主要是 ...
HBase性能优化方法总结（二）：写表操作
转自:http://www.cnblogs.com/panfeng412/archive/2012/03/08/hbase-performance-tuning-section2.html 本文主要是 ...
HBase性能优化方法总结
1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数 ...

随机推荐

2015 多校联赛 ——HDU5325（DFS）
Crazy Bobo Time Limit: 6000/3000 MS (Java/Others) Memory Limit: 131072/65536 K (Java/Others) Tota ...
HDU1348 Wall 凸包
题目链接 http://acm.hdu.edu.cn/showproblem.php?pid=1348 题意:给出一个凸包,求出与凸包距离 L的外圈周长凸包模板题,练练Andrew算法求出凸包周长再 ...
JS 实现点击页面任意位置隐藏div、span
通过调用下面的 showhidden(“标签ID”) 显示div/span/…等标签内容,可以实现点击页面任意地方再次隐藏该标签内容,而showhidden(“标签ID”,”nohidden”)可保存 ...
Cannot change version of project facet Dynamic Web Module to 2.5的解决
步骤1 右键项目点击Project Facets 修改里面的 Dynamic Web Module 成2.5 maven-update看下有没有解决步骤2 没有就导入 <dependency ...
反射实现java深度克隆
一.克隆有时想得到对象的一个复制品,该复制品的实体是原对象实体的克隆.复制品实体的变化不会引起原对象实体发生变化,这样的复制品称为原对象实体的克隆对象或简称克隆. 1.浅复制(浅克隆) 概念:被复制 ...
简介JSP与FreeMarker及Volicity区别
FreeMarker FreeMarker是一款模板引擎: 即一种基于模板和要改变的数据, 并用来生成输出文本(HTML网页.电子邮件.配置文件.源代码等)的通用工具. 它不是面向最终用户的,而是一个 ...
关于一些基础的Java问题的解答（五）
21. 实现多线程的两种方法:Thread与Runable 在Java中实现多线程编程有以下几个方法: 1.继承Thread类,重写run方法 public class Test { public s ...
C# 虹软SDK视频人脸识别和注册
一,准备工作 1.Afoge视频参数类 using AForge.Video.DirectShow; using System; using System.Collections.Generic; u ...
WeihanLi.Npoi
WeihanLi.Npoi Intro Npoi 扩展,适用于.netframework4.5及以上和netstandard2.0, .netframework基于NPOI, .netstandard ...
Gradle 1.12用户指南翻译——第五十章. 依赖管理
本文由CSDN博客貌似掉线翻译,其他章节的翻译请参见:http://blog.csdn.net/column/details/gradle-translation.html翻译项目请关注Github上 ...

hbase 程序优化 参数调整方法

public Scan setCacheBlocks(boolean cacheBlocks)//Set whether blocks should be cached for this Scan

public Scan setCaching(int caching)

其他的参数优化配置：

1. Write Buffer Size

2.map中间结果压缩

运行时报错处理

1,客户端收到报错

2,报错org.apache.hadoop.hbase.regionserver.LeaseException: org.apache.hadoop.hbase.regionserver.LeaseException: lease ” does not exist

hbase 程序优化 参数调整方法的更多相关文章

随机推荐

热门专题

hbase 程序优化参数调整方法

hbase 程序优化参数调整方法的更多相关文章