Hbase客户端API基础小结笔记(未完)

客户端API：基础

　　HBase的主要客户端接口是由org.apache.hadoop.hbase.client包中的HTable类提供的，通过这个类，用户可以完成向HBase存储和检索数据，以及删除无效数据之类的操作。

　　通常在正常负载下和常规操作下，客户端读操作不会受到其他修改数据的客户端影响，因为它们之间的冲突可以忽略不计。但是，当允许客户端需要同时修改同一行数据时就会产生问题。所以，用户应当尽量使用批量处理(batch)更新来减少单独操作同一行数据的次数。 (如果是实时系统，则需要加上synchronized关键字）

　　创建HTable实例是有代价的。每个实例都需要扫描.META表，以检查该表是否存在、是否可用，此外还要执行一些其他操作，这些检查和操作导致实例调用非常耗时，因此推荐用户只创建一次HTable实例（就好比在Hadoop的setup中创建一次实例，供后续mapreduce调用，最终在cleanup中close)

向HBase插入数据的example：

package HBaseTest;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.client.Get;

import org.apache.hadoop.hbase.client.HTable;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.util.Bytes;

import java.io.IOException;

/**

 * Created by root on 5/27/16.

 */

public class PutExample {

    public static void main(String[] args){

       //加载配置文件

        Configuration conf = HBaseConfiguration.create();

        HTable table = null;

        try {

           //创建HTable对象

            table = new HTable(conf,"practice");

            //设置rowkey

            Put put = new Put(Bytes.toBytes("rowKeyNum1"));

            //设置要写入的列族，列与value           
　　　　　　　put.add(Bytes.toBytes("f1"),Bytes.toBytes("cardNo"),Bytes.toBytes("123456789"));

            table.put(put);

            //获取rowkey

            Get result = new Get("rowKeyNum1".getBytes());

            //将获取到的值放入Hbase的Result中

            Result rs = table.get(result);

            //获取指定列族的列的value

            String cardNo = Bytes.toString(rs.getValue("f1".getBytes(),"cardNo".getBytes()));

            System.out.println("---cardNo---" + cardNo);

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

}

　　数据和坐标都是以Java的byte[]形式存储的，即以字节数组的形式存储的。使用这种底层存储类型的目的是，允许存储任意类型的数据，并且可以有效地只存储所需的字节，这保证了最少的内部数据结构开销。另一个原因是，每一个字节数组都有一个offerset参数和一个length参数，它们允许用户提交一个已存在的字节数组，并进行效率很高的字节级别的操作。

客户端的写缓冲区

　　每一个put操作实际上都是一个RPC操作，它将客户端数据传送到服务器然后返回。这只适合小数据量的操作，如果有个应用程序需要每秒存储上千行数据到HBase表中，这样的处理就不太合适了。（一般情况下，在LAN网络中大概要花1毫秒的时间，这意味着1秒钟的时间内只能完成1000次RPC往返响应。）

　　HBase的API配备了一个客户端的写缓冲区(write buffer)，缓冲区负责收集put操作，然后调用RPC操作一次性将put送往服务器。（默认情况下，客户端缓冲区是禁用的，可以通过将自动刷写autoflush设置为false来激活缓冲区)

 HTable table = new HTable(conf,"practice");

 table.setAutoFlush(false);

　　客户端写缓冲区的大小默认是2MB，如果需要存储较大的数据，为了避免每次创建实例都要修改缓冲区大小，可以在hbase-site.xml配置文件中添加一个较大的预设值。

<property>

        <name>hbase.client.write.buffer</name>

        <value>20971520</value>

</property>

　　这会将缓冲区大小增肌到20MB，大小可以根据数据量等参考设置。

　　强制刷写数据可以调用table.flushCommits();直接产生一个RPC请求。

　　注意：

　　客户端缓冲区是一个简单的保存在客户端进程内存中的列表，用户需要注意不能在运行时终止程序，如果发生这种情况，哪些尚未被刷写的数据就会丢失，服务器将无法收到数据，因此这些数据没有任何副本可以用来做数据恢复。

　　另外注意，一个更大的缓冲区需要客户端和服务器端消耗更多的内存，因此服务器端也需要先将数据写入到服务器端消耗更多的内存，因为服务器端也需要先将数据写入到服务器的写缓冲区中，然后再处理它，估算服务器端内存的占用可使用hbase.client.write.buffer 乘以 hbase.regionserver.handle.count 乘以region服务器的数量。

　　如果用户只存储大单元格，客户端缓冲区的作用就不大了，因为传输时间占用了大部分的请求时间。

参考：《HBase权威指南》

Hbase客户端API基础小结笔记(未完)的更多相关文章

Go web编程学习笔记——未完待续
1. 1).GOPATH设置先设置自己的GOPATH,可以在本机中运行$PATH进行查看: userdeMacBook-Pro:~ user$ $GOPATH -bash: /Users/user/ ...
Hbase记录-HBase客户端API
本章介绍用于对HBase表上执行CRUD操作的HBase Java客户端API. HBase是用Java编写的,并具有Java原生API.因此,它提供了编程访问数据操纵语言(DML). HBaseCo ...
Hbase王国游记之：Hbase客户端API初体验
§历史回顾 2018年岁末,李大胖朦胧中上了开往Hbase王国的车,伴着一声长鸣,列出缓缓驶出站台,奔向无垠的广袤. (图片来自于网络) 如不熟悉剧情的,可观看文章: 五分钟轻松了解Hbase列式存储 ...
jQuery 学习笔记(未完待续)
一.jQuery概述宗旨: Write Less, Do More. 基础知识: 1.符号$代替document.getElementById()函数 2.使 ...
linux学习笔记---未完待续，缓慢更新
做为linux菜鸟,由于work的需要,慢慢的开始接触学习linux. <鸟哥的linux私房菜>学习笔记. 一.基础命令操作 1.显示日期的命令 date 执行date命令后,显示结果为 ...
Greys学习笔记(未完待续)
Greys介绍 greys-anatomy是一个Java线上诊断工具,取名来自美剧<实习医生格雷>,由菜鸟-杜琨同学开发维护.比我们常用的脚本工具btrace提供更多的功能,greys采用 ...
oracle-绑定变量学习笔记(未完待续)
--定义变量SQL> var a number; --给绑定变量赋值SQL> exec :a :=123; PL/SQL procedure successfully completed. ...
iOS开发——设备信息小结（未完待续...）
1.获取设备的信息 UIDevice *device = [[UIDevice alloc] init]; NSString *name = device.name; //获取设备所有者 ...
MongoDB基础教程系列--未完待续
最近对 MongoDB 产生兴趣,在网上找的大部分都是 2.X 版本,由于 2.X 与 3.X 差别还是很大的,所以自己参考官网,写了本系列.MongoDB 的知识还是很多的,本系列会持续更新,本文作 ...

随机推荐

android 中 webview 怎么用 localStorage?
我在 android里面使用html5的 localStorage 为什么存不进去也读不出来呀? 网上搜了好多都没效果 1 2 3 4 5 6 7 8 9 mainWebView = (WebVie ...
Jmeter 录制脚本
Jmeter中有2种方法可以录制脚本. 不过我个人非常不推荐录制脚本,录制的脚本混乱,需要再次加工才能使用. 像我这么精通HTTP协议的人. 一直都是使用Fiddler来抓包,然后自己写脚本. 无论 ...
基于TF-IDF值的汉语语义消歧算法
RT,学校课题需要233,没了话说,窝直接做个链接的集合好了,方便以后查找特征值提取之 -- TF-IDF值的简单介绍汉语语义消歧之 -- 句子相似度汉语语义消歧之 -- 词义消歧简介 c++ ...
寻找C语言和.NET之间的桥梁
一提到C语言,在偶这个始终的C语言菜鸟眼里,是个神奇的语言.经过了近半世纪的历史,多少技术湮灭在信息时代的长河中,C语言却依然在TIBOE排行榜中笑傲群雄. 本文是谈.NET开发者看来,C语言有什么特 ...
Linux 安装图形界面及远程连接
#可查询哪些组件是否已经安装(可用来对照组件名称) yum grouplist yum groupinstall 'X Window System' -y #安装GNOME桌面环境 yum group ...
PostgreSQL 列出所有表名和数据库名
列出表名直接 \d 不加参数或 SELECT tablename FROM pg_tables WHERE tablename NOT LIKE 'pg%' ...
File缓存
/** * 保存对象 * @param ser * @param file * @throws IOException */ public b ...
DeepLearning之路（二）SoftMax回归
Softmax回归 1. softmax回归模型 softmax回归模型是logistic回归模型在多分类问题上的扩展(logistic回归解决的是二分类问题). 对于训练集,有. 对于给定的测试 ...
java中Commons-fileupload实现上传
java中Commons-fileupload组件实现上传在实现功能之前需要导入两个jar文件,分别是 commons-fileupload-1.3.1.jar 和 commons-io.jar 文 ...
【转】 linux下的g++编译器安装
再debian下直接apt-get install gcc g++就可以了.按照类似的逻辑,再Fedora下yum install gcc g++ 报告无法找到g++包. 查了一下,原来这个包的名字叫 ...

Hbase客户端API基础小结笔记(未完)

Hbase客户端API基础小结笔记(未完)的更多相关文章

随机推荐

热门专题