HBase 中加盐（Salting）之后的表如何读取：Spark 篇

我们知道，HBase 为我们提供了 hbase-mapreduce 工程包含了读取 HBase 表的 InputFormat、OutputFormat 等类。这个工程的描述如下：
This module contains implementations of InputFormat, OutputFormat, Mapper, Reducer, etc which are needed for running MR jobs on tables, WALs, HFiles and other HBase specific constructs. It also contains a bunch of tools: RowCounter, ImportTsv, Import, Export, CompactionTool, ExportSnapshot, WALPlayer, etc.
我们也知道，虽然上面描述的是 MR jobs，但是 Spark 也是可以使用这些 InputFormat、OutputFormat 来读写 HBase 表的，如下：

val sparkSession = SparkSession.builder

.appName("HBase")

.getOrCreate()

val conf = HBaseConfiguration.create()

conf.set("hbase.zookeeper.quorum", "https://www.iteblog.com:2181")

conf.set(TableInputFormat.INPUT_TABLE, "iteblog")

val HBaseRdd = sparkSession.sparkContext.newAPIHadoopRDD(conf, classOf[TableInputFormat],

classOf[ImmutableBytesWritable],

classOf[Result])

println(HBaseRdd.count())

上面程序使用 TableInputFormat 计算了 iteblog 表的总行数。如果我们想查询某个 UID 的所有历史记录如何实现呢？如果你查看 TableInputFormat 代码，你会发现其包含了很大参数设置：

hbase.mapreduce.inputtable

hbase.mapreduce.splittable

hbase.mapreduce.scan

hbase.mapreduce.scan.row.start

hbase.mapreduce.scan.row.stop

hbase.mapreduce.scan.column.family

hbase.mapreduce.scan.columns

hbase.mapreduce.scan.timestamp

hbase.mapreduce.scan.timerange.start

hbase.mapreduce.scan.timerange.end

hbase.mapreduce.scan.maxversions

hbase.mapreduce.scan.cacheblocks

hbase.mapreduce.scan.cachedrows

hbase.mapreduce.scan.batchsize

hbase.mapreduce.inputtable.shufflemaps

其中 hbase.mapreduce.inputtable 就是需要查询的表，也就是上面 Spark 程序里面的 TableInputFormat.INPUT_TABLE。而 hbase.mapreduce.scan.row.start 和 hbase.mapreduce.scan.row.stop 分别对应的是需要查询的起止 Rowkey，所以我们可以利用这个信息来实现某个范围的数据查询。但是要注意的是，iteblog 这张表是加盐了，所以我们需要在 UID 之前加上一些前缀，否则是查询不到数据的。不过 TableInputFormat 并不能实现这个功能。那如何处理呢？答案是重写 TableInputFormat 的 getSplits 方法。

从名字也可以看出 getSplits 是计算有多少个 Splits。在 HBase 中，一个 Region 对应一个 Split，对应于 TableSplit 实现类。TableSplit 的构造是需要传入 startRow 和 endRow。startRow 和 endRow 对应的就是上面 hbase.mapreduce.scan.row.start 和 hbase.mapreduce.scan.row.stop 参数传进来的值，所以如果我们需要处理加盐表，就需要在这里实现。

另一方面，我们可以通过 RegionLocator 的 getStartEndKeys() 拿到某张表所有 Region 的 StartKeys 和 EndKeys 的。然后将拿到的 StartKey 和用户传进来的 hbase.mapreduce.scan.row.start 和 hbase.mapreduce.scan.row.stop 值进行拼接即可实现我们要的需求。根据这个思路，我们的代码就可以按照如下实现：

package com.iteblog.data.spark;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import com.google.common.base.Strings;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.hbase.TableName;

import org.apache.hadoop.hbase.client.Connection;

import org.apache.hadoop.hbase.client.ConnectionFactory;

import org.apache.hadoop.hbase.client.RegionLocator;

import org.apache.hadoop.hbase.mapreduce.TableInputFormat;

import org.apache.hadoop.hbase.mapreduce.TableSplit;

import org.apache.hadoop.hbase.util.Bytes;

import org.apache.hadoop.hbase.util.Pair;

import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hadoop.mapreduce.JobContext;

public class SaltRangeTableInputFormat extends TableInputFormat {

@Override

public List<InputSplit> getSplits(JobContext context) throws IOException {

Configuration conf = context.getConfiguration();

String tableName = conf.get(TableInputFormat.INPUT_TABLE);

if (Strings.isNullOrEmpty(tableName)) {

throw new IOException("tableName must be provided.");

}

Connection connection = ConnectionFactory.createConnection(conf);

val table = TableName.valueOf(tableName)

RegionLocator regionLocator = connection.getRegionLocator(table);

String scanStart = conf.get(TableInputFormat.SCAN_ROW_START);

String scanStop = conf.get(TableInputFormat.SCAN_ROW_STOP);

Pair<byte[][], byte[][]> keys = regionLocator.getStartEndKeys();

if (keys == null || keys.getFirst() == null || keys.getFirst().length == 0) {

throw new RuntimeException("At least one region is expected");

}

List<InputSplit> splits = new ArrayList<>(keys.getFirst().length);

for (int i = 0; i < keys.getFirst().length; i++) {

String regionLocation = getTableRegionLocation(regionLocator, keys.getFirst()[i]);

String regionSalt = null;

if (keys.getFirst()[i].length > 0) {

regionSalt = Bytes.toString(keys.getFirst()[i]).split("-")[0];

}

byte[] startRowKey = Bytes.toBytes(regionSalt + "-" + scanStart);

byte[] endRowKey = Bytes.toBytes(regionSalt + "-" + scanStop);

InputSplit split = new TableSplit(TableName.valueOf(tableName),

startRowKey, endRowKey, regionLocation);

splits.add(split);

}

return splits;

}

private String getTableRegionLocation(RegionLocator regionLocator,

byte[] rowKey) throws IOException {

return regionLocator.getRegionLocation(rowKey).getHostname();

}

然后我们同样查询 UID = 1000 的用户所有历史记录，那么我们的程序可以如下实现：

package com.iteblog.data.spark

import org.apache.hadoop.hbase.HBaseConfiguration

import org.apache.hadoop.hbase.client.Result

import org.apache.hadoop.hbase.io.ImmutableBytesWritable

import org.apache.hadoop.hbase.mapreduce.TableInputFormat

import org.apache.hadoop.hbase.util.Bytes

import org.apache.spark.sql.SparkSession

import scala.collection.JavaConversions._

object Spark {

def main(args: Array[String]): Unit = {

val sparkSession = SparkSession.builder

.appName("HBase")

.getOrCreate()

val conf = HBaseConfiguration.create()

conf.set("hbase.zookeeper.quorum", "https://www.iteblog.com:2181")

conf.set(TableInputFormat.INPUT_TABLE, "iteblog")

conf.set(TableInputFormat.SCAN_ROW_START, "1000")

conf.set(TableInputFormat.SCAN_ROW_STOP, "1001")

val HBaseRdd = sparkSession.sparkContext.newAPIHadoopRDD(conf, classOf[SaltRangeTableInputFormat],

classOf[ImmutableBytesWritable],

classOf[Result])

HBaseRdd.foreach { case (_, result) =>

val rowKey = Bytes.toString(result.getRow)

val cell = result.listCells()

cell.foreach { item =>

val family = Bytes.toString(item.getFamilyArray, item.getFamilyOffset, item.getFamilyLength)

val qualifier = Bytes.toString(item.getQualifierArray,

item.getQualifierOffset, item.getQualifierLength)

val value = Bytes.toString(item.getValueArray, item.getValueOffset, item.getValueLength)

println(rowKey + " \t " + "column=" + family + ":" + qualifier + ", " +

"timestamp=" + item.getTimestamp + ", value=" + value)

}

我们编译打包上面的程序，然后使用下面命令运行上述程序：

bin/spark-submit --class com.iteblog.data.spark.Spark

--master yarn

--deploy-mode cluster

--driver-memory 2g

--executor-memory 2g ~/hbase-1.0-SNAPSHOT.jar

得到的结果如下：

A-1000-1550572395399 column=f:age, timestamp=1549091990253, value=54

A-1000-1550572395399 column=f:uuid, timestamp=1549091990253, value=e9b10a9f-1218-43fd-bd01

A-1000-1550572413799 column=f:age, timestamp=1549092008575, value=4

A-1000-1550572413799 column=f:uuid, timestamp=1549092008575, value=181aa91e-5f1d-454c-959c

A-1000-1550572414761 column=f:age, timestamp=1549092009531, value=33

A-1000-1550572414761 column=f:uuid, timestamp=1549092009531, value=19aad8d3-621a-473c-8f9f

B-1000-1550572388491 column=f:age, timestamp=1549091983276, value=1

B-1000-1550572388491 column=f:uuid, timestamp=1549091983276, value=cf720efe-2ad2-48d6-81b8

B-1000-1550572392922 column=f:age, timestamp=1549091987701, value=7

B-1000-1550572392922 column=f:uuid, timestamp=1549091987701, value=8a047118-e130-48cb-adfe

.....

和前面文章使用 HBase Shell 输出结果一致。

HBase 中加盐（Salting）之后的表如何读取：Spark 篇的更多相关文章

HBase 中加盐之后的表如何读取：Spark 篇
在 <HBase 中加盐之后的表如何读取:协处理器篇> 文章中介绍了使用协处理器来查询加盐之后的表,本文将介绍第二种方法来实现相同的功能. 我们知道,HBase 为我们提供了 hbase- ...
HBase中加盐（Salting）之后的表如何读取：协处理器文章
我们介绍了避免数据斑点的三种比较常见方法: 加盐-盐腌哈希-散列反转-反转其中在加盐(Salting)的方法里面是这么描述的:给Rowkey分配一个随机指针以使其和之前排序不同.但是在Rowke ...
hbase数据加盐（Salting）存储与协处理器查询数据的方法
转自: https://blog.csdn.net/finad01/article/details/45952781 ----------------------------------------- ...
MD5加密算法中的加盐值 ,和彩虹表攻击防止彩虹表撞库
一.什么是彩虹表? 彩虹表(Rainbow Tables)就是一个庞大的.针对各种可能的字母组合预先计算好的哈希值的集合,不一定是针对MD5算法的,各种算法的都有,有了它可以快速的破解各类密码.越是复 ...
hive和hbase本质区别——hbase本质是OLTP的nosql DB，而hive是OLAP 底层是hdfs，需从已有数据库同步数据到hdfs;hive可以用hbase中的数据，通过hive表映射到hbase表
对于hbase当前noSql数据库的一种,最常见的应用场景就是采集的网页数据的存储,由于是key-value型数据库,可以再扩展到各种key-value应用场景,如日志信息的存储,对于内容信息不需要完 ...
abp架构中加载公共css样式表和公共js的文件目录位置
src\shared\helpers\LocalizedResourcesHelper.ts
将HBase中的表加载到hive中
两种方式加载hbase中的表到hive中,一是hive创建外部表关联hbase表数据,二是hive创建普通表将hbase的数据加载到本地 1. 创建外部表 hbase中已经有了一个test表,内容如下 ...
[Phoenix] 四、加盐表
摘要: 在密码学中,加盐是指在散列之前将散列内容(例如:密码)的任意固定位置插入特定的字符串.这个在散列中加入字符串的方式称为“加盐”.其作用是让加盐后的散列结果和没有加盐的结果不相同,在不同的应用情 ...
一种简单的md5加盐加密的方法(防止彩虹表撞库)
md5加密(或者说摘要算法)大家都很熟悉了就不解释了现在很多数据库设计都喜欢用单向加密的方式保存密码,验证时对提交的密码再次加密之后做密文对比 /// <summary> 使用MD5加 ...

随机推荐

BZOJ1022
1022: [SHOI2008]小约翰的游戏John Time Limit: 1 Sec Memory Limit: 162 MBSubmit: 2701 Solved: 1721[Submit] ...
走迷宫（三）：在XX限制条件下，是否走得出。
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1010 题目前提条件:让你输入一个数组,包含一个起点S,一个终点D,一个时间T.(其中X代表墙,.代表此 ...
WordPress获取某个标签关联的分类
反过来,我们可能会有这样的需求,既然可以获取某个分类的关联标签,那我能获取某个标签的关联分类吗?答案是可以的,将上面的代码稍微改一下就可以了: function ludou_get_tag_categ ...
Kubectl exec 的工作原理解读
对于经常和 Kubernetes 打交道的 YAML 工程师来说,最常用的命令就是 kubectl exec 了,通过它可以直接在容器内执行命令来调试应用程序.如果你不满足于只是用用而已,想了解 ku ...
【JUC】CyclicBarrier和Semaphore的使用
CyclicBarrier的使用 CyclicBarrier:可以让一组检测到一个屏障时被阻塞,直到最后一个线程到达屏障时,屏障才会开门,所有的屏障拦截的线程才会继续执行,线程进入屏障通过Cyclic ...
Asp.net Identity身份与权限体系设计
1 Identity 介绍 2 授权系统图1 体系结构 3 自定义 Attribute 自定义 Attribute 继承于 AuthorizeAttribute,AuthorizeAttribute ...
[C#] [VS] Snippets快捷代码块之 Region
代码长了,阅读起来不方便, 于是,C#中我们经常会用 region来折叠代码块. 在VS中,输入 #region , 点Tab,会自动生成如下: #region MyRegion #endregion ...
跟着阿里学JavaDay01——Java编程环境搭建
一.下载并完成JDK的安装我们要学习Java就需要下载JDK.因为JDK是Java的开发工具. JDK的获取可以通过官方网站下载:JDK下载地址(这里我们下载Java SE10的版本) JDK下载完 ...
设置Mac终端、pip、Anaconda、PyCharm共用一套环境
最近我在用Macbook Pro练习PyTorch的时候,发现明明在终端已经用pip安装了PyTorch,但在pycharm运行时总是报错:No module named torch. 但是我把同样的 ...
Web缓存欺骗
该漏洞主要是cdn安全配置的问题,cdn主要存储以下文件,加快访问速度 class, css, jar, js, jpg, jpeg, gif, ico, png, bmp, pict, csv, d ...

HBase 中加盐（Salting）之后的表如何读取：Spark 篇

HBase 中加盐（Salting）之后的表如何读取：Spark 篇的更多相关文章

随机推荐

热门专题