PySpark操作HBase时设置scan参数

在用PySpark操作HBase时默认是scan操作，通常情况下我们希望加上rowkey指定范围，即只获取一部分数据参加运算。翻遍了spark的python相关文档，搜遍了google和stackoverflow也没有具体的解决方案。既然java和scala都支持，python肯定也支持的。

翻了一下hbase源码

org.apache.hadoop.hbase.mapreduce.TableInputFormat

setConf方法里原来是根据特定的字符串对scan进行配置，那么在Python里对conf就可以进行相应的设置，这些设置主要包括：

hbase.mapreduce.scan.row.start
hbase.mapreduce.scan.row.stop
hbase.mapreduce.scan.column.family
hbase.mapreduce.scan.columns
hbase.mapreduce.scan.timestamp
hbase.mapreduce.scan.timerange.start
hbase.mapreduce.scan.timerange.end
hbase.mapreduce.scan.maxversions
hbase.mapreduce.scan.cacheblocks
hbase.mapreduce.scan.cachedrows
hbase.mapreduce.scan.batchsize

首先创建测试表

hbase> create 'test', 'f1'

hbase> put 'test', 'row1', 'f1', 'value1'

hbase> put 'test', 'row2', 'f1', 'value2'

hbase> put 'test', 'row3', 'f1', 'value3'

hbase> put 'test', 'row4', 'f1', 'value4'

然后，设置scan范围的示例代码如下

sc = SparkContext(appName=settings.APP_NAME)

conf = {

        "hbase.zookeeper.quorum": settings.HBASE_HOST,

        "hbase.mapreduce.inputtable": "test",

        "hbase.mapreduce.scan.row.start": "row2"

    }

rdd = sc.newAPIHadoopRDD(

    "org.apache.hadoop.hbase.mapreduce.TableInputFormat",

    "org.apache.hadoop.hbase.io.ImmutableBytesWritable",

    "org.apache.hadoop.hbase.client.Result",

    keyConverter="org.valux.converters.ImmutableBytesWritableToStringConverter",

    valueConverter="org.valux.converters.HBaseResultToStringConverter",

    conf=conf)

result = rdd.collect()

for (k, v) in result

    print k, v

org.valux.converters.ImmutableBytesWritableToStringConverterorg.valux.converters.HBaseResultToStringConverter 是我自己实现的两个转换类，也可以用spark默认自带的converter，具体可以参考hbase_inputformat.py，不过提交时请带上相应的jar包

PySpark操作HBase时设置scan参数的更多相关文章

tomcat 启动时设置 java 参数，mark
在文件 startup.bat/.sh 中添加 set "JAVA_OPTS=-Xms2048m -Xmx4096m -XX:NewSize=256m -XX:MaxNewSize=102 ...
Scala操作Hbase空指针异常java.lang.NullPointerException处理
Hbase版本:Hortonworks Hbase 1.1.2 问题描述:使用Scala操作Hbase时,发生空指针异常(java.lang.RuntimeException: java.lang.N ...
Hbase第五章 MapReduce操作HBase
容易遇到的坑: 当用mapReducer操作HBase时,运行jar包的过程中如果遇到 java.lang.NoClassDefFoundError 类似的错误时,一般是由于hadoop环境没有hba ...
Major compaction时的scan操作
版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/u014393917/article/details/24419355 Major compactio ...
安装ORACLE时在Linux上设置内核参数的含义
前两天看到一篇Redhat官方的Oracle安装文档,对于Linux内核参数的修改描述的非常清晰. 安装Oracle之前,除了检查操作系统的硬件和软件是否满足安装需要之外,一个重点就是修改内核参数,其 ...
Microsoft.Web.Administration操作IIS7时的权限设置
在用Microsoft.Web.Administration操作IIS7时,你可能会遇到如下权限错误: 文件名: redirection.config错误: 由于权限不足而无法读取配置文件如下图: ...
获取列表数据时，getList 设置默认参数：getList(page = 1)，点击分页及前往时，传page参数，其他使用page的默认值：1
获取列表数据时,getList 设置默认参数:getList(page = 1),点击分页及前往时,传page参数,其他使用page的默认值:1
Python操作HBase之happybase
安装Thrift 安装Thrift的具体操作,请点击链接 pip install thrift 安装happybase pip install happybase 连接(happybase.Conne ...
HBase（六）HBase整合Hive，数据的备份与MR操作HBase
一.数据的备份与恢复 1. 备份停止 HBase 服务后,使用 distcp 命令运行 MapReduce 任务进行备份,将数据备份到另一个地方,可以是同一个集群,也可以是专用的备份集群. 即,把数 ...

随机推荐

SeaJS 学习
什么是系统在生活和工作中,我们会接触到大量系统:自然界生态系统.计算机操作系统.软件办公系统,还有教育系统.金融系统.网络系统.理论系统等等.究竟什么是系统呢? 来看下维基百科的解释: 系统泛指由一 ...
Django自定义模型（model）中的字段标签
方法一: 在编辑页面中,每个字段的标签都是从模块的字段名称生成的. 规则很简单: 用空格替换下划线:首字母大写.例如:Book模块中publication_date的标签是Publication da ...
16.allegro元件手动摆放[原创]
一.手动摆放 --- -- 一个个摆放二.全局设置 --- 这里都是全局的显示信息三.快速摆放所有元件 -- ---- 四.显示的内容很多,我们来设置下显示 -- 1 --- 2 --- 3 - ...
苹果开发者账号注册&真机调试
苹果公司开发者账号注册流程详解 http://www.cnblogs.com/xilinch/p/4037164.html 真机调试教程 http://segmentfault.com/a/11900 ...
php关于static关键字
静态属性与方法可以在不实例化类的情况下调用,直接使用类名::方法名的方式进行调用.静态属性不允许对象使用->操作符调用.静态方法中,$this伪变量不允许使用.可以使用self,parent,s ...
HTTP 请求方式: GET和POST的比较
GET和POST是HTTP的两个常用方法. 什么是HTTP? 超文本传输协议(HyperText Transfer Protocol -- HTTP)是一个设计来使客户端和服务器顺利进行通讯的协议 ...
jsp之jsp基础
1. Jsp生命周期客户端第一次请求->web容器把jsp文件转译为servlet源文件(java)->编译为class文件->载入class文件生成servlet对象 2. Js ...
五款好玩又好用的Linux网络测试和监控工具
五款好玩又好用的Linux网络测试和监控工具 [51CTO精选译文]在这篇介绍几款Linux网络测试实用工具的文章中,我们使用Bandwidthd.Speedometer.Nethogs.Darkst ...
移植linux(1)
硬件环境:TQ2440 软件环境:linux-2.6.30.4 下载源码:ftp://ftp.kernel.org/pub/linux/kernel/v2.6/linux-2.6.30.4.tar ...
I.MX6 shutdown by software
/************************************************************************ * I.MX6 shutdown by softwa ...

PySpark操作HBase时设置scan参数

PySpark操作HBase时设置scan参数的更多相关文章

随机推荐

热门专题