Spark-2.3.2 Java SparkSQL的自定义HBase数据源

由于SparkSQL不支持HBase的数据源（HBase-1.1.2），网上有很多是采用Hortonworks的SHC，而SparkSQL操作HBase自定义数据源大多数都是基于Scala实现，我就自己写了一个Java版的SparkSQL操作HBase的小案例。

1、SparkOnHBase

package com.mengyao.tag.utils.external.hbase;

import org.apache.spark.SparkConf;

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SparkSession;

/**

 *

 * @author mengyao

 *

 */

public class SparkSQLOnHBase {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf()

                .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer");

        SparkSession session = SparkSession.builder()

                .config(conf)

                .appName("SparkOnHBase")

                .master("local[*]")

                .getOrCreate();

        Dataset<Row> df = session.read()

                .format("com.mengyao.tag.utils.external.hbase.HBaseSource")

                .option("zkHosts", "192.168.10.20")

                .option("zkPort", "2181")

                .option("hbaseTable", "tbl_tag_user")

                .option("family", "test")

                .option("selectFields", "id,username,email,phone")

                //.option("selectFields", "uid,tids")

                .load();

        df.printSchema();

        df.logicalPlan();

        df.explain();

        df.filter("id>10").show();

        session.close();

    }

}

2、HBaseSource

package com.mengyao.tag.utils.external.hbase;

import org.apache.spark.sql.SQLContext;

import org.apache.spark.sql.sources.BaseRelation;

import org.apache.spark.sql.sources.RelationProvider;

import scala.collection.immutable.Map;

/**

 *

 * @author mengyao

 *

 */

public class HBaseSource implements RelationProvider {

    @Override

    public BaseRelation createRelation(SQLContext sqlContext, Map<String, String> options) {

        return new HBaseRelation(sqlContext, options);

    }

}

3、HBaseRelation

package com.mengyao.tag.utils.external.hbase;

import java.io.IOException;

import java.io.Serializable;

import java.util.ArrayList;

import java.util.LinkedList;

import java.util.List;

import java.util.stream.Stream;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.TableInputFormat;

import org.apache.hadoop.hbase.protobuf.ProtobufUtil;

import org.apache.hadoop.hbase.protobuf.generated.ClientProtos;

import org.apache.hadoop.hbase.util.Base64;

import org.apache.hadoop.hbase.util.Bytes;

import org.apache.spark.rdd.RDD;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.RowFactory;

import org.apache.spark.sql.SQLContext;

import org.apache.spark.sql.sources.BaseRelation;

import org.apache.spark.sql.sources.TableScan;

import org.apache.spark.sql.types.DataTypes;

import org.apache.spark.sql.types.StructField;

import org.apache.spark.sql.types.StructType;

import org.slf4j.Logger;

import org.slf4j.LoggerFactory;

import com.google.common.base.Preconditions;

import scala.Tuple2;

import scala.collection.JavaConverters;

import scala.collection.immutable.Map;

/**

 *

 * @author mengyao

 *

 */

public class HBaseRelation extends BaseRelation implements Serializable, TableScan {

    private static final long serialVersionUID = 4234614443074355432L;

    private static transient Logger logger = LoggerFactory.getLogger(HBaseRelation.class);

    private final String HBASE_ZK_PORT_KEY = "hbase.zookeeper.property.clientPort";

    private final String HBASE_ZK_PORT_VALUE = "zkPort";

    private final String HBASE_ZK_QUORUM_KEY = "hbase.zookeeper.quorum";

    private final String HBASE_ZK_QUORUM_VALUE = "zkHosts";

    private final String HBASE_ZK_PARENT_KEY = "zookeeper.znode.parent";

    private final String HBASE_ZK_PARENT_VALUE = "/hbase-unsecure";

    private final String HBASE_TABLE = "hbaseTable";

    private final String HBASE_TABLE_FAMILY = "family";

    private final String HBASE_TABLE_SELECT_FIELDS = "selectFields";

    private final String sperator = ",";

    private final String ROW = "row";

    private SQLContext sqlContext;

    private java.util.Map<String, String> options;

    private StructType schema = null;

    private boolean updateSchema = true;

    public HBaseRelation(SQLContext sqlContext, Map<String, String> options) {

        this.sqlContext = sqlContext;

        this.options = JavaConverters.mapAsJavaMapConverter(options).asJava();

    }

    @Override

    public RDD<Row> buildScan() {

        validParams(options);

        return scan(sqlContext, options);

    }

    @Override

    public StructType schema() {

        if (updateSchema || schema == null) {

            List<StructField> fields = new ArrayList<>();

            fields.add(DataTypes.createStructField(ROW, DataTypes.StringType, false));

            String fieldsStr = options.get(HBASE_TABLE_SELECT_FIELDS);

            String[] fieldStrs = fieldsStr.split(sperator);

            Stream.of(fieldStrs).forEach(field -> fields.add(DataTypes.createStructField(field, DataTypes.StringType, false)));

            schema = DataTypes.createStructType(fields);

            updateSchema = false;

        }

        logger.info("==== HBaseSource Schema is:{} ====", schema);

        return schema;

    }

    @Override

    public SQLContext sqlContext() {

        return sqlContext;

    }

    private void validParams(java.util.Map<String, String> options){

        String zkHosts = options.get(HBASE_ZK_QUORUM_VALUE);

        Preconditions.checkNotNull(zkHosts, "zkHosts not null!");

        String zkPort = options.get(HBASE_ZK_PORT_VALUE);

        Preconditions.checkNotNull(zkPort, "zkPort not null!");

        String family = options.get(HBASE_TABLE_FAMILY);

        Preconditions.checkNotNull(family, "family not null!");

        String fieldsStr = options.get(HBASE_TABLE_SELECT_FIELDS);

        Preconditions.checkNotNull(fieldsStr, "fieldsStr not null!");

    }

    private RDD<Row> scan(SQLContext sqlContext, java.util.Map<String, String> options) {

        try {

            Configuration conf = HBaseConfiguration.create();

            conf.set(HBASE_ZK_PORT_KEY, options.get(HBASE_ZK_PORT_VALUE));

            conf.set(HBASE_ZK_QUORUM_KEY, options.get(HBASE_ZK_QUORUM_VALUE));

            conf.set(HBASE_ZK_PARENT_KEY, HBASE_ZK_PARENT_VALUE);

            String family = options.get(HBASE_TABLE_FAMILY);

            String fieldsStr = options.get(HBASE_TABLE_SELECT_FIELDS);

            String[] selectFileds = fieldsStr.split(sperator);

            Scan scan = new Scan();

            conf.set(TableInputFormat.INPUT_TABLE, options.get(HBASE_TABLE));

            ClientProtos.Scan proto = ProtobufUtil.toScan(scan);

            String scanStr = Base64.encodeBytes(proto.toByteArray());

            conf.set(TableInputFormat.SCAN, scanStr);

            logger.info("==== HBaseSource Scan is:{} ====", scanStr);

            RDD<Tuple2<ImmutableBytesWritable, Result>> hbaseRdd = sqlContext.sparkContext().newAPIHadoopRDD(conf,

                    TableInputFormat.class, ImmutableBytesWritable.class, Result.class);

            return hbaseRdd.toJavaRDD().map(t -> t._2).map(r -> {

                LinkedList<String> vals = new LinkedList<>();

                String row = Bytes.toString(r.getRow());

                vals.add(row);

                Stream.of(selectFileds).forEach(field -> {

                    String val = Bytes.toString(r.getValue(Bytes.toBytes(family), Bytes.toBytes(field)));

                    vals.add(val);

                });

                return (Row) RowFactory.create(vals.toArray());

            }).rdd();

        } catch (IOException e) {

            e.printStackTrace();

        }

        return null;

    }

}

Spark-2.3.2 Java SparkSQL的自定义HBase数据源的更多相关文章

SparkSQL 如何自定义函数
1. SparkSql如何自定义函数 2. 示例:Average 3. 类型安全的自定义函数 1. SparkSql如何自定义函数? spark中我们定义一个函数,需要继承 UserDefinedAg ...
spark提示Caused by: java.lang.ClassCastException: scala.collection.mutable.WrappedArray$ofRef cannot be cast to [Lscala.collection.immutable.Map;
spark提示Caused by: java.lang.ClassCastException: scala.collection.mutable.WrappedArray$ofRef cannot b ...
[转]Java中实现自定义的注解处理器
Java中实现自定义的注解处理器(Annotation Processor) 置顶2016年07月25日 19:42:49 阅读数:9877 在之前的<简单实现ButterKnife的注解功能& ...
移动开发首页业界资讯移动应用平台技术专题输入您要搜索的内容基于Java Socket的自定义协议，实现Android与服务器的长连接（二）
在阅读本文前需要对socket以及自定义协议有一个基本的了解,可以先查看上一篇文章<基于Java Socket的自定义协议,实现Android与服务器的长连接(一)>学习相关的基础知识点. ...
spark 执行报错 java.io.EOFException: Premature EOF from inputStream
使用spark2.4跟spark2.3 做替代公司现有的hive选项. 跑个别任务spark有以下错误 java.io.EOFException: Premature EOF from inputSt ...
Java之SpringBoot自定义配置与整合Druid
Java之SpringBoot自定义配置与整合Druid SpringBoot配置文件优先级前面SpringBoot基础有提到,关于SpringBoot配置文件可以是properties或者是ya ...
《手把手教你》系列技巧篇（七十一）-java+ selenium自动化测试-自定义类解决元素同步问题（详解教程）
1.简介前面宏哥介绍了几种关于时间等待的方法,也提到了,在实际自动化测试脚本开发过程,百分之90的报错是和元素因为时间不同步而发生报错.本文介绍如何新建一个自定义的类库来解决这个元素同步问题.这样, ...
0基础就可以上手的Spark脚本开发-for Java
前言最近由于工作需要,要分析大几百G的Nginx日志数据.之前也有过类似的需求,但那个时候数据量不多.一次只有几百兆,或者几个G.因为数据都在Hive里面,当时的做法是:把数据从Hive导到MySQ ...
第十一篇：Spark SQL 源码分析之 External DataSource外部数据源
上周Spark1.2刚发布,周末在家没事,把这个特性给了解一下,顺便分析下源码,看一看这个特性是如何设计及实现的. /** Spark SQL源码分析系列文章*/ (Ps: External Data ...

随机推荐

Kubernetes StatefulSet
StatefulSet 简介在Kubernetes中,Pod的管理对象RC.Deployment.DaemonSet和Job都是面向无状态的服务.但现实中有很多服务是有状态的,特别是一些复杂的中间件 ...
svn密码找回
TortoiseSVN Password Decrypterhttp://www.leapbeyond.com/ric/TSvnPD/点击打开链接去这个地址下载这个,然后直接运行,就可以看到你的use ...
【VS开发】WaitForSingleObject 和 WaitForMultipleObjects函数（让线程挂起等待事件）
WaitForSingleObject 和 WaitForMultipleObjects:1.WaitForSingleObject 等待函数可使线程自愿进入等待状态,直到一个特定的内核对象变为已通 ...
使用 pthread_cancel 引入的死锁问题
先来说一下 pthread_cancel 基本概念. pthread_cancel 调用并不是强制终止线程,它只提出请求.线程如何处理 cancel 信号则由目标线程自己决定,可以是忽略.可以是立即终 ...
在ensp上配置Trunk接口
什么是Trunk接口? 在以太网中,通过划分 VLAN 来隔离广播域和增强网络通信的安全性.以太网通常由多台交换机组成,为了使 VLAN 的数据帧跨越多台交换机传递,交换机之间互连的链路需要设置为干道 ...
[转帖]Redis性能解析--Redis为什么那么快？
Redis性能解析--Redis为什么那么快? https://www.cnblogs.com/xlecho/p/11832118.html echo编辑整理,欢迎转载,转载请声明文章来源.欢迎添加e ...
Django框架3——模型
Django数据库层解决的问题在本例的视图中,使用了pymysql 类库来连接 MySQL 数据库,取回一些记录,将它们提供给模板以显示一个网页: from django.shortcuts imp ...
prometheus+alertmanager+granafa监控总结,安装基于docker-compose(长期更新)
最近自己个人尝试在使用prometheus+grafana监控工作业务上的指标, 但是报警功能还没有实际用上,但是感觉是很好用,写下一些啃prometheus官网文档并且自己用到的一些配置的总结,后续 ...
UOJ348 WC2018 州区划分状压DP、欧拉回路、子集卷积
传送门应该都会判欧拉回路吧(雾考虑状压DP:设$W_i$表示集合$i$的点的权值和,$route_i$表示点集$i$的导出子图中是否存在欧拉回路,$f_i$表示前若干个城市包含 ...
go 读取BMP文件头二进制读取
BMP文件头定义: WORD 两个字节 16bit DWORD 四个字节 32bit package main import ( "encoding/binary" "f ...

Spark-2.3.2 Java SparkSQL的自定义HBase数据源

Spark-2.3.2 Java SparkSQL的自定义HBase数据源的更多相关文章

随机推荐

热门专题