hive通过spark导入hbase

发现采用shcjar的话，总是执行到某个点就停止了

于是我打算尝试一下直接说哦用org.apache.hadoop.hbase.spark这个datasource看看

确实不行，即使没有createtable，也是报错没有权限创建表；还是专心来研究一下shc吧

翻看一下日志，日志注明了spark查看路径：http://192.168.156.104:4041

后来过了一段时间，报错

Failed 1 action: Unable to find region for a in test after 35 tries.: 1 time,

Can not infer schema for type: <type 'str'>

这是因为我尝试向HBase中插入

df = sc.parallelize(['b', '2.0']).toDF(schema=['col0', 'col1'])，插入的数据格式有误；

list_namespace 罗列naespace

list_namespace_tables XXX 罗列某个命名空间下的所有表

后来我想到了应该看日志；于是上网搜索了一下spark的日志，发现应该通过18088，History Server Log中能够看到一些蛛丝马迹

zookeeper.ClientCnxn: Opening socket connection to server localhost/127.0.0.1:2181. Will not attempt to authenticate using SASL (unknown error)

17/08/15 00:06:00 WARN zookeeper.ClientCnxn: Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect

难道是ZooKeeper的一些问题？

通过zkCli.sh报错，和上面是一样的，也就是说，zookeeper的客户端也是报错的，搜了一下可能的问题：

1.时间同步问题；

2.zoo.cfg的clientPort要设置为2181（和客户端hbase-site.xml一致）

3.hosts中对于localhost6一行要删掉

前两个排除了，想要通过第三种方式是一下，但是太烦了，集群所有的机器都要重启（修改hosts文件需要重启），我打算再看看，能够找到别的解决方案；后来我在通过ClouderaManager页面的时候，看到Zookeeper的一个配置告警，建议Server最少要三台；我突然想到曾经看到过zookeeper集群有选举机制，只有超过半数通过才能够提供服务；于是增加了两个实例，问题，解决了。

下面的是采用原生的Pyspark以及shcjar两种方式实现的hive到hbase，但是在实际测试中发现在大数据量（比如数据2个G）的情况下，这种pyspark方式会导致一个问题，卡在中间某个任务，之后被告知超时，然后YARN将其kill掉。可能是系统性能问题？

python源码

hive通过spark导入hbase的更多相关文章

大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
前言在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...
用spark导入数据到hbase
集群环境:一主三从,Spark为Spark On YARN模式 Spark导入hbase数据方式有多种 1.少量数据:直接调用hbase API的单条或者批量方法就可以 2.导入的数据量比较大,那就需 ...
Spark：DataFrame批量导入Hbase的两种方式(HFile、Hive)
Spark处理后的结果数据resultDataFrame可以有多种存储介质,比较常见是存储为文件.关系型数据库,非关系行数据库. 各种方式有各自的特点,对于海量数据而言,如果想要达到实时查询的目的,使 ...
hive-hbase-handler方式导入hive表数据到hbase表中
Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive-hbase-handler.jar工具类 : hive-hbase-handler.jar在 ...
大数据学习系列之八----- Hadoop、Spark、HBase、Hive搭建环境遇到的错误以及解决方法
前言在搭建大数据Hadoop相关的环境时候,遇到很多了很多错误.我是个喜欢做笔记的人,这些错误基本都记载,并且将解决办法也写上了.因此写成博客,希望能够帮助那些搭建大数据环境的人解决问题. 说明: ...
sqoop将mysql数据导入hbase、hive的常见异常处理
原创不易,如需转载,请注明出处https://www.cnblogs.com/baixianlong/p/10700700.html,否则将追究法律责任!!! 一.需求: 1.将以下这张表(test_ ...
Spark整合HBase,Hive
背景: 场景需求1:使用spark直接读取HBASE表场景需求2:使用spark直接读取HIVE表场景需求3:使用spark读取HBASE在Hive的外表摘要: 1.背景 2.提交脚本内容场 ...
spark读取hbase形成RDD，存入hive或者spark_sql分析
object SaprkReadHbase { var total:Int = 0 def main(args: Array[String]) { val spark = SparkSession . ...
Hive如何加载和导入HBase的数据
当我们用HBase 存储实时数据的时候, 如果要做一些数据分析方面的操作, 就比较困难了, 要写MapReduce Job. Hive 主要是用来做数据分析的数据仓库,支持标准SQL 查询, 做数据分 ...

随机推荐

也谈SQL Server 2008 处理隐式数据类型转换在运行计划中的增强（续）
在上一篇文章也谈SQL Server 2008 处理隐式数据类型转换在运行计划中的增强中,我提到了隐式数据类型转换添加对于数据分布非常不平均的表.评估的数据行数与实际值有非常大出入的问题,进一步測试之 ...
使用Chrome(PC)调试移动设备上的网页
最早开始调试移动端网页时,本人都是采取PC上改几行代码,手机上刷新一下看效果这种笨方法来开发的,效率低而且容易让人抓狂.最近偶然发现原来可以使用PC上的浏览器来调试移动设备,不由得感叹相逢恨晚. 工具 ...
OpenStack安装CentOS镜像:Device eth0 does not seem to be present, delaying initialization
解决办法:删除 /etc/udev/rules.d/70-persistent-net.rules 后重启机器.70-persistent-net.rules这个文件确定了网卡与MAC地址的绑定,cl ...
自己编译GCC（compile gcc from source）
有的时候,我不是第一次遇到这种时候,编译内核时报出编译器BUG.如果是ubuntu还好一点,默认软件仓库中就有好几个GCC,换一换总能找到一个好使的,实在不行还有个Tooltrain的ppa,但Deb ...
rst2pdf 中文
上篇说到用pandoc转换为reST为pdf是使用LaTeX作为中间格式的,而今天要说的rst2pdf貌似是直接转换为pdf的. 安装和调用 rst2pdf目前只支持Python2.7,因此在创建vi ...
世界上有10种人，一种懂二进制，一种不懂。那么你知道两个int32整数m和n的二进制表达，有多少个位(bit)不同么？
// ConsoleApplication10.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include <iostream& ...
Android之怎样全屏显示
三种方法: 1 自己定义主题(见设置自己定义样式和主题一节) http://blog.csdn.net/wei_chong_chong/article/details/47438907 2 使用系统自 ...
用array_search 数组中查找是否存在这个值
#判读里面是否还有id=1的超级管理员 $key=array_search(1, $ids); #判读这个是否存在 if($key!==FALSE){ #如果存在就unset掉这个 unset($id ...
06 php 单例模式
一:单例模式的三大原则 (1)构造函数需要标记为非public(防止外部使用new操作符创建对象),单例类不能在其他类中实例化,只能被自身实例化. (2)拥有一个保存类的实例的静态成员变量$_inst ...
【BZOJ】1003 Cards
[解析]Burnside引理+背包dp+乘法逆元 [Analysis] 这道题卡了好久,就是没想懂置换跟着色是不一样的. 依据burnside引理.在一个置换群作用下不等价类的个数为每一个置换作用下不 ...

hive通过spark导入hbase

hive通过spark导入hbase的更多相关文章

随机推荐

热门专题