Hive--hbase--spark

hive创建hbase表

	create external table events.hb_train(

     row_key string,

     user_id string,

     event_id string,

     invited string,

     time_stamp string,

     interested string

    )

    stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

    with serdeproperties('hbase.columns.mapping' = ':key,eu:user,eu:event,eu:invited,eu:time_stamp,eu:interested')

    tblproperties('hbase.table.name' = 'db:train')

使用HQL语句创建一个指向HBase的Hive表，同时导入hbase表中的数据到hive表

CREATE TABLE hbase_table_1(key int, value string) //Hive中的表名hbase_table_1

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'  //指定存储处理器

WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val") //声明列族，列名

TBLPROPERTIES ("hbase.table.name" = "xyz", "hbase.mapred.output.outputtable" = "xyz");  

//hbase.table.name声明HBase表名，为可选属性默认与Hive的表名相同，

//hbase.mapred.output.outputtable指定插入数据时写入的表，如果以后需要往该表插入数据就需要指定该值

//创建按列存储的表

create table events.events

stored as ORC as		//orc 按列存储

select * from events.hb_events

配置spark on hive — 这个地方我记得我们当初配的是hive on MapReduce

 在Spark客户端安装包下spark-2.2.0/conf中创建文件hive-site.xml：

 配置hive的metastore路径

<configuration>

   <property>

        <name>hive.metastore.uris</name>

        <value>thrift://node1:9083</value>

   </property>

</configuration>

后台启动metastore:

nohup hive --service  metastore  -p 9083 1>/opt/hive-2.3.2/hiveserver.log 2>/opt/hive-2.3.2/hiveserver.err &

Hive--hbase--spark的更多相关文章

Hadoop Hive HBase Spark Storm概念解释
HadoopHadoop是什么? 答:一个分布式系统基础架构. Hadoop解决了什么问题? 答:解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储(HDFS) ...
大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
前言在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...
【原创】大叔问题定位分享（16）spark写数据到hive外部表报错ClassCastException: org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormat cannot be cast to org.apache.hadoop.hive.ql.io.HiveOutputFormat
spark 2.1.1 spark在写数据到hive外部表(底层数据在hbase中)时会报错 Caused by: java.lang.ClassCastException: org.apache.h ...
CDH5上安装Hive,HBase,Impala,Spark等服务
Apache Hadoop的服务的部署比較繁琐.须要手工编辑配置文件.下载依赖包等.Cloudera Manager以GUI的方式的管理CDH集群,提供向导式的安装步骤.因为须要对Hive,HBase ...
hive通过spark导入hbase
发现采用shcjar的话,总是执行到某个点就停止了于是我打算尝试一下直接说哦用org.apache.hadoop.hbase.spark这个datasource看看确实不行,即使没有createt ...
教你成为全栈工程师(Full Stack Developer) 四十五-一文读懂hadoop、hbase、hive、spark分布式系统架构
转载自http://www.shareditor.com/blogshow?blogId=96 机器学习.数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用于分布式存储和map-red ...
大数据技术生态圈形象比喻（Hadoop、Hive、Spark 关系）
[摘要] 知乎上一篇很不错的科普文章,介绍大数据技术生态圈(Hadoop.Hive.Spark )的关系. 链接地址:https://www.zhihu.com/question/27974418 [ ...
hive on spark配置
1.安装java.maven.scala.hadoop.mysql.hive 略 2.编译spark ./make-distribution.sh --name "hadoop2-witho ...
spark 2.0.0集群安装与hive on spark配置
1. 环境准备: JDK1.8 hive 2.3.4 hadoop 2.7.3 hbase 1.3.3 scala 2.11.12 mysql5.7 2. 下载spark2.0.0 cd /home/ ...
Spark记录-源码编译spark2.2.0（结合Hive on Spark/Hive on MR2/Spark on Yarn）
#spark2.2.0源码编译 #组件:mvn-3.3.9 jdk-1.8 #wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark- ...

随机推荐

Prometheus 基于Python Django实现Prometheus Exporter
基于Python Django实现Prometheus Exporter 需求描述运行监控需求,需要采集Nginx 每个URL请求的相关信息,涉及两个指标:一分钟内平均响应时间,调用次数,并且为每个 ...
洛谷P10693
洛谷P10693 好奇怪的题目编号思路提取 input 11 2 13 4 5 3 7 9 9 11 11 12 output 9 以人造数据为例. 首先我们让\(i\)\(\to\)\(a_i\) ...
python lambda 三元表达式
python lambda 三元表达式 python中的lambda函数用法通常定义的函数 def sum(x,y): return x+y print(sum(4,6)) 用lambda来实现: ...
Fiddler使用界面介绍-左侧会话面板
左侧会话面板,是Fiddler抓取的请求数据展示
【Zookeeper】Re01 安装与操作
Zookeeper基于JDK开发出来的运行环境至少需要JRE 快速安装JDK: yum install -y java-1.8.0-openjdk-devel.x86_64 # ZK镜像仓库 htt ...
【转载】 tmux 向上向下翻页，翻屏
作者:江河湖海洋链接:https://www.jianshu.com/p/8835f2d4245f来源:简书著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. =========== ...
使用UltraISO克隆clone树莓派SD卡（注意不是复制、备份，是克隆）
搞了好长时间做了一个树莓派的SD卡,包括了一些自己安装的配置,为了防止哪天把这个SD卡搞坏掉(比如写数据时候断电,比如apt upgrade时掉电),于是考虑把这个SD卡进行克隆clone. 因为手上 ...
SpringWebflux详细讲解
1.背景 2.Spring5 框架新功能(Webflux) 2.1.SpringWebflux 介绍 (1)webFlux是 Spring5 添加的新模块,用于 web 的开发,功能和 SpringM ...
构建无服务器数仓（三）EMR Serverless 操作要点、优化以及开放集成测试
引言在数据驱动的世界中,企业正在寻求可靠且高性能的解决方案来管理其不断增长的数据需求.本系列博客从一个重视数据安全和合规性的 B2C 金融科技客户的角度来讨论云上云下混合部署的情况下如何利用亚马逊云 ...
SMU Summer 2023 Contest Round 1
SMU Summer 2023 Contest Round 1 A. The Contest 当 \(m\) 为 \(0\) 和完成时间大于最后一个时刻时,说明都无法在规定条件内完成,输出\(-1\ ...

Hive--hbase--spark

Hive--hbase--spark的更多相关文章

随机推荐

热门专题