SequoiaDB与Hadoop部署

SequoiaDB与Hadoop在物理上部署方案如下图所示，部署建议如下：

l SequoiaDB与Hadoop部署在相同的物理设备上，以减少Hadoop与SequoiaDB之间的网络数据传输；

l 每个物理设备上都部署一个协调节点和多个数据节点，编目节点可选在任意三台物理设备各部署一个编目节点；

SequoiaDB支持的Hive 版本列表

n Hive 0.11.0

n Hive 0.10.0

配置方法

安装和配置好Hadoop/Hive 环境，启动hadoop环境；
拷贝sequoiadb安装目录下(默认在/opt/sequoiadb) 的hadoop/hive-sequoiadb.jar 和 java/sdbdriver.jar 两个文件拷贝到 hive/lib 安装目录下;
修改hive 安装目录下的 bin/hive-site.xml文件(如果不存在，可拷贝$HIVE_HOME/conf/hive-default.xml.template为 hive-site.xml文件 ),增加如下属性(假设Hive 安装在 /opt/hive 目录):

<property>

<name>hive.aux.jars.path</name> <value>file:///opt/hive/lib/hive-sequoiadb.jar,file:///opt/hive/lib/sdbdirver.jar</value>

<description>Sequoiadb store handler jar file</description>

</property>

<property>

<name> hive.auto.convert.join</name>

<value>false</value>

</property>

使用方法

创建基于SequoiaDB的表:

启动hive shell 命令行窗口，执行如下命令创建数据表；

hive> create external table sdb_tab(id INT, name STRING, value DOUBLE) stored by “com.sequoiadb.hive.SdbHiveStorageHandler” tblproperties(“sdb.address” = “localhost:50000”;)

Time taken: 0.386 seconds

其中：

Sdb.address 用于指定SequoiaDB协调节点的IP和端口，如果有多个协调节点，可以写入多个，之间用逗号隔开；

从HDFS文件中倒入数据到SequoiaDB表:

hive> insert overwrite table sdb_tab select * from hdfs_tab;

Total MapReduce jobs = 1

Launching Job 1 out of 1

Number of reduce tasks is set to 0 since there’s no reduce operator

Starting Job = job_201310172156_0010, Tracking URL = http://bl465-5:50030/jobdetails.jsp?jobid=job_201310172156_0010

Kill Command = /opt/hadoop-hive/hadoop-1.2.1/libexec/../bin/hadoop job -kill job_201310172156_0010

Hadoop job information for Stage-0: number of mappers: 1; number of reducers: 0

2013-10-18 04:44:47,733 Stage-0 map = 0%, reduce = 0%

2013-10-18 04:44:49,763 Stage-0 map = 100%, reduce = 0%, Cumulative CPU 1.85 sec

2013-10-18 04:44:50,777 Stage-0 map = 100%, reduce = 0%, Cumulative CPU 1.85 sec

2013-10-18 04:44:51,795 Stage-0 map = 100%, reduce = 100%, Cumulative CPU 1.85 sec

MapReduce Total cumulative CPU time: 1 seconds 850 msec

Ended Job = job_201310172156_0010

10 Rows loaded to sdb_tab

MapReduce Jobs Launched:

Job 0: Map: 1 Cumulative CPU: 1.85 sec HDFS Read: 2301 HDFS Write: 0 SUCCESS

Total MapReduce CPU Time Spent: 1 seconds 850 msec

Time taken: 12.201 seconds

说明：在导入数据到SequoiaDB表之前，请确保已经创建基于HDFS文件的 hdfs_tab数据表，并Load了数据；

查询数据：

hive> select * from new_tab;

0 false 0.0 ALGERIA

1 true 1.0 ARGENTINA

2 true 1.0 BRAZIL

3 true 1.0 CANADA

4 true 4.0 EGYPT

5 false 0.0 ETHIOPIA

6 true 3.0 FRANCE

7 true 3.0 GERMANY

8 true 2.0 INDIA

9 true 2.0 INDONESIA

Time taken: 0.306 seconds, Fetched: 10 row(s)

SequoiaDB 与 Hive 集成的更多相关文章

Hive集成HBase;安装pig
Hive集成HBase 配置将hive的lib/中的HBase.jar包用实际安装的Hbase的jar包替换掉 cd /opt/hive/lib/ ls hbase-0.94.2* rm -rf ...
Hive集成HBase详解
摘要 Hive提供了与HBase的集成,使得能够在HBase表上使用HQL语句进行查询插入操作以及进行Join和Union等复杂查询应用场景 1. 将ETL操作的数据存入HBase 2. HB ...
hbase与hive集成：hive读取hbase中数据
1.创建hbase jar包到hive lib目录软连接 hive需要jar包: hive-hbase-handler-0.13.1-cdh5.3.6.jar zookeeper-3.4.5-cdh5 ...
Hive集成Mysql作为元数据时，提示错误：Specified key was too long; max key length is 767 bytes
在进行Hive集成Mysql作为元数据过程中.做全然部安装配置工作后.进入到hive模式,运行show databases.运行正常,接着运行show tables:时却报错. 关键错误信息例如以下: ...
大数据技术之_11_HBase学习_02_HBase API 操作 + HBase 与 Hive 集成 + HBase 优化
第6章 HBase API 操作6.1 环境准备6.2 HBase API6.2.1 判断表是否存在6.2.2 抽取获取 Configuration.Connection.Admin 对象的方法以及关 ...
Hbase与hive集成与对比
HBase与Hive的对比 1．Hive (1) 数据仓库 Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询. (2) 用于数据分析.清洗 ...
如何使用Hive集成Solr?
(一)Hive+Solr简介 Hive作为Hadoop生态系统里面离线的数据仓库,可以非常方便的使用SQL的方式来离线分析海量的历史数据,并根据分析的结果,来干一些其他的事情,如报表统计查询等. So ...
hive集成sentry
1.安装配置sentry 详细步骤见上一篇安装配置sentry 2.配置hive 2.1 Hive-server2集成Sentry 在 /etc/hive/conf/hive-site.xml中添加: ...
挖坑:hive集成kerberos
集成hive+kerberos前,hadoop已经支持kerberos,所以基础安装略去: https://www.cnblogs.com/garfieldcgf/p/10077331.html 直接 ...

随机推荐

web开发下的各种下载方法
利用TransmitFile方法,解决Response.BinaryWrite下载超过400mb的文件时导致Aspnet_wp.exe进程回收而无法成功下载的问题. 代码如下: Response.Co ...
经典的iptables shell脚本
PS:这个iptables脚本不错,很实用,根据实际应用改一下就可以自己用.分享出来,供大家来参考.原作者佚名.源代码如下: #!/bin/sh modprobe ipt_MASQUERADE mod ...
使用 sp_executesql
建议您在执行字符串时,使用 sp_executesql 存储过程而不要使用 EXECUTE 语句.由于此存储过程支持参数替换,因此 sp_executesql 比 EXECUTE 的功能更多:由于 S ...
.Net MVC 4 Web Api 输出Json 格式
1.Global 中增加json输出 GlobalConfiguration.Configuration.Formatters.JsonFormatter.MediaTypeMappings.Add( ...
Spring MVC 学习笔记（整理）
SpringMVC学习 1.概述 Spring MVC是一种基于Java实现MVC设计模式的请求驱动类型的轻量级Web框架,即使用了MVC架构模式的思想,将web层进行解耦,基于请求-响应模型帮助我们 ...
mysql_DML_update
update 表名 set 字段=XX where....;(记得加条件不安全改了) 多个字段: update 表名 set 字段1=XX,字段2= where....;(记得加条件不安全 ...
跟我学习dubbo-使用Maven构建Dubbo服务的可执行jar包(4)
Dubbo服务的运行方式: 1.使用Servlet容器运行(Tomcat.Jetty等)----不可取缺点:增加复杂性(端口.管理) 浪费资源(内存) 官方:服务容器是一个standalone的启动 ...
零碎记录Hadoop平台各组件使用
>20161011 :数据导入研究 0.sqoop报warning,需要安装accumulo: 1.下载Microsoft sql server jdbc, 使用ie下载,将42版j ...
代码研磨 Slim v3 (二)--app->run()
APP->run()代码如下: /** * Run application * * This method traverses the application middleware stac ...
Part 95 to 96 Deadlock in a multithreaded program
Part 95 Deadlock in a multithreaded program class Program { static void Main(string[] args) { Cons ...

SequoiaDB 与 Hive 集成