Hadoop+Hive 操作mongodb数据
Hadoop+Hive 操作mongodb数据
1、版本概述
hadoop-2.7.3、hive-2.2
下载响应的jar包:http://mvnrepository.com/,直接搜索想要的jar包,例如本次安装需要的:
mongo-hadoop-core-2.0.2.jar、mongo-hadoop-hive-2.0.2.jar、mongo-java-driver-3.2.1.jar
下载自己需要的版本,版本要统一。
2、配置
将下载好的jar包分别上传到hadoop和hive的lib目录下:


3、启动hive,加载jar包
进入到hive的家目录下的bin目录,./hive
hive>add jar /data/hadoop-2.7.3/hive-2.2/lib/mongo-hadoop-core-2.0.2.jar;
hive>add jar /data/hadoop-2.7.3/hive-2.2/lib/mongo-hadoop-hive-2.0.2.jar;
hive>add jar /data/hadoop-2.7.3/hive-2.2/lib/mongo-java-driver-3.2.1.jar;
4、hive操作mongodb方式有两种:
1)MongoDB-based 直接连接hidden节点,使用 com.mongodb.hadoop.hive.MongoStorageHandler做数据Serde
2)BSON-based 将数据dump成bson文件,上传到HDFS系统,使用 com.mongodb.hadoop.hive.BSONSerDe
5、mongodb-based:
在命令行直接运行hive:
# hivehive> CREATE TABLE eventlog (
> id string,
> userid string,
> type string,
> objid string,
> time string,
> source string)
> STORED BY
'com.mongodb.hadoop.hive.MongoStorageHandler'
> WITH
SERDEPROPERTIES('mongo.columns.mapping'='{"id":"_id"}')
> TBLPROPERTIES('mongo.uri'='mongodb://user:password@ip:port
/saturn.users');有两种方式来指定所需连接的Mongo Collection。
1. 在上述示例里面,通过mongo.uri这个表属性来指定,属性的值填入的是MongoDB connection string,通过它来指向具体的collection。这种方式会将这个URI存入表的metadata里面,如果需要填写连接的一些认证信息(如username:password等),该方式不太适合。
2. 第二种方式是把connection string填入一个properties文件,如:# HiveTable.properties
mongo.input.uri=mongodb://user:password@ip:port /saturn.users'然后提供这个文件的路径给
mongo.properties.path这个表参数,如hive> CREATE EXTERNAL TABLE eventlog (TBLPROPERTIES('mongo.properties.path'='HiveTable.properties');
> id string,
> userid string,
> type string,
> objid string,
> time string,
> source string)
> STORED BY
'com.mongodb.hadoop.hive.MongoStorageHandler'
> WITH
SERDEPROPERTIES('mongo.columns.mapping'='{"id":"_id"}')
>hive> select * from eventlog limit 10;
OK
5694b8807aff70d36f526a19 NULL
NULL NULL NULL
NULL
56960a27f95a32ad7e2b9719 NULL
NULL NULL NULL
NULL
56961da0f95a32ad7e2b971c NULL
NULL NULL NULL
NULL
56961eeaf95a32ad7e2b9721 NULL
NULL NULL NULL
NULL
569735e4837bb8e43e0260b1 NULL
NULL NULL NULL
NULL
56973672837bb8e43e0260b3 NULL NULL
NULL NULL NULL
56974a73837bb8e43e0260ba NULL
NULL NULL NULL
NULL
5697578ff5531e4d74c05db8 NULL
NULL NULL NULL
NULL
5697894294e366e131643ac5 NULL
NULL NULL NULL
NULL
56978a5b94e366e131643ac7 NULL NULL
NULL NULL NULL
Time taken: 1.905 seconds, Fetched: 10 row(s)
它是直接处理mongo里最新的数据.
4)create EXTERNAL table IF NOT EXISTS
outer_table (userid string)
partitioned by (ptDate
string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
如果创建的表是EXTERNAL的,那么在Hive里删除这张表时,不会影响MongoDB里面的数据,只会删除这张表的metadata。如果没有指定EXTERNAL,那么删除表的时候会连带MongoDB里的数据一并删除,因此最好是指定创建的表为EXTERNAL。
5)如果你想存到HDFS里也可以,用如下语句就可以。
hive> create table
qsstest as select * from eventlog limit 10;
6、 BSON-based方式
参考:
http://blog.csdn.net/tonylee0329/article/details/51648524
http://blog.csdn.net/dr_guo/article/details/51698757
Hadoop+Hive 操作mongodb数据的更多相关文章
- 使用hadoop mapreduce分析mongodb数据
使用hadoop mapreduce分析mongodb数据 (现在很多互联网爬虫将数据存入mongdb中,所以研究了一下,写此文档) 版权声明:本文为yunshuxueyuan原创文章.如需转载请标明 ...
- 在MVC模式下通过Jqgrid表格操作MongoDB数据
看到下图,是通过Jqgrid实现表格数据的基本增删查改的操作.表格数据增删改是一般企业应用系统开发的常见功能,不过不同的是这个表格数据来源是非关系型的数据库MongoDB.nosql虽然概念新颖,但是 ...
- MongoDB学习笔记(三) 在MVC模式下通过Jqgrid表格操作MongoDB数据
看到下图,是通过Jqgrid实现表格数据的基本增删查改的操作.表格数据增删改是一般企业应用系统开发的常见功能,不过不同的是这个表格数据来源是非关系型的数据库MongoDB.nosql虽然概念新颖,但是 ...
- <关于数据仓库>基于docker的Mysql与Hadoop/Hive之间的数据转移 (使用Apache Sqoop™)
原创博客,转载请联系博主! 摘要:本文介绍了如何使用docker快速搭建一个可以从外部访问的mysql服务容器,和由docker搭建的分布式Hadoop文件系统,并且使用ApacheSqoop完成将m ...
- PHP操作MongoDB 数据库
最近有个项目,需要用php操作mongoDb数据,整理如下 1,连接MongoDB数据库 $conn = new Mongo(); 其他链接方式 //$conn=new Mongo(); #连接本地主 ...
- 环境搭建 Hadoop+Hive(orcfile格式)+Presto实现大数据存储查询一
一.前言 Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关 ...
- spark+hcatalog操作hive表及其数据
package iie.hadoop.hcatalog.spark; import iie.udps.common.hcatalog.SerHCatInputFormat; import iie.ud ...
- Hive[5] HiveQL 数据操作
5.1 向管理表中装载数据 Hive 没有行级别的数据插入更新和删除操作,那么往表中装载数据的唯一途径就是使用一种“大量”的数据装载操作,或者通过其他方式仅仅将文件写入到正确的目录下: LOA ...
- 大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)
引言 在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用 ...
随机推荐
- cocos2dx lua 图片去色shader
function FreeCardTool:setNodeGray(node) local vertShaderByteArray = "\n".. "attribute ...
- 摘抄-----java codeReview要做的事
整洁的代码 清单项目 分类 使用可以表达实际意图(Intention-Revealing)的名称 有意义的名称 每一个概念只用一个词 有意义的名称 使用方案/问题领域名称 有意义的名称 类应该是比较小 ...
- CSS精灵技术
在CSDN中浏览博客时,在博客的结束有上一篇和下一篇的按钮,当我们把鼠标放上去的时候,可以看到这两个按钮会进行颜色的改变,这种技术称为CSS精灵技术.通过查看源发现,其实他是通过超级链接的伪类实现的, ...
- event 自定义事件
自定义事件 1 public class Program 2 { 3 public event EventHandler ehdl=null; 4 public Program() 5 { 6 ehd ...
- 【文文殿下】Win7打开无线热点
下载程序 : https://files.cnblogs.com/files/Syameimaru/wifi.rar 打开config.ini 修改相关信息,然后运行程序. 运行成功后,打开网络和共享 ...
- echarts4 主题切换
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content ...
- [Swift实际操作]七、常见概念-(4)范围CGRect的使用详解
本文将为你演示区域对象CGRect的使用.你可以将区域对象,看作是点对象和尺寸对象的组合 首先导入需要使用到底界面工具框架 import UIKit 然后初始化一个区域对象,它的原点位于(0,0),宽 ...
- Redis初探,写个HelloWorld
资源获取 https://redis.io/download 从官网上下载redis的源码,使用gcc的安装方式. 安装 make make install 需要达到的效果是,在/usr/local/ ...
- Swift 里字符串(十)修改字符串
以append操作为例 public mutating func append(_ other: String) { if self.isEmpty && !_guts.hasNati ...
- 【OpenCV3】threshold()函数详解
threshold()函数源码 double cv::threshold( InputArray _src, OutputArray _dst, double thresh, double maxva ...