Hadoop+Hive 操作mongodb数据

1、版本概述

hadoop-2.7.3、hive-2.2

下载响应的jar包:http://mvnrepository.com/,直接搜索想要的jar包,例如本次安装需要的:

mongo-hadoop-core-2.0.2.jar、mongo-hadoop-hive-2.0.2.jar、mongo-java-driver-3.2.1.jar

下载自己需要的版本,版本要统一。

2、配置

将下载好的jar包分别上传到hadoop和hive的lib目录下:

3、启动hive,加载jar包

进入到hive的家目录下的bin目录,./hive

hive>add jar /data/hadoop-2.7.3/hive-2.2/lib/mongo-hadoop-core-2.0.2.jar;

hive>add  jar  /data/hadoop-2.7.3/hive-2.2/lib/mongo-hadoop-hive-2.0.2.jar;

hive>add  jar   /data/hadoop-2.7.3/hive-2.2/lib/mongo-java-driver-3.2.1.jar;

4、hive操作mongodb方式有两种:

1)MongoDB-based 直接连接hidden节点,使用 com.mongodb.hadoop.hive.MongoStorageHandler做数据Serde
2)BSON-based 将数据dump成bson文件,上传到HDFS系统,使用 com.mongodb.hadoop.hive.BSONSerDe
 
5、mongodb-based:

在命令行直接运行hive:

  1. # hive
  2. hive> CREATE TABLE eventlog (
        > id string,
        > userid string,
        > type string,
        > objid string,
        > time string,
        > source string)
        > STORED BY
    'com.mongodb.hadoop.hive.MongoStorageHandler'
        > WITH
    SERDEPROPERTIES('mongo.columns.mapping'='{"id":"_id"}')
        > TBLPROPERTIES('mongo.uri'='mongodb://user:password@ip:port
    /saturn.users');
  3. 有两种方式来指定所需连接的Mongo Collection。
    1. 在上述示例里面,通过mongo.uri这个表属性来指定,属性的值填入的是MongoDB connection string,通过它来指向具体的collection。这种方式会将这个URI存入表的metadata里面,如果需要填写连接的一些认证信息(如username:password等),该方式不太适合。
    2. 第二种方式是把connection string填入一个properties文件,如:

    # HiveTable.properties
    mongo.input.uri=mongodb://user:password@ip:port /saturn.users'
  4. 然后提供这个文件的路径给mongo.properties.path这个表参数,如

    hive> CREATE EXTERNAL TABLE eventlog (
        > id string,
        > userid string,
        > type string,
        > objid string,
        > time string,
        > source string)
        > STORED BY
    'com.mongodb.hadoop.hive.MongoStorageHandler'
        > WITH
    SERDEPROPERTIES('mongo.columns.mapping'='{"id":"_id"}')
        >
    TBLPROPERTIES('mongo.properties.path'='HiveTable.properties');
  5. hive> select * from eventlog limit 10;
    OK
    5694b8807aff70d36f526a19    NULL  
     NULL    NULL    NULL  
     NULL
    56960a27f95a32ad7e2b9719    NULL  
     NULL    NULL    NULL  
     NULL
    56961da0f95a32ad7e2b971c    NULL  
     NULL    NULL    NULL  
     NULL
    56961eeaf95a32ad7e2b9721    NULL  
     NULL    NULL    NULL  
     NULL
    569735e4837bb8e43e0260b1    NULL  
     NULL    NULL    NULL  
     NULL
    56973672837bb8e43e0260b3    NULL    NULL  
     NULL    NULL    NULL
    56974a73837bb8e43e0260ba    NULL  
     NULL    NULL    NULL  
     NULL
    5697578ff5531e4d74c05db8    NULL  
     NULL    NULL    NULL  
     NULL
    5697894294e366e131643ac5    NULL  
     NULL    NULL    NULL  
     NULL
    56978a5b94e366e131643ac7    NULL    NULL  
     NULL    NULL    NULL
    Time taken: 1.905 seconds, Fetched: 10 row(s)

 它是直接处理mongo里最新的数据.

4)create EXTERNAL table IF NOT EXISTS
outer_table (userid string)
partitioned 
by (ptDate
string)
ROW FORMAT DELIMITED FIELDS TERMINATED 
BY '\t';

如果创建的表是EXTERNAL的,那么在Hive里删除这张表时,不会影响MongoDB里面的数据,只会删除这张表的metadata。如果没有指定EXTERNAL,那么删除表的时候会连带MongoDB里的数据一并删除,因此最好是指定创建的表为EXTERNAL

5)如果你想存到HDFS里也可以,用如下语句就可以。
hive> create table
qsstest as select * from eventlog limit 10;

 

6、  BSON-based方式

参考:

http://blog.csdn.net/tonylee0329/article/details/51648524

http://blog.csdn.net/dr_guo/article/details/51698757

Hadoop+Hive 操作mongodb数据的更多相关文章

  1. 使用hadoop mapreduce分析mongodb数据

    使用hadoop mapreduce分析mongodb数据 (现在很多互联网爬虫将数据存入mongdb中,所以研究了一下,写此文档) 版权声明:本文为yunshuxueyuan原创文章.如需转载请标明 ...

  2. 在MVC模式下通过Jqgrid表格操作MongoDB数据

    看到下图,是通过Jqgrid实现表格数据的基本增删查改的操作.表格数据增删改是一般企业应用系统开发的常见功能,不过不同的是这个表格数据来源是非关系型的数据库MongoDB.nosql虽然概念新颖,但是 ...

  3. MongoDB学习笔记(三) 在MVC模式下通过Jqgrid表格操作MongoDB数据

    看到下图,是通过Jqgrid实现表格数据的基本增删查改的操作.表格数据增删改是一般企业应用系统开发的常见功能,不过不同的是这个表格数据来源是非关系型的数据库MongoDB.nosql虽然概念新颖,但是 ...

  4. <关于数据仓库>基于docker的Mysql与Hadoop/Hive之间的数据转移 (使用Apache Sqoop™)

    原创博客,转载请联系博主! 摘要:本文介绍了如何使用docker快速搭建一个可以从外部访问的mysql服务容器,和由docker搭建的分布式Hadoop文件系统,并且使用ApacheSqoop完成将m ...

  5. PHP操作MongoDB 数据库

    最近有个项目,需要用php操作mongoDb数据,整理如下 1,连接MongoDB数据库 $conn = new Mongo(); 其他链接方式 //$conn=new Mongo(); #连接本地主 ...

  6. 环境搭建 Hadoop+Hive(orcfile格式)+Presto实现大数据存储查询一

    一.前言 Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关 ...

  7. spark+hcatalog操作hive表及其数据

    package iie.hadoop.hcatalog.spark; import iie.udps.common.hcatalog.SerHCatInputFormat; import iie.ud ...

  8. Hive[5] HiveQL 数据操作

    5.1 向管理表中装载数据   Hive 没有行级别的数据插入更新和删除操作,那么往表中装载数据的唯一途径就是使用一种“大量”的数据装载操作,或者通过其他方式仅仅将文件写入到正确的目录下:   LOA ...

  9. 大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)

    引言 在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用 ...

随机推荐

  1. 章文嵩博士和他背后的负载均衡(LOAD BANLANCER)帝国

    案首语: 阿里集团技术大牛,@正明,淘宝基础核心软件研发负责人.LVS创始人.阿里云首席科学家章文嵩博士从阿里离职,去追求技术人生另一段历程,让阿里像我一样的很多热爱技术的工程师都有一丝牵动和感触. ...

  2. delphi 升级到xe7后的一些个人经验

    http://blog.csdn.net/span12/article/details/42522091 你只要记住 字符串使用变了.VCL 下面所有的 char 改 ansichar string ...

  3. 安装docker ce版

    可参考 菜鸟教程:http://www.runoob.com/docker/centos-docker-install.html 官网教程:https://docs.docker.com/instal ...

  4. .Net Core 跨平台应用使用串口、串口通信 ,可能出现的问题、更简洁的实现方法

    前些天在学习在 .NET Core下,跨平台使用串口通讯,有一篇文章说到在Linux/物联网下,实现通讯. 主要问题出现在以下两个类库 SerialPortStream flyfire.CustomS ...

  5. Restframework 频率throttle组件实例-3

    频率逻辑: from rest_framework.throttling import BaseThrottle import time VISIT_RECORD={} class VisitThro ...

  6. 20164321 王君陶 Exp1 PC平台逆向破解

    一.实践目标 本次实践的对象是一个名为pwn1的linux可执行文件. 该程序正常执行流程是:main调用foo函数,foo函数会简单回显任何用户输入的字符串. 该程序同时包含另一个代码片段,getS ...

  7. (2019)OCP 12c 062考试题库出现大量新题-4

    4.Which four are true about creating and running a remote database scheduler jobs? A) A credential i ...

  8. MongoDB 安装详细教程 + 常用命令 + 与 Python 的交互

    MongoDB 简介 MongoDB (名称来自 humongous/巨大无比的, 是一个可扩展的高性能,开源,模式自由,面向文档的NoSQL,基于 分布式 文件存储,由 C++ 语言编写,设计之初旨 ...

  9. window / Linux 下 Golang 开发环境的配置

    一直专注于使用python语言进行程序开发,但是却又一直被它的性能问题所困扰,直到遇到了天生支持高并发的Golang,这似乎也成了学习go语言最理所当然的理由.下面介绍下Go语言开发环境搭建的步骤: ...

  10. Java的HashMap

    FAQ: 为什么要有HashMap? 答:我非常期待能在Java 中使用Hash表 这种数据结构 ,因为它的快速存取特性. Hash表 和HashMap的关系? 答:Hash表 是一种逻辑数据结构,H ...