HCatalog

HCatalog是Hadoop中的表和存储管理层，能够支持用户用不同的工具（Pig、MapReduce）更容易地表格化读写数据。

HCatalog从Apache孵化器毕业，并于2013年3月26日与Hive项目合并。
Hive版本0.11.0是包含HCatalog的第一个版本。（随Hive一起安装）

概述

HCatalog的表抽象向用户提供了Hadoop分布式文件系统（HDFS）中数据的关系视图，并确保用户不必担心数据存储在哪里或以什么格式存储 - RCFile格式，文本文件，SequenceFiles或ORC文件。
HCatalog支持读写任意格式的SerDe（序列化 - 反序列化）文件。默认情况下，HCatalog支持RCFile，CSV，JSON和SequenceFile以及ORC文件格式。要使用自定义格式，您必须提供InputFormat，OutputFormat和SerDe。

结构

HCatalog构建于Hive metastore，并包含Hive的DDL。HCatalog为Pig和MapReduce提供读写接口，并使用Hive的命令行界面发布数据定义和元数据探索命令。

安装

从Hive版本0.11.0开始，Hatalog集成于Hive。

命令行

如果从二进制tarball安装Hive，hcat命令在hcatalog / bin目录中可用。
hcat命令行类似于hive命令行;主要区别在于它限制了可以运行到仅元数据操作的查询，例如用于读取元数据的DDL和DML查询（例如“show tables”）。
CLI手册：https://cwiki.apache.org/confluence/display/Hive/HCatalog+CLI

大多数hcat命令可以作为hive命令发出，除了“hcat -g”和“hcat -p”。
请注意，hcat命令使用-p标志的权限，但是hive使用它来指定端口号

sqoop使用HCatalog导入数据到Hive，并指定多个分区

sqoop import -connect jdbc:oracle:thin:@192.168.186.65::orcl -username ultrapower -password  -table BMS_CONGRUENT_COUNT \

-m  -z --delete-target-dir \

--create-hcatalog-table \

--hcatalog-database tj \

--hcatalog-table BMS_CONGRUENT_COUNT \

--hcatalog-partition-keys in_month,in_date \

--hcatalog-partition-values "","" \

--verbose

HCatalog的更多相关文章

spark+hcatalog操作hive表及其数据
package iie.hadoop.hcatalog.spark; import iie.udps.common.hcatalog.SerHCatInputFormat; import iie.ud ...
hcatalog配置
https://cwiki.apache.org/confluence/display/Hive/HCatalog+CLI hive的配置中添加: export PATH=$PATH:$HIVE ...
Hadoop通过HCatalog编写Mapreduce任务访问hive库中schema数据
1.dirver package com.kangaroo.hadoop.drive; import java.util.Map; import java.util.Properties; impor ...
HCatalog 学习之路
最近在使用sqoop把数据从hive数仓导出到mysql数据库中接触到了hcatalog,所以特意学习了解一下相关知识,据悉hcatalog还是apache顶级项目. 学习参考: HCatalog 介 ...
解决kylin sync table报错：MetaException(message:java.lang.ClassNotFoundException Class org.apache.hive.hcatalog.data.JsonSerDe not found
在kylin-gui中sync表default.customer_visit时报错: -- ::, ERROR [http-bio--exec-] controller.BasicController ...
从hive导入到oracle(Hcatalog)
1.使用catalog的情况下: sqoop export --table tableName2 \ #oracle表 --connect jdbc:oracle:thin:@127.0.0.1:15 ...
PayPal高级工程总监：读完这100篇论文就能成大数据高手（附论文下载）
100 open source Big Data architecture papers for data professionals. 读完这100篇论文就能成大数据高手作者白宁超 2016年 ...
Hadoop 2.x 生态系统及技术架构图
一.负责收集数据的工具:Sqoop(关系型数据导入Hadoop)Flume(日志数据导入Hadoop,支持数据源广泛)Kafka(支持数据源有限,但吞吐大) 二.负责存储数据的工具:HBaseMong ...
MapReduce
2016-12-21 16:53:49 mapred-default.xml mapreduce.input.fileinputformat.split.minsize 0 The minimum ...

随机推荐

jQuery圣诞雪花
<script type="text/javascript"> $(function(){ var d="<div class='y_snow'> ...
以太坊系列之十六: 使用golang与智能合约进行交互
以太坊系列之十六: 使用golang与智能合约进行交互以太坊系列之十六: 使用golang与智能合约进行交互此例子的目录结构 token contract 智能合约的golang wrapper ...
JavaScript笔记之第四天
HTML DOM (文档对象模型) 当网页被加载时,浏览器会创建页面的文档对象模型(Document Object Model). 查找 HTML 元素通常,通过 JavaScript,您需要操作 ...
java基础系列(三)---HashMap
java基础系列(三)---HashMap java基础系列 java基础系列(一)---String.StringBuffer.StringBuilder java基础系列(二)---Integer ...
Tomcat迁移到WebsphereURL获取中文参数乱码问题
URL携带中文参数时,tomcat通常用两种方法可以解决中文乱码问题: String param = new String(request.getParameter("param " ...
java面向对象理解
面向对象:世间一切事物均可认为是对象,用户不必了解软件内部的实现机制,可根据需要直接调用接口,生成一个正常工作的应用程序. 面向对象的特点:抽象,封装,继承,多态性, 对象:对象就是一个具有明确行为的 ...
深入浅出数据结构C语言版（17）——有关排序算法的分析
这一篇博文我们将讨论一些与排序算法有关的定理,这些定理将解释插入排序博文中提出的疑问(为什么冒泡排序与插入排序总是执行同样数量的交换操作,而选择排序不一定),同时为讲述高级排序算法做铺垫(高级排序为什 ...
MySQL插入10万数据时间（结论：最快14.967s，每秒插入6681条）
记录我的一次MySQL操作Demo: 存储过程: DROP PROCEDURE IF EXISTS my_insert; CREATE PROCEDURE my_insert() BEGIN ; lo ...
OSI与TCP/IP网络模型分层
学习linux的人,都会接触到一些网络方面的知识.作为一个linux方面的萌新,今天,小编就接触了OSI模型和TCP/IP协议栈,那么什么是OSI模型呢? OSI模型,开放式系统互联通信参 ...
自制IPsec_vpn综合实验
实验需求 R1.R2间tunnel建立私网: Vpn网关间配置ipsec实现数据加密: 使用tunnel模式下的ESP包头封装: 使用3des加密算法,md5摘要算法: 设置NAT旁路绕行流量: 利用 ...

HCatalog

HCatalog

概述

结构

安装

命令行

HCatalog的更多相关文章

随机推荐

热门专题