Apache Hive处理数据示例

继上一篇文章介绍如何使用Pig处理HDFS上的数据，本文将介绍使用Apache Hive进行数据查询和处理。

Apache Hive简介

首先Hive是一款数据仓库软件
使用HiveQL来结构化和查询存放的数据
执行环境：MapReduce, Tez, Spark
数据存放：HDFS, HBase
使用场景：数据挖掘和分析，机器学习，即席查询等

Hive使用示例

还是使用passwd作为操作文件

beeline> !quit

[cloudera@quickstart ~]$ hdfs dfs -put /etc/passwd /tmp/

[cloudera@quickstart ~]$ hdfs dfs -ls /tmp/

Found 5 items

drwxrwxrwt   - mapred   mapred              0 2016-12-29 01:05 /tmp/hadoop-yarn

drwx-wx-wx   - hive     supergroup          0 2016-08-27 10:19 /tmp/hive

drwxrwxrwt   - mapred   hadoop              0 2016-08-10 14:37 /tmp/logs

-rw-r--r--   1 cloudera supergroup       2559 2017-02-22 05:34 /tmp/passwd

使用beeline连接Hive

[cloudera@quickstart ~]$ beeline -u jdbc:hive2://

scan complete in 24ms

Connecting to jdbc:hive2://

Connected to: Apache Hive (version 1.1.0-cdh5.8.0)

Driver: Hive JDBC (version 1.1.0-cdh5.8.0)

Transaction isolation: TRANSACTION_REPEATABLE_READ

Beeline version 1.1.0-cdh5.8.0 by Apache Hive

0: jdbc:hive2://>

建表并且插入数据



0: jdbc:hive2://> CREATE TABLE userinfo ( uname STRING, pswd STRING, uid INT, gid INT, fullname STRING, hdir STRING, shell STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ':' STORED AS TEXTFILE;

0: jdbc:hive2://> LOAD DATA INPATH '/tmp/passwd' OVERWRITE INTO TABLE userinfo;

0: jdbc:hive2://> select uname,fullname,hdir from userinfo order by unmame;

MapReduce Jobs Launched:

Stage-Stage-1: Map: 1  Reduce: 1   Cumulative CPU: 27.83 sec   HDFS Read: 8767 HDFS Write: 1454 SUCCESS

Total MapReduce CPU Time Spent: 27 seconds 830 msec

OK

+----------------+-------------------------------+-------------------------------+--+

|     uname      |           fullname            |             hdir              |

+----------------+-------------------------------+-------------------------------+--+

| abrt           |                               | /etc/abrt                     |

| adm            | adm                           | /var/adm                      |

| apache         | Apache                        | /var/www                      |

| avahi-autoipd  | Avahi IPv4LL Stack            | /var/lib/avahi-autoipd        |

| bin            | bin                           | /bin                          |

| cloudera       |                               | /home/cloudera                |

| cloudera-scm   | Cloudera Manager              | /var/lib/cloudera-scm-server  |

...

总结

使用beeline进行对Hive交互访问，类似于sqlplus之于Oracle数据库
其它的交互工作好包括：Hive CLI, Hcatalog, WebHcat
相应的DDL, DML语法可以参考官方WIKI

Apache Hive处理数据示例的更多相关文章

Apache Pig处理数据示例
Apache Pig是一个高级过程语言,可以调用MapReduce查询大规模的半结构化数据集. 样例执行的环境为cloudera的单节点虚拟机读取结构数据中的指定列在hdfs上放置一个文件 [cl ...
【大数据系列】apache hive 官方文档翻译
GettingStarted 开始 Created by Confluence Administrator, last modified by Lefty Leverenz on Jun 15, 20 ...
从MySQL到Hive，数据迁移就这么简单
使用Sqoop能够极大简化MySQL数据迁移至Hive之流程,并降低Hadoop处理分析任务时的难度. 先决条件:安装并运行有Sqoop与Hive的Hadoop环境.为了加快处理速度,我们还将使用Cl ...
Hive 官方手册翻译 -- Hive DDL(数据定义语言)
Hive DDL(数据定义语言) Confluence Administrator创建, Janaki Lahorani修改于 2018年9月19日原文链接 https://cwiki.apache ...
系统解析Apache Hive
Apache Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供一种HQL语言进行查询,具有扩展性好.延展性好.高容错等特点,多应用于离线数仓建设. 1. ...
【java】org.apache.commons.lang3功能示例
org.apache.commons.lang3功能示例 package com.simple.test; import java.util.Date; import java.util.Iterat ...
Hive[4] 数据定义 HiveQL
HiveQL 是 Hive 查询语言,它不完全遵守任一种 ANSI SQL 标准的修订版,但它与 MySQL 最接近,但还有显著的差异,Hive 不支持行级插入,更新和删除的操作,也不支持事务,但 H ...
使用Sqoop从mysql向hdfs或者hive导入数据时出现的一些错误
1.原表没有设置主键,出现错误提示: ERROR tool.ImportTool: Error during import: No primary key could be found for tab ...
Apache Hive 基本理论与安装指南
一.Hive的基本理论 Hive是在HDFS之上的架构,Hive中含有其自身的组件,解释器.编译器.执行器.优化器.解释器用于对脚本进行解释,编译器是对高级语言代码进行编译,执行器是对java代码的执 ...

随机推荐

Linux curl 网络访问
Linux curl 网络访问参数详解 -a/--append 上传文件时,附加到目标文件 -A/--user-agent <string> 设置用户代理发送给服务器 -anyauth ...
python阶段性总结
一,学习方法说起来我也是第一次学习python,一开始也是什么都不懂.当开始学习一个新的知识时,我觉得第一件事便是了解它的基本概念.一定要认认真真的阅读参考书至少一次,用笔勾画出你所认为的重点和难点 ...
（转）Awesome Human Pose Estimation
Awesome Human Pose Estimation 2018-10-08 11:02:35 Copied from: https://github.com/cbsudux/awesome-hu ...
burpsuit 无法导入证书，抓取https的解决办法
想用burpsuit中转https流量,需要安装证书: 确保浏览器能访问http 后,访问:http://burp/ 点击右上角下载证书. 然后导入,这些网上都有方法. 但如果你试了后: ①提示导入失 ...
vue--vConsole
平时在web应用开发过程中,我们可以console.log去输出一些信息,但是在移动端,也就是在手机上,console.log的信息我们是看不到的. 这种情况下,可以选择使用alert弹出一些信息,但 ...
Uncaught DOMException: Failed to construct 'WebSocket': The URL 'xxx.xxx.com/' is invalid.
Uncaught DOMException: Failed to construct 'WebSocket': The URL 'xxx.xxx.com/' is invalid. 出现这个问题是构造 ...
guxh的python笔记十：包和模块
1,包和模块包package:本质就是一个文件夹/目录,必须带一个__init.__.py的文件模块module:.py结尾的python文件 2,导入方法 import pandas, coll ...
深入理解Plasma（二）Plasma 细节
这一系列文章将围绕以太坊的二层扩容框架,介绍其基本运行原理,具体操作细节,安全性讨论以及未来研究方向等.本篇文章主要对 Plasma 一些关键操作的细节进行剖析. 在上一篇文章中我们已经理解了什么是 ...
使用Metasploit渗透攻击windows系统（一）
攻击机:kaili ip:192.168.80.157 目标机:win7 IP:192.168.80.158 这里用两种方法去创建meterpreter会话: 1)利用kali中的msfvenom生成 ...
Servlet的5种方式实现表单提交
http://www.cnblogs.com/zhanghaoliang/p/5622900.html

Apache Hive处理数据示例

Apache Hive简介

Hive使用示例

总结

Apache Hive处理数据示例的更多相关文章

随机推荐

热门专题