二十五、Hadoop学记笔记———

Hive主要为了简化MapReduce流程，使非编程人员也能进行数据的梳理，即直接使用sql语句代替MapReduce程序

Hive建表的时候元数据（表明，字段信息等）存于关系型数据库中，数据存于HDFS中。

此元数据与HDFS中的元数据需要区分清楚，HDFS中元数据（文件名，文件长度等）存于Namenode中，数据存于Datanode中。

本次使用的是hive1.2.2版本

下载完毕之后解压：

将default文件复制一份成site文件，然后打开site文件，清空其内容，然后配置如下参数：

hive.metastore.local表示元数据存于本地

其中jdbc的hive是mysql中，提供给hive的database的名称，可自行修改，后续是登录的账号和密码，可以使用root，也可以新建一个hive用户，本机采用的是新建一个hive用户。

之后将mysql的jdbc驱动放入hive的lib目录下：

之后安装mysql，并在mysql下create名为hive的数据库，本机使用mysql5.7，数据库安装不做描述：

在hive中新建的表的表结构会在mysql中相应的databse内存储：

之后在例举一个复杂点的数据表，主要包含了数组型字段和map型字段，并且附带partition分区，例子来源于hive官网：

CREATE TABLE user_info(

id INT,
name STRING,
hobby ARRAY < STRING >,
goodatlol MAP < STRING, STRING >
)
PARTITIONED BY(dt STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':'
STORED AS TEXTFILE;

先新建一个user_info表：

其中hobby为数组型字段，goodatlol为map型字段。fields的分隔符'\t'表示文件每一行的分隔符，collection的分隔符','表示数组型字段的分隔符，map的分隔符':'表示map字段的分隔符。

这时候在hdfs的该路径下回出现一个文件夹user_info：

由此可见，hive中的数据表，表结构的元数据存在所连接的关系型数据库中，而数据信息存于hdfs。

之后录入信息，新建文件，名字不限，内容如下：

load data local inpath '/home/tyx/temp/userinfo' into table user_info;

可用查询语句得出ttt同学喜欢上单风男：

之后在hdfs的user_info路径下还会出现分区：

前面讲述的是建表和查询，现在说一个插入比较常用的方法，由于Hive是数据仓库，主要作用是用来存放、查询和统计数据，因此插入一般是直接覆盖，而不会像Mysql那样经常一条一条的插入。在Hive中，Insert into默认是关闭的，需要做一些配置才能开启，感兴趣的朋友可以自行查询，此处只介绍insert overwrite方法，标准语法如下（源自官方文档）：

INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...) [IF NOT EXISTS]] select_statement1 FROM from_statement;

意思就是从一个语句中读取所有数据并覆盖原数据。前面也提到Hive一般用来做统计查询，通常情况下统计所需要的字段可能分布在好几张数据表上。就算只存在于一张数据表，那统计所需要的字段也只有2到3个，新建一个表专门用来查询也可以提高查询效率。

新建一个user_test表：

这个表相较于user_info表没有goodatlol字段和partition分区。

然后使用insert overwrite语句，将user_info中的id，name和hobby插入到user_test中来。

可以看到这时user_info中的name为ttt和zzz的数据都已经插入到了表user_info中，这时在该表中进行统计查询效率会比在user_info中快。

该语句在下面场景会非常实用，比如一个表A很很多字段，其中1号程序员需要用到A中的1、2、3字段做统计分析，程序员2号需要用到A中的3、6、8字段做统计分析，那么1号和2号分别都键自己的统计表会更加有效率

二十五、Hadoop学记笔记————Hive复习与深入的更多相关文章

二十、Hadoop学记笔记————Hive On Hbase
Hive架构图: 一般用户接口采用命令行操作, hive与hbase整合之后架构图: 使用场景场景一:通过insert语句,将文件或者table中的内容加入到hive中,由于hive和hbase已经 ...
二十三、Hadoop学记笔记————Spark简介与计算模型
spark优势在于基于内存计算,速度很快,计算的中间结果也缓存在内存,同时spark也支持streaming流运算和sql运算 Mesos是资源管理框架,作为资源管理和任务调度,类似Hadoop中的Y ...
二十一、Hadoop学记笔记————kafka的初识
这些场景的共同点就是数据由上层框架产生,需要由下层框架计算,其中间层就需要有一个消息队列传输系统 Apache flume系统,用于日志收集 Apache storm系统,用于实时数据处理 Spark ...
二十四、Hadoop学记笔记————Spark的架构
master为主节点一个集群中可能运行多个application,因此也可能会有多个driver DAG Scheduler就是讲RDD Graph拆分成一个个stage 一个Task对应一个Spa ...
二十二、Hadoop学记笔记————Kafka 基础实战：消费者和生产者实例
kafka的客户端也支持其他语言,这里主要介绍python和java的实现,这两门语言比较主流和热门图中有四个分区,每个图形对应一个consumer,任意一对一即可获取topic的分区数,每个分区 ...
十九、Hadoop学记笔记————Hbase和MapReduce
概要: hadoop和hbase导入环境变量: 要运行Hbase中自带的MapReduce程序,需要运行如下指令,可在官网中找到: 如果遇到如下问题,则说明Hadoop的MapReduce没有权限访问 ...
十八、Hadoop学记笔记————Hbase架构
Hbase结构图: Client,Zookeeper,Hmaster和HRegionServer相互交互协调,各个组件作用如下: 这几个组件在实际使用过程中操作如下所示: Region定位,先读取zo ...
十七、Hadoop学记笔记————Hbase入门
简而言之,Hbase就是一个建立在Hdfs文件系统上的数据库(mysql,orecle等),不同的是Hbase是针对列的数据库 Hbase和普通的关系型数据库区别如下: Hbase有一些基本的术语,主 ...
python3.4学习笔记(二十五) Python 调用mysql redis实例代码
python3.4学习笔记(二十五) Python 调用mysql redis实例代码 #coding: utf-8 __author__ = 'zdz8207' #python2.7 import ...

随机推荐

Oracle EBS 重新编译无效对象 invalid object
1. 查看数据库中的无效对象 check oracle object SQL> select count(*) from dba_objects where status= ...
iOS中关于UIApplication的详细介绍
UIApplication 什么是UIApplication? UIApplication对象是应用程序的象征.每一个应用都有自己的UIApplication对象,这个对象是系统自动帮我们创建的, 它 ...
网站开发进阶(二十三)Address already in use: JVM_Bind <null>:8088
Address already in use: JVM_Bind <null>:8088 注:请点击此处进行充电! 阿里云服务器又莫名其妙的宕掉!内存泄漏问题依然存在,又出现了端口占用的情 ...
【Visual C++】游戏编程学习笔记之二：定时器的使用
本系列文章由@二货梦想家张程所写,转载请注明出处. 本文章链接:http://blog.csdn.net/terence1212/article/details/44195831 作者:ZeeCode ...
Android官方技术文档翻译——开发工具的构建概述
本文译自Android官方技术文档<Build Overview>,原文地址:http://tools.android.com/build. 因为<Android Lint Chec ...
android 之ViewStub
在开发应用程序的时候,经常会遇到这样的情况,会在运行时动态根据条件来决定显示哪个View或某个布局.那么最通常的想法就是把可能用到的View都写在上面,先把它们的可见性都设为View.GONE,然后在 ...
PS 图像调整算法——自动色阶（Auto Levels）
PS 给出的定义: Enhance Per Channel Contrast:Maximizes the tonal range in each channel to produce a more d ...
LeetCode(55)- Palindrome Linked List
题目: Given a singly linked list, determine if it is a palindrome. Follow up: 思路: 题意:判断一个链表是不是回文利用两个指 ...
<<操作系统精髓与设计原理>>读书笔记(一) 并发性:互斥与同步（1）
<<操作系统精髓与设计原理>>读书笔记(一) 并发性:互斥与同步并发问题是所有问题的基础,也是操作系统设计的基础.并发包括很多设计问题,其中有进程间通信,资源共享与竞争,多个 ...
java虚拟机的类加载机制
引言我们写的代码是放在.java文件中,经过编译器编译后,转成.class文件.Class文件是一串二进制流,它可以被各平台的虚拟机所接受,实现跨平台. 虚拟机将描述类的数据从class文 ...

二十五、Hadoop学记笔记————Hive复习与深入

二十五、Hadoop学记笔记————Hive复习与深入的更多相关文章

随机推荐

热门专题