hive操作记录
hive是依赖于hdfs和yarn的一个数据仓库
数据库和数据仓库的区别:
数据库在存储数据的同时,允许实时的增删改查等操作
数据仓库在存储数据的同时还执行着计算和分析数据的工作,但是并不能实时的进行增删改等操作,如果
需要对数据进行更新则需要将数据下载下来更新之后再放入数据仓库中,是一次写入多次读取的过程
所以hive并不能取代mysql,mssql等数据库(不像hbase一样可以根据不同业务的需求取代那些传统数据
库),甚至可以将hive看成是一种数据挖掘工具,用来分析hdfs上的大数据
hive上的数据库和表都对应着hdfs上的一个目录(不是文件),表中的数据对应的是该目录下的文件内容
,hive的表分为内部表,外部表和分区表
内部表:创建表时没有指定的话,默认为内部表。先创建,后从本地系统导入数据到内部表中
外部表:创建表时通过指定对应的hdfs存储地址来建立外部表和hdfs文件的关联
分区表:创建表时可以通过业务需求来建立多级分区,如:按照日期来分区,这样在hdfs中不同分区的数
据会被存储在不同的文件夹中。向分区表导入数据时需要指定分区的字段
hive执行流程:
当hive执行一个任务时,会向元数据仓储发送或者查询元数据信息,以获得hive中表和hdfs文件系统中的
对应关系。以mysql为例:hive中的信息都存储在mysql的名为hive的数据库中,hive表信息存储在TBLS表
中,TBLS存储了hive中每个表的ID,创建时间,类型等信息。根据表ID可以在COLUMNS_V2表中查找该表对
应的有哪些字段,字段的类型等。根据表ID可以在SDS表中查到该表的hdfs输入路径,输入输出格式化的
方式(mr任务时有用)等信息
hive安装和配置mysql作为其元数据的仓储:
只在一个节点上安装即可
1.上传tar包
2.解压
tar -zxvf hive-0.9.0.tar.gz ~/cloud/
3.安装mysql(切换到root用户)
配置HIVE_HOME环境变量
检查机器上是否有安装了mysql相应的服务
rpm -qa | grep mysql
如果有则卸载
rpm -e mysql-libs-5.1.66-2.el6_3.i686 --nodeps
安装mysql服务端和客户端
rpm -ivh MySQL-server-5.1.73-1.glibc23.i386.rpm
rpm -ivh MySQL-client-5.1.73-1.glibc23.i386.rpm
安装成功后运行下面的程序进行mysql初始化
/usr/bin/mysql_secure_installation
(注意:删除匿名用户,允许用户远程连接)
登陆mysql
mysql -u root -p
4.配置hive
cp hive-default.xml.template hive-site.xml
修改hive-site.xml(删除所有内容,只留一个<configuration></configuration>,然后将下面
对应的property属性添加进进去)
或者新建hive-site.xml 文件添加如下内容(以下配置文件要注意mysql服务所在的地址和连接
的用户名密码等):
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://cloud3:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>username to use against metastore database</description>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>123</value>
<description>password to use against metastore database</description>
</property>
</configuration>
5.安装hive和mysql完成后,将mysql的连接jar包拷贝到$HIVE_HOME/lib目录下
如果出现没有权限的问题,在mysql授权(在安装mysql的机器上执行)
mysql -uroot -p
#(执行下面的语句 *.*:所有库下的所有表 %:任何IP地址或主机都可以连接)
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'JChubby123' WITH GRANT OPTION;
FLUSH PRIVILEGES;
hive操作:
6.建表(默认是内部表)
create table trade_detail(id bigint, account string, income double, expenses double,
time string) row format delimited fields terminated by '\t';
建表时要指定字段之间的分隔符
建分区表
create table td_part(id bigint, account string, income double, expenses double, time
string) partitioned by (logdate string) row format delimited fields terminated by '\t';
除了执行字段分隔符 之外还要指定分区字段
建外部表
create external table td_ext(id bigint, account string, income double, expenses
double, time string) row format delimited fields terminated by '\t' location '/td_ext';
通过external关键字来建立外部表,location来指定要关联的hdfs文件系统的位置
分区表加载数据
load data local inpath './book.txt' overwrite into table book partition
(pubdate='2010-08-22');
使用sqoop将mysql的数据导入到hive表中(sqoop先将数据导入到hdfs中,在调用hive的命令load到hive
表中,所以要配置hive的环境变量)
在hive当中创建两张表
create table trade_detail (id bigint, account string, income double,
expenses double, time string) row format delimited fields terminated by '\t';
create table user_info (id bigint, account string, name string, age int)
row format delimited fields terminated by '\t';
将mysq当中的数据直接导入到hive当中
sqoop import --connect jdbc:mysql://192.168.61.130:3306/cloud --username
root --password JChubby123 --table trade_detail --hive-import --hive-overwrite --hive-table
trade_detail --fields-terminated-by '\t'
sqoop import --connect jdbc:mysql://192.168.61.130:3306/cloud --username
root --password JChubby123 --table user_info --hive-import --hive-overwrite --hive-table
user_info -- fields-terminated-by '\t'
创建一个result表保存前一个sql执行的结果
create table result row format delimited fields terminated by '\t' as select
t2.account, t2.name, t1.income, t1.expenses, t1.surplus from user_info t2 join (select
account, sum(income) as income, sum(expenses) as expenses, sum(income-expenses) as surplus
from trade_detail group by account) t1 on (t1.account = t2.account);
使用自定义的UDF函数
像传统数据库中的存储过程一样,自定义的UDF函数有输入和输出。当hive的函数不能满足业务需求的时
候就需要自定义UDF函数来进行任务执行
1.引入hive和hadoop common的jar包
2.自定义类,并继承自UDF类
3.定义UDF函数,统一命名为evaluate,如:
public Text evaluate(Text in)
输入和输出要使用hadoop io的基本类型,因为其也要走mr任务和网络传输
4.将其打包成jar并上传到装有hive的机器中
5.在hive shell中执行命令将jar包中的函数添加进去
自定义函数调用过程:
1.添加jar包(在hive命令行里面执行)
hive> add jar /root/NUDF.jar;
2.创建临时函数
hive> create temporary function getNation as 'NationUDF';
函数要写成包括包名的全名称
3.调用
hive> select id, name, getNation(nation) from beauty;
4.将查询结果保存到HDFS中
create table result row format delimited fields terminated by '\t' as select id, getNation
(nation) from beauties;
hive操作记录的更多相关文章
- Mycat读写分离、主从切换、分库分表的操作记录
系统开发中,数据库是非常重要的一个点.除了程序的本身的优化,如:SQL语句优化.代码优化,数据库的处理本身优化也是非常重要的.主从.热备.分表分库等都是系统发展迟早会遇到的技术问题问题.Mycat是一 ...
- Hive 文件格式 & Hive操作(外部表、内部表、区、桶、视图、索引、join用法、内置操作符与函数、复合类型、用户自定义函数UDF、查询优化和权限控制)
本博文的主要内容如下: Hive文件存储格式 Hive 操作之表操作:创建外.内部表 Hive操作之表操作:表查询 Hive操作之表操作:数据加载 Hive操作之表操作:插入单表.插入多表 Hive语 ...
- centos 6x系统下源码安装mysql操作记录
在运维工作中经常部署各种运维环境,涉及mysql数据库的安装也是时常需要的.mysql数据库安装可以选择yum在线安装,但是这种安装的mysql一般是系统自带的,版本方面可能跟需求不太匹配.可以通过源 ...
- Mysql更换MyISAM存储引擎为Innodb的操作记录
一般情况下,mysql会默认提供多种存储引擎,可以通过下面的查看: 1)查看mysql是否安装了innodb插件.通过下面的命令结果可知,已经安装了innodb插件. mysql> show p ...
- nginx缓存配置的操作记录梳理
web缓存位于内容源Web服务器和客户端之间,当用户访问一个URL时,Web缓存服务器会去后端Web源服务器取回要输出的内容,然后,当下一个请求到来时,如果访问的是相同的URL,Web缓存服务器直接输 ...
- Linux下修改系统编码的操作记录
Linux系统安装后,发现中文显示乱码.因为系统编码为en_US.UTF-8,应改为支持中文的编码(即zh_CN.UTF-8)操作记录如下:1)检查linux的系统编码检查linux的系统编码,确定系 ...
- Nginx中防盗链(下载防盗链和图片防盗链)操作记录
日常运维工作中,设置防盗链的需求会经常碰到,这也是优化网站的一个必要措施.今天在此介绍Nginx中设置下载防盗链和图片防盗链的操作~ 一.Nginx中下载防盗链的操作记录对于一些站点上的下载操作,有很 ...
- nginx利用geo模块做限速白名单以及geo实现全局负载均衡的操作记录
geo指令使用ngx_http_geo_module模块提供的.默认情况下,nginx有加载这个模块,除非人为的 --without-http_geo_module.ngx_http_geo_modu ...
- Mysql备份系列(4)--lvm-snapshot备份mysql数据(全量+增量)操作记录
Mysql最常用的三种备份工具分别是mysqldump.Xtrabackup(innobackupex工具).lvm-snapshot快照.前面分别介绍了:Mysql备份系列(1)--备份方案总结性梳 ...
随机推荐
- 使用maven构建第一个web项目
在eclipse中,正常创建maven项目后,发现在index.jsp中会报错,此时在pom.xml中加入如下依赖关系即可 <dependency> <groupId>java ...
- iOS设计模式 —— KVC
刨根问底KVC KVC 全称 key valued coding 键值编码 反射机制是在运行状态中,对于任意一个类,都能够知道这个类的所有属性和方法:对于任意一个对象,都能够调用它的任意一个方法和属性 ...
- Mysql启动服务提示系统找不到指定的文件
Mysql启动服务: C:\Windows\system32>net start mysql发生系统错误 2. 系统找不到指定的文件. 怎么还是报这个错?难道不是由于配置的原因?对,不是由于上面 ...
- java.lang.NumberFormatException: multiple points 异常
平时使用SimpleDateFormat的时候都是在单线程的情况下使用的,今天在改写别人的代码,发现每个类中都会写大量的SimpleDateFormat实例.作为一个程序特有的洁癖开始对代码进行优化. ...
- Selenium2+python自动化74-jquery定位【转载】
转至博客:上海-悠悠 前言 元素定位可以说是学自动化的小伙伴遇到的一道门槛,学会了定位也就打通了任督二脉,前面分享过selenium的18般武艺,再加上五种js的定位大法. 这些还不够的话,今天再分享 ...
- shell字符串变量的特异功能:字符串的替换(${str/源模式/目标模式},${str//源模式/目标模式})、截断
https://blog.csdn.net/wzb56_earl/article/details/6953612
- C# 通过串口发送短信
手机短信群发作为企业日常通知,公告,天气预报等信息的一个发布平台,在于成本低,操作方便等诸多特点,成为企业通讯之首选.本文介绍短信的编码方式,AT指令以及用C#实现串口通讯的方法. 前言目前,发送短信 ...
- GridView的TemplateField
BoundField只能显示一个单独的数据字段.如果我们想要在一个GridView列中显示两个或者更多的数据字段的值的时候该怎么办呢? 1. GridView的一列同时显示数据源中的两个字段 现需要显 ...
- 【转-记】mysql总结
1 | 查询所有数据 select * from Info 查所有数据 select Code,Name from Info 查特定列 2 | 根据条件查 select * from Inf ...
- JS—正则表达式
正则表达式的元字符是包含特殊含义的字符,它们有一些特殊的功能,可以控制匹配模式的方式,反斜杠后的元字符失去其特殊含义. 单个字符和数字 .表示匹配除换行符外的单个字符,两个.就表示匹配两个字符 var ...