两种情况下不走map-reduce:

1. where ds >' ' //ds 是partition

2. select * from table //后面没有查询条件，什么都没有

1.建表

CREATE TABLE sal(

  id INT,

  name STRING,

  salary INT

  )

partitioned by (city string)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t'

STORED AS TEXTFILE;

1.1 修改表及属性

#把id,name以外的列删除

alter table sal replace columns (id int, name string);

#增加列

alter table sal add columns (remark string);

#修改column

ALTER TABLE table_name

      CHANGE  col_old_name col_new_name

      column_type;

ALTER TABLE sal CHANGE remark city string;

2.导入数据

load data local inpath '/home/hadoop/in/mytable' overwrite into table sal;

1	zuansun	3000	none

2	zuansu2	4000	none

3	zuansu3	3000	none

4	zuansu4	4000	none

5	zuansu5	3000	none

6	zuansu6	4000	none

7	zuansu7	3000	none

8	zuansu8	4000	none

9	zuansu9	10000	none

10	zuansu10	20000	none

11	zuansu11	15000	none

12	zuansu12	25000	none

3.嵌套查询

from (select * from sal) e select e.id,e.name,e.salary  where e.salary>3000;

#case when

select id,name,

 case

    when salary<10000 then '屌丝'

    when salary>=10000 and salary<20000 then '中下等'

    when salary>=20000 and salary<50000 then '高帅富'

    else '外星人'

  end as salarylevel

from sal;

4.group by

select remark,sum(salary) from sal group by remark;

5.动态分区

5.1 创建临时表

CREATE TABLE sal_tmp(

  id INT,

  name STRING,

  salary INT,

  city string

  )

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t'

STORED AS TEXTFILE;

5.2将数据导入到临时表中

load data local inpath '/home/hadoop/in/mytable' overwrite into table sal_tmp;

5.3 操作的配置

set hive.exec.dynamic.partition=true; // 允许动态分区

set hive.exec.dynamic.partition.mode=nonstrict;

set hive.exec.dynamic.partitions.pernode=50000;

set hive.exec.dynamic.partitions.partitions=50000;

set hive.exec.max.created.files=500000;

set mapred.reduce.tasks =20000; //每个任务默认的reduce数目

set hive.merge.mapfiles=true;  //在Map-only的任务结束时合并小文件

5.4附partition相关参数：

hive.exec.dynamic.partition（缺省false）：设置为true允许使用dynamic partition

hive.exec.dynamic.partition.mode（缺省strick）：设置dynamic partition模式（nostrict允许所有partition列都为dynamic partition，strict不允许）

hive.exec.max.dynamic.partitions.pernode （缺省100）：每一个mapreduce job允许创建的分区的最大数量，如果超过了这个数量就会报错

hive.exec.max.dynamic.partitions （缺省1000）：一个dml语句允许创建的所有分区的最大数量

hive.exec.max.created.files （缺省100000）：所有的mapreduce job允许创建的文件的最大数量

5.5

insert into table sal partition (city) select * from sal_tmp;

6. join操作

#建表

create table a(id int,gender string)

row format delimited fields terminated by '\t' stored as textfile;

#加载数据

load data local inpath '/home/hadoop/in/a' overwrite into table a;

#内连接查询

select sal.id,sal.name,sal.salary,sal.city,a.gender from sal join a on(sal.id=a.id);

#左外连接查询

select sal.id,sal.name,sal.salary,sal.city,a.gender from sal left outer join a on(sal.id=a.id);

7.创建索引

create index a_index on table a(id) AS  'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' WITH DEFERRED REBUILD ;

8.桶

#临时表

create table tb_tmp(id int,age int, name string ,timeflag bigint) row format delimited fields terminated by ',';

#带桶的表,4个桶

create table tb_stu(id int,age int, name string,timeflag bigint) clustered by (id) sorted by (age) into 4 buckets row format delimited fields terminated by ',';

#加载数据到临时表

load data local inpath '/home/hadoop/in/tb_tmp' overwrite into table tb_tmp;

1,20,zxm,20140330

2,21,ljz,20140330

3,19,cds,20140330

4,18,mac,20140330

5,22,android,20140330

6,23,symbian,20140330

7,25,wp,20140330

8,20,cxd,20140330

9,21,fvd,20140330

10,19,cvb,20140330

11,18,erd,20140330

12,22,nid,20140330

13,23,fvd,20140330

14,19,cvb,20140330

15,18,e33,20140330

16,22,nid,20140330

#设置执行桶的属性

set hive.enforce.bucketing = true;

#插入到tb_stu表

insert into table tb_stu select * from tb_tmp;

#抽样

select * from tb_stu tablesample(bucket 1 out of 4 on id);

注：tablesample是抽样语句，语法：TABLESAMPLE(BUCKET x OUT OF y),相当于以下语句：

SELECT * FROM numbersflat WHERE number % y = x-1;

9.RCfile

#rcfile 格式表

create table tb_rc(id int,age int, name string ,timeflag bigint) row format delimited fields terminated by ',' stored as rcfile;

#插入数据,上表中已经有tb_tmp表，所以直接插入数据即可

insert into table tb_rc select * from tb_tmp;

10.分隔符的多样化（配合正则表达式使用）

#cat /tmp/liuxiaowen/1.txt

000377201207221125^^APPLE IPHONE 4S^^2

132288201210331629^^THINKING IN JAVA^^1

132288201210331629^^THIN ssss^^1111

132288201210331629^^THdd dd ddJAVA^^10

add jar /opt/app/hive-0.7.0-rc1/lib/hive-contrib-0.7.0.jar ;  

create external table tt(times string,

product_name string,

sale_num string

) ROW FORMAT

SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'

WITH SERDEPROPERTIES

( 'input.regex' = '([^^]*)\\^\\^([^^]*)\\^\\^([^^]*)',

'output.format.string' = '%1$s %2$s %3$s')

STORED AS TEXTFILE;

load data local inpath '/home/hadoop/in/tt' overwrite into table tt;

hive> select product_name from tt;  

APPLE IPHONE 4S

THINKING IN JAVA

THIN ssss

THdd dd ddJAVA

11.更加复杂的数据类型

11.1 array

cat login_array.txt

192.168.1.1,3105007010|3105007011|3105007012

192.168.1.2,3105007020|3105007021|3105007022

CREATE TABLE login_array (

  ip  STRING,

  uid  array<BIGINT>

)

PARTITIONED BY (dt STRING)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ','

COLLECTION ITEMS TERMINATED BY '|'

STORED AS TEXTFILE;

加载数据到hive表

LOAD DATA LOCAL INPATH '/home/hadoop/in/login_array' OVERWRITE INTO TABLE login_array PARTITION (dt='20130101');

#查看数据

select * from login_array;

192.168.1.1	[3105007010,3105007011,3105007012]	20130101

192.168.1.2	[3105007020,3105007021,3105007022]	20130101

select ip,uid[0] from login_array where dt='20130101'; --使用下标访问数组

192.168.1.1	3105007010

192.168.1.2	3105007020

select ip,size(uid) from login_array where dt='20130101'; #查看数组长度

192.168.1.1	3

192.168.1.2	3

select * from login_array where  array_contains(uid,3105007010);#数组查找

192.168.1.1	[3105007010,3105007011,3105007012]	20130101

11.2 使用Map

cat map_test_raw:

2014-03-03 12:22:34#127.0.0.1#get#amap#src=123&code=456&cookie=789#status=success&time=2s

2014-03-03 11:22:34#127.0.0.1#get#autonavi#src=123&code=456#status=success&time=2s&cookie=789

#创建表

create external  table map_test_raw(ts String,ip String,type String,logtype String,request Map<String,String>,response Map<String,String>)

  ROW FORMAT DELIMITED FIELDS TERMINATED BY '#'

  COLLECTION ITEMS TERMINATED BY '&'

  MAP KEYS TERMINATED BY '='

  stored as textfile;

LOAD DATA LOCAL INPATH '/home/hadoop/in/map_test_raw' OVERWRITE INTO TABLE map_test_raw;

#查看数据

select * from map_test_raw;

2014-03-03 12:22:34	127.0.0.1	get	amap	{"src":"123","code":"456","cookie":"789"}	{"status":"success","time":"2s"}

2014-03-03 11:22:34	127.0.0.1	get	autonavi	{"src":"123","code":"456"}	{"status":"success","time":"2s","cookie":"789"}

11.3 使用struct

# cat login_struct.txt

192.168.1.1,zhangsan:40

192.168.1.1,lisi:41

192.168.1.1,gavin:42

192.168.1.1,wangwu:43

192.168.1.1,xiaoming:44

192.168.1.1,xiaojun:45

# 建表

CREATE TABLE login_struct (

  ip  STRING,

  user  struct<name:string,age:int>

)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ','

COLLECTION ITEMS TERMINATED BY ':'

STORED AS TEXTFILE;

#导入数据

LOAD DATA LOCAL INPATH '/home/hadoop/in/login_struct' OVERWRITE INTO TABLE login_struct;

#查看数据

select ip,user from login_struct;

192.168.1.1	{"name":"zhangsan","age":40}

192.168.1.1	{"name":"lisi","age":41}

192.168.1.1	{"name":"gavin","age":42}

192.168.1.1	{"name":"wangwu","age":43}

192.168.1.1	{"name":"xiaoming","age":44}

192.168.1.1	{"name":"xiaojun","age":45}

Hive 进阶的更多相关文章

Hive进阶(下)
Hive进阶(下) Hive进阶(下) Hive的表连接等值连接查询员工信息:员工号.姓名.月薪.部门名称 1.select e.empno,e.ename,e.sal,d.dname2.from ...
Hive进阶(上)
Hive进阶(上) Hive进阶(上) 执行数据导入使用Load语句语法: 1.LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE ...
Hive学习之六《Hive进阶— —hive jdbc》详解
接Hive学习五 http://www.cnblogs.com/invban/p/5331159.html 一.配置环境变量 hive jdbc的开发,在开发环境中,配置Java环境变量修改/etc ...
Hive学习之五《Hive进阶—UDF操作案例》详解
hive—UDF操作 udf的操作过程: 在HIVE会话中add 自定义函数的jar文件,然后创建function,继而使用函数. 下面就以下面课题为例: 课题:统计每个活动的PV和UV 一.Java ...
hive 进阶笔记
-- mysql方式 create table account_channel(account_ String,channel_ String) as select a.account,b.chann ...
Hive进阶_汇总
=========================================================================== 第2章 Hive数据的导入使用Load语句执行 ...
Hive进阶_开发Hive的自定义函数
Hive中的自定义函数简介 (1) 在类中创建自定义函数.自定义UDF需要继承'org.apache.hadoop.hive.ql.exec.UDF',实现evaluate函数,evaluate函数支 ...
Hive进阶_Hive的客户端操作
启动远程客户端 # hive --service hiveserver2获取连接-〉创建运行环境-〉执行HQL-〉处理结果-〉释放资源工具类 package demo.utils; import j ...
Hive进阶_Hive的子查询
- 集合中如果含null数据,不可使用not in, 可以使用in- hive只支持where和from子句中的子查询- 主查询和自查询可以不是同一张表 select e.ename from emp ...

随机推荐

每天一个Linux命令（8）cat命令
cat命令连接文件并打印到标准输出设备上,cat经常用来显示文件的内容,类似于下的type命令. 注意:当文件较大时,文本在屏幕上迅速闪过(滚屏),用户往往看不清所显示的内容.因此,一般用more等命 ...
Python核心编程课后练习第二章
2.4 使用raw_input()函数得到用户输入. (a) 创建一段脚本使用raw_input()函数从用户输入得到一个字符串, 然后显示这个用户杠杠输入的字符串. #coding = utf-8 ...
JSON与AJAX的使用
主要内容: 一.JSON数据二.JSON字符串与Java对象的相互转换三.JSON字符串与JavaScript对象的相互转换四.AJAX异步加载一.JSON数据 1.JSON语法规则: 2.J ...
linux学习系列一
1. 基本命令(注意参数的大小写) 学习linux如果使用的是windows 建议使用一个很好用的工具git,下载安装即可使用linux下的命令来操作windows 1.1目录及文件注意/ 有表示根 ...
css 采集下载
软件应用范围: 看到喜欢的网页,另存为的话,并不能直接保存css中引用的图片. 那么就有了本软件的用武之地. 亮点:自动匹配文件内的相对路径.css内图片地址值md5保存,用来避免不同文件夹同名文件的 ...
CommonJS、AMD与CMD
自从有了模块,我们可以更方便地使用别人的代码,想要什么功能,就加载什么模块.但是,这样做有一个前提,那就是大家必须以同样的方式编写模块,否则你有你的写法,我有我的写法,岂不是乱了套! 于是下面三个模块 ...
分享知识-快乐自己：Mybatis 基础动态语句
目录: User: package mlq.bean; /** * 用户实体类 */ public class User { private Integer uId; private String u ...
JavaUtil_07_HttpUtil_使用Hutool 封装的 HttpUtil
二.参考资料 1.[Hutool]Hutool工具类之Http工具——HttpUtil
JavaUtil_02_二维码的生成与解析
1.引入jar包 zxing-core-1.7.jar : http://viralpatel.net/blogs/download/jar/zxing-core-1.7.jar zxing-j ...
listen and translation exercise 49
Huh? Appears to Be Universally Understood What's the most universal utterance in languages across th ...

Hive 进阶