【Hive学习之四】Hive 案例

环境
　　虚拟机：VMware 10
　　Linux版本：CentOS-6.5-x86_64
　　客户端：Xshell4
　　FTP：Xftp4
　　jdk8
　　hadoop-3.1.1
　　apache-hive-3.1.1

一、需求：统计出掉线率最高的前10基站
　　数据：
　　　　record_time：通话时间
　　　　imei：基站编号
　　　　cell：手机编号
　　　　drop_num：掉话的秒数
　　　　duration：通话持续总秒数

1、建表

--数据表

create table cell_monitor(

record_time string,

imei string,

cell string,

ph_num string,

call_num string,

drop_num int,

duration int,

drop_rate DOUBLE,

net_type string,

erl string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

STORED AS TEXTFILE;

--结果表

create table cell_drop_monitor(

imei string,

total_call_num int,

total_drop_num int,

d_rate DOUBLE

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

STORED AS TEXTFILE;

2、导入数据

LOAD DATA LOCAL INPATH '/root/cdr_summ_imei_cell_info.csv' OVERWRITE INTO TABLE cell_monitor;

#展示前10条
hive> select * from cell_monitor limit 10;

OK

record_time    imei    cell    ph_num    call_num    NULL    NULL    NULL    net_type    erl

-- ::+        -                    0.0    G

-- ::+        -                    0.0    G

-- ::+        -                    0.0    G

-- ::+        -                    0.0    G

-- ::+        -                    0.0    G

-- ::+        -                    0.0    G

-- ::+        -                    0.0    G

-- ::+        -                    0.0    G

-- ::+        -                    0.0    G

Time taken: 0.132 seconds, Fetched:  row(s)

hive>

出现NULL 是因为字段类型是非字符串类型，匹配不上所以显示NULL

3、查询掉线率倒序排列

from cell_monitor cm

insert overwrite table cell_drop_monitor

select cm.imei,sum(cm.drop_num),sum(cm.duration),sum(cm.drop_num)/sum(cm.duration) d_rate

group by cm.imei

sort by d_rate desc;

二、使用hive实现wordcount

1、建表

--数据表

create table docs(line string);

--结果表

create table wc(word string, totalword int);

hive> create table docs(line string);

OK

Time taken: 0.722 seconds

hive> create table wc(word string, totalword int);

OK

Time taken: 0.045 seconds

2、导入数据

/root/wc:

hadoop hello world

hello hadoop

hbase zookeeper

name name name

导入数据：

hive> load data local inpath '/root/wc' into table docs;

Loading data to table default.docs

OK

Time taken: 0.392 seconds

hive> select * from docs;

OK

hadoop hello world

hello hadoop

hbase zookeeper

name name name

Time taken: 1.728 seconds, Fetched: 4 row(s)

3、统计

hive> select explode(split(line, ' ')) as word from docs;

OK

hadoop

hello

world

hello

hadoop

hbase

zookeeper

name

name

name

Time taken: 0.377 seconds, Fetched:  row(s)

hive>

下面统计语句会产生MR任务：

from (select explode(split(line, ' ')) as word from docs) w

insert into table wc

select word, count() as totalword

group by word

order by word;

4、查询结果

hive> select * from wc;
OK
hadoop 2
hbase 1
hello 2
name 3
world 1
zookeeper 1
Time taken: 0.121 seconds, Fetched: 6 row(s)
hive>

【Hive学习之四】Hive 案例的更多相关文章

hive学习(五) 应用案例
1.实现struct数据结构例子 1.1创建student表 create table student( id int, info struct<name:string,age:int> ...
hive学习(二) hive操作
hive ddl 操作官方手册https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL hive dml 操作官方手 ...
Hive学习之四《Hive分区表场景案例应用案例，企业日志加载》详解
文件的加载,只需要三步就够了,废话不多说,来直接的吧. 一.建表话不多说,直接开始. 建表,对于日志文件来说,最后有分区,在此案例中,对年月日和小时进行了分区. 建表tracktest_log,分隔 ...
hive学习(四) hive的函数
1.内置运算符 1.1关系运算符运算符类型说明 A = B 所有原始类型如果A与B相等,返回TRUE,否则返回FALSE A == B 无失败,因为无效的语法. SQL使用”=”,不使用”= ...
hive学习(三) hive的分区
1.Hive 分区partition 必须在表定义时指定对应的partition字段 a.单分区建表语句: create table day_table (id int, content string ...
Hive学习笔记——Hive中的分桶
对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分.Hive也是针对某一列进行桶的组织.Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记 ...
Hive学习：Hive连接JOIN用例详解
1 准备数据: 1.1 t_1 01 张三 02 李四 03 王五 04 马六 05 小七 06 二狗 1.2 t_2 01 11 03 33 04 44 06 66 07 77 08 88 1.3 ...
Hive学习路线图(转)
Hadoophivehqlroadmap学习路线图 1 Comment Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig ...
【转】Hive学习路线图
原文博客出自于:http://blog.fens.me/hadoop-hive-roadmap/ 感谢! Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Ha ...

随机推荐

VS2017上在线和离线安装Qt插件（在线安装）
版权声明:如需转载,请告知博主并声明出处 https://blog.csdn.net/CLinuxF/article/details/88816436文章目录前言在线安装离线安装(推荐)前言很多朋友喜 ...
20165336 2017-2018-2《Java程序设计》第6周学习总结
20165336 2017-2018-2<Java程序设计>第6周学习总结教材学习内容总结常量池中的数据在程序运行期间再也不允许改变. String s = new String(&q ...
10.4-uC/OS-III内部任务（空闲任务OS_IdleTask()）
1.内部任务-空闲任务在uC/OS-III初始化的时候,它会创建至少2个内部的任务(OS_IdleTask()和OS_TickTask()), 3个可选择的任务 ( OS_StatTask(),OS ...
（4.1）mysql备份还原——mysql常见故障
(4.1)mysql备份还原——mysql常见故障 1.常见故障类型在数据库环境中,常见故障类型: 语句失败,用户进程失败,用户错误实例失败,介质故障,网络故障其中最严重的故障主要是用户错误和介 ...
pandas操作速查表
准备工作 import numpy as np import pandas as pd 倒入文件或创建一个数据表 df = pd.DataFrame(pd.read_csv('name.csv',he ...
cxListView和dbgrid联动
procedure TForm1.FormCreate(Sender: TObject); begin ClientDataSet1.First; while not ClientDataSet1.E ...
呼叫转接ECT
ECT(Explicit Call Transfer,呼叫转接)是一种较为特殊的补充业务.签约ECT业务的用户A先呼叫用户B,在与用户B建立通话后,用户A通过终端发起保持用户B呼叫的请求,此时用户B会 ...
高并发负载均衡——nginx与lvs
一.企业级web项目架构一.企业级web项目架构图二.架构分析客户端通过企业防火墙发送请求在App服务器如tomcat接收客户端请求前,面对高并发大数据量访问的企业架构,会通过加入负载均衡主备 ...
（转）Thread中yield方法
先上一段代码 public class YieldExcemple { public static void main(String[] args) { Thread threada = new Th ...
（转）面试必备技能：JDK动态代理给Spring事务埋下的坑！
一.场景分析最近做项目遇到了一个很奇怪的问题,大致的业务场景是这样的:我们首先设定两个事务,事务parent和事务child,在Controller里边同时调用这两个方法,示例代码如下: 1.场景A ...

【Hive学习之四】Hive 案例

【Hive学习之四】Hive 案例的更多相关文章

随机推荐

热门专题