hive测试——HIVE数据分析

测试使用虚拟机中的hive

环境：虚拟机+jdk+hadoop+hive+mysql

题目：

1、数据导入：

要求将样表文件中的（sales_sample_20170310）数据导入HIVE数据仓库中。

2、数据清洗：

要求将day_id一列中的数值清洗为真实的日期格式，可用字符串表示。

数据1对应日期2022-10-01，依次类推，15对应日期2022-10-15

3、数据分析处理：

（1）统计每天各个机场的销售数量和销售金额。

要求的输出字段

day_id,sale_nbr,,cnt,round

日期编号，卖出方代码，数量，金额

（2）统计每天各个代理商的销售数量和销售金额。

要求的输出字段

day_id,sale_nbr,,cnt,round

日期编号，卖出方代码，数量，金额

（3）统计每天各个代理商的销售活跃度。

要求的输出字段

day_id,sale_nbr, sale_number

日期编号，卖出方代码，交易次数（买入或者卖出均算交易次数）

（4）汇总统计10月1日到10月15日之间各个代理商的销售利润。

编号，卖出方代码，买入数量，买入金额，卖出数量，卖出金额，销售利润（卖出金额-买入金额）

4、处理结果入库：

将上述统计分析的结果数据保存到mySQL数据库中。

5、数据可视化展示：

利用Echarts将上述统计结果以图形化展示的方式展现出来：饼图、柱状图、地图、折线图等。

1、数据导入

#建表

Create table test2(day_id varchar(30), sale_nbr varchar(30), buy_nbr varchar(30), cnt varchar(30), round varchar(30)) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES

    (

        "separatorChar"=","

    )

STORED AS TEXTFILE;

#数据导入
load data local inpath '/export/software/sales.csv' into table test2;

2、数据清洗

#重新建一个表

Create table test3(day_id varchar(30), sale_nbr varchar(30), buy_nbr varchar(30), cnt varchar(30), round varchar(30)) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES

    (

        "separatorChar"=","

    )

STORED AS TEXTFILE;

#导入清洗后的数据
insert overwrite table test3 select date_add('2022-10-00',cast(day_id AS INT)) as day_id,sale_nbr,buy_nbr,cnt,round from test2;

3-1、统计每天各个机场的销售数量和销售金额

#建表

Create table text3_1(day_id varchar(30), sale_nbr varchar(30), cnt varchar(30), round varchar(30)) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES

    (

        "separatorChar"=","

    )

STORED AS TEXTFILE;

#数据导入

insert overwrite table text3_1

SELECT

day_id,

sale_nbr,

SUM(cnt),

SUM(round)

FROM

test3

WHERE sale_nbr LIKE 'C%'

GROUP BY day_id,sale_nbr;

3-2、统计每天各个代理商的销售数量和销售金额

#建表

Create table text3_2(day_id varchar(30), sale_nbr varchar(30), cnt varchar(30), round varchar(30)) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES

    (

        "separatorChar"=","

    )

STORED AS TEXTFILE;

#数据导入

insert overwrite table text3_2

SELECT

day_id,

sale_nbr,

SUM(cnt),

SUM(round)

FROM

test3

WHERE sale_nbr LIKE "O%"

GROUP BY day_id,sale_nbr;

3-3、统计每天各个代理商的销售活跃度

#建表

Create table text3_3(day_id varchar(30), sale_nbr varchar(30), sale_number varchar(30)) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES

    (

        "separatorChar"=","

    )

STORED AS TEXTFILE;

#导入数据

insert overwrite table text3_3

SELECT

day_id,

sale_nbr,

COUNT(sale_nbr)

FROM

test3

WHERE sale_nbr LIKE "O%"

GROUP BY day_id,sale_nbr;

3-4、汇总统计10月1日到10月15日之间各个代理商的销售利润（先将数据导入，然后重新建表，取出部分数据）

create table daiout as select day_id as day_id,sale_nbr as sale_nbr,sum(cnt)as cnt,sum(round)as round from test3 where sale_nbr like 'O%' group by day_id,sale_nbr;

create table daiin as select day_id as day_id,buy_nbr as buy_nbr,sum(cnt)as cnt,sum(round)as round from test3 where buy_nbr like 'O%' group by day_id,buy_nbr;

create table daili as select daiin.day_id as day_id,daiout.sale_nbr as sale_nbr,daiin.cnt as incnt,daiin.round as inround,daiout.cnt as outcnt,daiout.round as outround,daiout.round-daiin.round as li from daiin join daiout on (daiin.buy_nbr=daiout.sale_nbr);

create table profit(day_id varchar(200),sale_nbr VARCHAR(200),incnt double,inround double,outcnt double,outround double,li double);

insert overwrite table profit select * from daili where day_id between '2022-10-01' and '2022-10-15';

hive测试数据洗刷的更多相关文章

一脸懵逼学习Hive的使用以及常用语法（Hive语法即Hql语法）
Hive官网(HQL)语法手册(英文版):https://cwiki.apache.org/confluence/display/Hive/LanguageManual Hive的数据存储 1.Hiv ...
Hive和Sqoop测试数据
测试数据以Oracle数据库自带scott用户emp和dept表为准: 一.MySQL数据库创建的emp和dept表语法及数据: drop table if exists dept;create ta ...
hive学习-测试数据
测试数据: ---------------------------------------------MySQL-------------------------------------------- ...
hive分区表插入一条测试数据
1.show create table tb_cdr;+-------------------------------------------------------+--+| ...
Hive索引功能测试
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处从Hive的官方wiki来看,Hive0.7以后增加了一个对表建立index的功能,想试下性能是 ...
hive 复杂类型
hive提供一种复合类型的数据 struct:可以使用"."来存取数据 map:可以使用键值对来存取数据 array:array中存取的数据为相同类型,其中的数据可以通过下表获取数 ...
hive学习笔记
html,body,div,span,applet,object,iframe,h1,h2,h3,h4,h5,h6,p,blockquote,pre,a,abbr,acronym,address,bi ...
Hive基本语法操练
建表规则如下: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment ...
hive的使用02
1.hive的交互方式 1.1 bin/hive 进入hive交互命令行环境 1.2 bin/hive -e 'select * from hive.student;' (可以通过 > 将结果写 ...
Spark入门实战系列--5.Hive（上）--Hive介绍及部署
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Hive介绍 1.1 Hive介绍月开源的一个数据仓库框架,提供了类似于SQL语法的HQ ...

随机推荐

【Azure App Service】.NET代码实验App Service应用中获取TLS/SSL 证书 (App Service Linux/Linux Container)
在前一篇文章中,我们是把.NET 8应用读取SSL证书(X509)示例部署在App Service Windows环境中,那么如果部署在Linux环境,以及Linux Container中呢? 根据前 ...
.NET开源、跨平台、使用简单的面部识别库
前言今天给大家分享一个.NET开源(MIT License).免费.跨平台(适用于 Windows.MacOS 和 Linux ).使用简单的面部识别库:FaceRecognitionDotNet. ...
Nodejs中间件中间件分类和自定义中间件
中间件中间件理解中间件可以理解为业务流程的中间处理环节.如生活中吃一般炒青菜,大约分为如下几步骤 express中当一个请求到达的服务器之后,可以在给客户响应之前连续调用多个中间件,来对本次请求和 ...
LeetCode 692. Top K Frequent Words 前K个高频单词 (Java)
题目: Given a non-empty list of words, return the k most frequent elements. Your answer should be sort ...
java8 Lambda 测试示例
import com.google.gson.Gson; import org.junit.Test; import java.util.Arrays; import java.util.IntSum ...
git客户端安装和使用
需要安装三个软件 1.git客户端点击下载下载完成后一只next就行了. 2.git右键属性的扩展程序点击下载下载完成后一只next就行了 3.git中文包点击下载下载完成后一只next就 ...
数据分析---matplotlib模块的使用
1.摘要在数据可视化.统计绘图和图表生成领域,Python 被广泛使用,其中 Matplotlib 是一个极其重要的基础三方库.本博客旨在介绍 Python 及其三方库 Matplotlib 的详细 ...
使用Kubesec检查YAML文件安全
目录一.系统环境二.前言三.Kubesec简介四.使用Kubesec检查YAML文件安全五.总结一.系统环境本文主要基于Kubernetes1.22.2和Linux操作系统Ubuntu ...
BST-splay板子 - 维护一个分裂和合并的序列
splay 均摊复杂度 \(O(\log n)\) 证明: https://www.cnblogs.com/Mr-Spade/p/9715203.html 我这个 splay 有两个哨兵节点,分别是1 ...
VScode连接服务器不用每次都输入密码
VScode连接服务器不用每次都输入密码. 用git或xcode的ssh keygen生成一组不带密码的 rsa2048 的公钥id_rsa_nopasswd.pub和私钥id_rsa_nopassw ...

hive测试数据洗刷

hive测试——HIVE数据分析

hive测试数据洗刷的更多相关文章

随机推荐

热门专题