hive数据仓库建设

1、设计原生日志表

原生日志表用来存放上报的原始日志，数据经过清洗加工后会进入到各个日志表中。

1.1 创建数据库

#创建数据库

$hive>create database umeng_big11 ;

1.2 创建原生日志表

原生表使用分区表设计，分区字段为ym/d/hm，hive使用动态分区表，分区采用非严格模式，即所有分区都可以是动态分区。hive命令行终端打开显式表头设置：

#临时设置，只在当前回话有效

$hive>set hive.cli.print.header=true ;

永久配置hive-site.xml：

...

<property>

  <name>hive.cli.print.header</name>

  <value>true</value>

</property>

...

创建hive原生日志表raw_logs：

$hive>create table raw_logs

(

  servertimems	float ,

  servertimestr string ,

  clientip		string ,

  clienttimems 	bigint,

  status 		int ,

  log 			string

)

PARTITIONED BY (ym int, day int , hm int)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '#'

LINES TERMINATED BY '\n'

STORED AS TEXTFILE;

1.3 加载hdfs数据到hive原生表

$hive>use umeng_big11 ;

$hive>load data inpath '/user/centos/umeng/raw-logs/201805/24/1809' into table raw_logs partition(ym=201805 , day = 24 , hm = 1809) ;

2、自定义UDF函数完成数据清洗

2.1 介绍

将原生数据加载原生日志表后，将status码为200的记录查询出来进行清洗，将结果分别插入到5类日志子表中。供以后分析使用。

3、创建日志子表

3.1 准备sql语句

创建/home/centos/umeng/umeng_create_logs_ddl.sql文件，内容如下：

--使用指定库

use umeng_big11 ;

--startuplogs

create table if not exists startuplogs

(

  appChannel 	string ,

  appId			string ,

  appPlatform	string ,

  appVersion	string ,

  brand			string ,

  carrier 		string ,

  country 		string ,

  createdAtMs 	bigint ,

  deviceId 		string ,

  deviceStyle 	string ,

  ipAddress 	string ,

  network		string ,

  osType		string ,

  province		string ,

  screenSize	string ,

  tenantId		string

)

partitioned by (ym int ,day int , hm int)

stored as parquet ; 

--eventlogs

create table if not exists eventlogs

(

  appChannel		string ,

  appId 			string ,

  appPlatform		string ,

  appVersion		string ,

  createdAtMs		bigint ,

  deviceId			string ,

  deviceStyle		string ,

  eventDurationSecs bigint ,

  eventId 			string ,

  osType 			string ,

  tenantId 			string

)

partitioned by (ym int ,day int , hm int)

stored as parquet ; 

--errorlogs

create table if not exists errorlogs

(

  appChannel 	string ,

  appId 		string ,

  appPlatform 	string ,

  appVersion 	string ,

  createdAtMs 	bigint ,

  deviceId 		string ,

  deviceStyle 	string ,

  errorBrief 	string ,

  errorDetail 	string ,

  osType 		string ,

  tenantId 		string

)

partitioned by (ym int ,day int , hm int)

stored as parquet ; 

--usagelogs

create table if not exists usgaelogs

(

  appChannel 			string ,

  appId 				string ,

  appPlatform 			string ,

  appVersion 			string ,

  createdAtMs 			bigint ,

  deviceId 				string ,

  deviceStyle 			string ,

  osType 				string ,

  singleDownloadTraffic bigint ,

  singleUploadTraffic	bigint ,

  singleUseDurationSecs	bigint ,

  tenantId 				string

)

partitioned by (ym int ,day int , hm int)

stored as parquet ; 

--pagelogs

create table if not exists pagelogs

(

  appChannel 			string ,

  appId 				string ,

  appPlatform 			string ,

  appVersion 			string ,

  createdAtMs 			bigint ,

  deviceId 				string ,

  deviceStyle 			string ,

  nextPage 				string ,

  osType 				string ,

  pageId 				string ,

  pageViewCntInSession	int ,

  stayDurationSecs		bigint ,

  tenantId 				string ,

  visitIndex 			int

)

partitioned by (ym int ,day int , hm int)

stored as parquet ;

3.2 执行sql脚本

$hive>source /home/centos/umeng/umeng_create_logs_ddl.sql

hive数据仓库建设的更多相关文章

Hive数据仓库工具安装
一.Hive介绍 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单SQL查询功能,SQL语句转换为MapReduce任务进行运行. 优点是可以通过类S ...
HIVE—数据仓库
1. hive是什么? Hive是基于 Hadoop 的一个数据仓库工具: 1. hive本身不提供数据存储功能,使用HDFS做数据存储: 2. hive也不分布式计算框架,h ...
高速查询hive数据仓库表中的总条数
Author: kwu 高速查询hive数据仓库中的条数.在查询hive表的条数,通常使用count(*).可是数据量大的时候,mr跑count(*)往往须要几分钟的时间. 1.传统方式获得总条数例如 ...
Hive数据仓库你了解了吗
在工作中我们经常使用的数据库,数据库一般存放的我们系统中常用的数据,一般为百万级别.如果数据量庞大,达到千万级.亿级又需要对他们进行关联运算,该怎么办呢? 前面我们已经介绍了HDFS和MapReduc ...
hive数据仓库入门到实战及面试
第一章.hive入门一.hive入门手册 1.什么是数据仓库 1.1数据仓库概念对历史数据变化的统计,从而支撑企业的决策.比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源. ...
将CSV格式或者EXCEL格式的文件导入到HIVE数据仓库中
学习内容:数据导入,要求将CSV格式或者EXCEL格式的文件导入到HIVE数据仓库中: ①hive建表:test1 create table test1 (InvoiceNo String, Stoc ...
Hive数据仓库工具基本架构和入门部署详解
@ 目录概述定义本质特点 Hive与Hadoop关系 Hive与关系型数据库区别优缺点其他说明架构组成部分数据模型(Hive数据组织形式) Metastore(元数据) Compil ...
Hive数据仓库
Hive 是一个基于Hadoop分布式文件系统(HDFS)之上的数据仓库架构,同时依赖于MapReduce.适用于大数据集的批处理,而不适用于低延迟快速查询. Hive将用户的HiveQL语句转换为M ...
Hive数据仓库笔记（一）
Hive建表: CREATE TABLE records (year STRING,temperature INT, quality INT) ROW FORMAT DELIMITED FIELDS ...

随机推荐

Mybatis学习笔记(一) —— mybatis介绍
一.Mybatis介绍 MyBatis 本是apache的一个开源项目iBatis, 2010年这个项目由apache software foundation 迁移到了google code,并且改名 ...
使用wget下载oracle jdk1.8
wget --no-cookies --no-check-certificate --header "Cookie: gpw_e24=http%3A%2F%2Fwww.oracle.com% ...
es6数组新方法
(1)Array.from(aarr,fn,obj) function fn(dr, sd, d) { /*Array.from 类数组转化为数组*/ console.log(arguments) v ...
getElementsByTagName() 兼容性
写东西的时候用到了getElementsByTagName(),我一直以为js 写的东西是不会有兼容性的,这次在ie8下,getElementsByTagName()就不支持了,那怎么办呢,我就查到一 ...
转 python 的常用函数replace, split(),enumerate() 函数
1.execmd = "su - " + ou + " -c 'sqlplus / as sysdba << EOF\n " + execmd3 + ...
table size script :
I think Jonathan Lewis has explained the algorithm before, but it's alsosomething that we have inves ...
appium连接夜神模拟器方法总结
使用appium连接模拟器前提条件:appium环境已经搭建完毕,搭建步骤请参考我的博客:appium手机自动化环境搭建 1.下载并安装夜神模拟器:https://www.yeshen.com/ 2. ...
移动测试之appium+python 入门代码（二）
ps: 对于环境安装可能会碰到各种问题,还是要一一解决. 执行: appium-doctor 显示上边界面说明,环境已完成. 同时将手机连接主机(用数据线) ^_^ 执行 adb devices 显示 ...
javassist fr8.0破解
主要是破解连接数的. 已破解的jar:http://download.csdn.net/download/wolf12/9834152 public static void main(String[] ...
python的基础数据类型
Python基础数据类型定义: int => 数字类型 str => 字符串数据类型 bool =>布尔值,True False list 列表,用来存放大量数据 [ ...

hive数据仓库建设

hive数据仓库建设

1、设计原生日志表

1.1 创建数据库

1.2 创建原生日志表

1.3 加载hdfs数据到hive原生表

2、自定义UDF函数完成数据清洗

2.1 介绍

3、创建日志子表

3.1 准备sql语句

3.2 执行sql脚本

hive数据仓库建设的更多相关文章

随机推荐

热门专题