3.15-3.21 hive项目实战

一、创建表并导入日志数据，引出问题

##建表

hive (default)> create table IF NOT EXISTS default.bf_log_src(

              > remote_addr string,

              > remote_user string,

              > time_local string,

              > request string,

              > status string,

              > body_bytes_sent string,

              > request_body string,

              > http_referer string,

              > http_user_agent string,

              > http_x_forwarded_for string,

              > host string

              > )

              > ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '

              > stored as textfile;

OK

Time taken: 0.037 seconds

##加载数据

hive (default)> load data local inpath '/opt/datas/moodle.ibeifeng.access.log' into table default.bf_log_src ;

##select

hive (default)> select * from bf_log_src limit 5 ;

##出现了一个问题，原文件有11列数据，但是此时查出来只有8列

二、使用RegexSerDe处理Apache或者Ngnix日志文件

正则测试网站：http://tool.chinaz.com/regex/

#删除原先的表，并重新创建

hive (default)> drop table IF EXISTS default.bf_log_src;

hive (default)> create table IF NOT EXISTS default.bf_log_src(

              > remote_addr string,

              > remote_user string,

              > time_local string,

              > request string,

              > status string,

              > body_bytes_sent string,

              > request_body string,

              > http_referer string,

              > http_user_agent string,

              > http_x_forwarded_for string,

              > host string

              > )

              > ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'

              > WITH SERDEPROPERTIES (

              >   "input.regex" = "(\"[^ ]*\") (\"-|[^ ]*\") (\"[^\]]*\") (\"[^\"]*\") (\"[0-9]*\") (\"[0-9]*\") (-|[^ ]*) (\"[^ ]*\") (\"[^\"]*\") (-|[^ ]*) (\"[^ ]*\")"

              > )

              > STORED AS TEXTFILE;

OK

Time taken: 0.056 seconds

#加载数据

hive (default)> load data local inpath '/opt/datas/moodle.ibeifeng.access.log' into table default.bf_log_src ;                                                            

#查询

hive (default)> select * from bf_log_src limit 5 ;

#此时查询出来的数据字段数量就和原文件一样了；

#此时就有了原表，下面就可以根据原表处理数据了；

三、依据原表创建子表及设置orcfile存储和snappy压缩数据

此时假如我们需要对原表中的部分字段进行分析：IP、访问时间、请求地址、转入连接

需要建立一个字表，将需要的字段查询出来，插到子表中；

#建表

hive (default)> drop table if exists default.bf_log_comm ;

OK

Time taken: 0.011 seconds

hive (default)> create table IF NOT EXISTS default.bf_log_comm (

              > remote_addr string,

              > time_local string,

              > request string,

              > http_referer string

              > )

              > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

              > STORED AS orc tblproperties ("orc.compress"="SNAPPY");

OK

Time taken: 0.034 seconds

#插入数据

hive (default)> insert into table default.bf_log_comm select remote_addr, time_local, request, http_referer from  default.bf_log_src ;

##查询

hive (default)> select * from bf_log_comm limit 5 ;

#此时我们需要的字段已经被插到了字表中

四、数据清洗之自定义UDF去除数据双引号

源码：

package com.beifeng.senior.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDF;

import org.apache.hadoop.io.Text;

/**

 * 1. Implement one or more methods named

 * "evaluate" which will be called by Hive.

 *

 * 2."evaluate" should never be a void method. However it can return "null" if

 * needed.

 * @author root

 *

 */

public class RemoveQuotesUDF extends UDF{

    public Text evaluate(Text str) {

        //validate

        if(null == str) {

            return null;

        }

        if(null == str.toString()) {

            return null;

        }

        //remove

        return new Text (str.toString().replaceAll("\"", "")) ;

    }

    public static void main(String[] args) {

        System.out.println(new RemoveQuotesUDF().evaluate(new Text("\"31/Aug/2015:23:57:46 +0800\"")));

    }

}

添加为function：

hive (default)> add jar /opt/datas/jars/hiveudf2.jar ;

Added /opt/datas/jars/hiveudf2.jar to class path

Added resource: /opt/datas/jars/hiveudf2.jar

hive (default)> create temporary function my_removequotes as "com.beifeng.senior.hive.udf.RemoveQuotesUDF" ;

OK

Time taken: 0.013 seconds

重新插入：

##插入

hive (default)> insert overwrite table default.bf_log_comm select my_removequotes(remote_addr), my_removequotes(time_local),

              > my_removequotes(request), my_removequotes(http_referer) from  default.bf_log_src ;

##查询，引号已经去掉了

hive (default)> select * from bf_log_comm limit 5 ;

五、自定义UDF转换日期时间数据

源码：

package com.beifeng.senior.hive.udf;

import java.text.SimpleDateFormat;

import java.util.Date;

import java.util.Locale;

import org.apache.hadoop.hive.ql.exec.UDF;

import org.apache.hadoop.io.Text;

/**

 * 1. Implement one or more methods named

 * "evaluate" which will be called by Hive.

 *

 * 2."evaluate" should never be a void method. However it can return "null" if

 * needed.

 * @author root

 *

 */

public class DateTransformUDF extends UDF{

    private final SimpleDateFormat inputFormat = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss", Locale.ENGLISH);

    private final SimpleDateFormat outputFormat = new SimpleDateFormat("yyyyMMddHHmmss");

    /**

     * 31/Aug/2015:00:04:37 +0800

     *

     * 20150831000437

     *

     * @param str

     * @return

     */

    public Text evaluate(Text input) {

        Text output = new Text();

        //validate

        if(null == input) {

            return null;

        }

        if(null == input.toString()) {

            return null;

        }

        String inputDate = input.toString().trim();

        if(null == inputDate) {

            return null;

        }

        try {

            //parse

            Date parseDate = inputFormat.parse(inputDate);

            //tranform

            String outputDate = outputFormat.format(parseDate);

            //set

            output.set(outputDate);

        } catch (Exception e) {

            e.printStackTrace();

        }

        //lower

        return output;

    }

    public static void main(String[] args) {

        System.out.println(new DateTransformUDF().evaluate(new Text("31/Aug/2015:00:04:37 +0800")));

    }

}

添加function：

hive (default)> add jar /opt/datas/jars/hiveudf3.jar ;

Added /opt/datas/jars/hiveudf3.jar to class path

Added resource: /opt/datas/jars/hiveudf3.jar

hive (default)> create temporary function my_datetransform as "com.beifeng.senior.hive.udf.DateTransformUDF" ;

OK

Time taken: 0.013 seconds

重新插入：

##插入

hive (default)> insert overwrite table default.bf_log_comm select my_removequotes(remote_addr), my_datetransform(my_removequotes(time_local)),

              > my_removequotes(request), my_removequotes(http_referer) from  default.bf_log_src ;

##查询，时间已经格式化

hive (default)> select * from bf_log_comm limit 5 ;

六、MovieLens数据分析采用python脚本进行数据清洗和统计

1、准备

下载数据样本：wget http://files.grouplens.org/datasets/movielens/ml-100k.zip

解压：unzip ml-100k.zip

[root@hadoop-senior datas]# cd ml-100k

[root@hadoop-senior ml-100k]# ls

allbut.pl  README   u1.test  u2.test  u3.test  u4.test  u5.test  ua.test  ub.test  u.genre  u.item        u.user

mku.sh     u1.base  u2.base  u3.base  u4.base  u5.base  ua.base  ub.base  u.data   u.info   u.occupation

[root@hadoop-senior ml-100k]# head u.data

userid moveid rate    time

196    242    3    881250949

186    302    3    891717742

22     377    1    878887116

244    51     2    880606923

166    346    1    886397596

298    474    4    884182806

115    265    2    881171488

253    465    5    891628467

305    451    3    886324817

6      86     3    883603013

2、准备原表

##建表

hive (default)> CREATE TABLE u_data (

              > userid INT,

              > movieid INT,

              > rating INT,

              > unixtime STRING)

              > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

              > STORED AS TEXTFILE;

OK

Time taken: 0.073 seconds

##导入数据

hive (default)> LOAD DATA LOCAL INPATH '/opt/datas/ml-100k/u.data' OVERWRITE INTO TABLE u_data;

3、用python脚本处理数据

##vim weekday_mapper.py

import sys

import datetime

for line in sys.stdin:

  line = line.strip()

  userid, movieid, rating, unixtime = line.split('\t')

  weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()

  print '\t'.join([userid, movieid, rating, str(weekday)])

##创建新表

hive (default)> CREATE TABLE u_data_new (

              >   userid INT,

              >   movieid INT,

              >   rating INT,

              >   weekday INT)

              > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

OK

Time taken: 0.027 seconds

##添加脚本

hive (default)> add FILE /opt/datas/ml-100k/weekday_mapper.py;

Added resource: /opt/datas/ml-100k/weekday_mapper.py

##插入数据

hive (default)> INSERT OVERWRITE TABLE u_data_new

              > SELECT

              >   TRANSFORM (userid, movieid, rating, unixtime)        #input from source table，要处理的数据来源于原表

              >   USING 'python weekday_mapper.py'            #用的python脚本

              >   AS (userid, movieid, rating, weekday)            #python脚本处理后的输出数据

              > FROM u_data;

##select

hive (default)> SELECT weekday, COUNT(*) FROM u_data_new GROUP BY weekday;

3.15-3.21 hive项目实战的更多相关文章

Hive项目实战：用Hive分析“余额宝”躺着赚大钱背后的逻辑
一.项目背景前两年,支付宝推出的“余额宝”赚尽无数人的眼球,同时也吸引的大量的小额资金进入.“余额宝”把用户的散钱利息提高到了年化收益率4.0%左右,比起银行活期存储存款0.3%左右高出太多了,也正 ...
15套java架构师、集群、高可用、高可扩展、高性能、高并发、性能优化、Spring boot、Redis、ActiveMQ、Nginx、Mycat、Netty、Jvm大型分布式项目实战视频教程
* { font-family: "Microsoft YaHei" !important } h1 { color: #FF0 } 15套java架构师.集群.高可用.高可扩展. ...
15套java互联网架构师、高并发、集群、负载均衡、高可用、数据库设计、缓存、性能优化、大型分布式项目实战视频教程
* { font-family: "Microsoft YaHei" !important } h1 { color: #FF0 } 15套java架构师.集群.高可用.高可扩展 ...
15套java架构师大型分布式综合项目实战、千万高并发-视频教程
* { font-family: "Microsoft YaHei" !important } h1 { color: #FF0 } 15套java架构师.集群.高可用.高可扩展 ...
15套java架构师、集群、高可用、高可扩展、高性能、高并发、性能优化Redis、ActiveMQ、Nginx、Mycat、Netty、Jvm大型分布式项目实战视频教程
* { font-family: "Microsoft YaHei" !important } h1 { color: #FF0 } 15套java架构师.集群.高可用.高可扩展 ...
Spark大型项目实战：电商用户行为分析大数据平台
本项目主要讲解了一套应用于互联网电商企业中,使用Java.Spark等技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为.页面跳转行为.购物行为.广告点击行为等)进行复杂的分析.用统计分 ...
SaltStack项目实战（六）
SaltStack项目实战系统架构图一.初始化 1.salt环境配置,定义基础环境.生产环境(base.prod) vim /etc/salt/master 修改file_roots file_r ...
angularJs项目实战！02：前端的页面分解与组装
自从上一篇文章到现在已经有将近一个月的时间,我将精力放在了前端页面分解与组装,和angularjs如何与jquery.bootstrap.D3等一系列其他类库结合使用的经验总结上.由于公司新招了一些员 ...
angularJs项目实战！01：模块划分和目录组织
近日来我有幸主导了一个典型的web app开发.该项目从产品层次来说是个典型的CRUD应用,故而我毫不犹豫地采用了grunt + boilerplate + angularjs + bootstrap ...

随机推荐

ActiveMQ测试工具
1. 测试工具目前使用两种测试工具进行压力测试 1. Jmeter 测试单客户端收发多主题,测试高并发,大数据量时的接收效率 2. emqtt_benchmark测试多客户端收发主题,测试高吞吐量下 ...
open-source Julius speech-recognition engine
http://julius.osdn.jp/en_index.php?q=index-en.html Open-Source Large Vocabulary CSR Engine Julius ht ...
生产制造追溯系统-IQC来料检验
前言相信大家都知道,任何一家工厂都有自己的仓库,用来存储采购回来的物料,那么在供应商将我们采购的物料送到工厂之后,我们都需要一个检验动作,也就是今天要说的===>IQC来料检验,这个检验动作是 ...
wpf 模板选择器DataTemplateSelector及动态绑定使用教程
其实也说不上算是教程了,只是把自己学习的代码拿出来分享一下,同时方便以后遇到类似问题的时候翻一下.MSDN里如是说:通常,如果有多个 DataTemplate 可用于同一类型的对象,并且您希望根据每个 ...
android:PopupWindow的使用场景和注意事项
1.PopupWindow的特点借用Google官方的说法: "A popup window that can be used to display an arbitrary view. ...
superslider网站特效插件
网站上常用的“焦点图/幻灯片”“Tab标签切换”“图片滚动”“无缝滚动” 如何使用 1.引入jquery.js 引入superslider.js 2.编写HTML 以下是默认的HTMl结构,分别 ...
build a real-time analytics dashboard to visualize the number of orders getting shipped every minute to improve the performance of their logistics for an e-commerce portal
https://cloudxlab.com/blog/real-time-analytics-dashboard-with-apache-spark-kafka/
AndroidSlideTest.java
以下代码使用ApiDemos-debug.apk进行测试 package com.saucelabs.appium; import io.appium.java_client.AppiumDriver ...
java后台判断发布的图片是否存在
x现在已知一个固定格式的图片,判断图片是否存在例如,http://127.0.0.1/image/201709091300.jpg import java.net.URL;import java.ne ...
jmeter之java请求
通常情况下,推荐使用jmeter之java请求编写一beashell调用java代码(上篇)(推荐)编写Java 请求有以下优势脚本易维护易调试开发脚本周期短不过网上扩展java请求文章比较 ...

3.15-3.21 hive项目实战

3.15-3.21 hive项目实战的更多相关文章

随机推荐

热门专题