yhd日志分析(二)

继续yhd日志分析，统计数据

日期	uv	pv	登录人数	游客人数	平均访问时长	二跳率	独立ip数

1 分析

登录人数

count(distinct endUserId)

游客人数

count(distinct guid) - count(distinct endUserId)

平均访问时长

先把tracktime转换为unix timestamp, 相同sessionId的tracktime中，max(tracktime)-min(tracktime)，得到用户停留时间。所有用户的停留时间相加，得到总停留时间。总停留时间和总访问次数的比例，就是平均访问时长

select sum(stay_time) as total_stay_time

from (select max(to_unix_timestamp(trackTime)) - min(to_unix_timestamp(trackTime)) as stay_time from yhd_log group by sessionId) stay

用户访问总数

count(distinct sessionId)

二跳率

sessionViewNo=2的用户，即为二跳用户。统计出二跳用户和uv的比例

select count(distinct guid) from yhd_log where sessionViewNo=2

独立ip数

count(distinct ip)

实现

借助中间表，分别存放停留时间和二次跳用户总数

 // 存放总停留时间

 create table if not exists yhd_log_total_stay_time(

 	date string,

 	total_stay_time bigint

 )

 row format delimited fields terminated by '\t'

 stored as textfile;

 // 存放二次跳用户总数

 create table if not exists yhd_log_total_second_jump(

 	date string,

 	total_second_jump bigint

 )

 row format delimited fields terminated by '\t'

 stored as textfile;

计算总停留时间，存放在yhd_log_total_stay_time, 按日期分组

 insert overwrite table yhd_log_total_stay_time

 select date, sum(stay_time) as total_stay_time

 from (select max(to_unix_timestamp(trackTime)) - min(to_unix_timestamp(trackTime)) as stay_time, date from yhd_log group by date, sessionId) stay

 group by date

计算二次跳用户总数，存放在yhd_log_total_second_jump，按日期分组

 insert overwrite table yhd_log_total_second_jump

 select date, count(distinct guid)

 from yhd_log

 where sessionViewNo=2

 group by date

统计

 把yhd_log_total_stay_time，yhd_log_total_second_jump和yhd_log按照 date连接查询

 select date, pv, uv, user_count, guest_count,

 	total_stay_time/total_visit as average_stay_time,

 	total_second_jump/ uv as second_jump_rate, indepent_ip

 from (

 select log.date,

 	count(url) as pv,

 	count(distinct guid) as uv,

 	count(distinct endUserId) as user_count,

 	count(distinct guid) - count(distinct endUserId) as guest_count,

 	count(distinct sessionId) as total_visit,

 	min(stay.total_stay_time) as total_stay_time,

 	min(second.total_second_jump) as total_second_jump,

 	count(distinct ip) as indepent_ip

 from yhd_log log inner join yhd_log_total_stay_time stay on stay.date=log.date inner join yhd_log_total_second_jump second on second.date=log.date

 group by log.date

 ) stat

结果

date	pv	uv	user_count	guest_count	average_stay_time	second_jump_rate	indepent_ip
20150828	126134	39007	17687	21320	745.9797393244751	0.13118158279283207	30462

yhd日志分析(二)的更多相关文章

yhd日志分析(一)
yhd日志分析(一) 依据yhd日志文件统计分析每日各时段的pv和uv 建hive表, 表列分隔符和文件保持一致 load数据到hive表写hive sql统计pv和uv, 结果保存到hive表2 ...
日志分析(二) logstash patterns
grok-patterns内置了很多基础变量的正则表达式的log解析规则,其中包括apache的log解析(同样可以用于nginx的log解析). 基于nginx日志分析配置: 1.配置nginx ...
Apache 日志分析(二)
01.查看IP cat access_log | awk ‘{print $1}’ 02.对IP排序 cat access_log | awk ‘{print $1}’ | sort 03.打 ...
ELK 日志分析实例
ELK 日志分析实例一.ELK-web日志分析二.ELK-MySQL 慢查询日志分析三.ELK-SSH登陆日志分析四.ELK-vsftpd 日志分析一.ELK-web日志分析通过logstash ...
Hadoop学习笔记—20.网站日志分析项目案例（二）数据清洗
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:当前页面网站日志分析项目案例 ...
Linux服务器access_log日志分析及配置详解（二）
默认nginx / Linux日志在哪个文件夹? 一般在 xxx.xxx.xxxx.com/home/admin 路径下面的error.log文件和access.log文件error_log logs ...
MySQL慢查询（二） - pt-query-digest详解慢查询日志 pt-query-digest 慢日志分析
随笔 - 66 文章 - 0 评论 - 19 MySQL慢查询(二) - pt-query-digest详解慢查询日志一.简介 pt-query-digest是用于分析mysql慢查询的一个工具,它 ...
centos7搭建ELK Cluster集群日志分析平台（二）：Logstash
续 centos7搭建ELK Cluster集群日志分析平台(一) 已经安装完Elasticsearch 5.4 集群. 安装Logstash步骤 . 安装Java 8 官方说明:需要安装Java ...
ELK搭建实时日志分析平台之二Logstash和Kibana搭建
本文书接前回<ELK搭建实时日志分析平台之一ElasticSearch> 文:铁乐与猫四.安装Logstash logstash是一个数据分析软件,主要目的是分析log日志. 1)下载和 ...

随机推荐

ee
<!DOCTYPE html><html><head><meta charset="UTF-8"><title>Inse ...
Reactor模式与观察者模式
多线程编程常见模式观察者模式: 单一的观察点,事件单一反应器模式: 多个观察点,事件不单一(NIO里面的Selector选择器,基于Channel的事件进行多路的IO复用机制) 图-网上都是这张, ...
C/c++笔试经典程序（一）
1.输出结果比较 1) 输出结果:21 2) 输出结果:12.虽然循环只进行了一次,但是对!X++来说,X还是进行了自加运算. 2.指针运算输出结果8,8.程序运行时,printf语句是从右往左进行 ...
将Excel中数据导入数据库（一）
在工作中经常要将Excel中数据导入数据库,这里介绍一种方法. 假如Excel中的数据如下: 数据库建表如下: 其中Id为自增字段: Excel中数据导入数据库帮助类如下: using System; ...
【考试】简单的sql语句
)显示正好为5个字符的员工的姓名 HR@ORA11GR2>select last_name,first_name from employees ; )显示不带有"R"的员工的 ...
c++描述将一个2进制数转化成10进制数（用到初始化栈，进栈，入栈）
/* c++描述将2进制数转化成10进制数问题,1.初始化栈后,用new,不知道delete是否要再写一个函数释放内存, 还是在哪里可以加上delete 2.如果栈满了,我要分配多点空间,我想的办法 ...
java.lang.IllegalArgumentException
org.mybatis.spring.MyBatisSystemException: nested exception is org.apache.ibatis.exceptions.Persiste ...
android View 继承关系
二. View SurfaceView GLSurfaceView View SurfaceView GLSurfaceView 功能显示视图,内置画布,提供图形绘制函数.触屏事件.按键事件 ...
JavaBean和内省
JavaBean和内省 JavaBean是一个遵循特定的写法的java类 1. 必须有一个无参的构造方法 2.属性私有化 3.私有你给的属性必须通过public类型的方法暴露给 ...
pb中创建连接webservice对象实例方法
try soapConnection conn // Define SoapConnectionHospitalServiceSoap in_hhzswebser // Declare proxyin ...

yhd日志分析(二)

yhd日志分析(二)

1 分析

登录人数

游客人数

平均访问时长

用户访问总数

二跳率

独立ip数

实现

yhd日志分析(二)的更多相关文章

随机推荐

热门专题