Hadoop离线项目介绍(不包括程序)
一:项目场景
1.需求分析
根据用户行为数据进行程序的处理,得到结果保存到关系型数据库中
需要收集用户(系统使用者)在不同客户端上产生的用户行为数据,最终保存到hdfs上
需要明确收集字段的相关信息,而且需要考虑到后期的新需求的提出
总:收集不同客户端的用户行为数据,通过mr、hive进行数据分析处理,将分析结果数据保存到关系型数据库中
2.场景一

二:核心关注点
1.核心关注点
购买率
购买的人数/总人数 购买的人数/查看该商品的总人数
复购率
n次购买的人数 / n-1次购买的人数(n>=2)
订单数量、订单金额、订单的类型
成功订单数量、成功订单金额、成功订单的类型
退款订单数量、退款订单金额、退款订单的类型
访客/会员数量
访客转会员的比率
SEM效果(广告推广效果)
网站内容相关的一个分析(网站的跳出率、页面的跳出率)
三:重要概念
1.访客
标示访问网站指定用户、一般称为自然人
区分PC,手机:
)PC:
采用IP地址区分访客。由于NAT、代理等等,面临一个问题:一个IP地址对应多个访客, 但是实现简单
采用客户端种植cookie的方式,当用户第一次访问系统的时候,在客户端的cookie中保存一个唯一uuid标识符,将过期时间设置为10年
)手机
采用设备的固定识别码,比如:IMEI、MEID.....
如果设备是比较差的,或者进行过刷机操作,这些识别码可能会出现误差,多个设备对应一个识别码
类似于pc端的种植cookie的方式,在用户第一次访问系统的时候,在磁盘中写入一个唯一标识符
指标:
)新增访客:第一次访问系统的访客数量
)活跃访客数量:统计的是给定时间段内访问过系统的访客数量(老访客+新访客)
)总访客数量:迄今为止,访问过系统的访客总数量
)流失访客数量:上一个时间段内访问过系统,但是当前时间段内没有访问系统的访客数量
)回流访客数量:上一个时间段内没有访问过系统,但是当前时间段内访问过系统的访客数量
2.会员
指业务系统中注册用户、直接使用业务系统中会员标识符id来表示
标示当访问者登录我们的系统后,就成为一个会员,但是此时该访问者还是访客
统计指标:
)新增会员:第一次登录系统的会员数量
)活跃会员数量:统计的是给定时间段内登录过系统的会员数量(老会员+新会员)
)总会员数量: 迄今为止,新增会员数量的总和
)回流会员
)流失会员
)访客转会员比率
)新增访客转会员的比率
3.会话(案例在下面)
用户进入到系统到离开系统这一段时间被成为会话,这段时间的会话时间长度就叫做会话长度,一个会话中的所有操作都属于同一个会话
区分会话
)PC端:
采用浏览器的session机制(SessionStorage、Cookie Session)
在cookie中存储一个操作时间,在操作的时候,进行判断时间是否过期,如果过期,产生一个新的会话,如果没有过期,更新操作时间
)移动端:
采用移动端的session机制
类似pc端种植cookie的方式,在磁盘中写入一个时间进行判断
指标:
会话长度
会话数量
跳出会话的数量:在一个会话中,只访问过一次网站的会话数量
4.跳出率
指标:
会话跳出率:跳出会话/总会话数量
页面跳出率
从该页面离开后,进入到其他页面的会话数量占进入该页面会话数量的百分比
-1. 离开系统的会话数量 / 进入该页面的会话数量
-2. 进入详情页面的会话数量 / 进入该页面的会话数量
5.外链
不同外链带来的会话数量/访客数量/订单数量
6.pv
7.uv
8.独立IP
9.DEPth view
访问深度,访问了多少页面
统计的是各个不同访问深度中的访客/会话数量
DV展示的是一个网站内容整体上对用户的吸引程度,结合跳出率,能够更改的修改网站内容,增加网站的黏性,增加网站的友好性
四:维度
操作系统维度: 操作系统名称、操作系统版本
语言维度:
外链维度:百度、360、google等等
支付方式维度:alipay、weixin、银行卡支付....
货币类型维度:
商铺维度
版本维度: 比如v1, v2等等,一般用于多个版本之间进行数据比较(AB测试)
以及:

五:分析
维度+核心点+重要概念
六:项目结构
1.整体
)用户数据基本分析模块
)浏览器分析模块
)地域分析模块
)外链分析模块
)用户浏览深度分析模块
)事件分析模块
)订单分析模块

2.用户基本数据

3.浏览器分析

4.地域分析

5.用户深度分析

6.外链分析

7.订单分析

8.事件分析

Hadoop离线项目介绍(不包括程序)的更多相关文章
- 090实战 Hadoop离线项目介绍(不包括程序)
一:项目场景 1.需求分析 根据用户行为数据进行程序的处理,得到结果保存到关系型数据库中 需要收集用户(系统使用者)在不同客户端上产生的用户行为数据,最终保存到hdfs上 需要明确收集字段的相关信息, ...
- 【Hadoop离线基础总结】impala简单介绍及安装部署
目录 impala的简单介绍 概述 优点 缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安 ...
- 第1节 flume:4、离线项目处理的整个架构图;5、flume的基本介绍;
第1节 flume:4.离线项目处理的整个架构图 辅助系统工具:flume,azkaban,sqoop. 在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心 ...
- 【Hadoop离线基础总结】Hue的简单介绍和安装部署
目录 Hue的简单介绍 概述 核心功能 安装部署 下载Hue的压缩包并上传到linux解压 编译安装启动 启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...
- hadoop离线计算项目上线配置问题记录
最近上线一个hadoop离线处理项目,因为在低配置(8G,4核)的时候装的CDH,后来集群配置(64G,16核)上来了,但许多参数不会自动修改,需要自己调整,处理过程中遇到的配置问题记录下. 1.hi ...
- 微信小程序项目总结-记账小程序(包括后端)
一.小程序部分 这是理财系统的前端,江苏海洋大学微信小程序比赛,最后获得了一等奖 GitHub:https://github.com/GeorgeLeoo/finance 1. 项目描述 (1). 此 ...
- Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍
网站日志分析项目案例(一)项目介绍:当前页面 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例 ...
- Hadoop日记Day1---Hadoop介绍
一.Hadoop项目简介 1. Hadoop是什么 Hadoop是一个适合大数据的分布式存储与计算平台. 作者:Doug Cutting:Lucene,Nutch. 受Google三篇论文的启发 2. ...
- 大数据框架hadoop服务角色介绍
翻了一下最近一段时间写的分享,DKHadoop发行版本下载.安装.运行环境部署等相关内容几乎都已经写了一遍了.虽然有的地方可能写的不是很详细,个人理解水平有限还请见谅吧!我记得在写DKHadoop运行 ...
随机推荐
- 配置FastDFS
一.安装 (一)下载FastDFS安装包 FastDFS官方论坛:http://www.csource.org 下载1:http://sourceforge.net/projects/fastdfs/ ...
- 通过Spring Mail Api发送邮件
使用Java Mail API来发送邮件也很容易实现,但是最近公司一个同事封装的邮件API实在让我无法接受,于是便打算改用Spring Mail API来发送邮件,顺便记录下这篇文章. [Spring ...
- ACM 众数问题
众数问题 时间限制:3000 ms | 内存限制:65535 KB 难度:3 描述 所谓众数,就是对于给定的含有N个元素的多重集合,每个元素在S中出现次数最多的成为该元素的重数, 多重集合S重 ...
- ACM: FZU 2148 Moon Game - 海伦公式
FZU 2148 Moon Game Time Limit:1000MS Memory Limit:32768KB 64bit IO Format:%I64d & %I64 ...
- 【ZOJ】3640 Help Me Escape
http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemId=4808 题意:一个吸血鬼初始攻击力为f.n条路,他每次等概率选择一条路.如果攻击 ...
- 让 cell 显示底部线条时,总是有几个线条被隐藏.
一,经历 1> 感觉像是重用的问题,但从代码的分析中找不出任何问题. 2> 感觉像是我 在创建怎样的 cell 的代码 被 layoutsubviews 方法覆盖了一样.于是先在创建怎样的 ...
- Java_关于App class loader的总结
Java本身是一种设计的非常简单,非常精巧的语言,所以Java背后的原理也很简单,归结起来就是两点: 1.JVM的内存管理 理解了这一点,所有和对象相关的问题统统都能解决 2.JVM Class Lo ...
- continue 语句
停止循环的当前迭代,并开始新的迭代. continue [label]; 可选的 label 参数指定 continue 应用于哪条语句. 说明 只能在 while.do...while.for.或 ...
- 常用JQ特效代码
/** * hhBase 平台js * User: huanhuan * QQ: 651471385 * Email: th.wanghuan@gmail.com * 微博: huanhuan的天使 ...
- CSS Hack汇总快查(CSS兼容代码演示)
文章出处和来源网址:http://www.divcss5.com/css-hack/c284.shtml 以下是常用CSS HACK问题及解决代码-DIV+CSS网支持 1.屏蔽IE浏览器(也就是IE ...