一:项目场景

1.需求分析

  根据用户行为数据进行程序的处理,得到结果保存到关系型数据库中
  需要收集用户(系统使用者)在不同客户端上产生的用户行为数据,最终保存到hdfs上
  需要明确收集字段的相关信息,而且需要考虑到后期的新需求的提出

  总:收集不同客户端的用户行为数据,通过mr、hive进行数据分析处理,将分析结果数据保存到关系型数据库中

2.场景一

  

二:核心关注点

1.核心关注点

  购买率
    购买的人数/总人数 购买的人数/查看该商品的总人数
  复购率
    n次购买的人数 / n-1次购买的人数(n>=2)
  订单数量、订单金额、订单的类型
  成功订单数量、成功订单金额、成功订单的类型
  退款订单数量、退款订单金额、退款订单的类型
  访客/会员数量
  访客转会员的比率
  SEM效果(广告推广效果)
  网站内容相关的一个分析(网站的跳出率、页面的跳出率)

三:重要概念

1.访客

  标示访问网站指定用户、一般称为自然人

  区分PC,手机:

  )PC:

    采用IP地址区分访客。由于NAT、代理等等,面临一个问题:一个IP地址对应多个访客, 但是实现简单

    采用客户端种植cookie的方式,当用户第一次访问系统的时候,在客户端的cookie中保存一个唯一uuid标识符,将过期时间设置为10年

  )手机   

    采用设备的固定识别码,比如:IMEI、MEID.....
      如果设备是比较差的,或者进行过刷机操作,这些识别码可能会出现误差,多个设备对应一个识别码
     类似于pc端的种植cookie的方式,在用户第一次访问系统的时候,在磁盘中写入一个唯一标识符

  指标:

  )新增访客:第一次访问系统的访客数量
  )活跃访客数量:统计的是给定时间段内访问过系统的访客数量(老访客+新访客)
  )总访客数量:迄今为止,访问过系统的访客总数量
  )流失访客数量:上一个时间段内访问过系统,但是当前时间段内没有访问系统的访客数量
  )回流访客数量:上一个时间段内没有访问过系统,但是当前时间段内访问过系统的访客数量

2.会员

  指业务系统中注册用户、直接使用业务系统中会员标识符id来表示
  标示当访问者登录我们的系统后,就成为一个会员,但是此时该访问者还是访客
  统计指标:
   )新增会员:第一次登录系统的会员数量
  )活跃会员数量:统计的是给定时间段内登录过系统的会员数量(老会员+新会员)
  )总会员数量: 迄今为止,新增会员数量的总和
  )回流会员
  )流失会员
  )访客转会员比率
  )新增访客转会员的比率

3.会话(案例在下面

  用户进入到系统到离开系统这一段时间被成为会话,这段时间的会话时间长度就叫做会话长度,一个会话中的所有操作都属于同一个会话

  区分会话

  )PC端:
    采用浏览器的session机制(SessionStorage、Cookie Session)
    在cookie中存储一个操作时间,在操作的时候,进行判断时间是否过期,如果过期,产生一个新的会话,如果没有过期,更新操作时间
  )移动端:
    采用移动端的session机制
    类似pc端种植cookie的方式,在磁盘中写入一个时间进行判断

  指标:

    会话长度
    会话数量
    跳出会话的数量:在一个会话中,只访问过一次网站的会话数量

4.跳出率

  指标:  

  会话跳出率:跳出会话/总会话数量
  页面跳出率
    从该页面离开后,进入到其他页面的会话数量占进入该页面会话数量的百分比
      -1. 离开系统的会话数量 / 进入该页面的会话数量
      -2. 进入详情页面的会话数量 / 进入该页面的会话数量

5.外链

  不同外链带来的会话数量/访客数量/订单数量

6.pv

7.uv

8.独立IP

9.DEPth view

  访问深度,访问了多少页面
  统计的是各个不同访问深度中的访客/会话数量
  DV展示的是一个网站内容整体上对用户的吸引程度,结合跳出率,能够更改的修改网站内容,增加网站的黏性,增加网站的友好性

四:维度

  操作系统维度: 操作系统名称、操作系统版本
  语言维度:
  外链维度:百度、360、google等等
  支付方式维度:alipay、weixin、银行卡支付....
  货币类型维度:
  商铺维度
  版本维度: 比如v1, v2等等,一般用于多个版本之间进行数据比较(AB测试)

  以及:

  

五:分析

  维度+核心点+重要概念

六:项目结构

1.整体

  )用户数据基本分析模块

  )浏览器分析模块

  )地域分析模块

  )外链分析模块

  )用户浏览深度分析模块

  )事件分析模块

  )订单分析模块

 

2.用户基本数据

  

3.浏览器分析

  

4.地域分析

  

5.用户深度分析

  

6.外链分析

  

7.订单分析

  

8.事件分析

  

 

  

  

Hadoop离线项目介绍(不包括程序)的更多相关文章

  1. 090实战 Hadoop离线项目介绍(不包括程序)

    一:项目场景 1.需求分析 根据用户行为数据进行程序的处理,得到结果保存到关系型数据库中 需要收集用户(系统使用者)在不同客户端上产生的用户行为数据,最终保存到hdfs上 需要明确收集字段的相关信息, ...

  2. 【Hadoop离线基础总结】impala简单介绍及安装部署

    目录 impala的简单介绍 概述 优点 缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安 ...

  3. 第1节 flume:4、离线项目处理的整个架构图;5、flume的基本介绍;

    第1节 flume:4.离线项目处理的整个架构图 辅助系统工具:flume,azkaban,sqoop. 在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心 ...

  4. 【Hadoop离线基础总结】Hue的简单介绍和安装部署

    目录 Hue的简单介绍 概述 核心功能 安装部署 下载Hue的压缩包并上传到linux解压 编译安装启动 启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...

  5. hadoop离线计算项目上线配置问题记录

    最近上线一个hadoop离线处理项目,因为在低配置(8G,4核)的时候装的CDH,后来集群配置(64G,16核)上来了,但许多参数不会自动修改,需要自己调整,处理过程中遇到的配置问题记录下. 1.hi ...

  6. 微信小程序项目总结-记账小程序(包括后端)

    一.小程序部分 这是理财系统的前端,江苏海洋大学微信小程序比赛,最后获得了一等奖 GitHub:https://github.com/GeorgeLeoo/finance 1. 项目描述 (1). 此 ...

  7. Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍

    网站日志分析项目案例(一)项目介绍:当前页面 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例 ...

  8. Hadoop日记Day1---Hadoop介绍

    一.Hadoop项目简介 1. Hadoop是什么 Hadoop是一个适合大数据的分布式存储与计算平台. 作者:Doug Cutting:Lucene,Nutch. 受Google三篇论文的启发 2. ...

  9. 大数据框架hadoop服务角色介绍

    翻了一下最近一段时间写的分享,DKHadoop发行版本下载.安装.运行环境部署等相关内容几乎都已经写了一遍了.虽然有的地方可能写的不是很详细,个人理解水平有限还请见谅吧!我记得在写DKHadoop运行 ...

随机推荐

  1. Codeforces 676C Vasya and String(尺取法)

    题目大概说给一个由a和b组成的字符串,最多能改变其中的k个字符,问通过改变能得到的最长连续且相同的字符串是多长. 用尺取法,改变成a和改变成b分别做一次:双指针i和j,j不停++,然后如果遇到需要改变 ...

  2. java-类

    浏览以下内容前,请点击并阅读 声明 java是面向对象的语言,而对象的创建,则需要借助类,类可以说是一个创建对象的模具(个人理解). 类的定义 以下构成定义类的最简单(不能再简单)语句: class ...

  3. 20145304 Java第七周学习报告

    20145304<Java程序设计>第七周学习总结 教材学习内容总结 1.时间的度量: 格林威治标准时间(GMT)通过观察太阳而得,其正午是太阳抵达天空最高点之时,因地球的公转与自传,会造 ...

  4. HDU - Travel

    Problem Description Jack likes to travel around the world, but he doesn’t like to wait. Now, he is t ...

  5. BZOJ 3211 题解

    3211: 花神游历各国 Time Limit: 5 Sec  Memory Limit: 128 MBSubmit: 2549  Solved: 946[Submit][Status][Discus ...

  6. 【bzoj2049】[Sdoi2008]Cave 洞穴勘测 link-cut-tree

    2016-05-30  11:04:51 学习了link-cut-tree 二中神犇封禹的讲义感觉讲的超级清晰易懂啊(没有的可以q窝 算是模板吧 #include<bits/stdc++.h&g ...

  7. nodeJS中exports和mopdule.exports的区别

    每一个node.js执行文件,都自动创建一个module对象,同时,module对象会创建一个叫exports的属性,初始化的值是 {} module.exports = {}; Node.js为了方 ...

  8. nfs的使用

    1.安装命令:sudo apt-get install nfs-kernel-server ;   sudo apt-get install nfs-common; 2.执行命令:mkdir /(目录 ...

  9. KeyValue与KeyData与KeyCode区别(转)

    KeyValue与KeyData与KeyCode区别(转) KeyPress事件 KeyPressEventArgs参数 Handled /是否处理过KeyPress事件 KeyChar //按下的键 ...

  10. css中margin-left与left的区别

    研究下拉菜单和弹出菜单时比较所得: 1.直接在css中设置left生效的前提是必须设置父容器position:absolute或relative,如果不设置则会显示为最近一个定位的父对象左边相关的位置 ...