一场景分析

用户行为分析应用的场景很多，像线上网站访问统计，线下客流分析（比如图像人脸识别、wifi探针等），比较核心的指标有几个：

PV | UV | SD | SC

指标说明：

PV（Page View）：网站浏览量或者商场门店的访问量
UV（Unique Visitor）：独立访客数，即去重后的人数
SD（Session Duration）：单次会话停留时间
SC（Session Count）：会话次数

用户行为分析的原始数据通常是一系列时间离散数据，比如网站访问记录：用户在一个时间点访问了一个网页，然后又在下个时间点访问了下个网页；

这些原始数据可以抽象为：

User | Timestamp | Target

即用户在什么时间点访问了什么目标；

统计PV、UV比较简单，但是在时间离散数据的基础上，要计算SD、SC这两个指标，常用的方式是设置过期时间阈值，如果用户两次访问的时间间隔超过阈值，则认为是两次Session；然后在一次Session的所有数据中取时间最早和最晚的数据来统计本次Session Duration；

二统计示例

输入数据

(user1, 2018-12-01 01:00:00, t1)
(user1, 2018-12-01 01:01:30, t1)
(user1, 2018-12-01 01:06:00, t1)
(user1, 2018-12-01 01:20:00, t1)
(user1, 2018-12-01 01:24:00, t1)

可以统计出

PV=5，UV=1

过期时间阈值设置为5分钟，以上数据应该统计出来2次Session，分别是：

Session1： (2018-12-01 01:00:00 到 2018-12-01 01:06:00)，Duration：6分钟
Session2： (2018-12-01 01:20:00 到 2018-12-01 01:24:00)，Duration：4分钟

实际处理时还要数据乱序的问题，尤其是在实时计算中，你想好怎样做了吗？

容易想到的方式是先做group然后将所有的timestamp排序后一次遍历统计出SD和SC，不过这种方式占用内存比较大，性能略差，而且只能用在离线计算中。

三代码实现

下面给出scala实现，来见证scala的强大：

scala核心代码（一步foldLeft）

scala

  val expireInSecond = 300

  def mergeTimeArray(arr1 : ArrayBuffer[(Long, Long)], arr2 : ArrayBuffer[(Long, Long)]) : ArrayBuffer[(Long, Long)] = {

    if (arr1.head._1.equals(0l)) arr2

    else if (arr2.head._1.equals(0l)) arr1

    else (arr1 ++ arr2).sortBy(_._1).foldLeft(ArrayBuffer[(Long, Long)]())((result, item) => if (!result.isEmpty && result.last._2 + expireInSecond >= item._1) {result.update(result.length - 1, (result.last._1, math.max(result.last._2, item._2))); result} else result += item)

  }

spark核心代码（2步map 1步aggregateByKey）

scala

  /**

    * @param data (user, timestamp, target)

    * @return (user, target, session_count, session_duration)

    */

  def process(data : RDD[(String, Long, String)]) : RDD[(String, String, Integer, Double)] = {

    //((user, target), timestamp)

    data.map(item => ((item._1, item._3), item._2))

      //((user, target), Array[(startTime, endTime)])

      .aggregateByKey(ArrayBuffer((0l, 0l)))((result : ArrayBuffer[(Long, Long)], timestamp: Long) => mergeTimeArray(result, ArrayBuffer((timestamp, timestamp))), (result1 : ArrayBuffer[(Long, Long)], result2 : ArrayBuffer[(Long, Long)]) => mergeTimeArray(result1, result2))

      //(user, target, session_count, session_duration)

      .map(item => (item._1._1, item._1._2, item._2.length, item._2.foldLeft(0l)((result, item) => result + (item._2 - item._1)).toDouble / item._2.length))

  }

测试运行

  def main(args : Array[String]) : Unit = {

    val conf = new SparkConf().setAppName("UserAnalysis").setMaster("local[2]")

    val sc = new SparkContext(conf)

    val arr = Array(("user1", 1546054000l, "t1"), ("user1", 1546054090l, "t1"), ("user1", 1546054360l, "t1"), ("user1", 1546055200l, "t1"), ("user1", 1546055440l, "t1"))

    //(user, timestamp, target)

    val data : RDD[(String, Long, String)] = sc.parallelize(arr)

    this.process(data).foreach(println)

  }

输出

(user1,t1,2,300.0)

【原创】大叔案例分享（3）用户行为分析--见证scala的强大的更多相关文章

【原创】大叔案例分享（4）定位分析--见证scala的强大
一场景分析定位分析广泛应用,比如室外基站定位,室内蓝牙beacon定位,室内wifi探针定位等,实现方式是三点定位 Trilateration 理想情况这种理想情况要求3个基站‘同时’采集‘准确 ...
【原创】大叔案例分享（5）id打通
经常有一些需要做id打通的场景,比如用户id打通等, 问题抽象是每条数据都可以解析出一个或多个kv pair:(id_type,id),然后需要将某一个kv pair匹配的多条数据进行merge: 比 ...
老李案例分享：MAT分析应用程序服务出现内存溢出过程
老李案例分享:MAT分析应用程序服务出现内存溢出过程 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的loa ...
Office 2010 KMS激活原理和案例分享
Office 2010 KMS激活原理和案例分享为了减低部署盗版(可能包含恶意软件.病毒和其他安全风险)的可能性,Office 2010面向企业客户推出了新的批量激活方式:KMS和MAK.这 ...
Office 2010 KMS激活原理和案例分享 - Your Office Solution Here - Site Home - TechNet Blogs
[作者:葛伟华.张玉工程师 , Office/Project支持团队, 微软亚太区全球技术支持中心 ] 为了减低部署盗版(可能包含恶意软件.病毒和其他安全风险)的可能性,Office 2010面向企 ...
性能调优案例分享：jvm crash的原因 1
性能调优案例分享:jvm crash的原因 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨询qq: ...
mysql的"双1设置"-数据安全的关键参数（案例分享）
mysql的"双1验证"指的是innodb_flush_log_at_trx_commit和sync_binlog两个参数设置,这两个是是控制MySQL 磁盘写入策略以及数据安全性 ...
MySQL数据库详解之"双1设置"的数据安全的关键参数案例分享
mysql的"双1验证"指的是innodb_flush_log_at_trx_commit和sync_binlog两个参数设置,这两个是是控制MySQL 磁盘写入策略以及数据安全性 ...
【案例分享】使用ActiveReports报表工具，在.NET MVC模式下动态创建报表
提起报表,大家会觉得即熟悉又陌生,好像常常在工作中使用,又似乎无法准确描述报表.今天我们来一起了解一下什么是报表,报表的结构.构成元素,以及为什么需要报表. 什么是报表简单的说:报表就是通过表格.图 ...

随机推荐

在Winform开发框架中使用DevExpress的内置图标资源
在开发Winform程序界面的时候,我们往往会使用一些较好看的图表,以便能够为我们的程序界面增色,良好的图标设置可以让界面看起来更加美观舒服,而且也比较容易理解,图标我们可以通过一些网站获取各种场景的 ...
在 .NET Core 中结合 HttpClientFactory 使用 Polly（中篇）
译者:王亮作者:Polly 团队原文:http://t.cn/EhZ90oq声明:我翻译技术文章不是逐句翻译的,而是根据我自己的理解来表述的(包括标题).其中可能会去除一些不影响理解但本人实在不知道如 ...
asp.net core 中间件粗解
中间件中间件在asp.net core中非常重要,它用来处理httpcontext.而httpcontext封装了请求和响应.也就是说,中间件是用来处理请求和响应的. 本质上,中间件被封装到了IAp ...
fetch和axios获取数据
fetch("/api/goods") .then(res => { return res.json(); }) .then(response => { console ...
iOS发布证书申请
一. 准备工作1.1.准备打包服务器打包服务器搭建详见http://bbs.justep.com/thread-67724-1-1.html 或 http://www.cnblogs.com/Wo ...
【XSY2990】树组合数学容斥
题目描述同 Comb Avoiding Trees 不过只用求一项. \(n,k\leq {10}^7\) 题解不难发现一棵 \(n\) 个叶子的树唯一对应了一个长度为 \(2n-2\) 的括号序 ...
java extends和implements区别
一.作用说明 extends 是继承某个类, 继承之后可以使用父类的方法, 也可以重写父类的方法; implements 是实现多个接口, 接口的方法一般为空的, 必须重写才能使用二.补充 JAVA ...
docker-跨主机存储
容器分类从业务数据的角度看,容器可以分为两类:无状态(stateless)容器和有状态(stateful)容器. 无状态是指容器在运行过程中不需要保存数据,每次访问的结果不依赖上一次访问,比如提供静 ...
vue之——从彩笔的进步之路
因为这个文章开的有点晚,不可能说从头教学vue的使用,所以大概还是记录一下我的学习路线吧: 一开始是想学一个前端框架,最后选择了vue,一开始是看了表严肃的vue课程,b站有,讲的相当好,就算打个小广 ...
包管理工具之Pipenv
pipenv 都包含什么? pipenv 是 Pipfile 主要倡导者.requests 作者 Kenneth Reitz 写的一个命令行工具,主要包含了Pipfile.pip.click.requ ...

【原创】大叔案例分享（3）用户行为分析--见证scala的强大

一 场景分析

二 统计示例

三 代码实现