【Spark】通过Spark实现点击流日志分析

文章目录

数据大致内容及格式
统计PV(PageViews)
统计UV(Unique Visitor)
求取TopN

数据大致内容及格式

194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible;)"

183.49.46.228 - - [18/Sep/2013:06:49:23 +0000] "-" 400 0 "-" "-"

163.177.71.12 - - [18/Sep/2013:06:49:33 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"

163.177.71.12 - - [18/Sep/2013:06:49:36 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"

101.226.68.137 - - [18/Sep/2013:06:49:42 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"

101.226.68.137 - - [18/Sep/2013:06:49:45 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSPod-Monitor/1.0"

60.208.6.156 - - [18/Sep/2013:06:49:48 +0000] "GET /wp-content/uploads/2013/07/rcassandra.png HTTP/1.0" 200 185524 "http://cos.name/category/software/packages/" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36"

222.68.172.190 - - [18/Sep/2013:06:49:57 +0000] "GET /images/my.jpg HTTP/1.1" 200 19939 "http://www.angularjs.cn/A00n" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36"

……

……

统计PV(PageViews)

就是统计日志文件中有多少条数据

关于点击流日志的各种指标可以查看【Hadoop离线基础总结】网站流量日志数据分析系统

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object PvCount {

  def main(args: Array[String]): Unit = {

    //获取SparkConf

    val sparkConf = new SparkConf().setMaster("local[2]").setAppName("PV-Count").set("spark.driver.host", "localhost")

    //创建SparkContext

    val sparkContext = new SparkContext(sparkConf)

    //读取文件

    val fileRDD: RDD[String] = sparkContext.textFile("/Users/zhaozhuang/Desktop/4、Spark/Spark第二天/第二天教案/资料/运营商日志/access.log")

    //统计数量

    val count = fileRDD.count()

    println("一共有"+count+"行数据")

    sparkContext.stop()

  }

}

经统计后得出，数据有 14619条，也就是说PV量为14619

统计UV(Unique Visitor)

实际工作中，一般推荐用cookie而不是IP地址来对UV进行统计，但这里数据只有IP地址，所以目前就按IP算

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object UvCount {

  def main(args: Array[String]): Unit = {

    //获取SparkConf

    val sparkConf = new SparkConf().setAppName("UV-Count").setMaster("local[2]").set("spark.driver.host","localhost")

    //创建SparkContext

    val sparkContext = new SparkContext(sparkConf)

    //筛选日志

    sparkContext.setLogLevel("WARN")

    //读取文件

    val fileRDD: RDD[String] = sparkContext.textFile("/Users/zhaozhuang/Desktop/4、Spark/Spark第二天/第二天教案/资料/运营商日志/access.log")

    //从所有数据中剔除掉不需要的数据，只拿到IP地址

    val getIpRDD: RDD[String] = fileRDD.map(_.split(" ")(0))

    //对IP地址进行去重，去重后数据减少，就可以将分区缩减为1个

    val distinctedRDD: RDD[String] = getIpRDD.distinct(1)

    //对去重后的数据进行计数统计

    val count: Long = distinctedRDD.count()

    println(count)

    sparkContext.stop()

  }

}

统计得出UV量为1050

求取TopN

有两种方法可以用，take()和top() 都可以

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object GetTopN {

  def main(args: Array[String]): Unit = {

    //获取SparkConf

    val sparkConf = new SparkConf().setMaster("local[2]").set("spark.driver.host", "localhost").setAppName("getTopN")

    //获取SparkContext

    val sparkContext: SparkContext = new SparkContext(sparkConf)

    //读取文件

    val fileRDD: RDD[String] = sparkContext.textFile("/Users/zhaozhuang/Desktop/4、Spark/Spark第二天/第二天教案/资料/运营商日志/access.log")

    //筛选日志

    sparkContext.setLogLevel("WARN")

    //194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible;)"

    //以上是数据格式，首先对数据进行切割

    val valueRDD: RDD[Array[String]] = fileRDD.map(x => x.split(" "))

    /*

    数据切割后的形式

    194.237.142.21

    -

    -

    [18/Sep/2013:06:49:18

     +0000]

     "GET

     /wp-content/uploads/2013/07/rstudio-git3.png

     HTTP/1.1"

     304

     0

     "-"

     "Mozilla/4.0

     (compatible;)"

     */

    //日志数据中，下标为10的数据为我们要求取的数据（http_refer），所以切割后数组中少于10条的为无效数据

    //先将无效数据过滤掉

    val filterRDD: RDD[Array[String]] = valueRDD.filter(arr => arr.length > 10)

    //获取每一个http_refer的url，并计作一次

    val urlAndOne: RDD[(String, Int)] = filterRDD.map(x => (x(10), 1))

    //将url相同的次数相加

    val reduceRDD: RDD[(String, Int)] = urlAndOne.reduceByKey(_ + _)

    //将拿到的url+次数进行排序,false为降序，不填或true为升序

    val sortRDD: RDD[(String, Int)] = reduceRDD.sortBy(x => x._2, false)

    //求取TopN，两种方法take(N)或者top(N)

    val topRDD: Array[(String, Int)] = sortRDD.take(10)

    println(topRDD.toBuffer)

    sparkContext.stop()

  }

}

拿到控制台结果为：

ArrayBuffer(("-",5205), (“http://blog.fens.me/category/hadoop-action/”,547), (“http://blog.fens.me/”,377), (“http://blog.fens.me/wp-admin/post.php?post=2445&action=edit&message=10”,360), (“http://blog.fens.me/r-json-rjson/”,274), (“http://blog.fens.me/angularjs-webstorm-ide/”,271), (“http://blog.fens.me/wp-content/themes/silesia/style.css”,228), (“http://blog.fens.me/nodejs-express3/”,198), (“http://blog.fens.me/hadoop-mahout-roadmap/”,182), (“http://blog.fens.me/vps-ip-dns/”,176))

【Spark】通过Spark实现点击流日志分析的更多相关文章

大数据学习——点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（Hadoop HDFS）上
点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上 1需求说明点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上 2需求分 ...
基于Kafka+Spark Streaming+HBase实时点击流案例
背景 Kafka实时记录从数据采集工具Flume或业务系统实时接口收集数据,并作为消息缓冲组件为上游实时计算框架提供可靠数据支撑,Spark 1.3版本后支持两种整合Kafka机制(Receiver- ...
苏宁基于Spark Streaming的实时日志分析系统实践 Spark Streaming 在数据平台日志解析功能的应用
https://mp.weixin.qq.com/s/KPTM02-ICt72_7ZdRZIHBA 苏宁基于Spark Streaming的实时日志分析系统实践原创: AI+落地实践 AI前线 20 ...
Spark 实践——基于 Spark Streaming 的实时日志分析系统
本文基于<Spark 最佳实践>第6章 Spark 流式计算. 我们知道网站用户访问流量是不间断的,基于网站的访问日志,即 Web log 分析是典型的流式实时计算应用场景.比如百度统计, ...
.Spark Streaming（上）--实时流计算Spark Streaming原理介
Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍 http://www.cnblogs.com/shishanyuan/p/474 ...
spark提交异常日志分析
java.lang.NoSuchMethodError: org.apache.spark.sql.SQLContext.sql(Ljava/lang/String;)Lorg/apache/spar ...
Spark Streaming揭秘 Day31 集群模式下SparkStreaming日志分析（续）
Spark Streaming揭秘 Day31 集群模式下SparkStreaming日志分析(续) 今天延续昨天的内容,主要对为什么一个处理会分解成多个Job执行进行解析. 让我们跟踪下Job调用过 ...
Spark Streaming揭秘 Day30 集群模式下SparkStreaming日志分析
Spark Streaming揭秘 Day30 集群模式下SparkStreaming日志分析今天通过集群运行模式观察.研究和透彻的刨析SparkStreaming的日志和web监控台. Day28 ...
024 关于spark中日志分析案例
1.四个需求需求一:求contentsize的平均值.最小值.最大值需求二:请各个不同返回值的出现的数据 ===> wordCount程序需求三:获取访问次数超过N次的IP地址需求四:获 ...

随机推荐

Nikto使用方法
Introduction Nikto是一款开源的(GPL)网站服务器扫描器,使用Perl基于LibWhisker开发.它可以对网站服务器进行全面的多种扫描,包括6400多个潜在危险的文件/CGI,检查 ...
MVC5+EasyUI+EF6增删改查的演示
一.创建MVC项目二.引入EasyUI 1.进入easyui官网下载源码 2. 将上述源码中需要的jquery 有选择的加到项目中来添加Content文件夹,放入easyui代码三.添加EF, ...
[转载]深度理解Session
什么是session session的官方定义是:Session:在计算机中,尤其是在网络应用中,称为“会话控制”.Session 对象存储特定用户会话所需的属性及配置信息. 说白了session就是 ...
python之pymysql库连接mysql实现增、删、改、查
安装第三方库pymysql 命令行cmd下通过pip install pymysql进行安装,安装完成后自行pip list可查看对应的版本信息建立连接 1 #导入pymysql库 2 import ...
C# WCF之用接口创建服务契约、部署及客户端连接
服务契约描述了暴露给外部的类型(接口或类).服务所支持的操作.使用的消息交换模式和消息的格式.每个WCF服务必须实现至少一个服务契约.使用服务契约必须要引用命名空间System.ServiceMode ...
MySQL为某字段加前缀、后缀
在开发过程中,可能会遇到加前缀或者后缀的情况.比如为视频添加路径时,如果手动加起来肯定慢,而且比较不符合程序员的特点,我们就应该能让程序跑就不会手动加. 使用UPDATE sql 语句:update ...
安卓微信浏览器中window.location.href失效的问题
最近接手一微信项目,测试功能时,发现跳转在android手机上不动了.iso系统可以正常跳转的.解决方法: window.location.href = url + '?v=' + (new Date ...
opencv-1-QT_OPENCV 安装
opencv-1-QT_OPENCV 安装 qtopencvc++ 既然我们是从头开始的, 那我们就从 opencv 的安装开始吧, 主要环境为: win10 1909 - 18363.720 版本 ...
徐州H
#include<bits/stdc++.h> using namespace std; #define rep(i,a,b) for(int i=a;i<=b;++i) #defi ...
java 之 jsp详解
jsp所需环境 eclipse JSP/Servlet 环境 jsp处理以下步骤表明了 Web 服务器是如何使用JSP来创建网页的: 就像其他普通的网页一样,您的浏览器发送一个 HTTP 请求给服务 ...