Spark- 流量日志分析

日志生成

package zx.Utils

import java.io.{File, FileWriter}

import java.util.Calendar

import org.apache.commons.lang.time.{DateUtils, FastDateFormat}

import scala.collection.mutable.ArrayBuffer

import scala.util.Random

/**

 * Created by 166 on 2017/9/6.

 */

case class FlowLog(time:String,ip:String,upFlow:Long,downFlow:Long) extends Serializable{

  override def toString: String = {

    s"$time\t$ip\t$upFlow\t$downFlow"

  }

}

object CreateLog {

  val ip_buffer: StringBuilder = new StringBuilder

  private val fs: FastDateFormat = FastDateFormat.getInstance("yyyy-MM-dd HH:mm:ss")

  var startTime:String="2015-1-12 12:12:12"

  val instance: Calendar = Calendar.getInstance

  val ipPool:ArrayBuffer[String]=getIp  //ipPool    取得20个ip

  //取得20个ip地址

  private [this] def getIp:ArrayBuffer[String]={

    val arrayBuffer: ArrayBuffer[String] = ArrayBuffer()

    ip_buffer.clear()

    for(i<- to ){

      ip_buffer.append(Random.nextInt()).append(".")

        .append(Random.nextInt()).append(".")

        .append(Random.nextInt()).append(".")

        .append(Random.nextInt())

      arrayBuffer+=ip_buffer.toString()

      ip_buffer.clear()

    }

    arrayBuffer

  }

  def getTime:String={

    instance.setTime(DateUtils.parseDate(startTime,Array("yyyy-MM-dd HH:mm:ss")))

    instance.add(Calendar.MINUTE,Random.nextInt())

    val newTime: String = fs.format(instance.getTime)

    startTime=newTime

    newTime

  }

  def getFlow:Long={

    Random.nextInt()

  }

  //从ip地址池中取出一个ip

  def getIP:String={

    ipPool(Random.nextInt(ipPool.size))

  }

  //把日志写入文件

  def write2file(fr:FileWriter,context:String)={

      fr.write(context)

    fr.write(System.lineSeparator())

    fr.flush()

    "SUCCESS"

  }

  def main(args: Array[String]) {

    val file: File = new File("C:\\Users\\166\\Desktop\\Data\\Log","click_flow.log")

    if(file.exists()){

      file.delete()

      val fw: FileWriter = new FileWriter(file)

      for(i<- to )println(write2file(fw,FlowLog(getTime,getIP,getFlow,getFlow).toString))

      fw.close()

    }else{

      val fw: FileWriter = new FileWriter(file)

      for(i<- to )println(write2file(fw,FlowLog(getTime,getIP,getFlow,getFlow).toString))

      fw.close()

    }

  }

}

算出每个用户的上行流量总和和下行流量的总和

package zx.sparkStream

import org.apache.log4j.{Level, Logger}

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

/**需求:算出每个用户的上行流量总和 和下行流量的总和

 * Created by rz on 2017/9/6.

 */

case class ResultTuple()

case class ClickFlow(remoteUser:String,tupleFlow:(Long,Long))

object SparkOffLine {

  def main(args: Array[String]) {

    Logger.getLogger("org.apache.spark").setLevel(Level.OFF)

    val sc: SparkContext = new SparkContext(new SparkConf().setAppName("SparkOffLine").setMaster("local[*]"))

    val rdd: RDD[String] = sc.textFile("C:\\Users\\166\\Desktop\\Data\\Log\\click_flow.log")

    val rdd1:RDD[(String,ClickFlow)]=rdd.map(data=>{

      val datas:Array[String]= data.split("\t")

      (datas(),ClickFlow(datas(),(datas().toLong,datas().toLong)))

    })

    val rdd2:RDD[(String,ClickFlow)]=rdd1.reduceByKey((x,y)=>{

      val x_upFlow: Long = x.tupleFlow._1

      val y_upFlow: Long = y.tupleFlow._1

      val x_dowmFlow: Long = x.tupleFlow._2

      val y_downFlow: Long = y.tupleFlow._2

      ClickFlow(x.remoteUser,(x_upFlow+y_upFlow,x_dowmFlow+y_downFlow))

    })

    println(rdd2.collect().toBuffer)

  }

}

Spark- 流量日志分析的更多相关文章

【Hadoop离线基础总结】流量日志分析网站整体架构模块开发
目录数据仓库设计维度建模概述维度建模的三种模式本项目中数据仓库的设计 ETL开发创建ODS层数据表导入ODS层数据生成ODS层明细宽表统计分析开发流量分析受访分析访客visit分 ...
024 关于spark中日志分析案例
1.四个需求需求一:求contentsize的平均值.最小值.最大值需求二:请各个不同返回值的出现的数据 ===> wordCount程序需求三:获取访问次数超过N次的IP地址需求四:获 ...
ELK大流量日志分析系统搭建
1.首先说下EKL到底是什么吧? ELK是Elasticsearch(相当于仓库).Logstash(相当于旷工,挖矿即采集数据).Kibana(将采集的数据展示出来)的简称,这三者是核心套件,但并非 ...
Spark离线日志分析，连接Spark出现报错
首先,我的代码是这样的 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object ...
【Hadoop离线基础总结】网站流量日志数据分析系统
目录点击流数据模型概述点击流模型网站流量分析网站流量模型分析网站流量来源网站流量多维度细分网站内容及导航分析网站转化及漏斗分析流量常见分析角度和指标分类指标概述指标分类分析角 ...
【慕课网实战】八、以慕课网日志分析为例进入大数据 Spark SQL 的世界
用户行为日志:用户每次访问网站时所有的行为数据(访问.浏览.搜索.点击...) 用户行为轨迹.流量日志日志数据内容: 1)访问的系统属性: 操作系统.浏览器等等 2)访问特征:点击的ur ...
苏宁基于Spark Streaming的实时日志分析系统实践 Spark Streaming 在数据平台日志解析功能的应用
https://mp.weixin.qq.com/s/KPTM02-ICt72_7ZdRZIHBA 苏宁基于Spark Streaming的实时日志分析系统实践原创: AI+落地实践 AI前线 20 ...
《UNIX/Linux网络日志分析与流量监控》新书发布
本书从UNIX/Linux系统的原始日志(Raw Log)采集与分析讲起,逐步深入到日志审计与计算机取证环节.书中提供了多个案例,每个案例都以一种生动的记事手法讲述了网络遭到入侵之后,管理人员开展系统 ...
《Unix/Linux网络日志分析与流量监控》获2015年度最受读者喜爱的IT图书奖
<Unix/Linux网络日志分析与流量监控>获2015年度最受读者喜爱的IT图书奖.刊登在<中华读书报>( 2015年01月28日 19 版) 我的2015年新作刊登在< ...
《Unix/Linux日志分析与流量监控》书稿完成
<Unix/Linux日志分析与流量监控>书稿完成近日,历时3年创作的75万字书稿已完成,本书紧紧围绕网络安全的主题,对各种Unix/Linux系统及网络服务日志进行了全面系统的讲解,从 ...

随机推荐

IPython introduction
转载:http://blog.csdn.net/gavin_john/article/details/53086766 1. IPython介绍 ipython是一个python的交互式shell,比 ...
dedecms单独调用指定文章
{dede:arclist idlist='指定ID' limit='0,1'} <a href="[field:arcurl/]">[field:title/]< ...
设计模式之前之UML
UML,让系统可视化,让规格和设计文档化的表现方法.下面来简单介绍一下这个UML.
ffmpeg保存原始数据PCM YUV
保存yuv ffmpeg -i video.mp4 -c:v rawvideo -pix_fmt yuv420p out.yuv 保存pcm ffmpeg -i input.flv -f s16le ...
java多线程实现复制大文件
有些开发的时候我们经常遇到这样一个问题,对大文件的处理.比如:日志文件.那么十几G的大文件.我们应该如何复制呢? 还有就是希望从本地和远程复制文件,文件都很大,10G级的如何办呢? 在这里我告诉你们, ...
Android-BroadcastReceiver具体解释
什么是Broadcast Broadcast即广播,在Android广播是很重要的功能.比如我们想在系统开机之后做某些事情.监控手机的电量.监控手机的网络状态等等.这些功能都须要用到广播.当然我们也能 ...
group_concat函数导致的主从同步异常
group_concat函数导致的主从同步异常的问题总结今天在处理一个group_concat函数导致的主从异常的问题,排查过程比较简单,不过第一次遇到这个问题记录一下排查的思路,后面如果再遇到其他 ...
【BZOJ3331】[BeiJing2013]压力 Tarjan求点双
[BZOJ3331][BeiJing2013]压力 Description 如今,路由器和交换机构建起了互联网的骨架.处在互联网的骨干位置的核心路由器典型的要处理100Gbit/s的网络流量.他们每天 ...
【BZOJ3661】Hungry Rabbit 贪心
[BZOJ3661]Hungry Rabbit Description 可怕的洪水在夏天不期而至,兔子王国遭遇了前所未有的饥荒,它们不得不去外面的森林里寻找食物.为了简化起见,我们假设兔子王国中有n只 ...
ACM暑假集训第三周小结
这一周学的图论,学了这么些两种存图的方法:邻接矩阵( map[n][n] ) , 邻接表( headlis[n] , vector<int> G[n] )存图的方法,各有各的好,我的理解 ...

Spark- 流量日志分析

算出每个用户的上行流量总和 和下行流量的总和

Spark- 流量日志分析的更多相关文章

随机推荐

热门专题

算出每个用户的上行流量总和和下行流量的总和