Hadoop.2.x_网站PV示例

一、网站基本指标(即针对于网站用户行为而产生的日志中进行统计分析)

1. PV:网页浏览量(Page View页面浏览次数,只要进入该网页就产生一条记录,不限IP,统计点每天(较多)/每周/每月/..)

2. UV:独立访客数(Unique Vistor,以Cookie为依据,同一天内一个用户多次访问,只记为一个)

3. VV:访客的访问次数(Visit View,以Session为依据,访客访问网站到关掉该网站所有页面即记为一次访问)

4. IP:独立IP数(即记录不同IP,同一IP访问多次算作一次)

5. 通常网站流量(traffic)是指网站的访问量,是用来描述访问一个网站的用户数量以及用户所浏览的网页数量等指标

   对于虚拟空间商来说流量是指:用户在访问网站过程中,产生的数据量大小

二、PV统计示例(统计各省的PV)

1. 分析数据中字段(provinceId)

2. 数据类型 <11,11,13>Map()--><11,list<1,1>><12,list<1>>-->reduce()---><11 /t 2><13 /t 1>

3. 条件过滤(或称之为数据清洗)

　　　　values.length < 30;

　　　　StringUtils.isBlank(url)

　　　　StringUtils.isBlank(proviceIdValue)

　　　　proviceId = Integer.valueOf(proviceIdValue);

　 注意:条件的前后放置一定程度上会影响MR程序的运行效率

　 这是一处优化,还可以使用combine,压缩提高效率

　 PS:Configuration configuration = new Configuration();

　    这行代码会先读取默认配置文件后从资源文件中获取自定义配置文件

4. 自定义计数器(用于记录被过滤掉那些数据)

　　//Counter LEGTH_LT_30_COUNTER

　　context.getCounter("WEBPVMAP_COUNTERS", "LEGTH_LT_30_COUNTER").increment(1L);

　　//Counter URL_ISBLANK

　　context.getCounter("WEBPVMAP_COUNTERS", "URL_ISBLANK").increment(1L);

　　//Counter PROVICEIDVALUE_ISBLANK

　　context.getCounter("WEBPVMAP_COUNTERS", "PROVICEIDVALUE_ISBLANK").increment(1L);

　　//Counter STRING_CASE_TO_INTEGER_EXCEPTION

　　context.getCounter("WEBPVMAP_COUNTERS", "STRING_CASE_TO_INTEGER_EXCEPTION").increment(1L);

　　运行MR输出:

　　　　WEBPVMAP_COUNTERS

　　　　PROVICEIDVALUE_ISBLANK=21742

　　　　STRING_CASE_TO_INTEGER_EXCEPTION=1

　　　　URL_ISBLANK=29092

三、具体代码实现
　　1. 放置好资源文件
　　(即:将自定义配置文件拷贝到MR程序的资源文件夹,当然使用javaAPI将属性set进configuration也行)

[liuwl@hadoop09-linux-01 hadoop-2.5.0]$ cp etc/hadoop/core-site.xml etc/hadoop/hdfs-site.xml etc/hadoop/log4j.properties /home/liuwl/local/workspace/bigdata-test/src/resouce

[liuwl@hadoop09-linux-01 hadoop-2.5.0]$

　　2. 具体代码

package com.eRrsr.bigdata_test;

import java.io.IOException;

import org.apache.commons.lang.StringUtils;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WebPVMapReduce {

　　//Mapper Class

　　private static class WebPVMapper extends Mapper<LongWritable, Text, IntWritable, IntWritable>{

　　　　

       private IntWritable mapOutKey = new IntWritable();

　　　　private final static IntWritable mapOutValue = new IntWritable(1);

　　　　@Override

　　　　public void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {

　  　　　

          String lineValue = value.toString();

　　　　　　//使用\t分隔

　　　　　　String [] values = lineValue.split("\t");

　　　　　　//过滤掉分隔长度小于30的记录

　　　　　　if(values.length < 30){

　　　　　　　　//计数器:参数1->计数器分组名称;参数2->计数器名称

　　　　　　　　context.getCounter("WEBPVMAP_COUNTERS", "LEGTH_LT_30_COUNTER").increment(1L);

　　　　　　　　return;

　　　　　　} 

　　　　　　//过滤掉分隔后的字段中url为空的记录

　　　　　　String url = values[1];

　　　　　　if(StringUtils.isBlank(url)){

　　　　　　　　context.getCounter("WEBPVMAP_COUNTERS", "URL_ISBLANK").increment(1L);

　　　　　　　　return;

　　　　　　}

　　　　　　//过滤掉省份id为空的记录

　　　　　　String proviceIdValue = values[23];

　　　　　　if(StringUtils.isBlank(proviceIdValue)){

　　　　　　　　context.getCounter("WEBPVMAP_COUNTERS", "PROVICEIDVALUE_ISBLANK").increment(1L);

　　　　　　　　return;

　　　　　　}

　　　　　　//过滤掉省份id转int异常的数据

　　　　　　Integer proviceId = Integer.MAX_VALUE;

　　　　　　try{

　　　　　　　　proviceId = Integer.valueOf(proviceIdValue);

　　　　　　}catch(Exception e){

　　　　　　　　context.getCounter("WEBPVMAP_COUNTERS", "STRING_CASE_TO_INTEGER_EXCEPTION").increment(1L);

　　　　　　　　return;

　　　　　　}

　　　　　　mapOutKey.set(proviceId);

　　　　　　context.write(mapOutKey, mapOutValue);

　　　　}

　　}

　　//Reduce Class

　　private static class WebPVReduce extends Reducer<IntWritable, IntWritable, IntWritable, IntWritable>{

　　　　private IntWritable reduceOutValue = new IntWritable();

　　　　@Override

　　　　public void reduce(IntWritable key, Iterable<IntWritable> values,Context context)throws IOException, InterruptedException {

　　　　

　　　　　　int sum = 0;

　　　　　　for(IntWritable value : values){

　　　　　　　　sum += value.get();

　　　　　　}

　　　　　　reduceOutValue.set(sum);

　　　　　　context.write(key, reduceOutValue);

　　　　}

　　}

　　//Driver Method

　　public int run(String[] args) throws Exception {

　　　　

　　　　//会先读取默认配置,后读取资源文件中自定义配置

　　　　Configuration configuration = new Configuration();

　　　　Job job = Job.getInstance(configuration, this.getClass().getSimpleName());

　　　　job.setJarByClass(this.getClass());

　　　　//input

　　　　Path inPath = new Path(args[0]);

　　　　FileInputFormat.addInputPath(job,inPath);

　　　　//output

　　　　Path outPath = new Path(args[1]);

　　　　FileOutputFormat.setOutputPath(job, outPath);

　　　　//mapper

　　　　job.setMapperClass(WebPVMapper.class);

　　　　job.setMapOutputKeyClass(IntWritable.class);

　　　　job.setMapOutputValueClass(IntWritable.class);

　　　　// ======================shuffle==========================

　　　　// 1.partitioner

　　　　// job.setPartitionerClass(cls);

　　　　// 2.sort

　　　　// job.setSortComparatorClass(cls);

　　　　// 3.combiner

　　　　// 在shullfe过程中预先执行类似reduce的累加操作,使得reduce从本地文件获取map()后的数据更快,效率也就更高

　　　　job.setCombinerClass(WebPVReduce.class);

　　　　// 5.group

　　　　// job.setGroupingComparatorClass(cls);

　　　　// ======================shuffle==========================

　　　　//Reduce

　　　　job.setReducerClass(WebPVReduce.class);

　　　　job.setOutputKeyClass(IntWritable.class);

　　　　job.setOutputValueClass(IntWritable.class);

　　　　//submit job

　　　　boolean isSuccess = job.waitForCompletion(true);

　　　　return isSuccess ? 0 : 1;

　　}

　　public static void main(String[] args) throws Exception {

　　

　　　　args = new String[]{

　　　　　　"hdfs://hadoop09-linux-01.ibeifeng.com:8020/user/liuwl/tmp/mapreduce/PV/input",

　　　　　　"hdfs://hadoop09-linux-01.ibeifeng.com:8020/user/liuwl/tmp/mapreduce/PV/output5"

　　　　};

　　　　//run job

　　　　int status = new WebPVMapReduce().run(args);

　　　　System.exit(status);

　　}

}

Hadoop.2.x_网站PV示例的更多相关文章

PHP文件操作,多行句子的读取,file()函数,file_get_contents()函数,file_put_contents()函数,is_file,统计网站pv (访问量),文件的复制 copy,文件重命名 rename,删除文件 unlink
php中添加utf-8: header("Content-type:text/html;charset='UTF-8'"); 文件操作步骤: 1.在同一目录下建立一个file.tx ...
Nodejs学习笔记（十五）--- Node.js + Koa2 构建网站简单示例
目录前言搭建项目及其它准备工作创建数据库创建Koa2项目安装项目其它需要包清除冗余文件并重新规划项目目录配置文件规划示例路由,并新建相关文件实现数据访问和业务逻辑相关方法编写mys ...
[转]Nodejs学习笔记（十五）--- Node.js + Koa2 构建网站简单示例
本文转自:https://www.cnblogs.com/zhongweiv/p/nodejs_koa2_webapp.html 目录前言搭建项目及其它准备工作创建数据库创建Koa2项目安装 ...
网站PV、UV以及查看方法
网站PV.UV以及查看方法一.名词解释 PV:PV 是Page Views的缩写,即页面浏览量,用户每一次对网站中的每个网页访问均被记录一次.注意,访客每刷新一次页面,pv就增加一次. UV:UV是 ...
Nodejs学习笔记（十五）—Node.js + Koa2 构建网站简单示例
前言前面一有写到一篇Node.js+Express构建网站简单示例:http://www.cnblogs.com/zhongweiv/p/nodejs_express_webapp.html 这篇还 ...
Hive实现网站PV分析
原文链接: https://www.toutiao.com/i6773241257528394248/ 之前我们做过<java mapreduce实现网站PV分析>,这次我们可以用hive ...
java mapreduce实现网站PV分析
原文链接: https://www.toutiao.com/i6765677128022229517/ PV 是Page Views的缩写,即页面浏览量,用户每一次对网站中的每个网页访问均被记录一次. ...
Hadoop:pig 安装及入门示例
pig是hadoop的一个子项目,用于简化MapReduce的开发工作,可以用更人性化的脚本方式分析数据. 一.安装 a) 下载从官网http://pig.apache.org下载最新版本(目前是0 ...
Hadoop.2.x_高级应用_二次排序及MapReduce端join
一.对于二次排序案例部分理解 1. 分析需求(首先对第一个字段排序,然后在对第二个字段排序) 杂乱的原始数据排序完成的数据 a,1 a,1 b,1 a,2 a,2 [排序] a,100 b,6 == ...

随机推荐

遍历进程活动链表（ActiveProcessLinks）、DKOM隐藏进程
1.EPROCESS结构体 EPROCESS块来表示.EPROCESS块中不仅包含了进程相关了很多信息,还有很多指向其他相关结构数据结构的指针.例如每一个进程里面都至少有一个ETHREAD块表示的线程 ...
智能车学习（一）—— 硬件准备
一.硬件环境准备 1.烧写器焊接 (1)原理图: (2)焊接成品图 2.电源模块: 3.屏幕+键盘 4.单片机二.软件环境准备 1.安装air6.7 2.安装JLINK驱动 3.安装软件包寄存在GI ...
【T_SQL】基础续+++
十五.T-SQL 编程 1.变量 (1)局部变量 A.局部变量必须以标记@作为前缀 ,如@age. B.局部变量的使用也是先 ...
Streaming data from Oracle using Oracle GoldenGate and Kafka Connect
This is a guest blog from Robin Moffatt. Robin Moffatt is Head of R&D (Europe) at Rittman Mead, ...
java的几种对象(PO,VO,DAO,BO,POJO)解释
java的几种对象(PO,VO,DAO,BO,POJO)解释一.PO:persistant object 持久对象,可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中 ...
hdu1160 LIS变形
题目链接:http://acm.split.hdu.edu.cn/showproblem.php?pid=1160 题意:两个子序列一个是升序,一个是降序,求最长的子序列是多长,并输出路径.(答案不 ...
POJ 2549 二分+HASH
题目链接:http://poj.org/problem?id=2002 题意:给定一个n个数字组成的序列,然后求出4个数使得a+b+c=d,求d的最大值.其中a,b,c,d要求是给定序列的数,并且不能 ...
react-router
基本的构建 import ReactRouter from 'react-router'; let {Route, Router, Link, IndexRoute} = ReactRouter.Ro ...
js:方法1. 数组
Array.every() array.every(f); array.every(f, o); f(array[i], i, array) [1,2,3].every(function(x) { r ...
Visual Studio工具栏中无法选择调试设备
Visual Studio工具栏中无法选择调试设备在Visual Studio工具栏中,默认显示已经识别的设备.用户可以从中选择对应的设备,进行调试和部署App.但是由于误操作,可能导致该选项丢失. ...

Hadoop.2.x_网站PV示例

Hadoop.2.x_网站PV示例的更多相关文章

随机推荐

热门专题