周旭龙前辈的Hadoop学习笔记—网站日志分析项目案例简明、经典,业已成为高校大数据相关专业的实验项目。上周博主也完成了这个实验,不同于周前辈使用特殊符号切割字符串得到数据的做法,博主使用了正则表达式来匹配数据。在此将我的思路及代码张贴出来,以供后来者学习借鉴。

一、数据情况分析

1.1、数据格式概览

本次实验数据来自于国内某论坛,数据以行为单位,每行记录由5部分组成,访问者IP、访问时间、访问资源、访问状态、访问流量。

1.2、所需的数据

按照实验教程,我们只需要IP、时间、uri即可,不过本着既能完成实验,又能锻炼锻炼的想法,我把发个文状态以及访问流量也提取了出来。

1.3、上传数据至HDFS

本次试验到手的数据大小为60MB,约60万行。数据量较小,因此直接使用shell命令上传至HDFS。

注:欲知更详细的项目背景,请点击Hadoop学习笔记—网站日志分析项目案例(一)项目介绍__周旭龙_博客园

二、数据清洗准备

2.1、日志解析类

将解析日志信息的功能抽象成为一个日志解析类,分别解析各字段信息。

2.1.1 各字段的正则表达式

IP位于行的开头,因此定位到行起始位置,向右读取字符,直到遇到空格。又因为一个有效的IP最少为四个数字+三个符号,7位;最大为3*4+3,15位。所以行起始处7~15位为IP。表达式为:'^\S{7,15}'

            时间位于一个方括号内,直接提取方括号内的数据即可:'\[.*?\]'

URI及其相关数据与时间数据位置类似,都在成对符号之内,因此可用相同的解法将其提取出来,再做下一步分析:'\".*?\"'

状态码只有三位数,且两边都是空格,可以吧两边的空格也提出来,再去掉:' \d{3} '

            流量在行尾,也都是数字:'\d{1,6}$'

2.1.2 函数

除了一个parse函数以及五个分别处理字段的函数外,正则表达式匹配也抽象成了一个函数。需要注意的是匹配是否为空,以及匹配uri并将其分割为数组后下标取值是否越界。

  1. public class parseLine {  
  2.         
  3.     public String[] parse(String line)  
  4.     {  
  5.         String ip = parseIP(line);  
  6.         String time = parseTime(line);  
  7.         String url = parseURL(line);  
  8.         String status = parseStatus(line);  
  9.         String traffic = parseTraffic(line);  
  10.             
  11.         return new String[] {ip,time,url,status,traffic};  
  12.     }  
  13.         
  14.     private String parseReg(String reg,String str)  
  15.     {  
  16.         Pattern pat = Pattern.compile(reg);  
  17.         Matcher matcher = pat.matcher(str);  
  18.         boolean rs = matcher.find();  
  19.         if(rs)  
  20.             return matcher.group(0);  
  21.         else  
  22.             return "null";  
  23.     }  
  24.     
  25.     private String[] splitUrl(String str)  
  26.     {  
  27.         String []urlInfo = str.substring(1, str.length()-1).split(" ");  
  28.         return urlInfo;  
  29.     }  
  30.         
  31.     private String parseTraffic(String line) {  
  32.         String reg_ip = "\\d{1,6}$";  
  33.         return parseReg(reg_ip,line);  
  34.     }  
  35.     
  36.     private String parseStatus(String line) {  
  37.         String reg_ip = " \\d{3} ";  
  38.         return parseReg(reg_ip,line).trim();  
  39.     }  
  40.     
  41.     private String parseURL(String line) {  
  42.         String reg_ip = "\".*?\"";  
  43.         String str = parseReg(reg_ip,line);  
  44.         String[] urlInfo = splitUrl(str);  
  45.             
  46.         return urlInfo[1];  
  47.     }  
  48.     
  49.     private String parseTime(String line) {  
  50.         String reg_ip = "\\[.*?\\]";  
  51.         String str = parseReg(reg_ip,line);  
  52.         SimpleDateFormat in=new SimpleDateFormat("[dd/MMM/yyyy:HH:mm:ss ZZZZZ]",Locale.US);   
  53.         SimpleDateFormat out=new SimpleDateFormat("yyyy年MM月dd日 HH时mm分ss秒");   
  54.         Date d = new Date();  
  55.         try  
  56.         {  
  57.             d=in.parse(str);   
  58.         }  
  59.         catch (ParseException e)  
  60.         {   
  61.             e.printStackTrace();  
  62.         }  
  63.         return out.format(d).trim();  
  64.     }  
  65.     
  66.     private String parseIP(String line) {  
  67.         String reg_ip = "^\\S{7,15}";  
  68.         return parseReg(reg_ip,line);  
  69.     }  
  70. }  

2.2、Mapper类

map阶段的输入为<偏移量,一行文本>,输出为<偏移量,处理后的数据>。再这个类中,对数据的有效性判断也在这儿,博主只过滤了静态数据。

  1. public class logMap extends Mapper<LongWritable,Text,LongWritable,Text>{  
  2.     static parseInfo parseLine = new parseInfo();  
  3.     protected void map(LongWritable key1,Text value1,Context context) throws IOException,InterruptedException  
  4.     {  
  5.         String str1 = value1.toString();  
  6.         Text output = new Text();  
  7.             
  8.         final String[] info = parseLine.parse(str1);  
  9.             
  10.         if(info[2].startsWith("/static") || info[2].startsWith("/uc_server"))  
  11.             return ;  
  12.     
  13.         StringBuilder result = new StringBuilder();  
  14.         for(String x:info)  
  15.             result.append(x).append("\t");  
  16.             
  17.         output.set(result.toString());  
  18.         context.write(key1, output);  
  19.     }  
  20. }  

2.3、Reducer类

        reduce阶段的输入与map的输出有关,为<偏移量,处理后数据的集合>,输出则为<处理后的数据,空>。

  1. public class logReducer extends Reducer<LongWritable,Text,Text,NullWritable>{  
  2.     protected void reduce(LongWritable k3,Iterable<Text> v3,Context context) throws IOException,InterruptedException{  
  3.         for(Text v3s : v3)  
  4.             context.write(v3s, NullWritable.get());  
  5.     }  
  6. }  

2.4、主函数

  1. public class logMain {  
  2.     
  3.     public static void main(String[] args) throws Exception{  
  4.         Job job = Job.getInstance(new Configuration());  
  5.         job.setJarByClass(logMain.class);  
  6.             
  7.         job.setMapperClass(logMap.class);  
  8.         job.setMapOutputKeyClass(LongWritable.class);  
  9.         job.setMapOutputValueClass(Text.class);  
  10.             
  11.         job.setReducerClass(logReducer.class);  
  12.         job.setOutputKeyClass(Text.class);  
  13.         job.setOutputValueClass(NullWritable.class);  
  14.             
  15.         FileInputFormat.setInputPaths(job, new Path(args[0]));  
  16.         FileOutputFormat.setOutputPath(job, new Path(args[1]));  
  17.             
  18.         job.waitForCompletion(true);  
  19.     }  
  20.     
  21. }  

三、数据清洗

将编写好的MR到处导出为jar包后,在hadoop中用小规模的测试用例试运行,成功后再用实验数据。

结果如下:

注:完整项目

Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍

Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗

Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析

Hadoop网站日志数据清洗——正则表达式实现的更多相关文章

  1. Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗

    网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:当前页面 网站日志分析项目案例 ...

  2. Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍

    网站日志分析项目案例(一)项目介绍:当前页面 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例 ...

  3. Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析

    网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:http://www.cnbl ...

  4. hive网站日志数据分析

    一.说在前面的话 上一篇,楼主介绍了使用flume集群来模拟网站产生的日志数据收集到hdfs.但我们所采集的日志数据是不规则的,同时也包含了许多无用的日志.当需要分析一些核心指标来满足系统业务决策的时 ...

  5. Hive分析hadoop进程日志

    想把hadoop的进程日志导入hive表进行分析,遂做了以下的尝试. 关于hadoop进程日志的解析 使用正则表达式获取四个字段,一个是日期时间,一个是日志级别,一个是类,最后一个是详细信息, 然后在 ...

  6. 一个简易Asp.net网站日志系统

    前不久在网站上看到了网站日志访问记录组件UserVisitLogsHelp开源了! 这篇博客感觉还不错,就把源码download了下来,学习一下,发现里面的代码书写和设计并不是很好,于是自己改了改.自 ...

  7. 网站日志实时分析工具GoAccess使用

    网站日志实时分析工具GoAccess使用 系统环境CentOS release 5.5 (Final) GoAccess是一款开源的网站日志实时分析工具. GoAccess 的工作方式就是读取和解析 ...

  8. 使用Nginx和Logstash以及kafka来实现网站日志采集的详细步骤和过程

    使用Nginx和Logstash以及kafka来实现网站日志采集的详细步骤和过程 先列出来总体启动流程: (1)启动zookeeper集群(hadoop01.hadoop02和hadoop03这3台机 ...

  9. 深入剖析HADOOP程序日志

    深入剖析HADOOP程序日志 前提 本文来自于 博客园 逖靖寒的世界 http://gpcuster.cnblogs.com 了解log4j的使用. 正文 本文来自于 博客园 逖靖寒的世界 http: ...

随机推荐

  1. delphi 升级到xe7后的一些个人经验

    http://blog.csdn.net/span12/article/details/42522091 你只要记住 字符串使用变了.VCL 下面所有的 char 改 ansichar string ...

  2. Accepted Technical Research Papers and Journal First Papers 【ICSE2016】

    ICSE2016 Accepted Paper Accepted Technical Research Papers and Journal First Papers Co-chairs: Wille ...

  3. tomcat监听activemq jms配置

    当从webservice接收到信息的时候,消息生产者producer立刻把收到的消息放入到jms里面,消费者cusomer这时要设置一个监听,当生产者发送消息时,只要消息被发出来,消费者就会接收到消息 ...

  4. 设计模式之代理模式(Proxy Pattern)_远程代理解析

    一.什么是代理模式? 顾名思义,代理就是第三方,比如明星的经纪人,明星的事务都交给经纪人来处理,明星只要告诉经纪人去做什么,经纪人自然会想办法去做,做完之后再把结果告诉明星就好了 本来是调用者与被调用 ...

  5. 使用docker来部署asp.net core的程序

    使用docker来部署asp.net core程序 暂不介绍docker是个什么东西?不知道的自己百度. 第一步安装docker: 我的docker是装在centos7系统上,windows上我的也用 ...

  6. winform程序更新

    更新程序和主程序是分开的,得在做一个exe可执行更新程序. 主程序在登陆时判断是否需要更新. 我这边判断方式是直接在配置文件里面设置版本号,然后和服务器上面的版本对比,低于服务器版本就更新程序. // ...

  7. s11 day103 luffy项目结算部分+认证+django-redis

    1.增加认证用的表 class Account(models.Model): username =models.CharField(,unique=True) email= models.EmailF ...

  8. STL在数组算法的使用

    find(a:起始位置 , b: 终止位置 , c: 要查找的内容)      ------>查找寻找内容的位置 count(a:起始位置 , b: 终止位置 , c: 要查找的内容)   -- ...

  9. 975. Odd Even Jump

    You are given an integer array A.  From some starting index, you can make a series of jumps.  The (1 ...

  10. jzoj5925

    tj:這道題題解有錯 水法ac代碼如下: #include<bits/stdc++.h> using namespace std; typedef long long ll; ll t,n ...