Hadoop网站日志数据清洗——正则表达式实现
周旭龙前辈的Hadoop学习笔记—网站日志分析项目案例简明、经典,业已成为高校大数据相关专业的实验项目。上周博主也完成了这个实验,不同于周前辈使用特殊符号切割字符串得到数据的做法,博主使用了正则表达式来匹配数据。在此将我的思路及代码张贴出来,以供后来者学习借鉴。
一、数据情况分析
1.1、数据格式概览
本次实验数据来自于国内某论坛,数据以行为单位,每行记录由5部分组成,访问者IP、访问时间、访问资源、访问状态、访问流量。

1.2、所需的数据
按照实验教程,我们只需要IP、时间、uri即可,不过本着既能完成实验,又能锻炼锻炼的想法,我把发个文状态以及访问流量也提取了出来。
1.3、上传数据至HDFS
本次试验到手的数据大小为60MB,约60万行。数据量较小,因此直接使用shell命令上传至HDFS。


注:欲知更详细的项目背景,请点击Hadoop学习笔记—网站日志分析项目案例(一)项目介绍__周旭龙_博客园
二、数据清洗准备
2.1、日志解析类
将解析日志信息的功能抽象成为一个日志解析类,分别解析各字段信息。
2.1.1 各字段的正则表达式
IP位于行的开头,因此定位到行起始位置,向右读取字符,直到遇到空格。又因为一个有效的IP最少为四个数字+三个符号,7位;最大为3*4+3,15位。所以行起始处7~15位为IP。表达式为:'^\S{7,15}'
时间位于一个方括号内,直接提取方括号内的数据即可:'\[.*?\]'
URI及其相关数据与时间数据位置类似,都在成对符号之内,因此可用相同的解法将其提取出来,再做下一步分析:'\".*?\"'
状态码只有三位数,且两边都是空格,可以吧两边的空格也提出来,再去掉:' \d{3} '
流量在行尾,也都是数字:'\d{1,6}$'
2.1.2 函数
除了一个parse函数以及五个分别处理字段的函数外,正则表达式匹配也抽象成了一个函数。需要注意的是匹配是否为空,以及匹配uri并将其分割为数组后下标取值是否越界。
- public class parseLine {
- public String[] parse(String line)
- {
- String ip = parseIP(line);
- String time = parseTime(line);
- String url = parseURL(line);
- String status = parseStatus(line);
- String traffic = parseTraffic(line);
- return new String[] {ip,time,url,status,traffic};
- }
- private String parseReg(String reg,String str)
- {
- Pattern pat = Pattern.compile(reg);
- Matcher matcher = pat.matcher(str);
- boolean rs = matcher.find();
- if(rs)
- return matcher.group(0);
- else
- return "null";
- }
- private String[] splitUrl(String str)
- {
- String []urlInfo = str.substring(1, str.length()-1).split(" ");
- return urlInfo;
- }
- private String parseTraffic(String line) {
- String reg_ip = "\\d{1,6}$";
- return parseReg(reg_ip,line);
- }
- private String parseStatus(String line) {
- String reg_ip = " \\d{3} ";
- return parseReg(reg_ip,line).trim();
- }
- private String parseURL(String line) {
- String reg_ip = "\".*?\"";
- String str = parseReg(reg_ip,line);
- String[] urlInfo = splitUrl(str);
- return urlInfo[1];
- }
- private String parseTime(String line) {
- String reg_ip = "\\[.*?\\]";
- String str = parseReg(reg_ip,line);
- SimpleDateFormat in=new SimpleDateFormat("[dd/MMM/yyyy:HH:mm:ss ZZZZZ]",Locale.US);
- SimpleDateFormat out=new SimpleDateFormat("yyyy年MM月dd日 HH时mm分ss秒");
- Date d = new Date();
- try
- {
- d=in.parse(str);
- }
- catch (ParseException e)
- {
- e.printStackTrace();
- }
- return out.format(d).trim();
- }
- private String parseIP(String line) {
- String reg_ip = "^\\S{7,15}";
- return parseReg(reg_ip,line);
- }
- }
2.2、Mapper类
map阶段的输入为<偏移量,一行文本>,输出为<偏移量,处理后的数据>。再这个类中,对数据的有效性判断也在这儿,博主只过滤了静态数据。
- public class logMap extends Mapper<LongWritable,Text,LongWritable,Text>{
- static parseInfo parseLine = new parseInfo();
- protected void map(LongWritable key1,Text value1,Context context) throws IOException,InterruptedException
- {
- String str1 = value1.toString();
- Text output = new Text();
- final String[] info = parseLine.parse(str1);
- if(info[2].startsWith("/static") || info[2].startsWith("/uc_server"))
- return ;
- StringBuilder result = new StringBuilder();
- for(String x:info)
- result.append(x).append("\t");
- output.set(result.toString());
- context.write(key1, output);
- }
- }
2.3、Reducer类
reduce阶段的输入与map的输出有关,为<偏移量,处理后数据的集合>,输出则为<处理后的数据,空>。
- public class logReducer extends Reducer<LongWritable,Text,Text,NullWritable>{
- protected void reduce(LongWritable k3,Iterable<Text> v3,Context context) throws IOException,InterruptedException{
- for(Text v3s : v3)
- context.write(v3s, NullWritable.get());
- }
- }
2.4、主函数
- public class logMain {
- public static void main(String[] args) throws Exception{
- Job job = Job.getInstance(new Configuration());
- job.setJarByClass(logMain.class);
- job.setMapperClass(logMap.class);
- job.setMapOutputKeyClass(LongWritable.class);
- job.setMapOutputValueClass(Text.class);
- job.setReducerClass(logReducer.class);
- job.setOutputKeyClass(Text.class);
- job.setOutputValueClass(NullWritable.class);
- FileInputFormat.setInputPaths(job, new Path(args[0]));
- FileOutputFormat.setOutputPath(job, new Path(args[1]));
- job.waitForCompletion(true);
- }
- }
三、数据清洗
将编写好的MR到处导出为jar包后,在hadoop中用小规模的测试用例试运行,成功后再用实验数据。


结果如下:

注:完整项目
Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍
Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析
Hadoop网站日志数据清洗——正则表达式实现的更多相关文章
- Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:当前页面 网站日志分析项目案例 ...
- Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍
网站日志分析项目案例(一)项目介绍:当前页面 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例 ...
- Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:http://www.cnbl ...
- hive网站日志数据分析
一.说在前面的话 上一篇,楼主介绍了使用flume集群来模拟网站产生的日志数据收集到hdfs.但我们所采集的日志数据是不规则的,同时也包含了许多无用的日志.当需要分析一些核心指标来满足系统业务决策的时 ...
- Hive分析hadoop进程日志
想把hadoop的进程日志导入hive表进行分析,遂做了以下的尝试. 关于hadoop进程日志的解析 使用正则表达式获取四个字段,一个是日期时间,一个是日志级别,一个是类,最后一个是详细信息, 然后在 ...
- 一个简易Asp.net网站日志系统
前不久在网站上看到了网站日志访问记录组件UserVisitLogsHelp开源了! 这篇博客感觉还不错,就把源码download了下来,学习一下,发现里面的代码书写和设计并不是很好,于是自己改了改.自 ...
- 网站日志实时分析工具GoAccess使用
网站日志实时分析工具GoAccess使用 系统环境CentOS release 5.5 (Final) GoAccess是一款开源的网站日志实时分析工具. GoAccess 的工作方式就是读取和解析 ...
- 使用Nginx和Logstash以及kafka来实现网站日志采集的详细步骤和过程
使用Nginx和Logstash以及kafka来实现网站日志采集的详细步骤和过程 先列出来总体启动流程: (1)启动zookeeper集群(hadoop01.hadoop02和hadoop03这3台机 ...
- 深入剖析HADOOP程序日志
深入剖析HADOOP程序日志 前提 本文来自于 博客园 逖靖寒的世界 http://gpcuster.cnblogs.com 了解log4j的使用. 正文 本文来自于 博客园 逖靖寒的世界 http: ...
随机推荐
- python 的几种启动方式
python 的几种启动方式 (1)利用Win的操作系统的:命令行工具 cmd.exe Win + R 调出运行对话框,然后输入cmd,即可调出“命令提示符对话框” 或者 在菜单中店家附件中的命令提 ...
- Alpha阶段项目复审(小小大佬带飞队)
Alpha阶段项目复审 小组的名字 优点 缺点,bug报告(至少140字) 最终名次(无并列) 只会嘤嘤嘤队 题材比较新颖!游戏和记单词的结合 有浏览器不兼容问题 5 GG队 样式新颖,自动导入好评 ...
- Media Queries简单案例一
案例一: 1 <!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" ...
- matlab toolboxes 大全
MATLAB Toolboxes top (Top) Audio - Astronomy - BiomedicalInformatics - Chemometrics - Chaos - Chemi ...
- Windows Phone 放开政策 - 应用内支付(IAP)可加入三方支付
Windows Phone 应用商店在 今年(2013)11月04号 修改了商店政策 允许公司账户的应用使用三方支付SDK. 通过 App certification requirements cha ...
- Log4Net从Mvc转到.Net Core
原项目用的Log4Net,不过版本比较旧,在Core里新版也进行了支持,本文用的是现在最新版本2.0.8 1.LogHelper帮助类放另一个类库中 Log/LogHelper.cs 2.单独建的配置 ...
- 阿里云ECS服务器windows环境下配置redis
一.下载解压redis github下载地址:https://github.com/MSOpenTech/redis/tags 下载的是Redis-x64-3.2.100版本,Redis-x64-3. ...
- 【LongIntervalRetries】让我们来实现支付宝的异步回调方案
功能说明 LongIntervalRetries是基于Quartz.Net的一个长时间间隔重试的类库,其主要解决何时执行以及执行结果反馈的问题. 产生的原因 简单的说,我们提供了一系列的API供第三方 ...
- C# winform程序实现开机自启动,并且识别是开机启动还是双击启动
开机启动程序,在很多场合都会用到,尤其是那种在后台运行的程序. 效果图: 以上两幅图都用到了命令行启动程序,为了模拟开机启动或者其他程序调用此程序. 第一幅图:程序启动可以根据不同参数,执行不同的操作 ...
- wpf数据绑定 - StringFormat的妙用
写在前面 WPF中常常有这样的情况:需要在UI上显示一些信息,比如显示一张图片的信息,信息结构是: 图片名:Xxx 图片尺寸:Xxx 而其中的 Xxx 通常通过数据绑定来获得, Xxx 前面的内容是需 ...