discuz论坛apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现
http://www.aboutyun.com/thread-8637-1-1.html
(出处: about云开发)

我们在进行日志分析的时候,那么日志的数据是杂乱无章的,或则说日志的数据并不是我们都想看到的。所以我们需要对里面的数据进行清洗,说的直白一点就是要过滤里面的字符串。
下面便是我们需要过滤的数据:

183.131.11.98 - - [01/Aug/2014:01:01:05 +0800] "GET /thread-5981-1-1.html HTTP/1.1" 200 18152 "http://www.baidu.com/s?wd=cocos2dx%203.2%20wp8%E6%94%AF%E6%8C%81&pn=30&oq=cocos2dx%203.2%20wp8%E6%94%AF%E6%8C%81&tn=28035039_2_pg&ie=utf-8&rsv_page=1" "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.107 UBrowser/1.0.349.1252 Safari/537.36"

这里如果对日志不了解或则不了解日志分析,可能会产生问题?为什么过滤这条数据,就能达到清洗的目的。这里所讲的只是核心内容,对于运行mapreduce来处理,可以看后面的文章。我这里重点讲如何把上面的数据,过滤出我们想要的数据。
我们需要什么数据,从about云分析discuz论坛apache日志hadoop大数据项目:概要设计说明书中,我们需要过滤出下面数据:

1.ip地址
2.访问时间
3.url地址
4.用户使用浏览器

过滤分析

1.ip地址获取
上面ip地址还是比较好过滤的,分隔符为- -即可得到我们想要的数据
ipField = line.split("- -")[0].trim();

2.访问时间
访问时间,想获取时间容易,但是想做一个文艺程序员还是得费点功夫。
[01/Aug/2014:01:01:05 +0800] ,对于这个有的采用直接获取01/Aug/2014:01:01:05的这种方式,这种方式没有错,算是一个正常程序员所做的事 情。那么我们该怎么做的文艺优雅一点。这里是直接获取01/Aug/2014:01:01:05 +0800,这里是由相关函数的。

  1. dt = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss Z", Locale.US).parse(time);

复制代码

我们使用这个函数,将其转换为正常的时间格式。但是我们想要我们中国人能够一眼识别的正常时间。

2014年8月1日 下午07时04分58秒

如果你采用了这种形式20140801070458,这个既不是文艺程序员、也不是正常程序员所做的事情,就只剩下2比程序员这个职称了。
ok,下面我们做的文艺一点。
可是我们怎么才能得到下面时间,一个个进行组合,getYarn()+getMonth......等,完,又步入2比程序员的行列。

  1. 2014年8月1日 下午07时04分58秒

复制代码

这里介绍一个简单的方法

  1. DateFormat df1 = DateFormat.getDateTimeInstance(DateFormat.LONG,DateFormat.LONG);

复制代码

  1. dateField = df1.format(dt);

复制代码

这样就完美解决这个问题,不需要组合,只需要getDateTimeInstance传递参数即可,更多的时间格式参考Java新api获取年月日时分秒

3.url与浏览器的获取
这里面关键是对转义字符的理解正确,比如如何以双引号作为分隔符,如何以括号为分隔符。

解说完毕直接上代码:

  1. package www.aboutyun.com;
  2. import java.text.DateFormat;
  3. import java.text.ParseException;
  4. import java.text.SimpleDateFormat;
  5. import java.util.Date;
  6. import java.util.Locale;
  7. public class test {
  8. public static void StringResolves(String line) throws ParseException {
  9. String ipField, dateField, urlField, browserField;
  10. // 获取ip地址
  11. ipField = line.split("- -")[0].trim();
  12. // 获取时间,并转换格式
  13. int getTimeFirst = line.indexOf("[");
  14. int getTimeLast = line.indexOf("]");
  15. String time = line.substring(getTimeFirst + 1, getTimeLast).trim();
  16. Date dt = null;
  17. DateFormat df1 = DateFormat.getDateTimeInstance(DateFormat.LONG,
  18. DateFormat.LONG);
  19. dt = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss Z", Locale.US)
  20. .parse(time);
  21. dateField = df1.format(dt);
  22. // 获取url
  23. String[] getUrl = line.split("\"");
  24. String firtGeturl = getUrl[1].substring(3).trim();
  25. String secondGeturl = getUrl[3].trim();
  26. urlField = firtGeturl + "分隔符" + secondGeturl;
  27. // 获取浏览器
  28. String[] getBrowse = line.split("\"");
  29. String strBrowse = getBrowse[5].toString();
  30. String str = "(KHTML, like Gecko)";
  31. int i = strBrowse.indexOf(str);
  32. strBrowse = strBrowse.substring(i);
  33. String strBrowse1[] = strBrowse.split("\\/");
  34. strBrowse = strBrowse1[0].toString();
  35. String strBrowse2[] = strBrowse.split("\\)");
  36. strBrowse = strBrowse2[1].trim();
  37. System.out.println(ipField);
  38. System.out.println(dateField);
  39. System.out.println(urlField);
  40. System.out.println(strBrowse);
  41. }
  42. public static void main(String[] args) throws ParseException {
  43. // TODO Auto-generated method stub
  44. String browser = "203.100.80.88 - - [01/Aug/2014:19:04:58 +0800] \"GET /uc_server/avatar.php?uid=3841&size=small HTTP/1.1\" 301 463 \"http://www.aboutyun.com/forum.php\" \"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36 SE 2.X MetaSr 1.0";
  45. test.StringResolves(browser );
  46. }
  47. }

运行结果如下:

discuz论坛apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现的更多相关文章

  1. 《基于Apache Kylin构建大数据分析平台》

    Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿 武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者 ...

  2. 【转】百亿级实时大数据分析项目,为什么不用Hadoop?

    百亿数量级的大数据项目,软硬件总体预算只有30万左右,需求是进行复杂分析查询,性能要求多数分析请求达到秒级响应.        遇到这样的项目需求,预算不多的情况,似乎只能考虑基于Hadoop来实施. ...

  3. Hadoop大数据分析应用场景

    J 为了满足日益增长的业务变化,京东的京麦团队在京东大数据平台的基础上,采用了hadoop等热门的开源大数据计算引擎,打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台. 一.Hadoop的应 ...

  4. TMF大数据分析指南 Unleashing Business Value in Big Data(一)

    大数据分析指南 TMF Frameworx最佳实践 Unleashing Business Value in Big Data 前言 此文节选自TMF Big Data Analytics Guide ...

  5. linux下用cronolog分割apache日志

    linux下用cronolog分割apache日志,大神莫拍砖,菜鸟留一记录,小白请默默转载.连linux登陆和vi编辑都不会的,请默默关闭此页面.入正题 说明:淡绿色底的为linux命令,其他的为备 ...

  6. Discuz论坛管理的问题汇总

    Discuz论坛在Linux上搭建成功了, 不得不说, 其功能是非常强大的, 可以满足已知的绝大多数的需求. 搭建完成后也有一些问题, 在这里汇总一下, 以便将来查阅. 1. 显示未处理用户信息, 但 ...

  7. NFS实现(双httpd + php-fpm + nfs + mysql 搭建discuz论坛)的方法

    NFS相关介绍 一.NFS简介 1. NFS(Network File System):NFS是一个文件共享协议, 也是是在类Unix系统中在内核中实现的文件系统. 2. 起源:最早是由SUN公司研发 ...

  8. 大数据分析神兽麒麟(Apache Kylin)

    1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以 ...

  9. 大数据分析引擎Apache Flink

    Apache Flink是一个高效.分布式.基于Java实现的通用大数据分析引擎,它具有分布式 MapReduce一类平台的高效性.灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分 ...

随机推荐

  1. 深入探索 Java 热部署

    在 Java 开发领域,热部署一直是一个难以解决的问题,目前的 Java 虚拟机只能实现方法体的修改热部署,对于整个类的结构修改,仍然需要重启虚拟机,对类重新加载才能完成更新操作.对于某些大型的应用来 ...

  2. Java API —— 编码 & IO流( InputStreamReader & OutputStreamWriter & FileReader & FileWriter & BufferedReader & BufferedWriter )

    1.编码     1)编码表概述         由字符及其对应的数值组成的一张表     2)常见编码表         · ASCII/Unicode 字符集:ASCII是美国标准信息交换码,用一 ...

  3. Hibernate学习笔记(1)

    1 使用Hibernate (1)创建User Library,命名为HIBERNATE3,加入需要的jar (2)创建hibernate配置文件hibernate.cfg.xml, 为了便于调试最好 ...

  4. hadoop2 环境的搭建(自动HA)

    zookeeper:hadoop112.hadoop113.hadoop114 namenode:hadoop110和hadoop111 datanode:hadoop112.hadoop113.ha ...

  5. ExtJs自学教程(1):一切从API开始

    题 记 该系列文章不侧重全方位的去介绍ExtJs的使用,只是侧重于解决ExtJs问题的思考方法.写的人不用长篇大论,学的人则能够自立更生.l  学习的人只要有一些CSS的javascript的基础知识 ...

  6. 连续多行输入--C++ 中字符串标准输入的学习及实验(续篇)

      编程中常常会用到连续多行输入的情况,如果事先知道要输入多少行的话,可以直接定义一个变量,然后用循环就可以实现了,但有时候事先并不知道,要输入多少行,于是就可以用到输入流碰到文件终止符的情况了,具体 ...

  7. poj 2528 Mayor's posters(线段树)

    题目:http://poj.org/problem?id=2528 题意:有一面墙,被等分为1QW份,一份的宽度为一个单位宽度.现在往墙上贴N张海报,每张海报的宽度是任意的, 但是必定是单位宽度的整数 ...

  8. Asp.Net MVC Views页面不包含“GetEnumerator”的公共定义

    “/”应用程序中的服务器错误. 编译错误 说明: 在编译向该请求提供服务所需资源的过程中出现错误.请检查下列特定错误详细信息并适当地修改源代码. 编译器错误消息: CS1579: “Web.Model ...

  9. windows安装TortoiseGit详细使用教程【基础篇】

    标签:tortoisegit 环境:win8.1 64bit 安装准备: 首先你得安装windows下的git msysgit1.9.5 安装版本控制器客户端tortoisegit  tortoise ...

  10. UVA 11374 Airport Express 机场快线(单源最短路,dijkstra,变形)

    题意: 给一幅图,要从s点要到e点,图中有两种无向边分别在两个集合中,第一个集合是可以无限次使用的,第二个集合中的边只能挑1条.问如何使距离最短?输出路径,用了第二个集合中的哪条边,最短距离. 思路: ...