discuz论坛apache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现

discuz论坛apache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现
http://www.aboutyun.com/thread-8637-1-1.html
(出处: about云开发)

我们在进行日志分析的时候，那么日志的数据是杂乱无章的，或则说日志的数据并不是我们都想看到的。所以我们需要对里面的数据进行清洗，说的直白一点就是要过滤里面的字符串。
下面便是我们需要过滤的数据：

183.131.11.98 - - [01/Aug/2014:01:01:05 +0800] "GET /thread-5981-1-1.html HTTP/1.1" 200 18152 "http://www.baidu.com/s?wd=cocos2dx%203.2%20wp8%E6%94%AF%E6%8C%81&pn=30&oq=cocos2dx%203.2%20wp8%E6%94%AF%E6%8C%81&tn=28035039_2_pg&ie=utf-8&rsv_page=1" "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.107 UBrowser/1.0.349.1252 Safari/537.36"

这里如果对日志不了解或则不了解日志分析，可能会产生问题？为什么过滤这条数据，就能达到清洗的目的。这里所讲的只是核心内容，对于运行mapreduce来处理，可以看后面的文章。我这里重点讲如何把上面的数据，过滤出我们想要的数据。
我们需要什么数据，从about云分析discuz论坛apache日志hadoop大数据项目：概要设计说明书中，我们需要过滤出下面数据：

1.ip地址
2.访问时间
3.url地址
4.用户使用浏览器

过滤分析

1.ip地址获取

上面ip地址还是比较好过滤的，分隔符为- -即可得到我们想要的数据

ipField = line.split("- -")[0].trim();

2.访问时间
访问时间，想获取时间容易，但是想做一个文艺程序员还是得费点功夫。
[01/Aug/2014:01:01:05 +0800] ，对于这个有的采用直接获取01/Aug/2014:01:01:05的这种方式，这种方式没有错，算是一个正常程序员所做的事情。那么我们该怎么做的文艺优雅一点。这里是直接获取01/Aug/2014:01:01:05 +0800，这里是由相关函数的。

dt = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss Z", Locale.US).parse(time);

复制代码

我们使用这个函数，将其转换为正常的时间格式。但是我们想要我们中国人能够一眼识别的正常时间。

2014年8月1日下午07时04分58秒

如果你采用了这种形式20140801070458，这个既不是文艺程序员、也不是正常程序员所做的事情，就只剩下2比程序员这个职称了。
ok,下面我们做的文艺一点。
可是我们怎么才能得到下面时间，一个个进行组合，getYarn()+getMonth......等，完，又步入2比程序员的行列。

2014年8月1日下午07时04分58秒

复制代码

这里介绍一个简单的方法

DateFormat df1 = DateFormat.getDateTimeInstance(DateFormat.LONG,DateFormat.LONG);

复制代码

dateField = df1.format(dt);

复制代码

这样就完美解决这个问题，不需要组合，只需要getDateTimeInstance传递参数即可，更多的时间格式参考Java新api获取年月日时分秒

3.url与浏览器的获取
这里面关键是对转义字符的理解正确，比如如何以双引号作为分隔符，如何以括号为分隔符。

解说完毕直接上代码：

package www.aboutyun.com;
import java.text.DateFormat;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.Locale;
public class test {
public static void StringResolves(String line) throws ParseException {
String ipField, dateField, urlField, browserField;
// 获取ip地址
ipField = line.split("- -")[0].trim();
// 获取时间,并转换格式
int getTimeFirst = line.indexOf("[");
int getTimeLast = line.indexOf("]");
String time = line.substring(getTimeFirst + 1, getTimeLast).trim();
Date dt = null;
DateFormat df1 = DateFormat.getDateTimeInstance(DateFormat.LONG,
DateFormat.LONG);
dt = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss Z", Locale.US)
.parse(time);
dateField = df1.format(dt);
// 获取url
String[] getUrl = line.split("\"");
String firtGeturl = getUrl[1].substring(3).trim();
String secondGeturl = getUrl[3].trim();
urlField = firtGeturl + "分隔符" + secondGeturl;
// 获取浏览器
String[] getBrowse = line.split("\"");
String strBrowse = getBrowse[5].toString();
String str = "(KHTML, like Gecko)";
int i = strBrowse.indexOf(str);
strBrowse = strBrowse.substring(i);
String strBrowse1[] = strBrowse.split("\\/");
strBrowse = strBrowse1[0].toString();
String strBrowse2[] = strBrowse.split("\\)");
strBrowse = strBrowse2[1].trim();
System.out.println(ipField);
System.out.println(dateField);
System.out.println(urlField);
System.out.println(strBrowse);
}
public static void main(String[] args) throws ParseException {
// TODO Auto-generated method stub
String browser = "203.100.80.88 - - [01/Aug/2014:19:04:58 +0800] \"GET /uc_server/avatar.php?uid=3841&size=small HTTP/1.1\" 301 463 \"http://www.aboutyun.com/forum.php\" \"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36 SE 2.X MetaSr 1.0";
test.StringResolves(browser );
}
}

运行结果如下：

discuz论坛apache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现的更多相关文章

《基于Apache Kylin构建大数据分析平台》
Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者 ...
【转】百亿级实时大数据分析项目，为什么不用Hadoop？
百亿数量级的大数据项目,软硬件总体预算只有30万左右,需求是进行复杂分析查询,性能要求多数分析请求达到秒级响应. 遇到这样的项目需求,预算不多的情况,似乎只能考虑基于Hadoop来实施. ...
Hadoop大数据分析应用场景
J 为了满足日益增长的业务变化,京东的京麦团队在京东大数据平台的基础上,采用了hadoop等热门的开源大数据计算引擎,打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台. 一.Hadoop的应 ...
TMF大数据分析指南 Unleashing Business Value in Big Data（一）
大数据分析指南 TMF Frameworx最佳实践 Unleashing Business Value in Big Data 前言此文节选自TMF Big Data Analytics Guide ...
linux下用cronolog分割apache日志
linux下用cronolog分割apache日志,大神莫拍砖,菜鸟留一记录,小白请默默转载.连linux登陆和vi编辑都不会的,请默默关闭此页面.入正题说明:淡绿色底的为linux命令,其他的为备 ...
Discuz论坛管理的问题汇总
Discuz论坛在Linux上搭建成功了, 不得不说, 其功能是非常强大的, 可以满足已知的绝大多数的需求. 搭建完成后也有一些问题, 在这里汇总一下, 以便将来查阅. 1. 显示未处理用户信息, 但 ...
NFS实现（双httpd + php-fpm + nfs + mysql 搭建discuz论坛）的方法
NFS相关介绍一.NFS简介 1. NFS(Network File System):NFS是一个文件共享协议, 也是是在类Unix系统中在内核中实现的文件系统. 2. 起源:最早是由SUN公司研发 ...
大数据分析神兽麒麟(Apache Kylin)
1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以 ...
大数据分析引擎Apache Flink
Apache Flink是一个高效.分布式.基于Java实现的通用大数据分析引擎,它具有分布式 MapReduce一类平台的高效性.灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分 ...

随机推荐

jQuery好用插件
jQuery图片轮播插件(smallslider):http://fz.sjtu.edu.cn/zsw/js/smallslider/ jQuery消息通知(noty):http://www.360d ...
C# 常用对象的的修饰符
class(类) 1.internal 表示类只能在当然程序集中访问,类默认修饰符 2.public 表示所有地方都可以访问,与internal是互斥的 3.abstract 抽象类,不能被实例化,只 ...
C#基础（三）
运算符分类符号解释优先级算数 ++,—— 加加,减减由高到低,即执行顺序由上到下(圆括号优先级最高) * /% 乘除取余 + - 加减关系关系和逻辑运算符永远是布尔型 > ...
Java连接oracle数据库的OCI和THIN
使用jdbc连接上oracle有两种方法: 1. 使用thin连接由于thin驱动都是纯Java代码,并且使用TCP/IP技术通过java的Socket连接上Oracle数据库,所以thin驱动是与 ...
带你认识HTML5中的WebSocket
这篇文章主要介绍了带你认识HTML5中的WebSocket,本文讲解了HTML5 中的 WebSocket API 是个什么东东.HTML5 中的 WebSocket API 的用法.带Socket. ...
实际举例C#引用类型和值类型的区别<网摘>
我们都知道,c#的两大数据类型分别为值类型和引用类型.很多人或许闭着眼睛都能说出值类型包括简单类型.结构体类型和枚举类型,引用类型包括自定义类.数组.接口.委托等,但是当被问及到二者之间的联系和区别, ...
极光推送使用实例（二） Android客户端
上一篇简单介绍了极光推送在Java服务端的实现,如果感兴趣的可以看一下极光推送使用实例(一)JAVA服务端.这篇文章介绍下极光推送在Android客户端的实现. JPush Android SDK 是 ...
codeforces 333B - Chips
注意:横向纵向交叉时,只要两条边不是正中的边(当n&1!=1),就可以余下两个chip. 代码里数组a[][]第二维下标 0表示横向边,1表示纵向边. #include<stdio.h& ...
修改dbwr后台进程数量
批量执行脚本时,批量数据写回到数据库:从EM中查看到有较多的dbwr的IO请求查看后台dbwr的进程数量 select * from v$bgprocess 在查询结果中paddr的字段为非'0 ...
java web 学习七（HttpServletResponse对象1）
Web服务器收到客户端的http请求,会针对每一次请求,分别创建一个用于代表请求的request对象.和代表响应的response对象.request和response对象即然代表请求和响应,那我们要 ...

discuz论坛apache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现

discuz论坛apache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现的更多相关文章

随机推荐

热门专题