是不是经常要分析用户的行为?是不是经常遇到多台server上传的日志一起分析?是不是对数据统计的间隔时间要求非常短?还有木有由于日志文件过大,而须要分块处理?

1、说明一点在日志写入的时候必须依照一种严格的格式,这样在做解析的时候,才好分割。比方 gameid:123  gameid:2333。分割统一标准即可。

2、在生成日志的文件名称的时候也要依照一定规则,在分析的时候,正則表達式好匹配,如 serverhostname_date.log  这样在匹配的时候 仅仅须要 glob(*—date.log); //glob 见php函数手冊,寻找与模式匹配的文件路径。

3、为什么要用nosql?事实上project师不是只局限于知道怎么实现,而是要多思考什么样的业务用什么样的工具来解决。非关系型数据非常适合这样的,日志中经常添�新的行为,你用key-value的方式,不须要日志新增了要分析的行为,你就得手动改变你程序的配置,这样我个人认为不是太好。~假如用mysql,你纵向设计数据库,

结构: id gameid count createtime

1   1001    3000  2013-03-23  12:22:21

2   1002   2222   2013-03-23  12:22:21

………………

这样设计的话那么不会由于新增gameid来改动数据表,这样有什么坏处?那就是每次插入数据非常多,假如30秒插入一次,一次插入30个游戏的统计值,那么一天的增量  2*30*60*24 = 86400 条数据,这样显然不合理。

那么横向设计,一次插入一条数据。

id gameid_1001 gameid_1002 gameid_1003 …… createtime

1  3000             2222             40000               2013-03-23 09:08:56

2  4000             1800             4000                2013-03-23 09:09:20

……

这种坏处是 每次新增了游戏ID 那么就得改变数据表结构,加字段,当然你牛逼点的能够所实用程序来实现,可是这样我认为不太好。

mongo中有这个内嵌文档,非常爽。推荐使用hadoop

存储结构例如以下

+{

"_id":3e3ess3sazxcdsdsfdf,

"createtime":"2013-03-23 09:13:02",

"data":{

"gameid_1001": 2000,

"gameid_1002": 3000,

……

}

}

一次仅仅插入一条数据,新增游戏类型不须要做不论什么改变,perfect~

4、为什么要用rsync?将多台server的日志同步到一个文件夹下,一起处理,比較方便。

5、须要用到的几个函数,glob, fopen,fget,isset,explode

程序最好不要写得非常死板,

批量读入日志文件

$sLogfileName = '/path/../*_date.log';

$aLogfileName = glop($sLogfileName); // 匹配要处理的日志文件,读入数组中。

……

fopen();

while() //用while循环,处理完文件里的一行数据再去文件里取,假设用foreach一次读入数组,内存会溢出。

{

……

}

……

$aCountResult = array();

$iNum = 100;

if(isset($aCountResult[$iGameId]))

$aCountResult[$iGameId] = (int)$aCountResult[$iGameId] + $iNum;

else

$aCountResult[$iGameId] = $iNum;

……

统计完插入。。

然后添�计划程序中,ok。。

主要还是不同的业务用不同的方法解决。

@update 2013-3-25 21:31:45

在日志分析中 \n 是一个非常重要的分割符,避免防止内存溢出,不要以 \n

EOF 作为分割符,同事要严格依照日志标准格式写入,这样在解析的时候比較好解析。用fgets方式获取,不能一次读入内存中。

日志分析(php+nosql+rsync+crontable)的更多相关文章

  1. ELK日志分析 学习笔记

    (贴一篇之前工作期间整理的elk学习笔记) ELK官网 https://www.elastic.co   ELK日志分析系统 学习笔记 概念:ELK = elasticsearch + logstas ...

  2. 日志分析方法概述 & Web日志挖掘分析的方法

    日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核.各种应用服务器等等.日志的内容.规模和用途也各不相同,很难一概而论. 本文讨论的日志处理方法中的日志,仅指Web日志.其 ...

  3. 日志分析工具ELK(五)

    八.Kibana实践 选择绝对时间和相对时间 搜索 还可以添加相关信息 自动刷新页面时间,也可以关闭 创建图像,可视化 编辑Markdown,创建一个值班联系表 值班联系表 保存 再创建一个饼图;查看 ...

  4. ELK 日志分析系统的部署

    一.ELK简介 ElasticSearch介绍Elasticsearch是一个基于Lucene的搜索服务器. 它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口. Elasti ...

  5. 【转】gc日志分析工具

    性能测试排查定位问题,分析调优过程中,会遇到要分析gc日志,人肉分析gc日志有时比较困难,相关图形化或命令行工具可以有效地帮助辅助分析. Gc日志参数 通过在tomcat启动脚本中添加相关参数生成gc ...

  6. 海量日志分析方案--logstash+kibnana+kafka

    下图为唯品会在qcon上面公开的日志处理平台架构图.听后觉得有些意思,好像也可以很容易的copy一个,就动手尝试了一下. 目前只对flume===>kafka===>elacsticSea ...

  7. ELK+Kafka集群日志分析系统

    ELK+Kafka集群分析系统部署 因为是自己本地写好的word文档复制进来的.格式有些出入还望体谅.如有错误请回复.谢谢! 一. 系统介绍 2 二. 版本说明 3 三. 服务部署 3 1) JDK部 ...

  8. Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍

    网站日志分析项目案例(一)项目介绍:当前页面 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例 ...

  9. Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗

    网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:当前页面 网站日志分析项目案例 ...

随机推荐

  1. 传感器 -UIAccelerometer

    // ios 4 之前 UIAccelerometer // ios 5 <CoreMotion/CoreMotion.h> #import "ViewController.h& ...

  2. Nopcommerce 3.7 增加了Redis 作为缓存啦

    Nopcommerce 3.7  版增加了Redis 缓存,相比之前内存缓存, 感觉使用了Redis 作为缓存,明显加快了Web页面响应速度! 废话少说 拉代码: 1 git clone https: ...

  3. 布局(layout)文件图形界面不能显示:An error has occurred. See error log for more details. java.lang.NullPointe

    #问题解析# Android工程中Layout文件夹下的布局文件图形界面无法显示,一般发生这种情况在导入工程操作后极易出现,因为可能eclipse使用的sdk版本不同,target类型不同,所用And ...

  4. rabbitmq 测试

    --*-- import pika import datetime connection = pika.BlockingConnection(pika.ConnectionParameters( 'l ...

  5. Spring+SpringMVC+Mybatis 利用AOP自定义注解实现可配置日志快照记录

    http://my.oschina.net/ydsakyclguozi/blog/413822

  6. EasyUI 树形菜单tree 定义图标

    { "id":1, "text":"Folder1", "iconCls":"icon-save", ...

  7. asp.net 163邮件发送

    <table id="> <tr> <td style="width: 393px"> 收信:<asp:TextBox ID=. ...

  8. Hibernate:组合模式解决树的映射

    树经常用来展示目录结构,那么在Hibernate中怎样解决树的映射问题呢? 先来看一个分销商的树形结构的例子 所有分销商 东北区 辽宁省 沈阳医药 吉林省 华北区 北京市 北京医药 河北省 华南区 那 ...

  9. 没有document.getElementByName

    首先声明的是: document.getElementByName方法没有.document.getElementsByName得到的是标签的数组 document.getElementId得到的是某 ...

  10. dll的加载方式主要分为两大类,显式和隐式链接

    之前简单写过如何创建lib和dll文件及简单的使用(http://blog.csdn.net/betabin/article/details/7239200).现在先再深入点写写dll的加载方式. d ...