本项目分析apache服务器产生的日志,分析pv.独立ip数和跳出率等指标.其实这些指标在第三方系统中都可以检测到,在生产环境中通常用来分析用户交易等核心数据,此处只是用于演示说明日志数据的分析流程. 一.需求分析 我们可以编写执行的shell脚本,将apache每天产生的日志上传到HDFS中,然后经过数据清洗,hive分析,最后将数据从HDFS导入到mysql中,然后设定计划任务每天定期自动执行分析工作. 1.指标说明  ▶ PV(Page View):页面浏览量,用户每1次对网站中的每个网页…
背景 刚毕业那几年有幸进入了当时非常热门的某社交网站,在数据平台部从事大数据开发相关的工作.从日志收集.存储.数据仓库建设.数据统计.数据展示都接触了一遍,比较早的赶上了大数据热这波浪潮.虽然今天的人工智能的热度要远高于大数据,但是大家还是不能否定大数据在人工智能中不可取代的地位. 话回正题,当时遇到了一个需要解决的问题就是如何快速对日志进行压缩.那时一天的日志量大概是3TB左右,共100+种日志,最大的一个日志一天要1TB,最小的日志只有几十M.统计需求大部分是用HIVE完成,HIVE中的表每…
鄙人使用的Hadoop版本为2.6.4.Hadoop的默认日志级别为INFO,对于百台以上的集群,如果文件操作频繁的话,NameNode会狂打日志,对性能会有一定的影响. 我们可以通过http://<namenode:50070>/logLevel在线修改NameNode的日志级别.如下所示: 但是,如果NameNode重启的话,又得重新设置,好麻烦. 怎么设置默认的日志级别为WARN呢? Hadoop使用的是log4j记录日志,我们理所当然会想到去修改${HADOOP_HOME}/etc/h…
Nginx日志主要分为两种:访问日志和错误日志.日志开关在Nginx配置文件(一般在server段来配置)中设置,两种日志都可以选择性关闭,默认都是打开的. 访问日志access_log #日志格式设定 log_format access '$remote_addr - $remote_user [$time_local] "$request" ' '$status $body_bytes_sent "$http_referer" ' '"$http_us…
hadoop启动namenode日志报这个错,首先说怎么看日志, 启动namenode会有这个,ubuntu: starting namenode, logging to /home/xiaoye/hadoop/logs/hadoop-xiaoye-namenode-ubuntu.out 这是hadoop启动时会自动帮助写日志,并告诉我们日志的目录,我直接tail -200 /home/xiaoye/hadoop/logs/hadoop-xiaoye-namenode-ubuntu.out 看日…
http://blog.51cto.com/eric1/1854574 一.增加haproxy日志记录功能   1.1 由于数据分析的需要,我们必须打开haproxy日志,记录相关信息. 在配置前,我们先来了解一下日志的level:local0-local7 16-23保留为本地使用 emerg 0 系统不可用     alert 1 必须马上采取行动的事件     crit 2 关键的事件     err 3 错误事件     warning 4 警告事件     notice 5 普通但重要…
1.apache 设置,用户访问时 目录或文件的认证: 对目录的认证: <Directory /var/www/222> //指定认证的目录AllowOverride AuthConfig  //这个相当于打开认证的开关AuthName "222 user auth"  //自定义认证的名字,作用不大AuthType Basic  //认证的类型,一般为BasicAuthUserFile /data/.htpasswd //指定密码文件所在位置require valid-u…
Hadoop生态圈-flume日志收集工具完全分布式部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.   目前为止,Hadoop的一个主流应用就是对于大规模web日志的分析和处理,因此想要把web服务的日志导入到Hadoop来进行分析就得借助日志收集工具了.目前主流的Hadoop日志收集工具能够跟Hadoop进行交接的有三个工具,即flume,scribe和chukwa.本篇博客的主角是Apache的flume. 一.主流日志收集工具简介 1>.flume Flume是Cl…
本文简单介绍在使用cronolog对tomcat的日志进行自定义日期格式的切割,方便日志的整理和遇到问题日志的排查! 安装cronolog 安装cronolog的方法网上有很多,这里也简单的介绍一下. 1.下载安装包 cronolog-1.6.2.tar.gz 2.安装cronolog tar -zxvf cronolog-1.6.2.tar.gz cd cronolog-1.6.2 ./configre # --prefix=/opt/cronolog ,可以指定安装目录,默认在 /usr/l…
Nginx日志处理为JSON格式,并放置在http区块: log_format json '{"@timestamp":"$time_iso8601",' '"@version":"1",' '"client":"$remote_addr",' '"url":"$uri",' '"status":"$status&qu…