配置Nginx yum install nginx (在host99和host101) service nginx start开启服务 ps -ef |grep nginx看一下进程 ps -ef |grep nginx root 28230 1 0 14:54 ? 00:00:00 nginx: master process /usr/sbin/nginx -c /etc/nginx/nginx.conf nginx 28231 28230 0 14:54 ? 00:00:00 nginx:…
Hadoop日志分析系统启动脚本 #!/bin/bash #Flume日志数据的根文件夹 root_path=/flume #Mapreduce处理后的数据文件夹 process_path=/process #hive分区时间 partition=`date "+%Y-%m-%d"` #获取前一小时的时间:/YYYY-MM-DD/HH file_path=`date -d "1 hour ago" +"%Y-%m-%d/%H"` #运行Mapre…
1:在每一个tomcat服务器上,生成的日志目录中,在java中用定时器每天将当天的日志上传到hadoop中 (技术要点:quatz+hadoop-client)具体的目录动态的采用时间品名 2:hadoop集群每天进行一次日志分析…
White Elephant 是一个Hadoop日志收集器和展示器,它提供了用户角度的Hadoop集群可视化.White Elephant 是全球最大的职业社交网站Linkedin开发的一套分析Hadoop作业日志的系统,完全开源.代码在GitHub上的链接https://github.com/linkedin/white-elephant. 不过White Elephant当前只支持hadoop1.0系列的jobhistory解析,暂时不支持hadoop2.0系列的版本. 快速入门 你可以在G…
一.项目要求 本文讨论的日志处理方法中的日志,仅指Web日志.事实上并没有精确的定义,可能包含但不限于各种前端Webserver--apache.lighttpd.nginx.tomcat等产生的用户訪问日志,以及各种Web应用程序自己输出的日志. 二.需求分析: KPI指标设计 PV(PageView): 页面訪问量统计  IP: 页面独立IP的訪问量统计  Time: 用户每小时PV的统计  Source: 用户来源域名的统计  Browser: 用户的訪问设备统计 以下我着重分析浏览器统计…
1,统计各访问IP的总数 awk '{if($9>0 && $9==200 && substr($6,2)== "GET") a[$1]++}END{for(i in a)print i,a[i]}' access.log|sort -t ' ' -k2 -rn|head -n 10 2,统计包含xx字符的总数 cat access.log | grep 'GET /adsview/cqgd/img/tan/cq_320.png' | grep '…
http://www.ibm.com/developerworks/cn/java/java-lo-mapreduce/…
Overview 整个项目的整体架构如下: 关于SparkStreaming的部分: Flume传数据到SparkStreaming:为了简单使用的是push-based的方式.这种方式可能会丢失数据,但是简单. SparkStreaming因为micro-batch的架构,跟我们这个实时热点的应用还是比较契合的. SparkStreaming这边是基于sliding window实现实时热搜的,batch interval待定(1min左右),window也待定(3~N* batch inte…
Hadoop日志分析系统 项目需求: 需要统计一下线上日志中某些信息每天出现的频率,举个简单的例子,统计线上每天的请求总数和异常请求数.线上大概几十台 服务器,每台服务器大概每天产生4到5G左右的日志,假设有30台,每台5G的,一天产生的日志总量为150G. 处理方案: 方案1:传统的处理方式,写个JAVA日志分析代码,部署到每台服务器进行处理,这种方式部署起来耗时费力,又不好维护. 方案2:采用Hadoop分布式处理,日志分析是Hadoop集群系统的拿手好戏.150G每天的日志也算是比较大的数…
前一阵子,搭建了ELK日志分析平台,用着挺爽的,再也不用给开发拉各种日志,节省了很多时间. 这篇博文是介绍用python代码实现日志分析的,用MRJob实现hadoop上的mapreduce,可以直接放到hadoop集群上运行. mrjob可以让我们使用Python编写MapReduce运算,并在多个不同平台运行,你可以: 使用纯python编写multi-step MapReduce 本机测试 在hadoop集群上运行 安装mrjob pip install mrjob nginx访问日志格式…