nginx日志每日定时写入Hdfs

#!/bin/bash

hadoop_home=/opt/hadoop-2.4.0

tw_nginx_log_file=/home/chiline.com.all/access_com_tw.log

cn_nginx_log_file=/home/chiline.com.all/access_com_cn.log

current_date=$(date +%Y%m%d)

hdfs_url=hdfs://xx.xx.xx.xx:9100

analyse_jar_path=$hadoop_home/ianc

echo "hadoop_home = $hadoop_home"

echo "tw_nginx_log_file = $tw_nginx_log_file"

echo "cn_nginx_log_file = $cn_nginx_log_file"

echo "hdfs_url = $hdfs_url"

echo "analyse_jar_path = $hadoop_home/ianc"

function putTodayLogToHdfs(){

$hadoop_home/bin/hdfs dfs -rm -r $hdfs_url/user/day-$(addDate $current_date 1)

$hadoop_home/bin/hdfs dfs -mkdir $hdfs_url/user/day-$(addDate $current_date 1)

$hadoop_home/bin/hdfs dfs -mkdir $hdfs_url/user/day-$(addDate $current_date 1)/tw-log

$hadoop_home/bin/hdfs dfs -mkdir $hdfs_url/user/day-$(addDate $current_date 1)/cn-log

$hadoop_home/bin/hdfs dfs -put $tw_nginx_log_file $hdfs_url/user/day-$(addDate $current_date 1)/tw-log

$hadoop_home/bin/hdfs dfs -put $cn_nginx_log_file $hdfs_url/user/day-$(addDate $current_date 1)/cn-log

}

function addDate(){

str=$1

days=$2

yy=`echo $str|cut -c 1-4`

mm=`echo $str|cut -c 5-6`

dd=`echo $str|cut -c 7-8`

sav_dd=$days

days=`expr $days - $dd`

while [ $days -ge 0 ]

do

mm=`expr $mm - 1`

[ $mm -eq 0 ] && mm=12 && yy=`expr $yy - 1`

aaa=`cal $mm $yy`

bbb=`echo $aaa|awk '{print $NF}'`

days=`expr $days - $bbb`

done

dd=`expr 0 - $days`

expr $dd : "^.$" > /dev/null && dd=0$dd

expr $mm : "^.$" > /dev/null && mm=0$mm

echo $yy$mm$dd

return $yy$mmSdd

}

function getLogFileName(){

logFileName=$1

IFS='/' arr=($logFileName)

arr_length=${#arr[@]}

echo ${arr[$arr_length-1]}

return ${arr[$arr_length-1]}

}

function removeLastWeekLog(){

remove_date=$(addDate $current_date 7)

echo "start remove history log file,remove_date is $remove_date"

$hadoop_home/bin/hdfs dfs -rm -r $hdfs_url/user/day-$remove_date

}

function analyseTodayLog(){

#tw_log_file_name=getLogFileName $tw_nginx_log_file

tw_log_file_name=`basename $tw_nginx_log_file`

#cn_log_file_name=getLogFileName $cn_nginx_log_file

cn_log_file_name=`basename $cn_nginx_log_file`

tw_log_file=$hdfs_url/user/day-$(addDate $current_date 1)/tw-log/$tw_log_file_name

cn_log_file=$hdfs_url/user/day-$(addDate $current_date 1)/cn-log/$cn_log_file_name

analyse_path=$hdfs_url/user/day-$(addDate $current_date 1)/analyse

#pv analyse

$hadoop_home/bin/hadoop jar $analyse_jar_path/pvanalyse-1.0.jar $tw_log_file $analyse_path/tw-pv

$hadoop_home/bin/hadoop jar $analyse_jar_path/pvanalyse-1.0.jar $cn_log_file $analyse_path/cn-pv

#time analyse

$hadoop_home/bin/hadoop jar $analyse_jar_path/timeanalyse-1.0.jar $tw_log_file $analyse_path/tw-time

$hadoop_home/bin/hadoop jar $analyse_jar_path/timeanalyse-1.0.jar $cn_log_file $analyse_path/cn-time

#area analyse

$hadoop_home/bin/hadoop jar $analyse_jar_path/locationanalyse-1.0.jar $tw_log_file $analyse_path/tw-location

$hadoop_home/bin/hadoop jar $analyse_jar_path/locationanalyse-1.0.jar $cn_log_file $analyse_path/cn-location

}

echo "start put local log to hdfs"

putTodayLogToHdfs;

echo "start analyse today log"

analyseTodayLog;

echo "remove last week log"

removeLastWeekLog;

nginx日志每日定时写入Hdfs的更多相关文章

spark读取 kafka nginx网站日志消息并写入HDFS中（转）
原文链接:spark读取 kafka nginx网站日志消息并写入HDFS中 spark 版本为1.0 kafka 版本为0.8 首先来看看kafka的架构图详细了解请参考官方我这边有三台机器用 ...
Linux下添加shell脚本使得nginx日志每天定时切割压缩
Linux下添加shell脚本使得nginx日志每天定时切割压缩一简介对于nginx的日志文件,特别是access日志,如果我们不做任何处理的话,最后这个文件将会变得非常庞大这时,无论是出现异常 ...
CentOS8平台nginx日志的定时切分
一,编写bash脚本: [root@yjweb crontab]# vi split_nginx_logs.sh 代码: #!/bin/bash # 备份nginx的日志 # 昨天的日期 file_d ...
使用Linux自带的命令logrotate对Nginx日志进行切割
说明: Nginx安装目录:/usr/local/nginx/Nginx日志目录:/var/log/nginx/error/*.log /var/log/nginx/access/w1/*.log / ...
大数据学习——服务器定期上传nginx日志到hdfs
需求:按照所学知识完成如下: 服务器定期上传nginx日志到hdfs 提示: Hdfs的创建文件夹命令: Hadoop fs -mkdir /文件夹名称 Hdfs的上传命令: Hadoop fs -p ...
Nginx日志通过Flume导入到HDFS中
关注公众号:分享电脑学习回复"百度云盘" 可以免费获取所有学习文档的代码(不定期更新) flume上传到hdfs: 当我们的数据量比较大时,比如每天的日志文件达到5G以上使用ha ...
Flume 概述+环境配置+监听Hive日志信息并写入到hdfs
Flume介绍Flume是Apache基金会组织的一个提供的高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据:同时,Flume提供 ...
通过python操作GeoLite2-City.mmdb库将nginx日志访问IP转换为城市写入数据库
通过python操作GeoLite2-City.mmdb库将nginx日志写入数据库 # 创建存放nginx日志的表accesslog2 CREATE TABLE `accesslog2` ( `id ...
Flume采集Nginx日志到HDFS
下载apache-flume-1.7.0-bin.tar.gz,用 tar -zxvf 解压,在/etc/profile文件中增加设置: export FLUME_HOME=/opt/apache-f ...

随机推荐

[转]Win7、Windows Server 2008下无法在Windows Service中打开一个已经存在的Excel 2007文件问题的解决方案
昨天,组里一个小朋友告诉我,他写的报表生成服务中无法打开一个已经存在的Excel 2007文件,他的开发环境是Win7.Visual Studio .Net 2008(Windows Server 2 ...
spring AOP简单入门
AOP(aspect oriented programming)面向切面编程. 大致意思是在方法的执行过程中织入其他要执行的方法. 项目结构图先介绍一下通过代理的方式实现aop,几个文件和上一篇一样 ...
【微信公众号】WeixinJSBridge.call('closeWindow')无效
公众号上面使用iframe嵌套子页面,然而子页面无法使用WeixinJSBridge.call('closeWindow') 这时候必须在函数前面加上parent.,比如parent.WeixinJS ...
php内核--SAPI概述
centos6.5安装vsftpd
开通FTP有gssftp和vsftpd二种,查了查,据说vsftpd更稳定和更安全.就用vsftpd吧. 什么是vsftpd vsftpd是一款在Linux发行版中最受推崇的FTP服务器程序.特点是小 ...
java中文乱码问题
•ASCII ØASCII使用7个比特(bit)进行字符编码,最多可以表示的字符数量为27(128)个字符,这些字符包括了大小写英文字母.阿拉伯数字.标点符号.控制字符和其他符号.每个字符用一个字节表 ...
射频识别技术漫谈(9)——动物标签HDX
半双工(HDX,Half Duplex)技术是ISO11784/11785中规定的另一种标签与读写器之间的通讯方式.读写器先打开射频场对标签充电以激活标签,然后关闭磁场,标签在读写器磁场关闭的情况下向 ...
网站流量统计系统 phpMyVisites
phpMyVisites是一个网站流量统计系统,它能够提供非常详细的统计报告和高级图形报表.phpMyVisites不是一个Apache log分析工具,它建有自己的log.它的特点包括: 安装部署: ...
pomelo
简介 Pomelo 是基于 Node.js 的高性能.分布式游戏服务器框架.它包括基础的开发框架和相关的扩展组件(库和工具包),可以帮助你省去游戏开发枯燥中的重复劳动和底层逻辑的开发.Pomelo 不 ...
Intersecting Lines（数学）
Intersecting Lines Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 12844 Accepted: 57 ...

nginx日志每日定时写入Hdfs

nginx日志每日定时写入Hdfs的更多相关文章

随机推荐

热门专题