Hadoop(四）shell脚本定时采集日志数据到hdfs

#!/bin/bash

#set java env
export JAVA_HOME=/wocloud/java/jdk1.7.0_45
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

#set hadoop env
export HADOOP_HOME=/home/hadoop/app/hadoop-2.6.4
export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH

#版本1的问题：
#虽然上传到Hadoop集群上了，但是原始文件还在。如何处理？
#日志文件的名称都是xxxx.log1,再次上传文件时，因为hdfs上已经存在了，会报错。如何处理？

#如何解决版本1的问题
#       1、先将需要上传的文件移动到待上传目录
#   2、在讲文件移动到待上传目录时，将文件按照一定的格式重名名
#       /export/software/hadoop.log1   /export/data/click_log/xxxxx_click_log_{date}

#日志文件存放的目录
log_src_dir=/home/hadoop/logs/log/

#待上传文件存放的目录
log_toupload_dir=/home/hadoop/logs/toupload/

#日志文件上传到hdfs的根路径
hdfs_root_dir=/data/clickLog/20151226/

#打印环境变量信息
echo "envs: hadoop_home: $HADOOP_HOME"

#读取日志文件的目录，判断是否有需要上传的文件
echo "log_src_dir:"$log_src_dir
ls $log_src_dir | while read fileName
do
   if [[ "$fileName" == access.log.* ]]; then
   # if [ "access.log" = "$fileName" ];then
       date=`date +%Y_%m_%d_%H_%M_%S`
       #将文件移动到待上传目录并重命名
       #打印信息
       echo "moving $log_src_dir$fileName to $log_toupload_dir"xxxxx_click_log_$fileName"$date"
       mv $log_src_dir$fileName $log_toupload_dir"xxxxx_click_log_$fileName"$date
       #将待上传的文件path写入一个列表文件willDoing
       echo $log_toupload_dir"xxxxx_click_log_$fileName"$date >> $log_toupload_dir"willDoing."$date
   fi

done
#找到列表文件willDoing
ls $log_toupload_dir | grep will |grep -v "_COPY_" | grep -v "_DONE_" | while read line
do
   #打印信息
   echo "toupload is in file:"$line
   #将待上传文件列表willDoing改名为willDoing_COPY_
   mv $log_toupload_dir$line $log_toupload_dir$line"_COPY_"
   #读列表文件willDoing_COPY_的内容（一个一个的待上传文件名） ,此处的line 就是列表中的一个待上传文件的path
   cat $log_toupload_dir$line"_COPY_" |while read line
   do
       #打印信息
       echo "puting...$line to hdfs path.....$hdfs_root_dir"
       hadoop fs -put $line $hdfs_root_dir
   done
   mv $log_toupload_dir$line"_COPY_" $log_toupload_dir$line"_DONE_"
done

Hadoop(四）shell脚本定时采集日志数据到hdfs的更多相关文章

使用shell脚本定时采集日志数据到hdfs分布式文件系统
1.首先对linux操作系统的crontab命令进行熟悉和了解: .crond是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程,与windows下的计划任务类似,当安装完成操作系 ...
Linux下添加shell脚本使得nginx日志每天定时切割压缩
Linux下添加shell脚本使得nginx日志每天定时切割压缩一简介对于nginx的日志文件,特别是access日志,如果我们不做任何处理的话,最后这个文件将会变得非常庞大这时,无论是出现异常 ...
Hadoop的shell脚本分析
你会发现hadoop-daemon.sh用于启动单独的本机节点而hadoop-daemons.sh 会批量的ssh到别的机器启动前记: 这些天一直学习hadoop,学习中也遇到了许多的问题,主要是 ...
shell脚本获取mysql插入数据自增长id的值
shell脚本获取mysql插入数据自增长id的值在shell脚本中我们可以通过last_insert_id()获取id值,但是,需要注意的是,该函数必须在执行插入操作的sql语句之后,立即调用,否 ...
shell脚本分析nginx日志
shell脚本分析nginx日志: name=`awk -F ',' '{print $13":"$32}' $file | awk -F ':' '{print $4}'`ech ...
shell脚本调试打印日志问题
shell脚本调试打印日志问题 1. 需求我们在编写脚本的时候,有时候需要做调试,便于我们定位问题,有时候等脚本上线之后,我们需要保留脚本执行过程中的记录.便于我们在出问题的时候,定位问题. 2. ...
使用shell脚本定时执行备份mysql数据库
使用shell脚本定时执行备份mysql数据库 #!/bin/bash ############### common file ################ #本机备份文件存放目录 MYSQLBA ...
采用shell脚本定时清理Tomcat日志
1 Shell脚本案例删除超过30天的日志文件 #!/bin/bash log_path=/mnt/software/apache-tomcat-.M22/logs d=`date +%Y-%m-% ...
如何用shell脚本分析网站日志统计PV、404、500等数据
以下shell脚本能统计出网站的总访问量,以及404,500出现的次数.统计出来后,可以结合监控宝来进行记录,进而可以看出网站访问量是否异常,是否存在攻击.还可以根据查看500出现的次数,进而判断网站 ...

随机推荐

JS----事件2
一事件对象(event):与特定事件相关且包含有关该事件详细信息的对象通过事件可以触发event对象的元素,鼠标的位置及状态,按下的键等等event对象只在事件发生的过程中才有效非IE浏览器里的e ...
如何自学web安全（详细路径）
看到学习路径,收藏一下https://blog.csdn.net/q251500/article/details/79441316
jQuery写省级联动列表，创造二维数组，以及如何存/调用二维数组中的数据
jQuery写省级联动列表,创造二维数组来存放数据,然后通过each来遍历调用,通过creatTxtNode创建文本节点,通过createElement创建标签option,在通过append将文本写 ...
javascript sourcemap
[javascript sourcemap] 暂时只有Chrome浏览器支持这个功能.在Developer Tools的Setting设置中,确认选中"Enable JavaScript s ...
centos6.8下配置https服务器
centos6.8下配置https服务器 1.1 环境 l 系统环境:内核环境为2.6.32版本 64位的CentOS release 6.8 (Final) [root@localhost ~] ...
NBU 还原LINUX ORACLE RAC数据库(CRM)
CRM集群数据库恢复 linux centos 6.6 oracle 11.2.0.3 集群环境 1.53 oraclea 1.54 oracleb 在linux操作系统root用户下安装好NBUci ...
Spring mvc接收中文参数值乱码（tomcat配置问题）
问题| 使用java写的接口,中文参数乱码问题分析| 请求方打印参数日志,中文无问题,tomcat中日志显示接收的参数乱码实际是tomcat配置问题解决方法| 在tomcat的配置文 ...
linux 升级python2.7
linux为centos6,系统默认安装了python2.6,需要执行的python脚本内容包含标准库之xml.etree.ElementTree 用到库里的一个iter方法是python2.7的新 ...
web.config中连接字符串的读写和加密解密
转载:https://www.cnblogs.com/shuai/articles/2248703.html 1.先来看看如何在web.config中写入数据库连接字符串.打开web.config文件 ...
centos 7.3+nginx+jira(.bin)+mysql
JIRA 安装参考资料 http://www.cnblogs.com/ilanni/p/6200875.html 注意服务启动与关闭 service jira stop service jira st ...

Hadoop(四）shell脚本定时采集日志数据到hdfs

Hadoop(四）shell脚本定时采集日志数据到hdfs的更多相关文章

随机推荐

热门专题