#!/usr/bin/env bash

source /etc/profile

echo " *************** start filter ***************  "

# get befor six month last day

#m0=$(date -d "$(date -d 'month' +%Y%m01) -1 day" +%Y%m%d)

#echo ${m0}

#m1=$(date -d "$(date -d '0 month' +%Y%m01) -1 day" +%Y%m%d)

#echo ${m1}

#m2=$(date -d "$(date -d last-month +%Y%m01) -1 day" +%Y%m%d)

#echo ${m2}

#m3=$(date -d "$(date -d ${m2} +%Y%m01) -1 day" +%Y%m%d)

#echo ${m3}

#m4=$(date -d "$(date -d ${m3} +%Y%m01) -1 day" +%Y%m%d)

#echo ${m4}

#m5=$(date -d "$(date -d ${m4} +%Y%m01) -1 day" +%Y%m%d)

#echo ${m5}

#m6=$(date -d "$(date -d ${m5} +%Y%m01) -1 day" +%Y%m%d)

#echo ${m6}

# 取得当前月的最后一天,访问数组长度:${#m[*]} + ${#m[@]}

m[0]=$(date -d "$(date -d 'month' +%Y%m01) -1 day" +%Y%m%d)

echo m0 : ${m[0]} ' month : ' ${#m[@]}

for n in $(seq 0 11); do

    m[$n+1]=$(date -d "$(date -d ${m[$n]} +%Y%m01) -1 day" +%Y%m%d)

    echo m$[$n+1] : ${m[$n+1]} ' month : ' ${#m[*]};

done

echo " ****** time : " $(date '+%Y-%m-%d %H:%M:%S') " ****** "

max_date=0

# get the latest file and copy to hdfs

cd /home/hadoop/streaming_run_center/tmp/checkpoint/filter

for dir in $(ls -l ./ | awk '/^d/{print $NF}')

do

   if [[ -d $dir && $dir == *\_* ]]; then

      f_d=$(echo $dir | cut -d \_ -f 3 | cut -d \. -f 1)

      if [[ $max_date < $f_d ]]; then

        max_date=$f_d

        max_filter=$dir

      fi

   fi

done

echo " max date is : "$max_date

echo " max filter is : "$max_filter

pwd

# 复制最近日期的filter文件到hdfs

hadoop fs -test -e /data/datacenter/run_center_spark_stream/bloom_filters/$max_filter

if [[ $? == 0 ]]; then

    echo " filter is already exist : "$max_filter

else

    echo " start hdfs copy "

    echo " ****** start time : " $(date '+%Y-%m-%d %H:%M:%S') " ****** "

    hadoop fs -put $max_filter /data/datacenter/run_center_spark_stream/bloom_filters

    echo " ****** end time : " $(date '+%Y-%m-%d %H:%M:%S') " ****** "

fi

remove_week=$(date -d "$max_date 7 days ago" +%Y%m%d)

echo " 删除本地序列化文件的日期界限:"$remove_week

remove_date=$(date -d "$max_date 30 days ago" +%Y%m%d)

echo " 删除文件 和 Hadoop filter 的日期界限:"$remove_date

echo " *************** start remove filter ***************  "

for r_dir in $(ls -l ./ | awk '/^d/{print $NF}')

do

   if [[ -d $r_dir && $r_dir == *\_* ]]; then

      r_d=$(echo $r_dir | cut -d \_ -f 3 | cut -d \. -f 1)

      if [[ $r_d < $remove_date ]]; then

          if [[ ${m[*]} == *$r_d* ]]; then

              cd /home/hadoop/streaming_run_center/tmp/checkpoint/filter/$r_dir

              pwd

              for f_dir in $(ls *)

              do

                 if [[ "$f_dir" == "mau_device_all.FILTER.SER" ]]; then

                    echo " ------ keep mau_filter is: " $f_dir;

                 else

                    echo " remove file is: " $f_dir;

                    rm -r $f_dir

                 fi

              done

              cd /home/hadoop/streaming_run_center/tmp/checkpoint/filter

              pwd

          else

              echo " remove filter_dir is: "$r_dir

              rm -r $r_dir

          fi

      elif [[ $r_d < $remove_week ]]; then

          if [[ $r_d == $m0 || $r_d == $m1 || $r_d == $m2 ]]; then

              cd /home/hadoop/streaming_run_center/tmp/checkpoint/filter/$r_dir

              pwd

              for f_dir in $(ls *)

              do

                 if [[ "$f_dir" == "mau_device_all.FILTER.SER" ]]; then

                    echo " ------ week keep mau_filter is: " $f_dir;

                 else

                    if [[ "$f_dir" == *.FILTER.SER ]]; then

                        echo " - last day of month - week remove file is: " $f_dir;

                        rm -r $f_dir

                    fi

                 fi

              done

              cd /home/hadoop/streaming_run_center/tmp/checkpoint/filter

              pwd

          else

              echo "week remove filter is: "$r_dir

              rm -r $r_dir/*.FILTER.SER

          fi

      fi

   fi

done

echo " =============== start remove hdfs filter ===============  "

# 删除hdfs上指定日期外的tdid

for h_filter in $(hadoop fs -ls /data/datacenter/run_center_spark_stream/bloom_filters | awk '{print $8}')

do

    if [[ $h_filter == *\_* ]]; then

        h_date=$(echo $h_filter | cut -d \/ -f 6 | cut -d \_ -f 3 | cut -d \. -f 1)

#        echo " hdfs date : "$h_date

#        echo " hdfs filter : "$h_filter

        if [[ ${m[*]} == *$h_date* ]]; then

            echo " remain hdfs filter is : "$h_filter

        elif [[ $h_date < $remove_date ]]; then

            echo "not remain date is : "$h_date

            echo "remove hdfs filter is : "$h_filter

            hadoop fs -rmr $h_filter

        fi

    fi

done

echo " -------------- start tdid ---------------  "

# 删除小于30天的tdid

cd /home/hadoop/streaming_run_center/tmp/checkpoint/tdidinfo

for tdid in $(ls *)

do

    if [[ $tdid == *\_* ]]; then

        t_d=$(echo $tdid | cut -d \_ -f 2 | cut -d \. -f 1)

        if [[ $t_d == $max_date || $t_d > $max_date ]]; then

            echo " need copy date : "$t_d

            echo " need copy tdid : "$tdid

            # 检查tdid是否存在

#            hadoop fs -test -e jiaojiao/tdid/$tdid

#            if [[ $? == 0 ]]; then

#                echo " tdid is already exist,remove it first "

#                hadoop fs -rm jiaojiao/tdid/$tdid

#                hadoop fs -put $tdid jiaojiao/tdid

#            else

#                echo " start copy "

#                hadoop fs -put $tdid jiaojiao/tdid

#            fi

        elif [[ $t_d < $remove_date ]]; then

            echo " remove tdid : "$tdid

            rm $tdid

        fi

    fi

done

#echo " =============== start remove hdfs tdid ===============  "

#for h_tdid in $(hadoop fs -ls jiaojiao/tdid | awk '{print $8}')

#do

#    if [[ $h_tdid == *\_* ]]; then

#        h_date=$(echo $h_tdid | cut -d \_ -f 2 | cut -d \. -f 1)

#        echo $h_date

#        echo $h_tdid

#    fi

#done

Linux备份-删除指定日期内文件的更多相关文章

  1. Window Linux下实现指定目录内文件变更的监控方法

    转自:http://qbaok.blog.163.com/blog/static/10129265201112302014782/ 对于监控指定目录内文件变更,window 系统提供了两个未公开API ...

  2. Linux下查找指定日期的文件

    一.背景 Linux服务器的一个目录里,每天产生海量的文件.为了防止磁盘被写满. 决定每天删除部分老文件.OK,问题来了,如何过滤出指定日期的文件? 二.强大的Linux 一行代码搞定: ls --f ...

  3. 【Linux】linux中删除指定日期之前的文件

    要删除系统中就的备份文件,就需要使用命令了: #find /tmp -mtime +30 -type f -name *.sh[ab] -exec rm -f {} \; 假如在一个目录中保留最近30 ...

  4. centos6.5下oracle自动备份删除指定天数的文件

    第一步先做一个备份 #!/bin/sh export ORACLE_BASE=/home/oracle/app export ORACLE_HOME=/dbhome_1 export ORACLE_S ...

  5. Debian下自动备份文件并上传到远程FTP服务器且删除指定日期前的备份Shell脚本

    说明:  1.备份目录/home/osyunwei下面所有的文件到/home/osyunweibak里面,并且保存为osyunwei20120701.tar.gz的压缩文件格式(2012_07_01是 ...

  6. python 指定日期图片文件删除

    手机使用python操作图片文件 起因 前几天去国图拍了一本书,一本心理学方面的书,也许你问我为什么不去买一本,或者去网上找pdf. 其实吧,关于心理学方面的书可以说在市面上一抓就是一堆,至于拍这本书 ...

  7. Linux下删除空文件,删除指定大小的文件

    Linux下批量删除空文件(大小等于0的文件)的方法: find . -name "*" -type f -size 0c | xargs -n 1 rm -f 用这个还可以删除指 ...

  8. 利用任务计划自动删除指定日期的SQLServer备份文件

    利用任务计划自动删除指定日期的SQLServer备份文件 命令FORFILES [/P pathname] [/M searchmask] [/S]         [/C command] [/D ...

  9. linux下查找指定后缀的文件

    1.linux下查找指定后缀的文件 例如查找当前目录下的所有后缀名时.c或.h的文件 find  .  -type f -regex  ".*\.\(c\|h\)"

随机推荐

  1. 用WEKA进行数据挖掘

    学习于IBM教学文档 数据挖掘学习与weka使用 第二部 分分类和集群 分类 vs. 群集 vs. 最近邻 在我深入探讨每种方法的细节并通过 WEKA 使用它们之前,我想我们应该先理解每个模型 - 每 ...

  2. 贪心 UVALive 6834 Shopping

    题目传送门 /* 题意:有n个商店排成一条直线,有一些商店有先后顺序,问从0出发走到n+1最少的步数 贪心:对于区间被覆盖的点只进行一次计算,还有那些要往回走的区间步数*2,再加上原来最少要走n+1步 ...

  3. js中toFixed重写

    在测试原生的toFixed发现,它在个浏览器上表现不一致,并且有些值在保留小数时得到的结果并不是想要,如在chrome下测试: 所以针对toFixed方法不准的问题,我们进行方法改造: 主要思路是:对 ...

  4. ambari-server启动报错500 status code received on GET method for API:/api/v1/stacks/HDP/versions/2.4/recommendations Error message : Server Error解决办法(图文详解)

    问题详情 来源是,我在Ambari集群里,安装Hue. 给Ambari集群里安装可视化分析利器工具Hue步骤(图文详解 所遇到的这个问题. 然后,去ambari-server的log日志,查看,如下 ...

  5. JS-表格数据的添加与删除、搜索

    <!doctype html><html><head><meta charset="utf-8"><title>JS练习 ...

  6. ReactJS-2-props vs state

    rops理解: 大多数组件都可以在创建的时候被不同的参数定制化,这些不同的参数就叫做props.props的流向是父组件到子组件. 子组件Comment,是一条评论组件,父组件CommentList, ...

  7. 公众号如何获取已关注用户的unionid的问题

    避免误导,先加一句:首先,得公众号绑定开放平台 这个问题困扰了我一早上,我尝试了很多次获取unionid都失败. 微信的开发文档上有说: 关于特殊场景下的静默授权 1.上面已经提到,对于以snsapi ...

  8. nodejs idea 创建项目 (一)

    1.在工作空间创建module file->new module next next 项目的目录结构: bin:跟业务无关的公共部分 node_modules :默认的模块 public:公共模 ...

  9. VM virtualBox网络地址设置

    目的:在虚拟机LINUX中,可用通过主机访问到虚机内容. 问题描述,在虚机系统中,ip地址一直为127.0.0.1,无法在主机中建立连接 参考文章:https://cnzhx.net/blog/vir ...

  10. [转]JavaScript线程运行机制

    从开始接触js时,我们便知道js是单线程的.单线程,异步,同步,互调,阻塞等.在实际写js的时候,我们都会用到ajax,不管是原生的实现,还是借助jQuery等工具库实现,我们都知道,ajax可以实现 ...