[源码分享] HIVE表数据量统计&邮件

概要：

计算HIVE BI库下每天数据表总大小及增量

输出：

总大小:xxxG

日同比新增数据量:xxxG

周同比新增数据量:xxxG

月同比新增数据量:xxxG

总表数:xxx

日新增表数:xxx

周新增表数:xxx

月新增表数:xxx

最大的20张表:

......

表数据增量TOP20:

......

代码：
bi_report.sh

#!/bin/bash

GIGA=1000000000

content="\n"

prefix='bi'

today=`date -d"-1 day" +%Y-%m-%d`

yestoday=`date -d"-2 day" +%Y-%m-%d`

lastweek=`date -d"-8 day" +%Y-%m-%d`

lastmonth=`date -d"-1 month -1 day" +%Y-%m-%d`

hadoop fs -du /user/hive/warehouse/bi.db/ > ./bi.db.stat

awk '{if(NR!=1) {size=split($2,table_list,"/"); print table_list[size],"\t",$1}}' ./bi.db.stat > $prefix.$today

sum=`awk '{sum+=$2} END{print sum/"'$GIGA'"}' $prefix.$today`

content+="总大小:"$sum"G\n"

yes_sum=`awk '{sum+=$2} END{print sum/"'$GIGA'"}' $prefix.$yestoday`

diff_size=`echo "$sum-$yes_sum" | bc`

content+="日同比新增数据量:"$diff_size"G\n"

week_sum=`awk '{sum+=$2} END{print sum/"'$GIGA'"}' $prefix.$lastweek`

diff_size=`echo "$sum-$week_sum" | bc`

content+="周同比新增数据量:"$diff_size"G\n"

month_sum=`awk '{sum+=$2} END{print sum/"'$GIGA'"}' $prefix.$lastmonth`

diff_size=`echo "$sum-$month_sum" | bc`

content+="月同比新增数据量:"$diff_size"G\n"

table_count=`wc -l $prefix.$today | awk '{print $1}'`

content+="\n\n总表数:"$table_count"\n"

yes_table_count=`wc -l $prefix.$yestoday | awk '{print $1}'`

diff_table_count=`echo "$table_count-$yes_table_count" | bc`

content+="日新增表数:"$diff_table_count"\n"

lastweek_table_count=`wc -l $prefix.$lastweek | awk '{print $1}'`

diff_table_count=`echo "$table_count-$lastweek_table_count" | bc`

content+="周新增表数:"$diff_table_count"\n"

lastmonth_table_count=`wc -l $prefix.$lastmonth | awk '{print $1}'`

diff_table_count=`echo "$table_count-$lastmonth_table_count" | bc`

content+="月新增表数:"$diff_table_count"\n"

max_table="`sort -r -n -k 2 $prefix.$today | head -20 | awk '{ORS="";print $1"：" $2/"'$GIGA'""G\\\\n"}'`"

content+="\n\n最大的20张表:\n"$max_table"\n"

declare -A ARR1

while read line

do

	key=`echo $line|awk '{print $1}'`

	value=`echo $line|awk '{print $2}'`

	ARR1["$key"]=$value

done < $prefix.$today

declare -A ARR2

while read line

do

	key=`echo $line|awk '{print $1}'`

	value=`echo $line|awk '{print $2}'`

	ARR2["$key"]=$value

done < $prefix.$yestoday

for k in "${!ARR1[@]}"

do

	d_val=`echo "${ARR1[${k}]}-${ARR2[${k}]}"|bc`

	ARR1["$k"]=$d_val

done

cat /dev/null > bi_tmp.txt

for k in "${!ARR1[@]}"

do

    echo "$k ${ARR1[${k}]}" >> bi_tmp.txt

done

max_incre_table="`sort -r -n -k 2 bi_tmp.txt | head -20 | awk '{ORS="";print $1"：" $2/"'$GIGA'""G\\\\n"}'`"

content+="\n\n表数据增量TOP20:\n"$max_incre_table"\n"

#echo -e $content

msg=`echo $content`

python mail.py "HIVE BI每日统计" $msg

mail.py

#! /usr/bin/python

import sys

import optparse

import os

import smtplib

from email.mime.text import MIMEText

## mail server config

mail_host="mail.51ping.com"

mail_user="info"

mail_pass="chinese1"

mail_postfix="51ping.com"

######################

def send_mail(to_list,sub,content):

    me=mail_user+"<"+mail_user+"@"+mail_postfix+">"

    msg = MIMEText(content)

    msg['Subject'] = sub

    msg['From'] = me

    msg['To'] = ";".join(to_list)

    try:

        s = smtplib.SMTP()

        s.connect(mail_host)

        s.login(mail_user,mail_pass)

        s.sendmail(me, to_list, msg.as_string())

        s.close()

        return True

    except Exception, e:

        print str(e)

        return False

mail_to_list=["zxmever@gmail.com"]

msg=sys.argv[2]

msg=msg.replace("\\n","\r\n")

print msg

send_mail(mail_to_list,sys.argv[1],msg)

执行：

sh bi_report.sh

[源码分享] HIVE表数据量统计&邮件的更多相关文章

sql server编写通用脚本自动统计各表数据量心得
工作过程中,如果一个数据库的表比较多,手工编写统计脚本就会比较繁琐,于是摸索出自动生成各表统计数据量脚本的通用方法,直接上代码: /* 脚本来源:https://www.cnblogs.com/zha ...
sql server的数据库个数、表个数及表的数据量统计
sql server的数据库个数.表个数及表的数据量统计 --由于今天要监控数据,急需统计实例中1有多少库2库里有多少表3每个表有多少数据 --将写好的代码贴出来,用到如下的: --sysobje ...
Mysql分库分表导出导入和数据量统计测试
需求:添加创建了分库分表后,业务可能将数据已经写入,但未来得及接入到otter汇总库.接入汇总库前需要初始化这部分数据. 1.导出 ip_port_list ) len=${#ip_port_list ...
Newlife商业源码分享
[商业源码]生日大放送-Newlife商业源码分享今天是农历六月二十三,是@大石头的生日,记得每年生日都会有很劲爆的重量级源码送出,今天Newlife群和论坛又一次疯狂了,吃水不忘挖井人,好的东西肯 ...
微信小程序——智能小秘“遥知之”源码分享（语义理解基于olami）
微信小程序智能生活小秘书开发详解 >>>>>>>>>>>>>>>>>>>>> ...
[DeviceOne开发]-土地销售项目源码分享
一.简介这个是一个真实项目开源,虽然不是很花哨,但是中规中矩,小细节处理的也很好,非常值得参考和借鉴.里面的数据都缓存到本地,可以离线运行,但是调整一下代码,马上就可以和服务端完全对接.后续会有详细 ...
3D语音天气球（源码分享）——完结篇
转载请注明本文出自大苞米的博客(http://blog.csdn.net/a396901990),谢谢支持! 开篇废话: 由于这篇文章是本系列最后一篇,有必要进行简单的回顾和思路整理. 这个程序是由两 ...
3D语音天气球（源码分享）——通过天气服务动态创建3D球
转载请注明本文出自大苞米的博客(http://blog.csdn.net/a396901990),谢谢支持! 开篇废话: 这个项目准备分四部分介绍: 一:创建可旋转的"3D球":3 ...
iOS上线项目源码分享
最强UINavigationController和TabBar结合(会员satian ) 最强UINavigationController和TabBar结合的Demo,这里取用了明星衣橱app里的 ...

随机推荐

gcc g++ 参数介绍
C和C++ 编译器是集成的.他们都要用四个步骤中的一个或多个处理输入文件: 预处理 (preprocessing),编译(compilation),汇编(assembly)和连接(linking).源 ...
hihoCoder #1179 : 永恒游戏 (暴力枚举)
题意: 给出一个有n个点的无向图,每个点上有石头数个,现在的游戏规则是,设置某个点A的度数为d,如果A点的石子数大于等于d,则可以从A点给每个邻接点发一个石子.如果游戏可以玩10万次以上,输出INF, ...
[转载] ubuntu Authentication failure
ubuntu的root用户默认是禁止的,需要手动打开才行.事实上ubuntu下的所有操作都用不到root用户,由于sudo的合理使用,避免了root用户下误操作而产生的毁灭性问题.root账号启用方法 ...
使用 foreach 操作数组
foreach 并不是 Java 中的关键字,是 for 语句的特殊简化版本,在遍历数组.集合时, foreach 更简单便捷.从英文字面意思理解 foreach 也就是“ for 每一个”的意思,那 ...
Mysql避免全表扫描sql查询优化 .
对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引: .尝试下面的技巧以避免优化器错选了表扫描: · 使用ANALYZE TABLE tbl_n ...
nginx上传目录配置,禁止执行权限
我们经常会把网站的图片文件上传目录设置为只可上传文件但不能执行文件,就是要禁止执行权限,小编来给大家举一个上传目录配置,禁止执行权限方法,各位可参考. 如果不让有执行权限最简单的办法代码如下复制 ...
Safari on iOS 7 中Element.getClientRects的Bug
在Safari浏览器中,DOMElement和Range对象都提供了getBoundingClientRect方法和getClientRects方法.顾名思义,getBoundingClientRec ...
Golang做的验证码（2）
前面一篇文章介绍了2个用Golang做的验证码 http://www.cnblogs.com/ghj1976/p/3392847.html 这里再补充几个: 1.在GAE上使用的Google的验证码 ...
textBox只能输入汉字
private void textBox1_KeyPress(object sender, KeyPressEventArgs e) { if ((e.KeyChar > 0 && ...
认识Agile，Scrum和DevOps
If everything's under control you are going too slow. 当今的开发,要求faster and faster.所以我们要Agile,become Ag ...

[源码分享] HIVE表数据量统计&邮件

[源码分享] HIVE表数据量统计&邮件的更多相关文章

随机推荐

热门专题