awk算术运算一例:统计hdfs上某段时间内的文件大小
计算hdfs指定目录中所有文件名中包含2011-04-24的文件大小,并换算成GB: 
 $HADOOP_HOME/bin/hadoop fs -du /user/hdfs/s3/ifocus/*2011-04-24*  |awk '{sum += $1}END{print sum}'  |awk '{total=$1;base=1024*1024*1024;print total/base}'  
   如果要统计20号到24号所有文件大小的总和呢?
 #!/bin/bash 
 # 
 DIR=/log/tmp/cd 
  
 startdate="$1"
 date1=$(date -d "$1" "+%s")
 date2=$(date -d "$2" "+%s")
 date_count=$(echo "$date2 - $date1"|bc)
 day_m=$(echo "$date_count"/86400|bc)
  
 for ((sdate=0;sdate<"$day_m";sdate++))
 do
 DAY=$(date -d "$startdate $sdate days" "+%F")
    Size=$(~/hadoop-0.20.2-CDH3B4/bin/hadoop fs -du ${DIR}/*${DAY}* |awk '{sum += $1}END{printf "%u",sum}') 
    let a=${a}+${Size} 
 done 
  
 echo $a |awk '{total=$1;base=1024*1024*1024;print total/base}' 
    脚本比较简单,但由于shell不支持浮点数运算,搞了很久,才想起使用printf "%u"来指定用十进制表示文件大小,这才顺利完成脚本。计算的时候,指定起始日期,20110420,20110424。
   另外一个问题:最后那条shell语句是如何取得for循环中的变量$a的?Shell脚本里,要使用local关键字来标识局部变量;否则,变量默认为全局的,一直到脚本结束,当然前提是没有被后面的值覆盖。
   所以,在循环体外面引用循环体里面的变量是完全可以的。
直接在数据源上用正则表达式即可,
 $HADOOP_HOME/bin/hadoop fs -du /user/hdfs/s3/ifocus/*2011-04-2[0-4]*  |awk '{sum += $1}END{print sum}'  |awk '{total=$1;base=1024*1024*1024;print total/base}'
awk算术运算一例:统计hdfs上某段时间内的文件大小的更多相关文章
- 统计HDFS 上字节数据统计
		class HDFSWordCount { def main (args: Array[String]) { if (args.length > 0){ for (line <- Sour ... 
- HBase 在HDFS 上的目录树
		总所周知,HBase 是天生就是架设在 HDFS 上,在这个分布式文件系统中,HBase 是怎么去构建自己的目录树的呢? 这里只介绍系统级别的目录树. 一.0.94-cdh4.2.1版本 系 ... 
- shell脚本监控Flume输出到HDFS上文件合法性
		在使用flume中发现由于网络.HDFS等其它原因,使得经过Flume收集到HDFS上得日志有一些异常,表现为: 1.有未关闭的文件:以tmp(默认)结尾的文件.加入存到HDFS上得文件应该是gz压缩 ... 
- HBase在HDFS上的目录介绍
		总所周知,HBase 是天生就是架设在 HDFS 上,在这个分布式文件系统中,HBase 是怎么去构建自己的目录树的呢? 第一,介绍系统级别的目录树. 一.0.94-cdh4.2.1版本 系统级别的一 ... 
- HBase在HDFS上的目录树
		众所周知,HBase 是天生就是架设在 HDFS 上,在这个分布式文件系统中,HBase 是怎么去构建自己的目录树的呢? 这里只介绍系统级别的目录树: 一.0.94-cdh4.2.1版本 系统级别的一 ... 
- eclipse通过maven进行打包并且对hdfs上的文件进行wordcount
		在eclipse中配置自己的maven仓库 1.安装maven(用于管理仓库,jar包的管理) -1.解压maven安装包 -2.把maven添加到环境变量/etc/profile -3.添加mave ... 
- hadoop 将HDFS上多个小文件合并到SequenceFile里
		背景:hdfs上的文件最好和hdfs的块大小的N倍.如果文件太小,浪费namnode的元数据存储空间以及内存,如果文件分块不合理也会影响mapreduce中map的效率. 本例中将小文件的文件名作为k ... 
- Hadoop_常用命令(hdfs上)
		Hadoop_常用命令(hdfs上) hadoop fs所有文件系统都可以使用 hdfs dfs仅针对于hdfs文件系统 - 1 - 查看所有目录(文件夹)及文件 hdfs dfs -ls / - ... 
- 提效工具-python解析xmind文件及xmind用例统计
		现状 每个公司都有一个维护测试case的系统,有自研的也有买的,比如QC, 禅道等等,QA往往习惯使用xmind等思维导图工具来编写测试用例,因为思路清晰,编写方便,那么这就有一个问题,大多公司要求所 ... 
随机推荐
- 手動設定 電池溫度 mtk platform
			adb root adb shell echo "3 1 27" > ./proc/mtk_battery_cmd/battery_cmd 27 即是所要設定的溫度, 此設定 ... 
- 【软件设计】UML类图怎么看
			前言 无论使用哪种语言,都离不开面向过程与面向对象两个流派,而类图是面向对象程序设计中至关重要的一种软件表达形式,如何看懂类图,并设计好的软件架构,是我们作为软件工程师必不可少的技能之一. 今天小黑把 ... 
- Makefile系列之四 :条件判断
			一.示例 下面的例子,判断$(CC)变量是否“gcc”,如果是的话,则使用GNU函数编译目标. libs_for_gcc = -lgnu normal_libs = foo: $(objects) i ... 
- .net页面实时预览图片
			<script type="text/javascript"> //获取上传图片的本地路径 function getPath(obj){ if(obj) { if(na ... 
- ArcGIS Server配置端口
			写在前面,GIS服务器必须连通到外网,基于某些情况,可能一个机组有多态服务器,担任不同的角色,有Web服务器.数据库服务器和GIS服务器等,但是可能购买时只有一个外网IP,这样是不行的.JS脚本运行在 ... 
- MAC Pro 2017款 无线上网慢
			MAC Pro 2017款 在无线路由器和MAC相隔一个房间,上网很慢,怀疑是无线路由器有问题,但其他几台老款MAC和PC上网正常.后来将蓝牙关掉,上网就很快了. 
- php上传文件常见错误
			今天在文件上传过程中遇到的文件上传不过去,和网页报错,最后经查看总结有以下几个方面 上传文件错误码 error=0 正常上传 error=1 上传的大小超过了input[type=file]的文件上传 ... 
- CentOS7.5安装teamviwer13
			1.首先到官网下载teamviewer13的rpm包 https://www.teamviewer.com/zhcn/download/linux/ 2.安装 安装依赖包 http://mirror. ... 
- CentOS7安装和配置dns服务器
			(1)dns介绍 1.基本介绍 名字解析: NetBIOS名:localhost wins hosts FQDN:完全限定域名,www.baidu.com hosts文件: 作用:实现名字解析,主要为 ... 
- CentOS按电源键关机
			chkconfig --list查看没有acpid服务.安装之后解决yum install acpid -y 安装后需要重启,不然会提示:* Starting acpid ...acpid: can' ... 
