data audit on hadoop fs

最近项目中遇到了存储在HDFS上的数据格式不对，是由于数据中带有\r\n的字符，程序处理的时候没有考虑到这些情况。历史数据大概有一年的时间，需要把错误的数据或者重复的数据给删除了，保留正确的数据，项目中使用Pig来进行数据处理，所以我写了一个UDF的JAVA类去过滤
那些错误的数据，把错误的数据和正确的数据分别存了一份，然后写了以下脚本统计数据的Schema和条数，记录下来，以后项目可以参考。

#!/bin/sh

curDir=`cd "$(dirname $0)";pwd`

summary(){

        files=""

        printf "job\ttotalQueries\tgoodQueries\tbadQueries\n" > $

        while read job

        do

                if [ -z files ]; then

                        files="$job/par*"

                else

                        files="$files $job/par*"

                fi

                totalQueries=`hadoop fs -text $job/par* | wc -l`

                goodQueries=`hadoop fs -text /user/chran/txt$job/par* |wc -l`

                badQueries=`hadoop fs -text /user/chran/txt/error$job/par* | wc -l`

                #distinctQueries=`hadoop fs -text $job/par* | awk -F '\a' '{ print NF }' | sort | uniq`

                printf "$job\t$totalQueries\t$goodQueries\t$badQueries\n" >> $

        done < $

}

check(){

        tempDir=$curDir/temp

        if [ ! -d $tempDir ]; then

                mkdir -p $tempDir

        fi

        #clean up result files

        output=$tempDir/$

        rm $output

        if ! hadoop fs -test -d $ ; then

                echo "$1 in HDFS doesn't exist"

                exit -

        fi

        #list all sub folders

        folderList=$tempDir/$.folderlist.temp

        #hadoop fs -ls $ | awk '{ print $NF }' | uniq | sort > $folderList

        hadoop fs -lsr $ | grep "/[0-9][0-9]\$" | grep "00\$" | awk '{ print $NF }' | uniq | sort > $folderList

        summary $folderList $output

        rm $folderList

}

check "/apps/risk/ars/social/raw/SOCIAL_FACEBOOK_RAW" "check_facebook.output.txt"

data audit on hadoop fs的更多相关文章

013_HDFS文件合并上传putmarge功能（类似于hadoop fs -getmerge）
场景合并小文件,存放到HDFS上.例如,当需要分析来自许多服务器的Apache日志时,各个日志文件可能比较小,然而Hadoop更合适处理大文件,效率会更高,此时就需要合并分散的文件.如果先将所有文件 ...
hadoop fs -put上传文件失败，WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Problem connecting to server: master:8020
hadoop fs -put上传文件失败报错信息:(test文件夹是已经成功建好的) [root@master ~]# hadoop fs -put test1.txt /test // :: WA ...
Hadoop fs 使用方法
hdfs的基本命令 hdfs dfs -help 查看帮助在HDFS的文件系统中,HDFS只支持绝对路径 1.-ls: 显示目录信息 hadoop fs -ls / 列出指定目录下的内容 2. ...
【转】Hadoop FS Shell命令
FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args> 的形式. 所有的的FS shell命令使用URI路径作为参数.URI格式是scheme ...
hadoop fs 命令
1,hadoop fs –fs [local | <file system URI>]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:hadoop ...
hadoop fs -mkdir testdata错误提示No such file or directory
解决方法: hadoop fs -mkdir -p testdata
Hadoop FS shell commands
命令格式:hadoop fs -command -option args appendToFileUsage: hadoop fs -appendToFile <localsrc> ... ...
何时使用hadoop fs、hadoop dfs与hdfs dfs命令(转)
hadoop fs:使用面最广,可以操作任何文件系统. hadoop dfs与hdfs dfs:只能操作HDFS文件系统相关(包括与Local FS间的操作),前者已经Deprecated,一般使用后 ...
hadoop fs管理文件权限
sudo addgroup Hadoop#添加一个hadoop组sudo usermod -a -G hadoop larry#将当前用户加入到hadoop组修改hadoop目录的权限sudo ch ...

随机推荐

context:component-scan扫描使用上的容易忽略的use-default-filters
问题如下方式可以成功扫描到@Controller注解的Bean,不会扫描@Service/@Repository的Bean.正确 <context:component-scan base-pa ...
PCL—低层次视觉—点云分割（基于凹凸性）
1.图像分割的两条思路场景分割时机器视觉中的重要任务,尤其对家庭机器人而言,优秀的场景分割算法是实现复杂功能的基础.但是大家搞了几十年也还没搞定——不是我说的,是接下来要介绍的这篇论文说的.图像分割 ...
UserAccountInfo时间倒计时
界面如下: 代码如下: using System;using System.Collections.Generic;using System.ComponentModel;using System.D ...
Webbrowser模拟百度一下子点击事件
Webbrowser模拟百度一下点击事件新建一个form,有一个button和一个webbrowser控件.然后webbrowser一开始加载的就是百度主页.然后在文本框里输入点东西,如何做到点击bu ...
Topcoder SRM 630 (500 floyed 暴力 _builtin_popcount())
题意:给n个点,保证图联通,给点相连的距离,求一个最多的点,这些点之间的距离都是相同的. 分析: 下面的代码是我们房间第一的大神的,写的很简洁,我的思路和他的一样,但是我不知道错哪了. 思路是暴力枚举 ...
ImageView的属性android:scaleType，即ImageView.setScaleType(ImageView.ScaleType)
1 imageView.setScaleType(ImageView.ScaleType.FIT_XY ); 1 这里我们重点理解ImageView的属性android:scaleType,即Imag ...
UVa 1636 (概率) Headshot
既然是第一道概率题,就正儿八经地分析一下吧. 题意: 有一个左轮枪,里面随机装了或者没装子弹,用一个01序列表示.现在已知扣动第一次扳机没有子弹,问是继续扣动扳机还是随机转动一下再扣,那种选择使得第二 ...
BestCoder Round #35
A 题意:给出n个黑球,m个白球,每次取1个球,取了n+m次以后,会生成一个随机的01串S, 如果第i次取出的是黑球,则s[i]=1,如果是白色的,那么s[i]=0, 问01串在S中出现的期望次数大 ...
ActivityManager: Warning: Activity not started, its current task has been brought to the front 的的问题
运行android程序的时候提示:ActivityManager: Warning: Activity not started, its current task has been brought t ...

data audit on hadoop fs

data audit on hadoop fs的更多相关文章

随机推荐

热门专题