hadoop 数据抽取

#!/bin/bash

if [ ! -z $2 ]; then

        start_time=$1

        end_time=$2

else

        starttime=`date +%Y%m%d%H%M -d '-15 min'`

        #开始时间

        startday=${starttime:0:10}

        startmi=`expr ${starttime:10:2} / 15 \* 15`

        if [ $startmi != 0 ];then

                start_time=$startday$startmi

        else

                start_time=$startday"00"

        fi

        #结束时间

        endtime=`date +%Y%m%d%H%M`

        endday=${endtime:0:10}

        endmi=`expr ${endtime:10:2} / 15 \* 15`

        if [ $endmi != 0 ];then

                end_time=$endday$endmi

        else

                end_time=$endday"00"

        fi

fi

echo "数据时间为: $start_time--$end_time"

#创建目录

hadoop fs -mkdir cache/O_RE_ST_XDR_PS_GN_HTTP/$start_time

#上传数据时间段数据

for file in `ls /opt7/ftp/PS_Gn_HTTP_Event/${start_time:0:4}-${start_time:4:2}-${start_time:6:2}/*${start_time:0:10}*.CHK`

do

    #351_TM07_PSGnHTTPEvent201410021235_3720202.CHK

        #351_TM07_PSGnHTTPEvent201410021235_3720202.AVL

        basefile=`basename $file`

        date=${basefile:22:12}

        if [ $date -ge $start_time ] && [ $date -lt $end_time ];then

                avlfile=${file/%CHK/AVL}

                echo  $avlfile

        cp $avlfile /opt8/gz_data_temp/http/

                #hadoop fs -put $avlfile cache/O_RE_ST_XDR_PS_GN_HTTP/${start_time}/

        fi

done

#cat /opt8/gz_data_temp/http/*_*.AVL>/opt8/gz_data_temp/http/$start_time.AVL

#split -b 512m /opt8/gz_data_temp/http/$start_time.AVL /opt8/gz_data_temp/http/$start_time.AVL.

#echo `ls /opt8/gz_data_temp/http/$start_time.AVL`

#rm -f /opt8/gz_data_temp/http/*.AVL

`hadoop fs -put /opt8/gz_data_temp/http/*.AVL cache/O_RE_ST_XDR_PS_GN_HTTP/${start_time}/`

rm -f /opt8/gz_data_temp/http/*.AVL

echo "oozie--job-http-start!"

cd /home/boco/program

echo `java -cp .:../oozie/libserver/* com.boco.BSSystem.schedule.OozieRunner job_ods_a_xdr_ps_gn_http ${start_time}`

hadoop 数据抽取的更多相关文章

利用haohedi ETL将数据库中的数据抽取到hadoop Hive中
采用HIVE自带的apache 的JDBC驱动导入数据基本上只能采用Load data命令将文本文件导入,采用INSERT ... VALUES的方式插入速度极其慢,插入一条需要几十秒钟,基本上不可用 ...
HR数据抽取：通过 Read Master Data 转换规则读取时间相关主属性数据
声明:原创作品,转载时请注明文章来自SAP师太技术博客( 博/客/园www.cnblogs.com):www.cnblogs.com/jiangzhengjun,并以超链接形式标明文章原始出处,否则将 ...
《BI项目笔记》增量ETL数据抽取的策略及方法
增量抽取增量抽取只抽取自上次抽取以来数据库中要抽取的表中新增或修改的数据.在ETL使用过程中.增量抽取较全量抽取应用更广.如何捕获变化的数据是增量抽取的关键.对捕获方法一般有两点要求:准确性,能够将 ...
hadoop数据流转过程分析
hadoop:数据流转图(基于hadoop 0.18.3):通过一个最简单的例子来说明hadoop中的数据流转. hadoop:数据流转图(基于hadoop 0.18.3): 这里使用一个例子说明ha ...
hadoop数据[Hadoop] 实际应用场景之 - 阿里
上班之余抽点时间出来写写博文,希望对新接触的朋友有帮助.明天在这里和大家一起学习一下hadoop数据 Hadoop在淘宝和支付宝的应用从09年开始,用于对海量数据的离线处置,例如对日志的分析,也涉及内 ...
关系数据库数据与hadoop数据进行转换的工具 - Sqoop
Sqoop 本文所使用的Sqoop版本为1.4.6 1.官网 http://sqoop.apache.org 2.作用 A:可以把hadoop数据导入到关系数据库里面(e.g. Hive -> ...
数据抽取 CDC
什么是数据抽取数据抽取是指从源数据源系统抽取目的数据源系统需要的数据.实际应用中,数据源较多采用的是关系数据库. [编辑] 数据抽取的方式 (一) 全量抽取全量抽取类似于数据迁移或数据复制,它将数 ...
Kettle数据抽取解决方案
一. Kettle介绍 1. Kettle简介 ETL即数据抽取(Extract).转换(Transform).装载(Load)的过程.Kettle的中文翻译为水壶.Kettle以元数据驱动的方式提供 ...
BI项目中的ETL设计详解（数据抽取、清洗与转换）（转载）
原文:http://www.cnblogs.com/reportmis/p/5939732.html ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直 ...

随机推荐

CodeBlocks提供了预编译的WxWidgets模块，并预置TDM
Miscellaneous For Windows, we also provide the pre-compiled wxWidgets, version 2.8.12 used to compil ...
make 的参数
1. -j -j(表示 job 的数目)参数可以对项目在进行并行编译,比如在一台双核的机器上,完全可以用 make -j4,让make 最多允许 4 个编译命令同时执行,这样可以更有效的利用 CPU ...
更改linux的最大文件描述符限制
To ensure good server performance, the total number of client connections, database files, and log f ...
Android客户端后台发送邮件（JMail)
今天在做项目的时候要处理用户注册问题,里面有个邮箱验证,网上找了一下果然有人做过,但是我拿过来都运行不起来,或者是发送不了邮件.后来我对这个浅浅的研究了一下,贴出来和大家共享. Activity pa ...
UWP 扩展/自定义标题栏的方法，一些概念和一些注意事项
原文 UWP 扩展/自定义标题栏的方法,一些概念和一些注意事项在 Windows 10 的前几个版本中将页面内容扩展到标题栏上还算简单,主要是没什么坑.直到一些新控件的引入和一些外观设计趋势变化之后 ...
数学思想方法-python计算战(8)-机器视觉-二值化
二值化 hreshold Applies a fixed-level threshold to each array element. C++: double threshold(InputArray ...
数值范围选择控件RangeSlider
原文:数值范围选择控件RangeSlider RangeSlider控件用于在一个指定上下限的范围中选择一个数值范围,因此该控件的Maximum和Minimum属性用于指定上下限:而Selection ...
Linux性能测试命令大全
Linux 系统出现问题时,我们不仅需要查看系统日志信息,而且还要使用大量的性能监测工具来判断究竟是哪一部分(内存.CPU.硬盘……)出了问题.在 Linux 系统中,所有的运行参数保存在虚拟目录 ...
WPF中的菜单模板
原文:WPF中的菜单模板资源字典代码如下: <ResourceDictionary xmlns="http://schemas.microsoft.com/winfx/2006/xa ...
Folly: Facebook Open-source Library Readme.md 和 Overview.md（感觉包含的东西并不多，还是Boost更有用）
folly/ For a high level overview see the README Components Below is a list of (some) Folly component ...

hadoop 数据抽取

hadoop 数据抽取的更多相关文章

随机推荐

热门专题