脚本put数据到hdfs

1、vim putdata.sh

　　脚本功能：

　　每小时的第15分钟把上一小时的数据put到hdfs相应目录

　　为了避免大量的小文件，我们把文件夹下的文件cat到一个临时文件里，put成功后删除这个临时文件

#! /bin/bash
#当前时间
nowtime=`date +%Y%m%d%H%M%S`
echo "当前时间为：$nowtime"
#当前时间戳
currentTime=`date +%s`
echo "当时间戳为：$currentTime"
#上一小时时间戳
beforeHourTime=`expr $currentTime - 3600`
#上一小时时间
beforeHour=`date -d @$beforeHourTime +%Y%m%d%H%M%S`
echo "上一小时时间为：$beforeHour"
#截取
timeDir=${beforeHour:0:10}
echo "timeDir为：$timeDir"
#定义一个临时文件名
tmpFile=$timeDir"_tmp.ok"
#创建这个临时文件
#把/home/hadoop/testData/$timeDir/*的数据都cat到tmpFile文件里
cat /home/hadoop/testData/$timeDir/* >> /home/hadoop/testData/$tmpFile
#在hdfs上创建目录
hdfs dfs -mkdir -p /testData/$timeDir
#把数据put到$timeDir目录下
hdfs dfs -put /home/hadoop/testData/$tmpFile /testData/$timeDir
#删除这个临时文件
rm -f /home/hadoop/testData/$tmpFile

定时执行这个脚本：每小时的第15分钟执行这个脚本
15 * * * * sh -xb /home/hadoop/shellScript/putdata.sh 2>&1 >> /home/hadoop/a.log

脚本put数据到hdfs的更多相关文章

Http接口获取数据写入Hdfs
数据源类型:数组列表 [{field:value}, {field:value}, {field:value}, {field:value}] 1. 定义http数据源链接 package com.e ...
spark读取hdfs上的文件和写入数据到hdfs上面
def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.set("spark.master" ...
Sqoop2入门之导入关系型数据库数据到HDFS上(sqoop2-1.99.4版本)
sqoop2-1.99.4和sqoop2-1.99.3版本操作略有不同:新版本中使用link代替了老版本的connection,其他使用类似. sqoop2-1.99.4环境搭建参见:Sqoop2环境 ...
Client将数据读写HDFS流程
HDFS介绍 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统.是根据google发表的论文翻版的. 什么是分布式文件系统分布式文件系统(Dist ...
Logstash读取Kafka数据写入HDFS详解
强大的功能,丰富的插件,让logstash在数据处理的行列中出类拔萃通常日志数据除了要入ES提供实时展示和简单统计外,还需要写入大数据集群来提供更为深入的逻辑处理,前边几篇ELK的文章介绍过利用lo ...
kafka消费者实时消费数据存入hdfs java scalca 代码
hadoop-client依赖很乱调试很多次cdh版本好多jar没有用hadoop2.7.3可以自定义输出流的池子进行流管理 public void writeLog2HDFS(String p ...
通过微软 pai-fs 上传数据到HDFS （Microsoft OpenPAI）
准备环境 (个人使用记录,方便下次使用查阅~~) 首先保证PAI是登陆状态: 进入GitHub项目所在地址: https://github.com/Microsoft/pai/ 然后切换分支到具体 ...
sqoop将oracle数据导入hdfs集群
使用sqoop将oracle数据导入hdfs集群集群环境: hadoop1.0.0 hbase0.92.1 zookeeper3.4.3 hive0.8.1 sqoop-1.4.1-incubati ...
使用MapReduce将mysql数据导入HDFS
package com.zhen.mysqlToHDFS; import java.io.DataInput; import java.io.DataOutput; import java.io.IO ...

随机推荐

Java基础笔试练习（六）
1.在Java中,一个类可同时定义许多同名的方法,这些方法的形式参数个数.类型或顺序各不相同,传回的值也可以不相同.这种面向对象程序的特性称为? A.隐藏 B.覆盖 C.重载 D.Java不支持此特性 ...
02 File类的方法练习——遍历文件夹
思路需要遍历的文件夹 File 使用listFile列出下级文件及文件夹判断得到的list是否为空,为空则输出当前文件夹名称如果不为空,逐个判断是文件还是文件夹如果是文件,输出文件名如果是文 ...
C#中使用XML存储数据
创建XML文档首先引用System.Xml命名空间 1.初始化一个实例 XmlDocument xd = new XmlDocument(); 2.创建XML头文件声明 XmlDeclaration ...
两个gif图片动画效果
<div className="uploading-animation-tip-wrap"> <img src={require('~/shared/assets ...
2019牛客多校八 H. How Many Schemes (AC自动机,树链剖分)
大意: 给定树, 每条边有一个字符集合, 给定$m$个模式串, $q$个询问$(u,v)$, 对于路径$(u,v)$中的所有边, 每条边从对应字符集合中取一个字符, 得到一个串$s$, 求$s$至少包 ...
js中__proto__和prototype的区别和关系？（转）
转自知乎:https://www.zhihu.com/question/34183746
获取ApplicationContext进而获取Ioc实例方法
在正常情况下 spring管理的类可直接调用Ioc容器中的实例,但在一些特殊情况下(例如拦截器中获取dao实例),Bean需要实现某个功能,但该功能必须借助于Spring容器才能实现,此时就必须让该B ...
python之闭包、装饰器
一.学习Python的时候发现函数内部,还可以写函数,并且可以返回函数.觉得挺新奇的,主要是在探索装饰器(有点像Java的注解)的时候,发现这个理解还是很主要的,所以这里记录一下. 二.闭包 1)首先 ...
简单web性能测试工具——ab命令（ApacheBench）
ab命令(ApacheBench) ----------转载内容 ApacheBench(即ab)通常用来做网站性能压力测试,是性能调优过程中必不可少的一环,ab命令会创建很多的并发访问线程,模拟多个 ...
django.http.request中HttpRequest对象的一些属性与方法
HttpRequest对象的属性属性描述 path 表示提交请求页面完整地址的字符串,不包括域名,如 "/music/bands/the_beatles/". method 表 ...

脚本put数据到hdfs

脚本put数据到hdfs的更多相关文章

随机推荐

热门专题