HDFS恢复误删操作的方法
1、通过垃圾箱恢复
使用这种方式的前提是在hdfs上面开启trash功能,默认是没有开启的。interval的值默认为0,单位是分钟。只需要在hadoop的配置文件core-site.xml中添加下面的内容:
<!--Enable Trash -->
<property>
<name>fs.trash.interval</name>
<value>120</value>
</property>
<property>
<name>fs.trash.checkpoint.interval</name>
<value>120</value>
</property>
添加好上述内容后,不需要重启后台程序,直接就会生效。
执行删除操作后,会先将文件移动到当前操作用户的.Trash/Current目录下面。例如:
[root@spark hadoop]# hdfs dfs -rm -r /widow
18/01/15 15:54:49 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 120 minutes, Emptier interval = 120 minutes.
Moved: 'hdfs://spark:9000/widow' to trash at: hdfs://spark:9000/user/root/.Trash/Current
我这里是以root用户进行操作的,所以HDFS上面上的路径/user/root/.Trash/Current
恢复:
#hdfs dfs -mv /user/root/.Trash/Current/widow /
如果确定要删除的文件,直接将文件或目录drop掉,不放到trash里面,删除的时候使用参数-skipTrash:
#hdfs dfs -rm -r -skipTrash /widow
2、通过快照恢复
hadoop从2.1版本后开始支持HDFS快照(SnapShot)功能,
- 快照创建瞬时性:除去inode的查询时间,算法消耗O(1)复杂度。
- 只有在对快照修改时才会消耗额外内存:内存使用O(M),M是被修改的文件或者目录数。
- DataNode的block不被复制:快照文件记录block列表和文件大小。不做数据的拷贝复制。
- 快照不会对正常HDFS操作产生不利影响:所有的修改都按照时间倒序排序,因此当前数据总能被直接访问到。快照数据是根据与当前数据进行变更部分的差值计算得来的。
创建快照前要先对目录进行检查是否可以创建快照:
#hdfs lsSnapshottableDir
一个可以快照的目录最多可以允许同时65536个快照同时存在,嵌套的可快照目录目前还不允许
管理员操作:
1)允许快照:
#hdfs dfsadmin -allowSnapshot <path>
path即想创建快照的目录的路径。通过上述命令将一个目录变成可快照的目录。
2)创建快照
一般使用普通用户操作,此用户需要有操作可快照目录的权限,最好是该目录的owner。管理员可以进行任何操作。
#hdfs dfs -createSnapshot <path> [<snapshotName>]
<path>可快照目录的路径,<snapshotName>快照的名称,可以不写,默认会生成一个格式为's'yyyyMMdd-HHmmss.SSS
3)删除快照
# hdfs dfs -deleteSnapshot <path> <snapshotName>
<path>可快照目录的路径 ,<snapshotName>快照的名称
4)重命名快照
# hdfs dfs -renameSnapshot <path> <oldname> <newname>
<path>可快照目录的路径,<oldname>老名字, <newname>新名字
5)获取可快照目录的信息
# hdfs lsSnapshottableDir
6)获取快照的差异报告
#hdfs snapshotDiff <path> <fromSnapshot> <toSnapshot>
<path>可快照目录的路径,<fromSnapshot>源快照名,<toSnapshot>目的快照名
结果:
| + | 文件或目录被创建。 |
| - | 文件或目录被删除。 |
| M | 文件或目录被修改。 |
| R | 文件或目录被重命名。 |
已经创建快照的目录无法被删除,只有删除该目录下的所有快照,才允许删除这个目录。
使用方式:
1)创建快照:
#hdfs dfsadmin -allowSnapshot /widow
#hdfs dfs -put test.txt /widow
#hdfs dfs -createSnapshot /widow import-data
将test文件删除:
#hdfs dfs -rm -r /widow/test.txt
误删除后就可以使用快照目录进行恢复:
#hdfs dfs -cp -ptopax /widow/.snapshot/import-data/test.txt /widow
HDFS恢复误删操作的方法的更多相关文章
- 读Hadoop3.2源码,深入了解java调用HDFS的常用操作和HDFS原理
本文将通过一个演示工程来快速上手java调用HDFS的常见操作.接下来以创建文件为例,通过阅读HDFS的源码,一步步展开HDFS相关原理.理论知识的说明. 说明:本文档基于最新版本Hadoop3.2. ...
- 如何有效恢复误删的HDFS文件
HDFS是大数据领域比较知名的分布式存储系统,作为大数据相关从业人员,每天处理HDFS上的文件数据是常规操作.这就容易带来一个问题,实际操作中对重要数据文件的误删,那么如何恢复这些文件,就显得尤为重要 ...
- crontab误删操作的恢复与防范
1.crontab -r 误删操作的恢复 语句解析:crontab -e 编辑 与 crontab -r 删除,由于e, r在键盘上是紧邻的,一旦误操作 crontab -r 将会删除每个用户的定时任 ...
- Hadoop中操作HDFS出现异常的解决方法
Hadoop环境搭建成功后,一般会运行一个小例子,这时候就涉及到了对HDFS文件系统的操作,对于刚开始学习Hadoop的初学者一般会多次的进行name节点的格式化操作,最后导致上传文件会抛出异常,通过 ...
- PostgreSQL恢复误删数据
在Oracle中:删除表或者误删表记录:有个闪回特性,不需要停机操作,可以完美找回记录.当然也有一些其他的恢复工具:例如odu工具,gdul工具.都可以找回数据.而PostgreSQL目前没有闪回特性 ...
- git stash 的一次惊心动魄的误删操作
git stash 的一次惊心动魄的误删操作 简介:行走在互联网最低端的小熊 问题--源起: 小熊和所有混迹在互联网中的开发一样,公司里面用git来管理项目,由于可能经常有几个问题要开发,要频繁在多分 ...
- 利用JAVA API远程进行HDFS的相关操作
学习HDFS有一段时间了,现在把自己总结的HDFS的相关操作代码展示给大家. 主要有HDFS的增删改查,文件的追加,windows本地文件的上传,hdfs文件的下载,文件重命名,创建目录,文件是否存在 ...
- Mysql利用binlog日志恢复数据操作(转)
a.开启binlog日志:1)编辑打开mysql配置文件/etc/mys.cnf[root@vm-002 ~]# vim /etc/my.cnf在[mysqld] 区块添加 log-bin=mysql ...
- 三、hdfs的JavaAPI操作
下文展示Java的API如何操作hdfs,在这之前你需要先安装配置好hdfs https://www.cnblogs.com/lay2017/p/9919905.html 依赖 你需要引入依赖如下 & ...
随机推荐
- NoSQL数据库的分布式算法
本文译自 Distributed Algorithms in NoSQL Databases 系统的可扩展性是推动NoSQL运动发展的的主要理由,包含了分布式系统协调,故障转移,资源管理和许多其他特性 ...
- Excel 两列单元格合并超级链接的VBA 写法
Excel 单元格 分两列 (B列存放姓名, C列存放链接) 列如: 姓名 学号 博客地址 1309032022 李汉超 http://www.cnblogs.com/Vpygamalion/ 141 ...
- 机器学习实战-ch2-有标签的聚类算法
本书中的这个聚类算法多少有些让人意外.通常的聚类算法是这样的: 给定一堆点: 给定一个距离计算的算法: 给定一个cluster之间的距离d,或者最小的cluster数目k: 初始化,每个点作为初始集群 ...
- tensorflow 安装命令
sudo pip install --upgrade --ignore-installed six tensorflow-0.9.0-py2-none-any.whl
- socket粗解
百度定义:网络上的两个程序通过一个双向的通信连接实现数据的交换,这个连接的一端称为一个socket. Socket通信流程: 网络上的两个程序通过一个双向的通信连接实现数据的交换,这个连接的一端称为一 ...
- Devexpress中Gridcontrol查找分组
private void button1_Click(object sender, EventArgs e) { DataTable dt = new DataTable(); dt.Columns. ...
- 带你走进二进制-一次APT攻击分析
原文:https://osandamalith.com/2017/06/04/apt-attack-in-bangladesh/ 由prison翻译整理,首发i春秋 引言; 这是一次来自遥远国 ...
- 使用Flexbox:新旧语法混用实现最佳浏览器兼容
Flexbox非常的棒,肯定是未来布局的一种主流.在过去的几年这之中,语法改变了不少,这里有一篇“旧”和“新”新的语法区别教程(如果你对英文不太感兴趣,可以移步阅读中文版本).但是,如果我们把Flex ...
- Shell - 简明Shell入门10 - 管道(Pipe)
示例脚本及注释 #!/bin/bash echo '##### Number of *.conf : ' find /etc -name *.conf | grep system | wc -l ec ...
- postgresql-hdd,ssd,效率
既有ssd又有hdd是将数据存储到ssd还是将索引存储到ssd的效率更高呢? 一种说法是索引是随机扫描,将索引放入ssd效率会增高, 一种说法是将数据放入ssd效率更高 最好的情况是将数据和索引都 ...