Hadoop 使用基础
[摘录自] https://www.yiibai.com/hadoop/hadoop_hdfs_operations.html#article-start
一、HDFS 使用基础
格式化配置HDFS文件系统,打开NameNode(HDFS服务器),然后执行 hadoop namenode -format
格式化HDFS后,启动分布式文件系统, $ start-dfs.sh
找出文件列表中的目录,文件状态,可以传递一个目录或文件名作为参数: hadoop fs -ls <args>
创建一个输入目录: hadoop fs -mkdir /user/input
传输本地数据文件存储Hadoop文件系统: hadoop fs -put /home/file.txt /user/input
查看来自HDFS的数据: hadoop fs -cat /user/output/outfile
从HDFS得到文件: hadoop fs -get /user/output/ /home/hadoop_tp/
可以使用下面的命令关闭HDFS: $ stop-dfs.sh
在“$HADOOP_HOME/bin/hadoop fs” 里有更多的命令。./bin/hadoop DFS 列出所有可以使用在FsShell系统上运行的命令。此外,$HADOOP_HOME/bin/hadoop fs -help 命令名称会显示一个简短的用法。
所有表的操作如下所示。以下是使用参数一般方式:
"<path>" means any file or directory name.
"<path>..." means one or more file or directory names.
"<file>" means any filename.
"<src>" and "<dest>" are path names in a directed operation.
"<localSrc>" and "<localDest>" are paths as above, but on the local file system.
所有其他文件和路径名是指HDFS内部的对象。
| 1. |
ls <path> 列出路径指定的目录中的内容,示出了名称,权限,拥有者,大小和修改日期的每个条目。 |
| 2. |
lsr <path> 行为类似于-ls,但递归显示路径的所有子目录项。 |
| 3. |
du <path> 显示磁盘使用率,以字节为单位,对所有的文件,这些文件匹配的路径;文件名报告使用完整HDFS协议前缀。 |
| 4. |
dus <path> 类似-du,但打印路径中的所有文件/目录的磁盘使用情况的摘要。 |
| 5. |
mv <src><dest> 通过移动表示src到dest,在HDFS的文件或目录。 |
| 6. |
cp <src> <dest> 在HDFS复制确定src中的文件或目录到dest。 |
| 7. |
rm <path> 删除文件或路径标识的空目录。 |
| 8. |
rmr <path> 删除路径标识的文件或目录。递归删除所有子条目(例如,文件或路径的子目录)。 |
| 9. |
put <localSrc> <dest> 从本地localSrc文件系统中的DFS标识文件或目录内复制到dest。 |
| 10. |
copyFromLocal <localSrc> <dest> 等同于-put |
| 11. |
moveFromLocal <localSrc> <dest> 从标识 localSrc本地文件系统中的文件或目录中HDFS复制到dest,然后删除本地副本上成功。 |
| 12. |
get [-crc] <src> <localDest> 拷贝标识 src 来确定localDest本地文件系统路径HDFS文件或目录。 |
| 13. |
getmerge <src> <localDest> 检索匹配的路径的src HDFS中的所有文件,并将它们复制合并文件到标识localDest本地文件系统中。 |
| 14. |
cat <filen-ame> 显示在标准输出文件名的内容。 |
| 15. |
copyToLocal <src> <localDest> 等同于 -get |
| 16. |
moveToLocal <src> <localDest> 工作方式类似于-get,但删除HDFS复制成功。 |
| 17. |
mkdir <path> 在创建一个HDFS命名的目录路径。 创建任何父目录的路径丢失(例如,命令mkdir-p在Linux中)。 |
| 18. |
setrep [-R] [-w] rep <path> 设置标识路径代表文件的目标文件复制因子。 (实际的复制因子会向着随着时间的推移目标移动) |
| 19. |
touchz <path> 创建在路径包含当前时间作为时间戳的文件。失败如果文件已经存在于路径,除非文件已经大小为0。 |
| 20. |
test -[ezd] <path> 返回1,如果路径存在;长度为零;或者是一个目录,否则为0。 |
| 21. |
stat [format] <path> 打印有关的路径信息。格式是接受块文件大小(%b),文件名(%n),块大小(%o),复制(%r)和修改日期(%y,%Y)的字符串。 |
| 22. |
tail [-f] <file2name> 显示在标准输出文件的最后1KB。 |
| 23. |
chmod [-R] mode,mode,... <path>... 变化符合路径标识的一个或多个对象关联的文件权限....递归执行变更与R.模式是3位八进制模式,或{augo}+/-{rwxX}。假设如果没有指定范围,则不适用umask。 |
| 24. |
chown [-R] [owner][:[group]] <path>... 设置拥有用户和/或组标识路径的文件或目录....设置所有者递归,如果指定-R。 |
| 25. |
chgrp [-R] group <path>... 设置所属组标识路径的文件或目录....设置组递归,如果指定-R。 |
| 26. |
help <cmd-name> 返回使用上面列出的命令之一信息。必须省略了'-' 字符在cmd。 |
二、基于java的MapReduce job 例子
1. 新建java maven项目,添加如下依赖项:
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-core</artifactId>
<version>1.2.1</version>
</dependency>
2. 编写java code:
Hadoop 使用基础的更多相关文章
- hadoop rpc基础
第一部分: hadoop rpc基础 RPC,远程程序调用,分布式计算中C/S模型的一个应用实例. 同其他RPC框架一样,Hadoop分为四个部分: 序列化层:支持多种框架实现序列化与反序列化 函数调 ...
- Hadoop(分布式系统基础架构)---Hive与HBase区别
对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的.本文将尝试从其各自的定义.特点.限制.应用场景等角度来进行分析,以作抛砖引玉之用. Hive是什么? Apache Hive是 ...
- Hadoop程序基础模板
分布式编程相对复杂,而Hadoop本身蒙上大数据.云计算等各种面纱,让很多初学者望而却步.可事实上,Hadoop是一个很易用的分布式编程框架,经过良好封装屏蔽了很多分布式环境下的复杂问题,因此,对普通 ...
- Hadoop框架基础(五)
** Hadoop框架基础(五) 已经部署了Hadoop的完全分布式集群,我们知道NameNode节点的正常运行对于整个HDFS系统来说非常重要,如果NameNode宕掉了,那么整个HDFS就要整段垮 ...
- Hadoop 框架基础(四)
** Hadoop 框架基础(四) 上一节虽然大概了解了一下 mapreduce,徒手抓了海胆,不对,徒手写了 mapreduce 代码,也运行了出来.但是没有做更深入的理解和探讨. 那么…… 本节目 ...
- Hadoop框架基础(三)
** Hadoop框架基础(三) 上一节我们使用eclipse运行展示了hdfs系统中的某个文件数据,这一节我们简析一下离线计算框架MapReduce,以及通过eclipse来编写关于MapReduc ...
- Hadoop框架基础(二)
** Hadoop框架基础(二) 上一节我们讨论了如何对hadoop进行基础配置已经运行一个简单的实例,接下来我们尝试使用eclipse开发. ** maven安装 简单介绍:maven是一个项目管理 ...
- Hadoop框架基础(一)
** Hadoop框架基础(一) 学习一个新的东西,传统而言呢,总喜欢漫无目的的扯来扯去,比如扯扯发展史,扯扯作者是谁,而我认为这些东西对于刚开始接触,并以开发为目的学者是没有什么帮助的,反而 ...
- 【Hadoop离线基础总结】oozie的安装部署与使用
目录 简单介绍 概述 架构 安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...
- 【Hadoop离线基础总结】Hue的简单介绍和安装部署
目录 Hue的简单介绍 概述 核心功能 安装部署 下载Hue的压缩包并上传到linux解压 编译安装启动 启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...
随机推荐
- python学习资料资源
廖雪峰python教程: http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000 简明py ...
- Mybatis——Spring整合
一.引入依赖 Spring的相关jar包 mybatis-3.4.1.jar mybatis-spring-1.3.0.jar mysql-connector-java-5.1.37-bin.jar ...
- vis用于做3D图表的js插件
vis.js用于做3D图表:(浏览网站需要FQ)实例:http://visjs.org/graph3d_examples.html代码下载:https://github.com/almende/vis
- MVC值提供组件ValueProvider的继承关系
MVC请求过程中中各组件调用顺序:值提供组件(IValueProvider)->模型绑定组件(IModelBinder)->模型验证组件 值提供组件接口 public interface ...
- css总结5:px、em、rem区别介绍
1 PX px像素(Pixel).相对长度单位.像素px是相对于显示器屏幕分辨率而言的. PX特点 1. 浏览器无法调整px单位的字体,以em或rem为字体单位可调整字体. 2 EM em是相对长度单 ...
- 使用java实现单链表----(java中的引用就是指针)
//一直以为java中没有指针,其实java的引用就是指针,只不过堆栈中的引用储存了在堆中的地址,可以看做java中的指针.public class sibgleLink<E> { // ...
- 阿里 vs. 腾讯,谁的收购更有眼光?
近年来我们国内企业高速发展,各大集团纷纷收购其他公司发展自己,在这么多的集团收购里面尤其以阿里巴巴和腾讯的收购引人注目.在2014年里阿里巴巴先后投资了中信,美国奢侈品电子商务lstdibs,高德,优 ...
- C# LINQ(7)
大部分的LINQ的关键字都说了,最后说一下排序吧. LINQ的是查询的利器. 那么查询就会有排序. 所有LINQ提供了两种简单的排序.倒序和默认排序. 关键字是: orderby ascending ...
- git you need to resolve your current index first 解决办法
当使用git checkout 切换分支时会提示you need to resolve your current index first,使用如下命令即可解决. $ git reset --merge
- ubuntu命令行安装tomcat8
环境: 虚拟机VM14 Ubuntu16.04 java 1.8 步骤: 先更新 sudo apt-get update 然后安装: sudo apt-get install tomcat8 等一会 ...