Hadoop 使用基础

[摘录自] https://www.yiibai.com/hadoop/hadoop_hdfs_operations.html#article-start

一、HDFS 使用基础

格式化配置HDFS文件系统，打开NameNode(HDFS服务器)，然后执行 hadoop namenode -format

格式化HDFS后，启动分布式文件系统, $ start-dfs.sh

找出文件列表中的目录，文件状态，可以传递一个目录或文件名作为参数: hadoop fs -ls <args>

创建一个输入目录: hadoop fs -mkdir /user/input

传输本地数据文件存储Hadoop文件系统: hadoop fs -put /home/file.txt /user/input

查看来自HDFS的数据: hadoop fs -cat /user/output/outfile

从HDFS得到文件: hadoop fs -get /user/output/ /home/hadoop_tp/

可以使用下面的命令关闭HDFS: $ stop-dfs.sh

在“$HADOOP_HOME/bin/hadoop fs” 里有更多的命令。./bin/hadoop DFS 列出所有可以使用在FsShell系统上运行的命令。此外，$HADOOP_HOME/bin/hadoop fs -help 命令名称会显示一个简短的用法。

所有表的操作如下所示。以下是使用参数一般方式：

"<path>" means any file or directory name.

"<path>..." means one or more file or directory names.

"<file>" means any filename.

"<src>" and "<dest>" are path names in a directed operation.

"<localSrc>" and "<localDest>" are paths as above, but on the local file system.

所有其他文件和路径名是指HDFS内部的对象。

1.	ls <path> 列出路径指定的目录中的内容，示出了名称，权限，拥有者，大小和修改日期的每个条目。
2.	lsr <path> 行为类似于-ls，但递归显示路径的所有子目录项。
3.	du <path> 显示磁盘使用率，以字节为单位，对所有的文件，这些文件匹配的路径;文件名报告使用完整HDFS协议前缀。
4.	dus <path> 类似-du，但打印路径中的所有文件/目录的磁盘使用情况的摘要。
5.	mv <src><dest> 通过移动表示src到dest，在HDFS的文件或目录。
6.	cp <src> <dest> 在HDFS复制确定src中的文件或目录到dest。
7.	rm <path> 删除文件或路径标识的空目录。
8.	rmr <path> 删除路径标识的文件或目录。递归删除所有子条目（例如，文件或路径的子目录）。
9.	put <localSrc> <dest> 从本地localSrc文件系统中的DFS标识文件或目录内复制到dest。
10.	copyFromLocal <localSrc> <dest> 等同于-put
11.	moveFromLocal <localSrc> <dest> 从标识 localSrc本地文件系统中的文件或目录中HDFS复制到dest，然后删除本地副本上成功。
12.	get [-crc] <src> <localDest> 拷贝标识 src 来确定localDest本地文件系统路径HDFS文件或目录。
13.	getmerge <src> <localDest> 检索匹配的路径的src HDFS中的所有文件，并将它们复制合并文件到标识localDest本地文件系统中。
14.	cat <filen-ame> 显示在标准输出文件名的内容。
15.	copyToLocal <src> <localDest> 等同于 -get
16.	moveToLocal <src> <localDest> 工作方式类似于-get，但删除HDFS复制成功。
17.	mkdir <path> 在创建一个HDFS命名的目录路径。创建任何父目录的路径丢失（例如，命令mkdir-p在Linux中）。
18.	setrep [-R] [-w] rep <path> 设置标识路径代表文件的目标文件复制因子。（实际的复制因子会向着随着时间的推移目标移动）
19.	touchz <path> 创建在路径包含当前时间作为时间戳的文件。失败如果文件已经存在于路径，除非文件已经大小为0。
20.	test -[ezd] <path> 返回1，如果路径存在;长度为零;或者是一个目录，否则为0。
21.	stat [format] <path> 打印有关的路径信息。格式是接受块文件大小（％b），文件名（％n），块大小（%o），复制（％r）和修改日期（％y，％Y）的字符串。
22.	tail [-f] <file2name> 显示在标准输出文件的最后1KB。
23.	chmod [-R] mode,mode,... <path>... 变化符合路径标识的一个或多个对象关联的文件权限....递归执行变更与R.模式是3位八进制模式，或{augo}+/-{rwxX}。假设如果没有指定范围，则不适用umask。
24.	chown [-R] [owner][:[group]] <path>... 设置拥有用户和/或组标识路径的文件或目录....设置所有者递归，如果指定-R。
25.	chgrp [-R] group <path>... 设置所属组标识路径的文件或目录....设置组递归，如果指定-R。
26.	help <cmd-name> 返回使用上面列出的命令之一信息。必须省略了'-' 字符在cmd。

二、基于java的MapReduce job 例子

1. 新建java maven项目，添加如下依赖项：

<dependency>

　　<groupId>org.apache.hadoop</groupId>

　　<artifactId>hadoop-core</artifactId>

　　<version>1.2.1</version>

</dependency>

2. 编写java code：

Hadoop 使用基础的更多相关文章

hadoop rpc基础
第一部分: hadoop rpc基础 RPC,远程程序调用,分布式计算中C/S模型的一个应用实例. 同其他RPC框架一样,Hadoop分为四个部分: 序列化层:支持多种框架实现序列化与反序列化函数调 ...
Hadoop(分布式系统基础架构)---Hive与HBase区别
对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的.本文将尝试从其各自的定义.特点.限制.应用场景等角度来进行分析,以作抛砖引玉之用. Hive是什么? Apache Hive是 ...
Hadoop程序基础模板
分布式编程相对复杂,而Hadoop本身蒙上大数据.云计算等各种面纱,让很多初学者望而却步.可事实上,Hadoop是一个很易用的分布式编程框架,经过良好封装屏蔽了很多分布式环境下的复杂问题,因此,对普通 ...
Hadoop框架基础（五）
** Hadoop框架基础(五) 已经部署了Hadoop的完全分布式集群,我们知道NameNode节点的正常运行对于整个HDFS系统来说非常重要,如果NameNode宕掉了,那么整个HDFS就要整段垮 ...
Hadoop 框架基础（四）
** Hadoop 框架基础(四) 上一节虽然大概了解了一下 mapreduce,徒手抓了海胆,不对,徒手写了 mapreduce 代码,也运行了出来.但是没有做更深入的理解和探讨. 那么…… 本节目 ...
Hadoop框架基础（三）
** Hadoop框架基础(三) 上一节我们使用eclipse运行展示了hdfs系统中的某个文件数据,这一节我们简析一下离线计算框架MapReduce,以及通过eclipse来编写关于MapReduc ...
Hadoop框架基础（二）
** Hadoop框架基础(二) 上一节我们讨论了如何对hadoop进行基础配置已经运行一个简单的实例,接下来我们尝试使用eclipse开发. ** maven安装简单介绍:maven是一个项目管理 ...
Hadoop框架基础（一）
** Hadoop框架基础(一) 学习一个新的东西,传统而言呢,总喜欢漫无目的的扯来扯去,比如扯扯发展史,扯扯作者是谁,而我认为这些东西对于刚开始接触,并以开发为目的学者是没有什么帮助的,反而 ...
【Hadoop离线基础总结】oozie的安装部署与使用
目录简单介绍概述架构安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...
【Hadoop离线基础总结】Hue的简单介绍和安装部署
目录 Hue的简单介绍概述核心功能安装部署下载Hue的压缩包并上传到linux解压编译安装启动启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...

随机推荐

ubuntu 16.04 ARM glog移植
1. 下载源文件https://github.com/google/glog 2. 源文件有CMakeLists.txt, 直接使用toolchain.cmake 直接编译就可以了,详情参考我的随笔 ...
ROS naviagtion analysis: costmap_2d--StaticLayer
博客转载自:https://blog.csdn.net/u013158492/article/details/50493246 从UML中能够看到,StaticLayer主要是在实现Layer层要求实 ...
php二维数组修改键名
最近遇到一个问题,是关于json数据提交的时候,总是报出[object object]的错误,查了晚上需要资料,大部分的说法是json数据格式不规范导致的错误.一般建议说将dataType类型注释掉. ...
升级Ubuntu 12.04下的gcc到4.7
我们知道C++11标准开始支持类内初始化(in-class initializer),Qt creator编译出现error,不支持这个特性,原因在于,Ubuntu12.04默认的是使用gcc4.6, ...
很棒的bootstrap学习网站
http://www.w3cschool.cc/bootstrap/bootstrap-tutorial.html
关于 XML 字段内容查询
找到个总结相当好的知识点的归纳,记在自己的博客里也方便查询 /* sql xml 入门: --by jinjazz --http://blog.csdn.net/jinjazz ...
angular 辅助路由
CentOS 6.9下PXE+Kickstart无人值守安装操作系统
一.简介 1.1 什么是PXE PXE(Pre-boot Execution Environment,预启动执行环境)是由Intel公司开发的最新技术,工作于Client/Server的网络模式,支持 ...
day2学python 数据类型+深浅拷贝+循环
数据类型+深浅拷贝+循环别的语言的数组 python不用定义直接使用 color=['红','橙','黄','绿','青','蓝','紫'] print(color[1:3]) //打印[1,3) ...
IT职场中外企面试最爱提的问题
1.请介绍一下你自己. 这是外企常问的问题.一般人回答这个问题过于平常,只说姓名.年龄.爱好.工作经验,这些在简历上都有,其实,外企最希望知道的是求职者能否胜任工作,包括:最强的技能.最深入研究的知识 ...

Hadoop 使用基础

Hadoop 使用基础的更多相关文章

随机推荐

热门专题