基本文件命令:

格式为:hadoop fs -cmd <args>

cmd的命名通常与unix对应的命令名相同。例如,文件列表命令: hadoop fs -ls

1、添加目录和文件

HDFS有一个默认的工作目录 /user/$USER,其中$USER是你的登录用户名。不过目录不会自动建立,我们现在用mkdir建立它,我使用的是chen作为用户名。

hadoop fs -mkdir /user/chen

(hadoop的mkdir命令会自动创建父目录,类似于带-p的unix命令)

我们现在放本地文件系统的一个文件进去。

hadoop fs -put example.txt .

最后一个参数是句点,相当于放入了默认的工作目录,等价于 hadoop fs -put example.txt /user/chen

当你把文件放入HDFS上后,你就可以运行Hadoop程序来处理它。

2、检索文件

get命令与put命令相反,它从HDFS复制文件回到本地文件系统。

hadoop fs -get example.txt .

复制到本地的当前工作目录中。

另一种是显示数据,用cat

hadoop fs -cat example.txt

3、删除文件

rm命令

hadoop fs -rm example.txt

也可以用来删除空目录

编程读写HDFS

利用HDFS给我们提供的API,我们同样可以访问它。

在Hadoop中用作文件操作的主类位于org.apache.hadoop.fs软件包中。包括常见的open、read、write、close。Hadoop文件的API起点是FileSystem类,这是一个与文件系统交互的抽象类,我们通过调用factory的方法FileSystem.get(Configuration conf)来取得所需的FileSystem实例,如下我们可以获得与HDFS接口的FileSystem对象:

Configuration conf = new Configuration();

FileSystem hdfs = FileSystem.get(conf);//获得HDFS的FileSystem对象

如果我们要实现HDFS与本地文件系统的交互,我们还需要获取本地文件系统的FileSystem对象

FileSystem local = FileSystem.getLocal(conf);//获得本地文件系统的FileSystem对象

以下代码讲解了一个例子,我们开发一个PutMerge程序,用于合并本地文件后放入HDFS,因为大文件HDFS处理起来比较容易,所以这个程序经常会在以后的开发中用到

import java.io.IOException;   
import org.apache.hadoop.conf.Configuration;   
import org.apache.hadoop.fs.FSDataInputStream;   
import org.apache.hadoop.fs.FSDataOutputStream;   
import org.apache.hadoop.fs.FileStatus;   
import org.apache.hadoop.fs.FileSystem;   
import org.apache.hadoop.fs.Path;   
public class PutMerge {   
    public static void main(String[] args) throws IOException {   
    Configuration conf = new Configuration();   
    FileSystem hdfs =FileSystem.get(conf); //获得HDFS文件系统的对象   
    FileSystem local = FileSystem.getLocal(conf);//获得本地文件系统的对象   
    Path inputDir = new Path(args[0]);//设定输入目录   
    Path hdfsFile = new Path(args[1]);//设定输出目录   
   try{   
       FileStatus[] inputFiles = local.listStatus(inputDir);//FileStatus的listStatus()方法获得一个目录中的文件列表   
      FSDataOutputStream out = hdfs.create(hdfsFile);//生成HDFS输出流   
      for(int i = 0; i < inputFiles.length; i ++){   
            System.out.println(inputFiles[i].getPath().getName());   
            FSDataInputStream in = local.open(inputFiles[i].getPath());//打开本地输入流   
          byte[] buffer = new byte[256];   
            int bytesRead = 0;   
            while((bytesRead = in.read(buffer))>0){   
            out.write(buffer,0,bytesRead);//通过一个循环来写入   
          }   
            in.close();   
         }   
         out.close();   
     }catch (IOException e) {   
           e.printStackTrace();   
     }   
 }

Hadoop:第一个程序操作HDFS

http://www.cnblogs.com/fora/archive/2011/07/20/2111870.html

HDFS文件系统基本文件命令、编程读写HDFS的更多相关文章

  1. 搭建maven开发环境测试Hadoop组件HDFS文件系统的一些命令

    1.PC已经安装Eclipse Software,测试平台windows10及Centos6.8虚拟机 2.新建maven project 3.打开pom.xml,maven工程项目的pom文件加载以 ...

  2. Maven下从HDFS文件系统读取文件内容

    需要注意以下几点 1.所以的包都是org.apache.hadoop.XXX 2.三个配置文件要放到指定文件夹中等待文件系统读取(src/main/resources):core-site.xml h ...

  3. HDFS dfsclient写文件过程 源码分析

    HDFS写入文件的重要概念 HDFS一个文件由多个block构成.HDFS在进行block读写的时候是以packet(默认每个packet为64K)为单位进行的.每一个packet由若干个chunk( ...

  4. Hadoop Shell命令(基于linux操作系统上传下载文件到hdfs文件系统基本命令学习)

    Apache-->hadoop的官网文档命令学习:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html FS Shell 调用文件系统( ...

  5. 大数据【二】HDFS部署及文件读写(包含eclipse hadoop配置)

    一 原理阐述 1' DFS 分布式文件系统(即DFS,Distributed File System),指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连.该系统架构 ...

  6. hadoop系列二:HDFS文件系统的命令及JAVA客户端API

    转载请在页首明显处注明作者与出处 一:说明 此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6 ...

  7. Ubuntu本地文件上传至HDFS文件系统出现的乱码问题及解决方案

    1.问题来源及原因 用shell命令上传到HDFS中之后出现中文乱码,在shell命令窗口查看如图: 在eclipse中的文件HDFS查看工具查看如图: 原因:上传至HDFS文件系统的文本文件(这里是 ...

  8. hue上配置HA的hdfs文件(注意,HA集群必须这样来配置才能访问hdfs文件系统)

    按照正常方式配置,发现无论如何也访问不了hdfs文件系统,因为我们是HA的集群,所以不能按照如下配置 将其改为 除此之外,还需要配置hdfs文件的 接着要去hadoop的目录下启动httpfs.sh ...

  9. HDFS分布式文件系统的常用命令行操作

    一.HDFS的客户端种类 1.网页形式  =>用于测试 网址为你的namenode节点的ip+50070的端口号,如: 192.168.50.128:50070 2.命令行形式 =>用于测 ...

随机推荐

  1. CentOS允许/禁止ping的方法

    一.临时生效 1.允许ping >/proc/sys/net/ipv4/icmp_echo_ignore_all 2.禁止ping >/proc/sys/net/ipv4/icmp_ech ...

  2. [图文]centos6.3搭建FTP服务器教程

    我一开始是参照这个教程做的 http://www.linuxren.net/better/centos63-ftp.html 可是问题总是免不了的,我遇到几个问题. 一开始使用terminal的时候一 ...

  3. JMeter对Selenium自动化代码进行压测

    原文转载:http://www.blogjava.net/qileilove/archive/2014/06/05/414423.html 准备工作: 将文件selenium-server-stand ...

  4. Linq- ExcuteQuery用法

    DataContext.ExecuteQuery<TResult> 方法 (String, Object[]) 语法: public IEnumerable<TResult> ...

  5. http和HTTPS的区别及SSL介绍

    简单来说: 在URL前加https://前缀表明是用SSL加密的. 你的电脑与服务器之间收发的信息传输将更加安全. Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定.  ...

  6. oracle的购买价格研究

    如果你是一个架构师,在数据库选型上除了技术选型,更重要的可能是性价比的选择,而oracle是现今排名第一的数据库,因此对oracle的价格有所了解是必须的. 几个要点: 1.oracle授权(也就是购 ...

  7. prmopt 提示框接收字符串,输入后按确定弹出警告框,警告内容为逆序的字符串

    虽然已经找到offer,但因为公司还没安排实习,所以在学校的时间多了很多.好吧,这段时间我用来备考四级啦(好悲催,还没过),然后这一天,闲着无聊,就帮妹妹看了这样子一道题目啦. 题目内容: 编制一个从 ...

  8. 比较ArrayList和LinkedList

    比较一:添加内容 涉及方法:add public void add_test(){ List<Person> addlist = new ArrayList<Person>() ...

  9. hdu 1018 Big Number (数学题)

    Problem Description Inmany applications very large integers numbers are required. Some of theseappli ...

  10. JavaScript学习心得(三)

    一 变量 var:变量声明 变量名 =:赋值 简单值类型 全局变量:编程的一般规则——应用程序应该只完成必须的最少功能,如果一个变量不是绝对必需,就不该是全局:全局变量对维护性能不利,因为需要一直维护 ...