Hadoop学习笔记（三）：java操作Hadoop

1. 启动hadoop服务。

2. hadoop默认将数据存储带/tmp目录下，如下图：

由于/tmp是linux的临时目录，linux会不定时的对该目录进行清除，因此hadoop可能就会出现意外情况。下面对这个配置进行修改。修改core-site.xml文件vim /usr/local/hadoop/etc/hadoop/core-site.xml将这个值修改到/var/hadoop目录下

3. 修改完毕后，重启hadoop服务（stop-dfs.sh、start-dfs.sh），然后重新格式化namenode

hdfs namenode -format

4. 使用java来操作hdfs

5. 新建java项目，导入如下几个包：

a). hadoop安装目录下share/hadoop/common下的common包

b). hadoop安装目录下share/hadoop/common/lib下的所有包

c). hadoop安装目录下share/hadoop/hdfs下的hdfs包

6. 新建java类HelloHDFS.java，测试java程序读取hadoop当中存储的文件。现在我的hadoop集群根目录当中有一个Hello.java文件，下面用java程序来读取它。

 import java.io.InputStream;

 import java.net.URL;

 import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;

 import org.apache.hadoop.io.IOUtils;

 public class HelloHDFS {

     public static void main(String[] args) throws Exception {

         // 设置URL流处理器工厂，即URL按照什么协议进行处理，默认的是HTTP协议的处理工厂

         URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());

         URL url = new URL("hdfs://192.168.17.100:9000/Hello.java");

         InputStream is = url.openStream();

         IOUtils.copyBytes(is, System.out, 4096, true);

 　　　　 // 4096表示缓冲区的大小，true表示执行完毕后系统会自动关闭流

     }

 }

7. 运行上述程序，观察结果，发现已经读取到了hadoop当中存储文件。

8. 上述为方式一，下面介绍一种更好用的方式。

 // 方式二：

 Configuration conf = new Configuration();

 conf.set("fs.defaultFS", "hdfs://192.168.17.100:9000");

 FileSystem fs = FileSystem.get(conf);

 boolean success = fs.mkdirs(new Path("/skyer"));

 System.out.println(success);

上述代码为在hadoop根目录下创建一个skyer目录（如果原来就有该目录，会覆盖），并打印创建结果，结果为true。若出现下图错误：

在core-site.xml文件中将dfs.permissions.enabled配置为false，或者输入以下命令hadoop fs -chmod 777 /修改hadoop根目录的权限（危险，不推荐），还有一个方法是在windows机器上配置一个环境变量HADOOP-USER_NAME，还有一种方法是将

FileSystem fs = FileSystem.get(conf);

替换成

FileSystem fs = FileSystem.get(new URI("hdfs://192.168.17.100:9000"),conf,"root");

9. 其他操作hadoop的示例，直接看代码：

 public class HelloHDFS {

     public static void main(String[] args) throws Exception {

         // 方式二：

         Configuration conf = new Configuration();

         conf.set("fs.defaultFS", "hdfs://192.168.17.100:9000");

         FileSystem fs = FileSystem.get(conf);

         boolean success = fs.mkdirs(new Path("/skyer")); // 创建目录

         System.out.println(success);

         success = fs.exists(new Path("/skyer")); // 判断文件或者目录是否存在

         System.out.println(success);

         success = fs.delete(new Path("/skyer"), true);

         // 删除，第二个参数为true的话会真正的删除文件，为false的话是将该文件放到垃圾桶里

         System.out.println(success);

         // 上传文件到hadoop

         FSDataOutputStream out = fs.create(new Path("/upload.data"), true);

         FileInputStream fis = new FileInputStream("E://HelloHDFS.java");

         IOUtils.copyBytes(fis, out, 4096, true);

         // 列取目录下所有文件和目录的信息

         FileStatus[] statuses = fs.listStatus(new Path("/"));

         for (FileStatus status : statuses) {

             System.out.println(status.getPath());

             System.out.println(status.getPermission());

             System.out.println(status.getReplication());

         }

     }

 }

10. 在master机器上输入命令hadoop fs -text /upload.data进行查看示例中上传的文件，类似linux里的cat命令

Hadoop学习笔记（三）：java操作Hadoop的更多相关文章

Hadoop学习笔记(6) ——重新认识Hadoop
Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功 ...
Hadoop学习笔记——入门指令操作
假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop. 启动与关闭启动HADOOP1. 进入HADOOP_HOME目录. 2. 执行sh bin/start-all. ...
Hadoop学习笔记（一）Hadoop的单节点安装
要想深入学习Hadoop分布式文件系统,首先需要搭建Hadoop的实验环境,Hadoop有两种安装模式,即单节点集群模式安装(也称为伪分布式)和完全分布式模式安装,本节只介绍单节点模式的安装,参考官方 ...
hadoop学习笔记（五）hadoop伪分布式集群的搭建
本文原创,如需转载,请注明作者和原文链接 1.集群搭建的前期准备见搭建分布式hadoop环境的前期准备---需要检查的几个点 2.解压tar.gz包 [root@node01 ~]# ...
Hadoop学习笔记三
一.设置HDFS不进行权限检查默认的HDFS上的文件类似于Linux中的文件,是有权限的.例如test用户创建的文件,root用户如果没有写权限,则不能进行删除. 有2种办法进行修改,修改文件的权限 ...
Hadoop学习笔记(三) ——HDFS
参考书籍:<Hadoop实战>第二版第9章:HDFS详解 1. HDFS基本操作 @ 出现的bug信息 @-@ WARN util.NativeCodeLoader: Unable to ...
Hadoop学习笔记（2）hadoop框架解析
Hadoop是适合大数据的分布式存储与计算平台 HDFS的架构:主从式结构主节点只有一个NameNode,从节点可以有很多个DataNode. NameNode负责: (1)接收用户操作请求 (2) ...
Java基础学习笔记三 Java基础语法
Scanner类 Scanner类属于引用数据类型,先了解下引用数据类型. 引用数据类型的使用与定义基本数据类型变量不同,引用数据类型的变量定义及赋值有一个相对固定的步骤或格式. 数据类型变量名 ...
Hadoop学习笔记（4）hadoop集群模式安装
具体的过程参见伪分布模式的安装,集群模式的安装和伪分布模式的安装基本一样,只有细微的差别,写在下面: 修改masers和slavers文件: 在hadoop/conf文件夹中的配置文件中有两个文件ma ...
Hadoop学习笔记（3）hadoop伪分布模式安装
为了学习这部分的功能,我们这里的linux都是使用root用户登录的.所以每个命令的前面都有一个#符号. 伪分布模式安装步骤: 关闭防火墙修改ip地址修改hostname 设置ssh自动登录安装 ...

随机推荐

第44章：MongoDB-集群--Sharding(分片)--分片的片键选择
①片键选择的重要性所谓片键,就是用来拆分数据的字段,通常为1-2个字段,由于片键一旦确定,并已经分片过后,基本上就不可能再修改片键了,因此初期设计和选择就非常重要了 ②片键规则 1:不可以是数组 2 ...
pycharm License server激活
2018-11-15 pycharm License server激活有效:https://idea.ouyanglol.com/
wx 参数传值
1: data-id 我们可以给HTML元素添加自定义的data-*属性 example: 假设页面里有下面的元素存在: <div id="myDiv" data-nam ...
Yaf 完全精通
bugs 这样 _Bootstrap 的话,会导致严重的后果,cpu 100%
can't open the mysql.plugin table. please run mysql_upgrade to create it.
To initialize a fresh data directory, you basically (after setting your config file) just have to ru ...
多个子域名前端网站调用同一个webAPI时session混用问题
session机制: 当程序需要为某个客户端的请求创建一个session的时候,服务器首先检查这个客户端的请求里是否已包含了一个session标识 - 称为session id,如果已包含一个sess ...
influence maximization 第二弹
Robust Influence Maximization 首先简要介绍一下这个问题:在一个社交网络图中寻找固定数量的节点,使得这些节点对所有节点的影响值尽可能的大.先对这个问题给出形式化的定义:给一 ...
Senparc.Weixin SDK 微信公众号 .NET 开发教程索引
Senparc.WeixinSDK从一开始就坚持开源的状态,这个过程中得到了许多朋友的认可和支持. 目前SDK已经达到比较稳定的版本,这个过程中我觉得有必要整理一些思路和经验,和大家一起分享.也欢迎大 ...
js 大厦之JavaScript事件
1.js事件简介事件(Event) 是 JavaScript 应用跳动的心脏 ,进行交互,使网页动起来.也是把所有东西粘在一起的胶水.当我们与浏览器中 Web 页面进行某些类型的交互时,事件就发生了 ...
7.数据库、Contentobserver
群组页是程序内部维护的一个数据库,其中一张表groups,用于存放创建的群组,还有一张表thread_group,用于关联群组和系统短信数据库中的会话. 数据库应该这样设计 MySqliteHelpe ...

Hadoop学习笔记（三）：java操作Hadoop

Hadoop学习笔记（三）：java操作Hadoop的更多相关文章

随机推荐

热门专题