HADOOP的API简单介绍

 public class HdfsClient {

     FileSystem fs = null;

     @Before

     public void init() throws Exception {

         // 构造一个配置参数对象，设置一个参数：我们要访问的hdfs的URI

         // 从而FileSystem.get()方法就知道应该是去构造一个访问hdfs文件系统的客户端，以及hdfs的访问地址

         // new Configuration();的时候，它就会去加载jar包中的hdfs-default.xml

         // 然后再加载classpath下的hdfs-site.xml

         Configuration conf = new Configuration();

         conf.set("fs.defaultFS", "hdfs://master:9000");

         /**

          * 参数优先级： 1、客户端代码中设置的值 2、classpath下的用户自定义配置文件 3、然后是服务器的默认配置

          */

         conf.set("dfs.replication", "2");

         conf.set("dfs.block.size","64m");

         // 获取一个hdfs的访问客户端，根据参数，这个实例应该是DistributedFileSystem的实例

 //         fs = FileSystem.get(conf);

         // 如果这样去获取，那conf里面就可以不要配"fs.defaultFS"参数，而且，这个客户端的身份标识已经是hadoop用户

         fs = FileSystem.get(new URI("hdfs://master:9000"), conf, "hadoop");

         // 获取文件系统相关信息

         DatanodeInfo[] dataNodeStats = ((DistributedFileSystem) fs).getDataNodeStats();

         for(DatanodeInfo dinfo: dataNodeStats){

             System.out.println(dinfo.getHostName());

         }

     }

     /**

      * 往hdfs上传文件

      *

      * @throws Exception

      */

     @Test

     public void testAddFileToHdfs() throws Exception {

         // 要上传的文件所在的本地路径

         Path src = new Path("g:/apache-flume-1.6.0-bin.tar.gz");

         // 要上传到hdfs的目标路径

         Path dst = new Path("/");

         fs.copyFromLocalFile(src, dst);

         fs.close();

     }

     /**

      * 从hdfs中复制文件到本地文件系统

      *

      * @throws IOException

      * @throws IllegalArgumentException

      */

     @Test

     public void testDownloadFileToLocal() throws IllegalArgumentException, IOException {

 //        fs.copyToLocalFile(new Path("/apache-flume-1.6.0-bin.tar.gz"), new Path("d:/"));

         fs.copyToLocalFile(false,new Path("/apache-flume-1.6.0-bin.tar.gz"), new Path("d:/"),true);

         fs.close();

     }

     /**

      * 目录操作

      * @throws IllegalArgumentException

      * @throws IOException

      */

     @Test

     public void testMkdirAndDeleteAndRename() throws IllegalArgumentException, IOException {

         // 创建目录

         fs.mkdirs(new Path("/a1/b1/c1"));

         // 删除文件夹 ，如果是非空文件夹，参数2必须给值true

         fs.delete(new Path("/aaa"), true);

         // 重命名文件或文件夹

         fs.rename(new Path("/a1"), new Path("/a2"));

     }

     /**

      * 查看目录信息，只显示文件

      *

      * @throws IOException

      * @throws IllegalArgumentException

      * @throws FileNotFoundException

      */

     @Test

     public void testListFiles() throws FileNotFoundException, IllegalArgumentException, IOException {

         // 思考：为什么返回迭代器，而不是List之类的容器， 如果文件特大， 那不就崩啦！ 迭代器是每迭代一次都向服务器取一次

         RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);

         while (listFiles.hasNext()) {

             LocatedFileStatus fileStatus = listFiles.next();

             System.out.println(fileStatus.getPath().getName());//文件名

             System.out.println(fileStatus.getBlockSize());//block块的大小

             System.out.println(fileStatus.getPermission());//文件的权限

             System.out.println(fileStatus.getLen());//字节数

             BlockLocation[] blockLocations = fileStatus.getBlockLocations();//获取block块

             for (BlockLocation bl : blockLocations) {

                 System.out.println("block-length:" + bl.getLength() + "--" + "block-offset:" + bl.getOffset());

                 String[] hosts = bl.getHosts();    //主机名

                 for (String host : hosts) {

                     System.out.println(host);

                 }

             }

             System.out.println("--------------为angelababy打印的分割线--------------");

         }

     }

     /**

      * 查看文件及文件夹信息

      *

      * @throws IOException

      * @throws IllegalArgumentException

      * @throws FileNotFoundException

      */

     @Test

     public void testListAll() throws FileNotFoundException, IllegalArgumentException, IOException {

         FileStatus[] listStatus = fs.listStatus(new Path("/"));

         String flag = "d-- ";

         for (FileStatus fstatus : listStatus) {

             if (fstatus.isFile())  flag = "f-- ";

             System.out.println(flag + fstatus.getPath().getName());

             System.out.println(fstatus.getPermission());

         }

     }

 }

hadoop底层用流调用的api

 **

  * 相对那些封装好的方法而言的更底层一些的操作方式

  * 上层那些mapreduce   spark等运算框架，去hdfs中获取数据的时候，就是调的这种底层的api

  * @author

  *

  */

 public class StreamAccess {

     FileSystem fs = null;

     @Before

     public void init() throws Exception {

         Configuration conf = new Configuration();

         fs = FileSystem.get(new URI("hdfs://hadoop01:9000"), conf, "hadoop");

     }

     @Test

     public void testDownLoadFileToLocal() throws IllegalArgumentException, IOException{

         //先获取一个文件的输入流----针对hdfs上的

         FSDataInputStream in = fs.open(new Path("/jdk-7u65-linux-i586.tar.gz"));

         //再构造一个文件的输出流----针对本地的

         FileOutputStream out = new FileOutputStream(new File("c:/jdk.tar.gz"));

         //再将输入流中数据传输到输出流

         IOUtils.copyBytes(in, out, 4096);

     }

     @Test

     public void testUploadByStream() throws Exception{

         //hdfs文件的输出流

         FSDataOutputStream fsout = fs.create(new Path("/aaa.txt"));

         //本地文件的输入流

         FileInputStream fsin = new FileInputStream("c:/111.txt");

         IOUtils.copyBytes(fsin, fsout,4096);

     }

     /**

      * hdfs支持随机定位进行文件读取，而且可以方便地读取指定长度

      * 用于上层分布式运算框架并发处理数据

      * @throws IllegalArgumentException

      * @throws IOException

      */

     @Test

     public void testRandomAccess() throws IllegalArgumentException, IOException{

         FSDataInputStream in = fs.open(new Path("/iloveyou.txt"));//先获取一个文件的输入流----针对hdfs上的

         in.seek(22);    //可以将流的起始偏移量进行自定义

         FileOutputStream out = new FileOutputStream(new File("c:/iloveyou.line.2.txt"));//再构造一个文件的输出流----针对本地的

         IOUtils.copyBytes(in,out,19L,true);    //apache的工具类， 3.缓冲大小，4.是否关闭流

     }

     /**

      * 读取指定的block

      * @throws IOException

      * @throws IllegalArgumentException

      */

     @Test

     public void testCat() throws IllegalArgumentException, IOException{

         FSDataInputStream in = fs.open(new Path("/weblog/input/access.log.10"));

         //拿到文件信息

         FileStatus[] listStatus = fs.listStatus(new Path("/weblog/input/access.log.10"));

         //获取这个文件的所有block的信息

         BlockLocation[] fileBlockLocations = fs.getFileBlockLocations(listStatus[0], 0L, listStatus[0].getLen());

         //第一个block的长度

         long length = fileBlockLocations[0].getLength();

         //第一个block的起始偏移量

         long offset = fileBlockLocations[0].getOffset();

         System.out.println(length);

         System.out.println(offset);

         //获取第一个block写入输出流

 //        IOUtils.copyBytes(in, System.out, (int)length);

         byte[] b = new byte[4096];

         FileOutputStream os = new FileOutputStream(new File("d:/block0"));

         while(in.read(offset, b, 0, 4096)!=-1){

             os.write(b);

             offset += 4096;

             if(offset>length) return;

         };

         os.flush();

         os.close();

         in.close();

     }

 }

本代码来自传智播客，版权归传智播客所有

HADOOP的API简单介绍的更多相关文章

jira以及jira API简单介绍
最近需要预言:是否可以通过jira API实现用例管理,对jira的应用.API.扩展等进行了一定的了解. Jira介绍: jira是目前比较流行的基于Java架构的管理系统(Atlassian公司支 ...
kafka-python的API简单介绍
在上一篇文章中说明了kafka-python的API使用的理论概念,这篇文章来说明API的实际使用. 在官方文档详细列出了kafka-python的API接口https://kafka-python. ...
webservice和wcf和web.api简单介绍
转自:无废话的wcf等等在.net平台下,有大量的技术让你创建一个HTTP服务,像Web Service,WCF,现在又出了Web API.在.net平台下,你有很多的选择来构建一个HTTP Ser ...
嵌入式 Linux下curl库API简单介绍
1:CURLcode curl_global_init(long flags); 这个函数全局需要调用一次(多次调用也可以,不过没有必要), 所以这也是把Curlplus设计成单体类的原因,curl_ ...
基于Selenium2+Java的UI自动化(4) - WebDriver API简单介绍
1. 启动浏览器前边有详细介绍启动三种浏览器的方式(IE.Chrome.Firefox): private WebDriver driver = null; private String chrom ...
salesforce零基础学习（八十五）streaming api 简单使用（接近实时获取你需要跟踪的数据的更新消息状态）
Streaming API参考链接: https://trailhead.salesforce.com/en/modules/api_basics/units/api_basics_streaming ...
Hadoop简单介绍
Hadoop历史雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 随后在2003 ...
Hadoop源码学习笔记之NameNode启动场景流程一：源码环境搭建和项目模块及NameNode结构简单介绍
最近在跟着一个大佬学习Hadoop底层源码及架构等知识点,觉得有必要记录下来这个学习过程.想到了这个废弃已久的blog账号,决定重新开始更新. 主要分以下几步来进行源码学习: 一.搭建源码阅读环境二. ...
【Hadoop离线基础总结】Hue的简单介绍和安装部署
目录 Hue的简单介绍概述核心功能安装部署下载Hue的压缩包并上传到linux解压编译安装启动启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...

随机推荐

5天不再惧怕多线程——第一天尝试Thread
随笔 - 218 文章 - 1 评论 - 3819 5天不再惧怕多线程——第一天尝试Thread 原本准备在mongodb之后写一个lucene.net系列,不过这几天用到多线程时才发现自己 ...
nginx结合tomcat一起使用
反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客户端,此时 ...
cannot be read or is not a valid ZIP file
在eclipse下创建 maven 项目,运行 flowable 6.1.2 配置maven之后,下载相应的依赖库. 发现报错: Archive for required library: '/Use ...
linux, windows, mac, ios等平台GCC预编译宏判断
写跨平台c/c++程序的时候,需要搞清各平台下面的预编译宏,区分各平台代码.而跨平台c/c++编程,GCC基本在各平台都可以使用.整理了一份各平台预编译宏的判断示例. 需要注意几点: * window ...
[python] 获得所有的最长公共子序列
两句闲话得到两个序列的最长公共子序列(LCS)是个经典问题,使用动态规划,实现起来并不难. 一般来说,我们只是输出一个LCS.但是,老师布置的作业是输出所有的LCS. 解法按照一般的方法,我们首先 ...
python库之_thread
官方参考文档:https://docs.python.org/3.7/library/_thread.html _thread库方法 (1) _thread.error (2)_thread.Lock ...
kali视频(1-5)
第二周 kali视频(1-5) 1.kali安装 2.基本配置 vmtools安装过程. 3.安全渗透测试一般流程 4.信息搜集之GoogleHack 5.信息搜集之目标获取 1.kali安装直接在 ...
MySQL免安装版安装配置、修改密码
一:MySQL的下载安装 1.1 下载我下载的是 ZIP Archive 版的,win7 64位的机器支持使用,而且相对而言,简单.干净. 首先,进入MySQL的官方网址,依次点击Downloads ...
volley源码解析-Throwable类源码解析
前提知识点: 1.Serializable接口作用:表示可序列化的语义.就是Java提供的通用数据保存和读取接口.任何类型实现了Serializeable接口,就可以被保存到文件中,或者作为数据流通 ...
【ftp】服务器的链接命令
1. 连接ftp服务器格式:ftp [hostname| ip-address] a)在Linux命令行下输入: ftp 192.168.1.1 b)服务器询问你用户名和密码,分别输入用户名和相应密 ...

HADOOP的API简单介绍

HADOOP的API简单介绍的更多相关文章

随机推荐

热门专题