HDFS-文件读取API

package com.zhen.hdfs;

import java.io.IOException;

import java.io.InputStream;

import java.net.URI;

import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IOUtils;

/**

 * @author FengZhen

 * @date 2018年8月12日

 *

 */

public class FileSystemReadAPI {

	/**

	 * FileSystem实例有几个静态工厂方法

	 * public static FileSystem get(Configuration conf) throws IOException

	 * 	return get(getDefaultUri(conf), conf);

	 * 	返回的是默认文件系统(在 conf/core-site.xml中指定的，如果没有指定，则使用默认的本地文件系统)

	 * public static FileSystem get(URI uri, Configuration conf) throws IOException

	 * 	通过给定的URI方案和权限来确定要使用的文件系统，如果给定URI中没有指定方案，则返回默认文件系统

	 * public static FileSystem get(final URI uri, final Configuration conf, final String user) throws IOException, InterruptedException

	 * 	作为给定用户来访问文件系统，对安全来说是至关重要的

	 *

	 * 在某些情况下，可能希望获取本地文件系统的运行实例，此时可以使用getLocal()方法

	 */

	public static void main(String[] args) {

		String uri = "hdfs://fz/user/hdfs/MapReduce/data/test.txt";

		String uri1 = "hdfs://fz/user/hdfs/MapReduce/data/test1.txt";

		String user = "hadoop";

		//getByUri(uri);

		//getByUriAndUser(uri, user);

		seekDoubleCat(uri1);

	}

	public static void getByUri(String uri) {

		Configuration conf = new Configuration();

		InputStream inputStream = null;

		try {

			FileSystem fileSystem = FileSystem.get(new URI(uri), conf);

			inputStream = fileSystem.open(new Path(uri));

			IOUtils.copyBytes(inputStream, System.out, 4096, false);

		} catch (IOException e) {

			e.printStackTrace();

		} catch (URISyntaxException e) {

			e.printStackTrace();

		} finally {

			IOUtils.closeStream(inputStream);

		}

	}

	public static void getByUriAndUser(String uri, String user) {

		Configuration conf = new Configuration();

		InputStream inputStream = null;

		try {

			FileSystem fileSystem = FileSystem.get(new URI(uri), conf, user);

			inputStream = fileSystem.open(new Path(uri));

			IOUtils.copyBytes(inputStream, System.out, 4096, false);

		} catch (IOException e) {

			e.printStackTrace();

		} catch (URISyntaxException e) {

			e.printStackTrace();

		} catch (InterruptedException e) {

			e.printStackTrace();

		} finally {

			IOUtils.closeStream(inputStream);

		}

	}

	/**

	 * 实际上，FileSystem对象中的open方法返回的是FSDataInputStream对象，而不是标准的java.io类对象。这个类是继承了java.io.DataInputStream接口的一个特殊类，并支持随机访问，由此可以从流的任意位置读取数据

	 * public class FSDataInputStream extends DataInputStream

    	implements Seekable, PositionedReadable,

      	ByteBufferReadable, HasFileDescriptor, CanSetDropBehind, CanSetReadahead,

      	HasEnhancedByteBufferAccess {}

	 */

	/**

	 * Seekable接口支持在文件中找到指定位置，并提供一个查询当前位置相对于文件其实位置偏移量(getPos())的查询方法

	 * public interface Seekable {

		  void seek(long pos) throws IOException;

		  long getPos() throws IOException;

		  @InterfaceAudience.Private

		  boolean seekToNewSource(long targetPos) throws IOException;

		}

		调用seek方法来定位大于文件长度的位置会引发IOException异常。与java.io.InputStream的skip不同，seek可以移动到文件中任意一个绝对位置，skip则只能相对于当前位置定位到另一个新位置。、

		注意，seek方法是一个相对高开销的操作，需要慎重使用

	 */

	public static void seekDoubleCat(String uri) {

		Configuration conf = new Configuration();

		FSDataInputStream inputStream = null;

		try {

			FileSystem fileSystem = FileSystem.get(new URI(uri), conf);

			inputStream = fileSystem.open(new Path(uri));

			IOUtils.copyBytes(inputStream, System.out, 4096, false);

			System.out.println("-------------------end-----------------");

			inputStream.seek(1);//索引

			IOUtils.copyBytes(inputStream, System.out, 4096, false);

		} catch (IOException e) {

			e.printStackTrace();

		} catch (URISyntaxException e) {

			e.printStackTrace();

		} finally {

			IOUtils.closeStream(inputStream);

		}

	}

}

HDFS-文件读取API的更多相关文章

HDFS文件读取详解
客户端与HDFS文件读取创建HDFS文件系统实例 FileSystem fs = FileSystem.get(new URI("hdfs://ns1"), new Config ...
FileReader文件读取API
:用来把文件读入内存,并且读取文件中的数据.FileReader接口提供了一个异步API,使用该API可以在浏览器主线程中异步访问文件系统,读取文件中的数据. 1.FileReader接口的方法 Fi ...
HDFS 文件读写过程
HDFS 文件读写过程 HDFS 文件读取剖析客户端通过调用FileSystem对象的open()来读取希望打开的文件.对于HDFS来说,这个对象是分布式文件系统的一个实例. Distributed ...
关于php文件读取的一些学习记录
初学PHP的时候使用了一些文件读取API,但是没有真正弄清楚各API的区别以及差异,于是找了一篇学习了一下,贴在这里,引用自IBM社区的一篇文章, 整体整理测试如下 <?php /** * Cr ...
Hadoop基础-HDFS的读取与写入过程
Hadoop基础-HDFS的读取与写入过程作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 为了了解客户端及与之交互的HDFS,NameNode和DataNode之间的数据流是什么样 ...
深度学习_1_Tensorflow_2_数据_文件读取
tensorflow 数据读取队列和线程文件读取, 图片处理问题:大文件读取,读取速度, 在tensorflow中真正的多线程子线程读取数据向队列放数据(如每次100个),主线程学习,不用全 ...
读取hdfs文件之后repartition 避免数据倾斜
场景一: api: textFile("hfds://....").map((key,value)).reduceByKey(...).map(实际的业务计算逻辑) 场景:hdf ...
Spark读取HDFS文件，文件格式为GB2312，转换为UTF-8
package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.hadoop.conf.Configur ...
【HDFS API编程】查看HDFS文件内容、创建文件并写入内容、更改文件名
首先,重点重复重复再重复: /** * 使用Java API操作HDFS文件系统 * 关键点: * 1)创建 Configuration * 2)获取 FileSystem * 3)...剩下的就是 ...
【HDFS API编程】从本地拷贝文件，从本地拷贝大文件，拷贝HDFS文件到本地
接着之前继续API操作的学习 CopyFromLocalFile: 顾名思义,从本地文件拷贝 /** * 使用Java API操作HDFS文件系统 * 关键点: * 1)create Configur ...

随机推荐

jQuery EasyUI介绍
官方定义:http://www.jeasyui.com/ what is JQuery EasyUI ? jQuery EasyUI framework helps you build your we ...
codevs1058 合唱队形==洛谷P1091 合唱队形
P1091 合唱队形题目描述 N位同学站成一排,音乐老师要请其中的(N-K)位同学出列,使得剩下的K位同学排成合唱队形. 合唱队形是指这样的一种队形:设K位同学从左到右依次编号为1,2…,K,他们的 ...
javascript基础(整理自手册网)
变量 person=null; //清空变量 carname="Volvo"; //赋值给未声明的变量, 它将会变成全局变量, 即使在函数内部 window.carnam; //所 ...
jfinal实现上传功能
首先,jsp页面:由于设置enctype="multipart/form-data",所以form里面的input的值以2进制的方式传过去. <form id="f ...
git的安装-环境变量配置
windows安装git和环境变量配置 2015.10.12 评论(0) 10,729 点此嗨一下 Git是一款免费.开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目. Git是一个开源 ...
[转载]移动页面所需meta元素和Viewport窗口知识点
Meta标签 vs Viewport http://www.2cto.com/kf/201409/335779.html http://blog.csdn.net/freshlover/articl ...
如何修改本地hosts文件？
1.window7修改本地hosts文件 # window7系统hosts文件位置 C:\Windows\System32\drivers\etc 2.linux # linux系统hosts文件位置 ...
关于Java中的toString()方法
package c07; class ewq{ public String toString() { return "ppppppppp"; } public static voi ...
Java里的4种引用类型
Java语言中,除了基本数据类型外,其他的都是指向各类对象的对象引用:Java中根据其生命周期的长短,将引用分为4类. 1 强引用特点:我们平常典型编码Object obj = new Object ...
Windows 上将Tomcat 8 安装为系统服务
第一部分应用场景需要服务器上Tomcat不显示启动窗口需要服务器上Tomcat开机自启动 ... 第二部分配置过程一.修改配置文件 1 {Tomcat_HOME}/bin/service.b ...

HDFS-文件读取API

HDFS-文件读取API的更多相关文章

随机推荐

热门专题