Hadoop权威指南:通过FileSystem API读取数据

Hadoop权威指南:通过FileSystem API读取数据
- 获取FileSystem实例的几个静态方法
  - 获取本地文件系统的运行实例
  - 获取文件输入流
- 实现
  - 源文件名
  - 代码
  - 编译
  - 运行

在Hadoop中,FileSystem是一个通用的文件系统API

获取FileSystem实例的几个静态方法

public static FileSystem get(Configureation conf) throws IOException
public static FileSystem get(URI uri, Configureation conf) throws IOException
public static FileSystem get(URI uri, Configuration conf, String user) throws IOException

Configuration对象封装了客户端或服务器的配置,通过设置配置文件读取类路径来实现

第一种方法返回的是默认文件系统(在core-site.xml中指定, 如果没有指定则为默认)
第二种方法通过给定的URI方案和权限来确定要使用的文件系统,如果给定URI中没有指定方案,则返回默认文件系统
第三种方法,给定用户来访问文件系统,对安全来说至关重要

获取本地文件系统的运行实例

使用getLocal()方法获取本地文件系统的运行实例

public static LocalFileSystem getLocal(Configuration conf) throws IOException

获取文件输入流

有了FileSystem实例之后,调用open()函数来获取文件的输入流

public FSDataInputStream open(Path f) throws IOException
public abstract FSDataInputStream open(Path f, int bufferSize) throws IOException

第一种方法默认缓冲区大小为4kb

实现

源文件名

FileSystemCat.java

代码

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IOUtils;

import java.io.IOException;

import java.io.InputStream;

import java.net.URI;

public class FileSystemCat {

    public static void main(String[] args) throws IOException {

        String uri = args[0];

        Configuration conf = new Configuration();

        FileSystem fs = FileSystem.get(URI.create(uri), conf);

        InputStream in = null;

        try {

            in = fs.open(new Path(uri));

            IOUtils.copyBytes(in, System.out, 4096, false);

        } finally {

            IOUtils.closeStream(in);

        }

    }

}

编译

javac FileSystemCat.java

运行

hadoop FileSystemCat hdfs://localhost:9000/user/hadoop/in.txt

Hadoop权威指南:通过FileSystem API读取数据的更多相关文章

【Kafka】《Kafka权威指南》——从Kafka读取数据
应用程序使用 KafkaConsumer向 Kafka 订阅主题,并从订阅的主题上接收消息 . 从 Kafka 读取数据不同于从其他悄息系统读取数据,它涉及一些独特的概念和想法.如果不先理解这些概念 ...
Hadoop 使用FileSystem API 读取数据
代码: package com.hadoop; import java.io.IOException; import java.io.InputStream; import java.net.URI; ...
【NCDC数据】获取 hadoop权威指南3中的NCDC数据
vi getNcdcBigData.sh 内容如下: #!/bin/bash for i in {1901..2014} do cd /home/xxxx/hapood/ncdc wget --exe ...
基于python的《Hadoop权威指南》一书中气象数据下载和map reduce化数据处理及其可视化
文档内容: 1:下载<hadoop权威指南>中的气象数据 2:对下载的气象数据归档整理并读取数据 3:对气象数据进行map reduce进行处理关键词:<Hadoop权威指南> ...
Hadoop权威指南学习笔记三
HDFS简单介绍声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考.有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.net/my ...
转载：Hadoop权威指南学习笔记
转自:http://pieux.github.io/blog/2013-05-08-learn-hadoop-the-definitive-guide.html 1 前言 Hadoop的内部工作机制: ...
Hadoop权威指南文摘
第1章初识Hadoop 1.1 数据!数据! 1.2 数据的存储与分析 HDFS实现数据的存储,MapReduce实现数据额分析与处理 1.3 相较于其他系统的优势 MapReduce是一个批量查询 ...
Hadoop权威指南 - 学习笔记
初识Hadoop.关于MapReduce Hadoop宏观介绍相对于其他系统的优势关系型数据库管理系统为什么不能用配有大量硬盘的数据库进行大规模分析?为什么需要Hadoop? 因为计算机硬盘的发 ...
Hadoop权威指南:从Hadoop URL读取数据
[TOC] Hadoop权威指南:从Hadoop URL读取数据使用java.net.URL对象从Hadoop文件系统读取文件实现类似linux中cat命令的程序文件名 HDFSCat.java ...

随机推荐

C语言常见命名规范
C语言常见命名规范 1 常见命名规则比较著名的命名规则首推匈牙利命名法,这种命名方法是由Microsoft程序员查尔斯·西蒙尼(Charles Simonyi) 提出的.其主要思想是“在变量和函 ...
Python+Selenium+PhantomJS下载JavaScript异步加载网页
# -*- coding: utf-8 -*- from selenium import webdriver import selenium.webdriver.support.ui as ui fr ...
HDU 2489 Minimal Ratio Tree 最小生成树+DFS
Minimal Ratio Tree Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Other ...
Linux下Nginx、PHP、MySQL、Redis开机自启动设置
一.Nginx开机启动设置 1.在/etc/init.d/目录下创建脚本 vi /etc/init.d/nginx 2.更改脚本权限 chmod 775 /etc/init.d/nginx 3.编写脚 ...
ZOJ 3929 Deque and Balls
答案=所有情况中总共递减次数*2 放完i个和放完i-1个之间的递减次数是可以递推的. 有一部分是放完i-1个之后产生的,还有一部分是放完第i个之后新产生的. 注意减去多加的部分. 2的i次方可以打个表 ...
iOS js oc相互调用（JavaScriptCore）
http://blog.csdn.net/lwjok2007/article/details/47058795
Android之layout_weight属性详解
博文:http://www.cnblogs.com/net168/p/4227144.html讲分非常好,推荐下
Android L（5.0）源码之图形与图像处理之简单图片——Bitmap
最近在研究android 5.0的gallery模块,学习了相关的知识点,准备写点博客总结一下,有时间了会补充完整
nodejs抓取数据一(列表抓取)
纯属初学...有很多需要改进的地方,请多多指点... 目标是抓取58同城这个大分类下的列表数据: http://cd.58.com/caishui/?PGTID=14397169455980.924 ...
MVC分页控件的使用
1. 引用 using Webdiyer.WebControls.Mvc; 2. using Webdiyer.WebControls.Mvc; ) { )); } 3.数据来源 public cla ...

Hadoop权威指南:通过FileSystem API读取数据

Hadoop权威指南:通过FileSystem API读取数据

获取FileSystem实例的几个静态方法

获取本地文件系统的运行实例

获取文件输入流

实现

源文件名

代码

编译

运行

Hadoop权威指南:通过FileSystem API读取数据的更多相关文章

随机推荐

热门专题