大数据学习——hdfs客户端流式操作代码的实现

package cn.itcast.bigdata.hdfs.diceng;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.*;

import org.apache.hadoop.io.IOUtils;

import org.junit.Before;

import org.junit.Test;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileOutputStream;

import java.io.IOException;

/**

 * 相对那些封装好的方法而言的更底层一些的操作方式

 * 上层那些mapreduce   spark等运算框架，去hdfs中获取数据的时候，就是调的这种底层的api

 *

 * @author

 */

public class StreamAccess {

    FileSystem fs = null;

    @Before

    public void init() throws Exception {

        Configuration conf = new Configuration();

        System.setProperty("HADOOP_USER_NAME", "root");

        conf.set("fs.defaultFS", "hdfs://mini1:9000");

        fs = FileSystem.get(conf);

//        fs = FileSystem.get(new URI("hdfs://hadoop01:9000"), conf, "root");

    }

    @Test

    public void testDownLoadFileToLocal() throws IllegalArgumentException, IOException{

        //先获取一个文件的输入流----针对hdfs上的

        FSDataInputStream in = fs.open(new Path("/jdk-7u65-linux-i586.tar.gz"));

        //再构造一个文件的输出流----针对本地的

        FileOutputStream out = new FileOutputStream(new File("c:/jdk.tar.gz"));

        //再将输入流中数据传输到输出流

        IOUtils.copyBytes(in, out, 4096);

    }

    @Test

    public void testUploadByStream() throws Exception{

        //hdfs文件的输出流

        FSDataOutputStream fsout = fs.create(new Path("/aaa.txt"));

        //本地文件的输入流

        FileInputStream fsin = new FileInputStream("c:/111.txt");

        IOUtils.copyBytes(fsin, fsout,4096);

    }

    /**

     * hdfs支持随机定位进行文件读取，而且可以方便地读取指定长度

     * 用于上层分布式运算框架并发处理数据

     * @throws IllegalArgumentException

     * @throws IOException

     */

    @Test

    public void testRandomAccess() throws IllegalArgumentException, IOException{

        //先获取一个文件的输入流----针对hdfs上的

        FSDataInputStream in = fs.open(new Path("/iloveyou.txt"));

        //可以将流的起始偏移量进行自定义

        in.seek(22);

        //再构造一个文件的输出流----针对本地的

        FileOutputStream out = new FileOutputStream(new File("d:/iloveyou.line.2.txt"));

        IOUtils.copyBytes(in,out,19L,true);

    }

    /**

     * 读取指定的block

     * @throws IOException

     * @throws IllegalArgumentException

     */

    @Test

    public void testCat() throws IllegalArgumentException, IOException{

        FSDataInputStream in = fs.open(new Path("/weblog/input/access.log.10"));

        //拿到文件信息

        FileStatus[] listStatus = fs.listStatus(new Path("/weblog/input/access.log.10"));

        //获取这个文件的所有block的信息

        BlockLocation[] fileBlockLocations = fs.getFileBlockLocations(listStatus[0], 0L, listStatus[0].getLen());

        //第一个block的长度

        long length = fileBlockLocations[0].getLength();

        //第一个block的起始偏移量

        long offset = fileBlockLocations[0].getOffset();

        System.out.println(length);

        System.out.println(offset);

        //获取第一个block写入输出流

//        IOUtils.copyBytes(in, System.out, (int)length);

        byte[] b = new byte[4096];

        FileOutputStream os = new FileOutputStream(new File("d:/block0"));

        while(in.read(offset, b, 0, 4096)!=-1){

            os.write(b);

            offset += 4096;

            if(offset>length) return;

        };

        os.flush();

        os.close();

        in.close();

    }

}

大数据学习——hdfs客户端流式操作代码的实现的更多相关文章

大数据学习：storm流式计算
Storm是一个分布式的.高容错的实时计算系统.Storm适用的场景: 1.Storm可以用来用来处理源源不断的消息,并将处理之后的结果保存到持久化介质中. 2.由于Storm的处理组件都是分布式的, ...
大数据学习——hdfs客户端操作
package cn.itcast.hdfs; import org.apache.commons.io.IOUtils; import org.apache.hadoop.conf.Configur ...
大数据学习——点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（Hadoop HDFS）上
点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上 1需求说明点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上 2需求分 ...
大数据学习——HDFS的shell
-help 功能:输出这个命令参数手册 -ls 功能:显示目录信息示例: hadoop fs -ls hdfs://hadoop-server01:9000/ 备注:这些参数中,所有的hdfs路径都 ...
大数据学习——hdfs集群启动
第一种方式: 1 格式化namecode(是对namecode进行格式化) hdfs namenode -format(或者是hadoop namenode -format) 进入 cd /root/ ...
大数据学习总结（7）we should...
大数据场景一.各种标签查询查询要素:人.事.物.单位查询范围:A范围.B范围.... 查询结果:pic.name.data from 1.痛点:对所有文本皆有实时查询需求2.难点:传统SQL使用W ...
大数据学习笔记——Hadoop编程实战之HDFS
HDFS基本API的应用(包含IDEA的基本设置) 在上一篇博客中,本人详细地整理了如何从0搭建一个HA模式下的分布式Hadoop平台,那么,在上一篇的基础上,我们终于可以进行编程实操了,同样,在编程 ...
大数据学习day31------spark11-------1. Redis的安装和启动，2 redis客户端 3.Redis的数据类型 4. kafka（安装和常用命令）5.kafka java客户端
1. Redis Redis是目前一个非常优秀的key-value存储系统(内存的NoSQL数据库).和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list ...
大数据学习系列之—HBASE
hadoop生态系统 zookeeper负责协调 hbase必须依赖zookeeper flume 日志工具 sqoop 负责 hdfs dbms 数据转换数据到关系型数据库转换大数据学习群119 ...

随机推荐

Palindromes in a Tree CodeForces - 914E
https://vjudge.net/problem/CodeForces-914E 点分就没一道不卡常的? 卡常记录: 1.把不知道为什么设的(unordered_map)s换成了(int[])s ...
字符串处理 Codeforces Round #297 (Div. 2) B. Pasha and String
题目传送门 /* 题意:给出m个位置,每次把[p,len-p+1]内的字符子串反转,输出最后的结果字符串处理:朴素的方法超时,想到结果要么是反转要么没有反转,所以记录每个转换的次数,把每次要反转的 ...
printf格式化输出参数
1.类型类型字符用以表示输出数据的类型,其格式符和意义如下表所示: 格式字符意义 d 以十进制形式输出带符号整数(正数不输出符号) o 以八进制形式输出无符号整数(不输出前缀0) x,X 以十六进 ...
Netbeans自定义折叠代码
只需要在模块开始注释以//<editor-fold>开始, 在模块结束行以 //</editor-fold>结束即可 Can I Create Custom Code Fold ...
(020)[虚拟系统]Win7网络连接红叉（无解决）
该虚拟机在重装主系统前是可以连接网络的,主系统重新安装以后,导入新安装的VM以后,网络图标显示红叉. 查看设备管理,显示没有安装以太网驱动. 重新安装 Vmware Tools,未果.VMware官网 ...
K-th Number 线段树的区间第K大
http://poj.org/problem?id=2104 由于这题的时间限制不紧,所以用线段树水一水. 每个节点保存的是一个数组. 就是对应区间排好序的数组. 建树的时间复杂度需要nlogn 然后 ...
python中函数参数
默认参数注意点优点:灵活,当没有指定与形参对应的实参时就会使用默认参数缺陷: 例子: >>> def h(m, l=[]): #默认参数时列 ...
python_9（模块补充）
第1章 re模块补充 1.1 贪婪匹配:回溯算法 1.2 .*?的用法 1.3 例:分组<name>取值 1.4 匹配整数删除小数 1.5 正则测试地址第2章重点模块 2.1 hash ...
input标签属性
很多时候,我们都用到了很多标签实现输入功能,所以在这里梳理一下. 1.建立一个文本框 <input type="text" name="userName" ...
#error和#line使用分析
#error的用法 #error用于生成一个编译错误消息用法:error message(不需要用双引号包围) #error编译指示字用于自定义程序员特有的编译错误,消息类似的 #warning用于 ...

大数据学习——hdfs客户端流式操作代码的实现

大数据学习——hdfs客户端流式操作代码的实现的更多相关文章

随机推荐

热门专题