大数据学习——hdfs客户端流式操作代码的实现

package cn.itcast.bigdata.hdfs.diceng;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.*;

import org.apache.hadoop.io.IOUtils;

import org.junit.Before;

import org.junit.Test;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileOutputStream;

import java.io.IOException;

/**

 * 相对那些封装好的方法而言的更底层一些的操作方式

 * 上层那些mapreduce   spark等运算框架，去hdfs中获取数据的时候，就是调的这种底层的api

 *

 * @author

 */

public class StreamAccess {

    FileSystem fs = null;

    @Before

    public void init() throws Exception {

        Configuration conf = new Configuration();

        System.setProperty("HADOOP_USER_NAME", "root");

        conf.set("fs.defaultFS", "hdfs://mini1:9000");

        fs = FileSystem.get(conf);

//        fs = FileSystem.get(new URI("hdfs://hadoop01:9000"), conf, "root");

    }

    @Test

    public void testDownLoadFileToLocal() throws IllegalArgumentException, IOException{

        //先获取一个文件的输入流----针对hdfs上的

        FSDataInputStream in = fs.open(new Path("/jdk-7u65-linux-i586.tar.gz"));

        //再构造一个文件的输出流----针对本地的

        FileOutputStream out = new FileOutputStream(new File("c:/jdk.tar.gz"));

        //再将输入流中数据传输到输出流

        IOUtils.copyBytes(in, out, 4096);

    }

    @Test

    public void testUploadByStream() throws Exception{

        //hdfs文件的输出流

        FSDataOutputStream fsout = fs.create(new Path("/aaa.txt"));

        //本地文件的输入流

        FileInputStream fsin = new FileInputStream("c:/111.txt");

        IOUtils.copyBytes(fsin, fsout,4096);

    }

    /**

     * hdfs支持随机定位进行文件读取，而且可以方便地读取指定长度

     * 用于上层分布式运算框架并发处理数据

     * @throws IllegalArgumentException

     * @throws IOException

     */

    @Test

    public void testRandomAccess() throws IllegalArgumentException, IOException{

        //先获取一个文件的输入流----针对hdfs上的

        FSDataInputStream in = fs.open(new Path("/iloveyou.txt"));

        //可以将流的起始偏移量进行自定义

        in.seek(22);

        //再构造一个文件的输出流----针对本地的

        FileOutputStream out = new FileOutputStream(new File("d:/iloveyou.line.2.txt"));

        IOUtils.copyBytes(in,out,19L,true);

    }

    /**

     * 读取指定的block

     * @throws IOException

     * @throws IllegalArgumentException

     */

    @Test

    public void testCat() throws IllegalArgumentException, IOException{

        FSDataInputStream in = fs.open(new Path("/weblog/input/access.log.10"));

        //拿到文件信息

        FileStatus[] listStatus = fs.listStatus(new Path("/weblog/input/access.log.10"));

        //获取这个文件的所有block的信息

        BlockLocation[] fileBlockLocations = fs.getFileBlockLocations(listStatus[0], 0L, listStatus[0].getLen());

        //第一个block的长度

        long length = fileBlockLocations[0].getLength();

        //第一个block的起始偏移量

        long offset = fileBlockLocations[0].getOffset();

        System.out.println(length);

        System.out.println(offset);

        //获取第一个block写入输出流

//        IOUtils.copyBytes(in, System.out, (int)length);

        byte[] b = new byte[4096];

        FileOutputStream os = new FileOutputStream(new File("d:/block0"));

        while(in.read(offset, b, 0, 4096)!=-1){

            os.write(b);

            offset += 4096;

            if(offset>length) return;

        };

        os.flush();

        os.close();

        in.close();

    }

}

大数据学习——hdfs客户端流式操作代码的实现的更多相关文章

大数据学习：storm流式计算
Storm是一个分布式的.高容错的实时计算系统.Storm适用的场景: 1.Storm可以用来用来处理源源不断的消息,并将处理之后的结果保存到持久化介质中. 2.由于Storm的处理组件都是分布式的, ...
大数据学习——hdfs客户端操作
package cn.itcast.hdfs; import org.apache.commons.io.IOUtils; import org.apache.hadoop.conf.Configur ...
大数据学习——点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（Hadoop HDFS）上
点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上 1需求说明点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上 2需求分 ...
大数据学习——HDFS的shell
-help 功能:输出这个命令参数手册 -ls 功能:显示目录信息示例: hadoop fs -ls hdfs://hadoop-server01:9000/ 备注:这些参数中,所有的hdfs路径都 ...
大数据学习——hdfs集群启动
第一种方式: 1 格式化namecode(是对namecode进行格式化) hdfs namenode -format(或者是hadoop namenode -format) 进入 cd /root/ ...
大数据学习总结（7）we should...
大数据场景一.各种标签查询查询要素:人.事.物.单位查询范围:A范围.B范围.... 查询结果:pic.name.data from 1.痛点:对所有文本皆有实时查询需求2.难点:传统SQL使用W ...
大数据学习笔记——Hadoop编程实战之HDFS
HDFS基本API的应用(包含IDEA的基本设置) 在上一篇博客中,本人详细地整理了如何从0搭建一个HA模式下的分布式Hadoop平台,那么,在上一篇的基础上,我们终于可以进行编程实操了,同样,在编程 ...
大数据学习day31------spark11-------1. Redis的安装和启动，2 redis客户端 3.Redis的数据类型 4. kafka（安装和常用命令）5.kafka java客户端
1. Redis Redis是目前一个非常优秀的key-value存储系统(内存的NoSQL数据库).和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list ...
大数据学习系列之—HBASE
hadoop生态系统 zookeeper负责协调 hbase必须依赖zookeeper flume 日志工具 sqoop 负责 hdfs dbms 数据转换数据到关系型数据库转换大数据学习群119 ...

随机推荐

Hdu 3966 Aragorn's Story (树链剖分 + 线段树区间更新)
题目链接: Hdu 3966 Aragorn's Story 题目描述: 给出一个树,每个节点都有一个权值,有三种操作: 1:( I, i, j, x ) 从i到j的路径上经过的节点全部都加上x: 2 ...
[洛谷P3512 [POI2010]PIL-Pilots]
题目链接: 传送门走这里题目分析: 感觉不是很难啊--不像是蓝题(AC量也不像)恶意评分? 少打了一个+1调了半天,就这样居然还能过60pts?我思路和题解第一篇高度重合是什么鬼啊,太过分了吧本来还 ...
洛谷P2502[HAOI2006]旅行
题目: Z小镇是一个景色宜人的地方,吸引来自各地的观光客来此旅游观光.Z小镇附近共有N个景点(编号为1,2,3,-,N),这些景点被M条道路连接着,所有道路都是双向的,两个景点之间可能有多条道路.也许 ...
LCA+树状数组 POJ 2763 Housewife Wind
题目传送门题意:两种操作,问u到v的距离,并且u走到了v:把第i条边距离改成w 分析:根据DFS访问顺序,将树处理成链状的,那么回边处理成负权值,那么LCA加上BIT能够知道u到v的距离,BIT存储 ...
JavaScript--字符串常用方法总结
JavaScript--字符串常用方法总结举例模板: var str = "what are you " var str1 = "sss" var txt = ...
wamp无法进入phpMyAdmin或localhost的解决方法
我用的是最新版的wampsever5,在win7(64位)下安装正常使用,没有无法进入phpMyAdmin的问题,但是我在虚拟机安装了win8(64位专业版),测试在win8下面的使用情况时,就有问题 ...
archsummit_bj2016
http://bj2016.archsummit.com/schedule 大会日程 2016年12月02日,星期五 7:45-9:00 签到 8:45-9:00 开始入场 9:00-9:30 开场致 ...
wkWebView 的一些问题
导语 WKWebView 是苹果在 WWDC 2014 上推出的新一代 webView 组件,用以替代 UIKit 中笨重难用.内存泄漏的 UIWebView.WKWebView 拥有60fps滚动刷 ...
Linux 合并多个txt文件到一个文件
Linux 或类Unix 下实现合并多个文件内容到一个文件中代码如下 cat b1.txt b2.txt b3.txt > b_all.txt 或者 cat *.txt > merge ...
031_spark架构原理
spark核心组件 driver master worker executor task(只有task是线程) 核心组件的原理图解

大数据学习——hdfs客户端流式操作代码的实现

大数据学习——hdfs客户端流式操作代码的实现的更多相关文章

随机推荐

热门专题