[SequenceFile_2] SequenceFile 的基本操作

0. 说明

　　测试序列文件的读写操作 && 测试序列文件的排序操作 && 测试序列文件的合并操作 && 测试序列文件的压缩方式 && 测试将日志文件转换成序列文件

　　作为 Hadoop 序列文件中的 SequenceFile 的基本操作部分的补充存在

1. 测试读写 && 压缩

package hadoop.sequencefile;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.SequenceFile;

import org.apache.hadoop.io.Text;

import org.junit.Test;

import java.io.IOException;

/**

 * 测试序列文件

 */

public class TestSeqFile {

    /**

     * 测试序列文件写操作

     */

    @Test

    public void testWriteSeq() throws Exception {

        Configuration conf = new Configuration();

        // 设置文件系统为本地模式

        conf.set("fs.defaultFS", "file:///");

        FileSystem fs = FileSystem.get(conf);

//        Path path = new Path("E:/test/none.seq");

//        Path path = new Path("E:/test/record.seq");

        Path path = new Path("E:/test/block.seq");

        // 不压缩

//        SequenceFile.Writer writer = SequenceFile.createWriter(fs, conf, path, IntWritable.class, Text.class,SequenceFile.CompressionType.NONE);

        // 记录压缩

//        SequenceFile.Writer writer = SequenceFile.createWriter(fs, conf, path, IntWritable.class, Text.class,SequenceFile.CompressionType.RECORD);

        // 块压缩

        SequenceFile.Writer writer = SequenceFile.createWriter(fs, conf, path, IntWritable.class, Text.class, SequenceFile.CompressionType.BLOCK);

        for (int i = 1; i <= 1000; i++) {

            IntWritable key = new IntWritable(i);

            Text value = new Text("helloworld" + i);

            writer.append(key, value);

        }

        writer.close();

    }

    /**

     * 测试序列文件读操作

     */

    @Test

    public void testReadSeq() throws Exception {

        Configuration conf = new Configuration();

        // 设置文件系统为本地模式

        conf.set("fs.defaultFS", "file:///");

        FileSystem fs = FileSystem.get(conf);

        Path path = new Path("E:/test/block.seq");

        SequenceFile.Reader reader = new SequenceFile.Reader(fs, path, conf);

        //初始化两个 Writable 对象

        IntWritable key = new IntWritable();

        Text value = new Text();

        while ((reader.next(key, value))) {

            long position = reader.getPosition();

            System.out.println("key: " + key.get() + " , " + " val: " + value.toString() + " , " + " pos: " + position);

        }

    }

}

2. 测试排序

package hadoop.sequencefile;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.SequenceFile;

import org.apache.hadoop.io.Text;

import org.junit.Test;

import java.util.Random;

/**

 * 测试排序

 */

public class TestSeqFileSort {

    /**

     * 创建无序 key-value 文件

     */

    @Test

    public void testWriteRandom() throws Exception {

        Configuration conf = new Configuration();

        conf.set("fs.defaultFS", "file:///");

        FileSystem fs = FileSystem.get(conf);

        Path p = new Path("E:/test/random.seq");

        SequenceFile.Writer writer = SequenceFile.createWriter(fs, conf, p, IntWritable.class, Text.class, SequenceFile.CompressionType.RECORD);

        // 初始化 random

        Random r = new Random();

        for (int i = 1; i < 100000; i++) {

            // 在0-99999之中随机选取一个值

            int j = r.nextInt(100000);

            IntWritable key = new IntWritable(j);

            Text value = new Text("helloworld" + j);

            writer.append(key, value);

        }

        writer.close();

    }

    /**

     * 测试seqFile排序

     */

    @Test

    public void testSort() throws Exception {

        Configuration conf = new Configuration();

        conf.set("fs.defaultFS", "file:///");

        FileSystem fs = FileSystem.get(conf);

        Path pin = new Path("E:/test/random.seq");

        Path pout = new Path("E:/test/sort.seq");

        SequenceFile.Sorter sorter = new SequenceFile.Sorter(fs, IntWritable.class, Text.class, conf);

        sorter.sort(pin, pout);

    }

    /**

     * 测试序列文件读操作

     */

    @Test

    public void testReadSeq() throws Exception {

        Configuration conf = new Configuration();

        // 设置文件系统为本地模式

        conf.set("fs.defaultFS", "file:///");

        FileSystem fs = FileSystem.get(conf);

        Path path = new Path("E:/test/sort.seq");

        SequenceFile.Reader reader = new SequenceFile.Reader(fs, path, conf);

        //初始化两个 Writable 对象

        IntWritable key = new IntWritable();

        Text value = new Text();

        while ((reader.next(key, value))) {

            long position = reader.getPosition();

            System.out.println("key: " + key.get() + " , " + " val: " + value.toString() + " , " + " pos: " + position);

        }

    }

}

3. 测试合并

package hadoop.sequencefile;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.SequenceFile;

import org.apache.hadoop.io.Text;

import org.junit.Test;

/**

 * 测试文件合并，必须是同一种压缩类型

 */

public class TestSeqFileMerge {

    /**

     * 测试序列文件写操作

     * 创建两个文件，范围为1-100，100-200

     */

    @Test

    public void testWriteSeq() throws Exception {

        Configuration conf = new Configuration();

        // 设置文件系统为本地模式

        conf.set("fs.defaultFS", "file:///");

        FileSystem fs = FileSystem.get(conf);

//        Path path = new Path("E:/test/block1.seq");

        Path path = new Path("E:/test/block2.seq");

        // 块压缩

        SequenceFile.Writer writer = SequenceFile.createWriter(fs, conf, path, IntWritable.class, Text.class, SequenceFile.CompressionType.BLOCK);

//        for (int i = 1; i <= 100; i++) {

        for (int i = 101; i <= 200; i++) {

            IntWritable key = new IntWritable(i);

            Text value = new Text("helloworld" + i);

            writer.append(key, value);

        }

        writer.close();

    }

    /**

     * 测试文件合并，合并的同时排序

     */

    @Test

    public void testMerge() throws Exception {

        Configuration conf = new Configuration();

        conf.set("fs.defaultFS", "file:///");

        FileSystem fs = FileSystem.get(conf);

        Path pin1 = new Path("E:/test/block1.seq");

        Path pin2 = new Path("E:/test/block2.seq");

        Path pout = new Path("E:/test/merge.seq");

        SequenceFile.Sorter sorter = new SequenceFile.Sorter(fs, IntWritable.class, Text.class, conf);

        Path[] p = {pin1, pin2};

        sorter.merge(p, pout);

    }

    /**

     * 测试序列文件读操作

     */

    @Test

    public void testReadSeq() throws Exception {

        Configuration conf = new Configuration();

        // 设置文件系统为本地模式

        conf.set("fs.defaultFS", "file:///");

        FileSystem fs = FileSystem.get(conf);

        Path path = new Path("E:/test/merge.seq");

        SequenceFile.Reader reader = new SequenceFile.Reader(fs, path, conf);

        //初始化两个 Writable 对象

        IntWritable key = new IntWritable();

        Text value = new Text();

        while ((reader.next(key, value))) {

            long position = reader.getPosition();

            System.out.println("key: " + key.get() + " , " + " val: " + value.toString() + " , " + " pos: " + position);

        }

    }

}

4. 测试将日志文件转换成序列文件

package hadoop.sequencefile;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.SequenceFile;

import org.apache.hadoop.io.Text;

import java.io.BufferedReader;

import java.io.FileReader;

import java.io.IOException;

/**

 * 测试将日志文件转换成序列文件

 * Windows 下查看压缩后的 SequenceFile :

 * hdfs dfs -text file:///E:/test/access.seq

 */

public class Log2Seq {

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        // 设置文件系统为本地模式

        conf.set("fs.defaultFS", "file:///");

        FileSystem fs = FileSystem.get(conf);

        Path path = new Path("E:/test/access.seq");

        // 不压缩

//        SequenceFile.Writer writer = SequenceFile.createWriter(fs, conf, path, IntWritable.class, Text.class,SequenceFile.CompressionType.NONE);

        // 记录压缩

//        SequenceFile.Writer writer = SequenceFile.createWriter(fs, conf, path, IntWritable.class, Text.class,SequenceFile.CompressionType.RECORD);

        // 块压缩

        SequenceFile.Writer writer = SequenceFile.createWriter(fs, conf, path, NullWritable.class, Text.class, SequenceFile.CompressionType.BLOCK);

        BufferedReader br = new BufferedReader(new FileReader("E:/file/access.log1"));

        String line = null;

        while ((line = br.readLine()) != null) {

            NullWritable key = NullWritable.get();

            Text value = new Text(line);

            writer.append(key, value);

        }

        writer.close();

    }

}

[SequenceFile_2] SequenceFile 的基本操作的更多相关文章

【合集】Hadoop 合集
0. 说明 Hadoop 随笔的目录 1. HDFS 主要内容: [HDFS_1] HDFS 的概念和特性 [HDFS_2] HDFS 的 Shell 操作 [HDFS_3] HDFS 工作机制 [H ...
[SequenceFile_1] Hadoop 序列文件
1. 关于 SequenceFile 对于日志文件来说,纯文本不适合记录二进制类型数据,通过 SequenceFile 为二进制键值对提供了持久的数据结构,将其作为日志文件的存储格式时,可自定义键(L ...
hive学习3（hive基本操作）
hive基本操作 hive的数据类型 1)基本数据类型 TINYINT,SMALLINT,INT,BIGINT FLOAT/DOUBLE BOOLEAN STRING 2)复合类型 ARRAY:一组有 ...
大数据入门第十一天——hive详解（二）基本操作与分区分桶
一.基本操作 1.DDL 官网的DDL语法教程:点击查看建表语句 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data ...
第2节 hive基本操作：6、7、8
第1节 hive安装:6.hive的基本操作:7.创建数据库的语法:8.hive当中创建内部表的语法. hive的基本操作: 创建数据库与创建数据库表操作创建数据库操作:create databas ...
SQL的基本操作（三）
Hive基本SQL操作 Hive DDL(数据库定义语言) 1.数据库的基本操作 --展示所有数据库 show databases; --切换数据库 use database_name; /*创建数据 ...
【Hadoop离线基础总结】Hive的基本操作
Hive的基本操作创建数据库与创建数据库表创建数据库的相关操作创建数据库:CREATE TABLE IF NOT EXISTS myhive hive创建表成功后的存放位置由hive-site. ...
Key/Value之王Memcached初探：二、Memcached在.Net中的基本操作
一.Memcached ClientLib For .Net 首先,不得不说,许多语言都实现了连接Memcached的客户端,其中以Perl.PHP为主. 仅仅memcached网站上列出的语言就有: ...
Android Notification 详解（一）——基本操作
Android Notification 详解(一)--基本操作版权声明:本文为博主原创文章,未经博主允许不得转载. 微博:厉圣杰源码:AndroidDemo/Notification 文中如有纰 ...

随机推荐

Hive ROW_NUMBER,RANK(),DENSE_RANK()
准备数据浙江,杭州,300 浙江,宁波,150 浙江,温州,200 浙江,嘉兴,100 江苏,南京,270 江苏,苏州,299 江苏,某市,200 江苏,某某市,100 创建表 CREATE t ...
Linux编程 1 (文件系统路径说明，目录结构说明)
一. Linux文件系统路径说明熟悉windows系统的,都知道文件路径表示,如C:\User\rich\Documnets\test.doc. 在linux中目录称为虚拟目录(virtual di ...
如何才能够系统地学习Java并发技术？
微信公众号[Java技术江湖]一位阿里Java工程师的技术小站 Java并发编程一直是Java程序员必须懂但又是很难懂的技术内容. 这里不仅仅是指使用简单的多线程编程,或者使用juc的某个类.当然这些 ...
Docker修改默认网段
因阿里云服务器VPC默认占用了172.16.0.0/16 网段,与Docker里的网段相同,导致Docker里无法连接VPC服务器.后来找到的解决方案是修改Docker的默认网段. 由于Docker默 ...
Kafka实战－数据持久化
1.概述经过前面Kafka实战系列的学习,我们通过学习<Kafka实战-入门>了解Kafka的应用场景和基本原理,<Kafka实战-Kafka Cluster>一文给大家分享 ...
获取多个checkbox的选中值
我在这个div中添加了多个input. 拼接一下呢.最老的方法. jquery获取值: var strSel=""; $("[name='jbbm']:checked&q ...
DataAnnotations - InverseProperty Attribute:
DataAnnotations - InverseProperty Attribute: We have seen in the Code-First Convention section that ...
springboot+cloud 学习（三）消息中间件 RibbitMQ+Stream
安装RabbitMQ window下安装: (1):下载erlang,原因在于RabbitMQ服务端代码是使用并发式语言erlang编写的,下载地址:http://www.erlang.org/dow ...
域名系统DNS简介
域名系统(Domain Name System, DNS)是互联网的核心应用层协议之一, 它用于查询域名对应的IP地址.在使用域名访问任何网络资源时都需要先进行域名解析. www.cnblogs.co ...
JS实现用特殊符号替换字符串的中间部分区域
一.引入相信很多人都遇到过敏感信息需要做部分隐藏功能,大多数都是用特殊符号去替换. 正好今天我又遇到这样的前端显示的需求,正好把相关JS记录下来,方便下次再用. 二.JS部分 /* 部分隐藏处理 * ...

[SequenceFile_2] SequenceFile 的基本操作

0. 说明

1. 测试读写 && 压缩

2. 测试排序

3. 测试合并

4. 测试将日志文件转换成序列文件

[SequenceFile_2] SequenceFile 的基本操作的更多相关文章

随机推荐

热门专题