Java读写hdfs上的avro文件

1、通过Java往hdfs写avro文件

 import java.io.File;

 import java.io.IOException;

 import java.io.OutputStream;

 import java.nio.ByteBuffer;

 import org.apache.avro.Schema;

 import org.apache.avro.file.CodecFactory;

 import org.apache.avro.file.DataFileWriter;

 import org.apache.avro.generic.GenericData;

 import org.apache.avro.generic.GenericDatumWriter;

 import org.apache.avro.generic.GenericRecord;

 import org.apache.commons.io.FileUtils;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IOUtils;

 public class HdfsAvroTest {

     public static final String SCHEMA_JSON = "{\"type\": \"record\",\"name\": \"SmallFilesTest\", "

             + "\"fields\": ["

             + "{\"name\":\""

             + "username"

             + "\",\"type\":\"string\"},"

             + "{\"name\":\""

             + "password"

             + "\", \"type\":\"string\"}]}";

     public static final Schema SCHEMA = new Schema.Parser().parse(SCHEMA_JSON);

     public static void writeToAvro(File srcPath, OutputStream outputStream)

             throws IOException {

         DataFileWriter<Object> writer = new DataFileWriter<Object>(

                 new GenericDatumWriter<Object>()).setSyncInterval(100);

         writer.setCodec(CodecFactory.snappyCodec());

         writer.create(SCHEMA, outputStream);

         for (Object obj : FileUtils.listFiles(srcPath, null, false)) {

             File file = (File) obj;

             String filename = file.getAbsolutePath();

             byte content[] = FileUtils.readFileToByteArray(file);

             GenericRecord record = new GenericData.Record(SCHEMA);

             record.put("username", filename);

             record.put("password", ByteBuffer.wrap(content));

             writer.append(record);

         }

         IOUtils.cleanup(null, writer);

         IOUtils.cleanup(null, outputStream);

     }

     public static void main(String[] args) throws Exception {

         Configuration config = new Configuration();

         FileSystem hdfs = FileSystem.get(config);

         File sourceDir = new File(args[0]);

         Path destFile = new Path(args[1]);

         OutputStream os = hdfs.create(destFile);

         writeToAvro(sourceDir, os);

     }

 }

2、Java读hdfs上的avro文件

 import java.io.IOException;

 import java.io.InputStream;

 import org.apache.avro.file.DataFileStream;

 import org.apache.avro.generic.GenericDatumReader;

 import org.apache.avro.generic.GenericRecord;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IOUtils;

 public class HdfsReadAvro {

     public static void readFromAvro(InputStream is) throws IOException {

         DataFileStream<Object> reader = new DataFileStream<Object>(is,

                 new GenericDatumReader<Object>());

         for (Object o : reader) {

             GenericRecord r = (GenericRecord) o;

             System.out.println(r.get("username")+ ":"+r.get("password"));

         }

         IOUtils.cleanup(null, is);

         IOUtils.cleanup(null, reader);

     }

     public static void main(String[] args) throws Exception {

         Configuration config = new Configuration();

         FileSystem hdfs = FileSystem.get(config);

         Path destFile = new Path(args[0]);

         InputStream is = hdfs.open(destFile);

         readFromAvro(is);

     }

 }

Java读写hdfs上的avro文件的更多相关文章

Delphi调用JAVA的WebService上传XML文件（XE10.2+WIN764）
相关资料:1.http://blog.csdn.net/luojianfeng/article/details/512198902.http://blog.csdn.net/avsuper/artic ...
hadoop(十)hdfs上传删除文件（完全分布式七)|12
集群测试上传小文件到集群,随便选择一个小文件上传到hdfs的根目录 [shaozhiqi@hadoop102 hadoop-3.1.2]$ bin/hdfs dfs -put wcinput/wc. ...
python读取hdfs上的parquet文件方式
在使用python做大数据和机器学习处理过程中,首先需要读取hdfs数据,对于常用格式数据一般比较容易读取,parquet略微特殊.从hdfs上使用python获取parquet格式数据的方法(当然也 ...
【转】Java IOUtils方式上传下载文件 on HDFS
[From]https://www.cnblogs.com/areyouready/p/9795442.html package com.css.hdfs04; import java.io.File ...
java web图片上传和文件上传
图片上传和文件上传本质上是一样的,图片本身也是文件.文件上传就是将图片上传到服务器,方式虽然有很多,但底层的实现都是文件的读写操作. 注意事项 1.form表单一定要写属性enctype=" ...
java读写HDFS
package cn.test.hdfs; import java.io.IOException; import java.net.URI; import java.net.URISyntaxEx ...
java web service 上传下载文件
1.新建动态web工程youmeFileServer,新建包com,里面新建类FileProgress package com; import java.io.FileInputStream; imp ...
【Spark】Spark-shell案例——standAlone模式下读取HDFS上存放的文件
目录可以先用local模式读取一下步骤一.先将做测试的数据上传到HDFS 二.开发scala代码 standAlone模式查看HDFS上的文件步骤一.退出local模式,重新进入Spark- ...
Java读写HDFS文件
一.依赖包maven路径  <d ...

随机推荐

Sequentially-consistent ordering
先引入cppreference中的描述: Atomic operations tagged memory_order_seq_cst not only order memory the same wa ...
01-TCP/IP概述
TCP/IP 概述允许不同厂家的各种型号的计算机使用不同操作系统互相进行通信真正的开放系统 "全球互联网"或"因特网"的基础 2.分层网络协议通常分不同层 ...
git遇到的问题之“Please make sure you have the correct access rights and the repository exists.”
对于git的提交一直很小心翼翼,感觉一不小心就会踩到莫名的坑. 这不, 某天commit 就遇到了On branch master nothing to commit (working directo ...
MySQL分布式实现ID自增
由于数据量以及IO效率的因素,很多项目对数据支持的数据库会采取分库分表的方式.使用了分库分表之后需要解决的一个问题就是主键的生成.多个表之间的主键就不能用数据库本身的自增主键来支持,因为不同表之间生成 ...
CentOS6.6下安装VMware Tools
摘要:为了方便虚拟机和主机之间复制粘贴文件,拖拽文件,需要安装VMwareTools.下面将我的安装步骤记录如下: 第一步:打开虚拟机后,在VM的工具栏中点虚拟机,安装VMwareTools(T).. ...
KPPW2.5 漏洞利用--SQL注入
KPPW2.5 漏洞利用--SQL注入 SQL注入--布尔型盲注环境搭建 1,集成环境简单方便,如wamp,phpstudy.... 2,KPPW v2.2源码一份(文末有分享)放到WWW目录下面 ...
Mysql配置参数sync_binlog说明
Mysql配置参数sync_binlog说明 mysql> select version(); +-----------+ | version() | +-----------+ | | +-- ...
第9章应用层（6）_SMTP和POP3/IMAP协议
7. 电子邮件 7.1 电子邮件发送和接收过程 (1)图解电子邮件的发送 ①一个电子邮件系统应具备三个主要组成构件:A用户代理(如Outlook).B邮件服务器.C邮件发送和接收协议(分别为SMTP和 ...
react 数据管理之state思想指南
react的数据管理库有不少,最常听到的可能是mobx redux altjs之类的,当然还有很多其他,可以自己搜索. 为什么需要数据管理库呢,因为react本身只是为了实现view的表现,而不是数据 ...
virt-install详解
man virt-install VIRT-INSTALL() Virtual Machine Manager VIRT-INSTALL() NAME virt-install - provision ...

Java读写hdfs上的avro文件

Java读写hdfs上的avro文件的更多相关文章

随机推荐

热门专题