Java读写hdfs上的avro文件

1、通过Java往hdfs写avro文件

 import java.io.File;

 import java.io.IOException;

 import java.io.OutputStream;

 import java.nio.ByteBuffer;

 import org.apache.avro.Schema;

 import org.apache.avro.file.CodecFactory;

 import org.apache.avro.file.DataFileWriter;

 import org.apache.avro.generic.GenericData;

 import org.apache.avro.generic.GenericDatumWriter;

 import org.apache.avro.generic.GenericRecord;

 import org.apache.commons.io.FileUtils;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IOUtils;

 public class HdfsAvroTest {

     public static final String SCHEMA_JSON = "{\"type\": \"record\",\"name\": \"SmallFilesTest\", "

             + "\"fields\": ["

             + "{\"name\":\""

             + "username"

             + "\",\"type\":\"string\"},"

             + "{\"name\":\""

             + "password"

             + "\", \"type\":\"string\"}]}";

     public static final Schema SCHEMA = new Schema.Parser().parse(SCHEMA_JSON);

     public static void writeToAvro(File srcPath, OutputStream outputStream)

             throws IOException {

         DataFileWriter<Object> writer = new DataFileWriter<Object>(

                 new GenericDatumWriter<Object>()).setSyncInterval(100);

         writer.setCodec(CodecFactory.snappyCodec());

         writer.create(SCHEMA, outputStream);

         for (Object obj : FileUtils.listFiles(srcPath, null, false)) {

             File file = (File) obj;

             String filename = file.getAbsolutePath();

             byte content[] = FileUtils.readFileToByteArray(file);

             GenericRecord record = new GenericData.Record(SCHEMA);

             record.put("username", filename);

             record.put("password", ByteBuffer.wrap(content));

             writer.append(record);

         }

         IOUtils.cleanup(null, writer);

         IOUtils.cleanup(null, outputStream);

     }

     public static void main(String[] args) throws Exception {

         Configuration config = new Configuration();

         FileSystem hdfs = FileSystem.get(config);

         File sourceDir = new File(args[0]);

         Path destFile = new Path(args[1]);

         OutputStream os = hdfs.create(destFile);

         writeToAvro(sourceDir, os);

     }

 }

2、Java读hdfs上的avro文件

 import java.io.IOException;

 import java.io.InputStream;

 import org.apache.avro.file.DataFileStream;

 import org.apache.avro.generic.GenericDatumReader;

 import org.apache.avro.generic.GenericRecord;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IOUtils;

 public class HdfsReadAvro {

     public static void readFromAvro(InputStream is) throws IOException {

         DataFileStream<Object> reader = new DataFileStream<Object>(is,

                 new GenericDatumReader<Object>());

         for (Object o : reader) {

             GenericRecord r = (GenericRecord) o;

             System.out.println(r.get("username")+ ":"+r.get("password"));

         }

         IOUtils.cleanup(null, is);

         IOUtils.cleanup(null, reader);

     }

     public static void main(String[] args) throws Exception {

         Configuration config = new Configuration();

         FileSystem hdfs = FileSystem.get(config);

         Path destFile = new Path(args[0]);

         InputStream is = hdfs.open(destFile);

         readFromAvro(is);

     }

 }

Java读写hdfs上的avro文件的更多相关文章

Delphi调用JAVA的WebService上传XML文件（XE10.2+WIN764）
相关资料:1.http://blog.csdn.net/luojianfeng/article/details/512198902.http://blog.csdn.net/avsuper/artic ...
hadoop(十)hdfs上传删除文件（完全分布式七)|12
集群测试上传小文件到集群,随便选择一个小文件上传到hdfs的根目录 [shaozhiqi@hadoop102 hadoop-3.1.2]$ bin/hdfs dfs -put wcinput/wc. ...
python读取hdfs上的parquet文件方式
在使用python做大数据和机器学习处理过程中,首先需要读取hdfs数据,对于常用格式数据一般比较容易读取,parquet略微特殊.从hdfs上使用python获取parquet格式数据的方法(当然也 ...
【转】Java IOUtils方式上传下载文件 on HDFS
[From]https://www.cnblogs.com/areyouready/p/9795442.html package com.css.hdfs04; import java.io.File ...
java web图片上传和文件上传
图片上传和文件上传本质上是一样的,图片本身也是文件.文件上传就是将图片上传到服务器,方式虽然有很多,但底层的实现都是文件的读写操作. 注意事项 1.form表单一定要写属性enctype=" ...
java读写HDFS
package cn.test.hdfs; import java.io.IOException; import java.net.URI; import java.net.URISyntaxEx ...
java web service 上传下载文件
1.新建动态web工程youmeFileServer,新建包com,里面新建类FileProgress package com; import java.io.FileInputStream; imp ...
【Spark】Spark-shell案例——standAlone模式下读取HDFS上存放的文件
目录可以先用local模式读取一下步骤一.先将做测试的数据上传到HDFS 二.开发scala代码 standAlone模式查看HDFS上的文件步骤一.退出local模式,重新进入Spark- ...
Java读写HDFS文件
一.依赖包maven路径  <d ...

随机推荐

Linux下的文件操作——基于文件描述符的文件操作(2)
文件描述符的复制 MMAP文件映射 ftruncate修改文件大小文件描述符的复制系统调用函数dup和dup2可以实现文件描述符的复制,经常用来重定向进程的stdin(0), stdout(1 ...
[UE4]死亡后调整视角
AddLocalOffset:本地坐标偏移. 脱离控制器操作会影响“OnDie”方法里面的相机移动操作,而函数里面又不允许使用“Delay”方法,但可以使用“Set Timer By Functio ...
[UE4]模拟物理子弹
模拟物理子弹有时候会穿透对象,所以不建议使用
GDB 调试 ---转比较全的东东
转自程序人生:http://www.programlife.net/gdb-manual.html Linux 包含了一个叫gdb 的GNU 调试程序.gdb 是一个用来调试C和C++程序的强力调试 ...
HBase常用操作命令
HBase常用操作命令 1.进入HBase脚本客户端 #hbase shell #进入HBase脚本客户端 > whoami #查看当前登录用户 > status ...
lua 安装
1:下载安装 curl -R -O http://www.lua.org/ftp/lua-5.3.0.tar.gz tar zxf lua-5.3.0.tar.gz cd lua-5.3.0 make ...
HTTP请求返回值所代表的含义
一些常见的状态码为: 200 - 服务器成功返回网页(表示请求成功) 404 - 请求的网页不存在(可能是网络的问题,也可能是网页没办法访问不代表网页不存在) 503 - 服务器超时(服务器故障) 下 ...
Python NLTK——python与nltk配置
按照<Python自然语言处理>中的步骤安装Python后nltk总是部署失败,出现如下提示: >>> import nltk Traceback (most recen ...
springBoot基本配置
Spring Boot 基本配置 1.新建maven jar工程使用依赖 <project xmlns="http://maven.apache.org/POM/4.0.0" ...
JDK-1.8-CopyOnWriteSet
CopyOnWriteSet 看了下CopyOnWriteSet源码,底层使用的是CopyOnWriteList,根据底层的实现,每次读取都是N的复杂度.每次写也是N的复杂度.有个代码可以看一下, 来 ...

Java读写hdfs上的avro文件

Java读写hdfs上的avro文件的更多相关文章

随机推荐

热门专题