转载请写明来源地址：http://blog.csdn.net/lastsweetop/article/details/9773233

所有源码在github上，https://github.com/lastsweetop/styhadoop

使用avro在很多情况下是对原有系统的改造，框架格式都已经定义好了，我们只能直接用avro对原有数据进行整合。（如果是新建系统，最好还是用avro的datafile，下一章讲datafile）

准备工作

将一下schema保存成文件StringPair.avsc,放在src/test/resources目录下

{

    "type":"record",

    "name":"StringPair",

    "doc":"A pair of strings",

    "fields":[

        {"name":"left","type":"string"},

        {"name":"right","type":"string"}

    ]

}

引入最新版本的avro时要主要，最新的avro包为1.7.4，依赖org.codehaus.jackson:jackson-core-asl:1.8.8包，但是maven库中已经没有该版本

所以要换成其他版本

    <dependency>

                <groupId>org.codehaus.jackson</groupId>

                <artifactId>jackson-core-asl</artifactId>

                <version>1.9.9</version>

            </dependency>

如果你用的时1.0.4版本的hadoop（或者其他版本），依赖于jackson-mapper-asl，如果与jackson-core-asl版本不一致就会产生找不到方法等异常

你需要入引入相同版本

            <dependency>

                <groupId>org.codehaus.jackson</groupId>

                <artifactId>jackson-mapper-asl</artifactId>

                <version>1.9.9</version>

            </dependency>

generic方式

这一节我们用代码讲解

package com.sweetop.styhadoop;

import junit.framework.Assert;

import org.apache.avro.Schema;

import org.apache.avro.generic.GenericData;

import org.apache.avro.generic.GenericDatumReader;

import org.apache.avro.generic.GenericDatumWriter;

import org.apache.avro.generic.GenericRecord;

import org.apache.avro.io.*;

import org.junit.Test;

import java.io.ByteArrayOutputStream;

import java.io.File;

import java.io.IOException;

/**

 * Created with IntelliJ IDEA.

 * User: lastsweetop

 * Date: 13-8-5

 * Time: 下午7:59

 * To change this template use File | Settings | File Templates.

 */

public class TestGenericMapping {

    @Test

    public void test() throws IOException {

        //将schema从StringPair.avsc文件中加载

        Schema.Parser parser = new Schema.Parser();

        Schema schema = parser.parse(getClass().getResourceAsStream("/StringPair.avsc"));

        //根据schema创建一个record示例

        GenericRecord datum = new GenericData.Record(schema);

        datum.put("left", "L");

        datum.put("right", "R");

        ByteArrayOutputStream out = new ByteArrayOutputStream();

        //DatumWriter可以将GenericRecord变成edncoder可以理解的类型

        DatumWriter<GenericRecord> writer = new GenericDatumWriter<GenericRecord>(schema);

        //encoder可以将数据写入流中，binaryEncoder第二个参数是重用的encoder，这里不重用，所用传空

        Encoder encoder = EncoderFactory.get().binaryEncoder(out, null);

        writer.write(datum,encoder);

        encoder.flush();

        out.close();

        DatumReader<GenericRecord> reader=new GenericDatumReader<GenericRecord>(schema);

        Decoder decoder=DecoderFactory.get().binaryDecoder(out.toByteArray(),null);

        GenericRecord result=reader.read(null,decoder);

        Assert.assertEquals("L",result.get("left").toString());

        Assert.assertEquals("R",result.get("right").toString());

    }

}

result.get返回的是utf-8格式，需要调用toString方法，才能和字符串一致。

specific方式

首先使用avro-maven-plugin生成代码，pom的配置

  <plugin>

                    <groupId>org.apache.avro</groupId>

                    <artifactId>avro-maven-plugin</artifactId>

                    <version>1.7.0</version>

                    <executions>

                        <execution>

                            <id>schemas</id>

                            <phase>generate-sources</phase>

                            <goals>

                                <goal>schema</goal>

                            </goals>

                            <configuration>

                                <includes>

                                    <include>StringPair.avsc</include>

                                </includes>

                                <sourceDirectory>src/test/resources</sourceDirectory>

                                <outputDirectory>${project.build.directory}/generated-sources/java</outputDirectory>

                            </configuration>

                        </execution>

                    </executions>

                </plugin>

avro-maven-plugin插件绑定在generate-sources阶段，调用mvn generate-sources即可生成源代码，我们来看下生成的源代码

package com.sweetop.styhadoop;

/**

 * Autogenerated by Avro

 * <p/>

 * DO NOT EDIT DIRECTLY

 */

@SuppressWarnings("all")

/** A pair of strings */

public class StringPair extends org.apache.avro.specific.SpecificRecordBase implements org.apache.avro.specific.SpecificRecord {

    public static final org.apache.avro.Schema SCHEMA$ = new org.apache.avro.Schema.Parser().parse("{\"type\":\"record\",\"name\":\"StringPair\",\"doc\":\"A pair of strings\",\"fields\":[{\"name\":\"left\",\"type\":\"string\",\"avro.java.string\":\"String\"},{\"name\":\"right\",\"type\":\"string\"}]}");

    @Deprecated

    public java.lang.CharSequence left;

    @Deprecated

    public java.lang.CharSequence right;

    public org.apache.avro.Schema getSchema() {

        return SCHEMA$;

    }

    // Used by DatumWriter.  Applications should not call.

    public java.lang.Object get(int field$) {

        switch (field$) {

            case 0:

                return left;

            case 1:

                return right;

            default:

                throw new org.apache.avro.AvroRuntimeException("Bad index");

        }

    }

    // Used by DatumReader.  Applications should not call.

    @SuppressWarnings(value = "unchecked")

    public void put(int field$, java.lang.Object value$) {

        switch (field$) {

            case 0:

                left = (java.lang.CharSequence) value$;

                break;

            case 1:

                right = (java.lang.CharSequence) value$;

                break;

            default:

                throw new org.apache.avro.AvroRuntimeException("Bad index");

        }

    }

    /**

     * Gets the value of the 'left' field.

     */

    public java.lang.CharSequence getLeft() {

        return left;

    }

    /**

     * Sets the value of the 'left' field.

     *

     * @param value the value to set.

     */

    public void setLeft(java.lang.CharSequence value) {

        this.left = value;

    }

    /**

     * Gets the value of the 'right' field.

     */

    public java.lang.CharSequence getRight() {

        return right;

    }

    /**

     * Sets the value of the 'right' field.

     *

     * @param value the value to set.

     */

    public void setRight(java.lang.CharSequence value) {

        this.right = value;

    }

}

为了兼容之前的版本生成了一组get，put方法，1.6.0后生成添加了getter/setter方法，还有一个与Builder的类，没什么用已经被我删掉

另外上一篇文章有点没讲到就是schama里的name里可以使用命名空间，如com.sweetop.styhadoop.StringPair，这样生成的源代码才会是带package的

那我们来看如果使用这个生成的类，和generic方式有什么不同：

package com.sweetop.styhadoop;

import junit.framework.Assert;

import org.apache.avro.Schema;

import org.apache.avro.io.*;

import org.apache.avro.specific.SpecificDatumReader;

import org.apache.avro.specific.SpecificDatumWriter;

import org.junit.Test;

import java.io.ByteArrayOutputStream;

import java.io.IOException;

/**

 * Created with IntelliJ IDEA.

 * User: lastsweetop

 * Date: 13-8-6

 * Time: 下午2:19

 * To change this template use File | Settings | File Templates.

 */

public class TestSprecificMapping {

    @Test

    public void test() throws IOException {

        //因为已经生成StringPair的源代码，所以不再使用schema了，直接调用setter和getter即可

        StringPair datum=new StringPair();

        datum.setLeft("L");

        datum.setRight("R");

        ByteArrayOutputStream out=new ByteArrayOutputStream();

        //不再需要传schema了，直接用StringPair作为范型和参数，

        DatumWriter<StringPair> writer=new SpecificDatumWriter<StringPair>(StringPair.class);

        Encoder encoder= EncoderFactory.get().binaryEncoder(out,null);

        writer.write(datum, encoder);

        encoder.flush();

        out.close();

        DatumReader<StringPair> reader=new SpecificDatumReader<StringPair>(StringPair.class);

        Decoder decoder= DecoderFactory.get().binaryDecoder(out.toByteArray(),null);

        StringPair result=reader.read(null,decoder);

        Assert.assertEquals("L",result.getLeft().toString());

        Assert.assertEquals("R",result.getRight().toString());

    }

}

不同点总结一下， schema->StringPair.class, GenericRecord->StringPair

hadoop深入研究:(十六)——Avro序列化与反序列化的更多相关文章

hadoop深入研究:(十八)——Avro schema兼容
转载请写明来源地址:http://blog.csdn.net/lastsweetop/article/details/9900129 所有源码在github上,https://github.com/l ...
Avro序列化与反序列化
4.Avro实现序列化的步骤 1.创建maven工程,引入pom文件(定义属性和依赖信息,以及定义Avro插件) 2.根据Avro插件的要求,更改maven工程结构,需要创建一个source/main ...
Hadoop基础-序列化与反序列化（实现Writable接口）
Hadoop基础-序列化与反序列化(实现Writable接口) 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.序列化简介 1>.什么是序列化序列化也称串行化,是将结构化 ...
go语言之行--文件操作、命令行参数、序列化与反序列化详解
一.简介文件操作对于我们来说也是非常常用的,在python中使用open函数来对文件进行操作,而在go语言中我们使用os.File对文件进行操作. 二.终端读写操作终端句柄常量 os.Stdin: ...
Hadoop阅读笔记（六）——洞悉Hadoop序列化机制Writable
酒,是个好东西,前提要适量.今天参加了公司的年会,主题就是吃.喝.吹,除了那些天生话唠外,大部分人需要加点酒来作催化剂,让一个平时沉默寡言的码农也能成为一个喷子!在大家推杯换盏之际,难免一些画面浮现脑 ...
hadoop深入研究:(十三)——序列化框架
hadoop深入研究:(十三)--序列化框架 Mapreduce之序列化框架(转自http://blog.csdn.net/lastsweetop/article/details/9376495) 框 ...
第十六篇 .NET高级技术之序列化
.net framework的类库中提供了三个可以用于序列化和反序列化的类,分别为BinaryFormatter.SoapFormatter和XmlSerializer. BinaryFormatte ...
我的MYSQL学习心得（十六）优化
我的MYSQL学习心得(十六) 优化我的MYSQL学习心得(一) 简单语法我的MYSQL学习心得(二) 数据类型宽度我的MYSQL学习心得(三) 查看字段长度我的MYSQL学习心得(四) 数据 ...
NeHe OpenGL教程第三十六课：从渲染到纹理
转自[翻译]NeHe OpenGL 教程前言声明,此 NeHe OpenGL教程系列文章由51博客yarin翻译(2010-08-19),本博客为转载并稍加整理与修改.对NeHe的OpenGL管线 ...

随机推荐

uva 111 History Grading(最长公共子序列）
题目连接:111 - History Grading 题目大意:给出一个n 代表序列中元素的个数, 然后是一个答案, 接下来是若干个同学的答案(直到文件结束为止), 求出两个序列的最长公共子序列, 注 ...
html img Src base64 图片显示
http://blog.csdn.net/knxw0001/article/details/10983605 大家可能注意到了,网页上有些图片的src或css背景图片的url后面跟了一大串字符,比如: ...
中控考勤机-C#操作
引用:Interop.zkemkeeper.dll 实例化: public zkemkeeper.CZKEM axCZKEM1 = new zkemkeeper.CZKEM(); 首先从数据库中获取考 ...
javascript监听事件兼容
function addEvent(el ,type ,fn){ if(el.addEventListener){ el.addEventListener(type,fn,false); }else ...
Jquery：jquery中的DOM操作<一>
之前两天学习了Jquery强大的选择器,今天学习了一部分Jquery对DOM的操作,下面我将把自己今天的成果分享给大家,那些菜鸟们,你们是否需要巩固之前所学? 首先需要知道,DOM操作分为3个方面:D ...
路由转发(curl)
<?php ini_set('memory_limit', '640M'); ini_set('default_charset', 'utf-8'); define('webroot', 'ht ...
用Java来比较JavaScript的一些特性
由于是从java做到JavaScript,所以对强弱语言类型,还是比较敏感的.JavaScript是弱语言,只严格区分数据和指令.简单描述下自己对两者之间的一些区别吧. 1.JavaScript变量的 ...
Jquery对选取到的元素显示指定的长度，对于的字符串用“...”显示
$(function() { $(".video_name").each(function() { var s = $(this).text(); $()); }); }); fu ...
libtcmalloc 简单使用
下载地址: https://github.com/gperftools/gperftools这个编译很简单,直接进入vsprojects\libtcmalloc_minimal,用vc编译即可,整个过 ...
html label 标签的 for 属性
如果您在 label 元素内点击文本,就会触发此控件.就是说,当用户选择该标签时,浏览器就会自动将焦点转到和标签相关的表单控件上. 有两种使用方法: 方法1 使用for属性 <label for ...

hadoop深入研究:(十六)——Avro序列化与反序列化

准备工作

generic方式

specific方式

hadoop深入研究:(十六)——Avro序列化与反序列化的更多相关文章

随机推荐

热门专题