转载请写明来源地址：http://blog.csdn.net/lastsweetop/article/details/9900129

所有源码在github上，https://github.com/lastsweetop/styhadoop

兼容条件

在实际的应用中，因为应用版本的问题经常遇到读和写的schema不相同的情况，幸运的是avro已经提供了相关的解决方案。

下面图示说明：

record兼容

在hadoop的实际应用中，更多是以record的形式进行交互，接下来我们重点讲解下record的兼容。

首先从读写schema的角度取考虑，读写schema的不同无外乎就两种，读的schema比写的schema多了一个field，读的schema比写的schema少了一个field，这两种情况处理起来都很简单。

先看下写的schema：

{

    "type":"record",

    "name":"com.sweetop.styhadoop.StringPair",

    "doc":"A pair of strings",

    "fields":[

        {"name":"left","type":"string"},

        {"name":"right","type":"string"}

    ]

}

增加了field的情况

增加了field后的schema

{

    "type":"record",

    "name":"com.sweetop.styhadoop.StringPair",

    "doc":"A pair of strings",

    "fields":[

        {"name":"left","type":"string"},

        {"name":"right","type":"string"},

        {"name":"description","type":"string","default":""}

    ]

}

用增加了field的schema取读数据。new GenericDatumReader<GenericRecord>(null, newSchema)，第一个参数为写的schema，第二个参数为读的schema，

由于读的是avro datafile，schema已经在文件的头部指定，所以写的schema可以忽略掉。

    @Test

    public void testAddField() throws IOException {

        //将schema从newStringPair.avsc文件中加载

        Schema.Parser parser = new Schema.Parser();

        Schema newSchema = parser.parse(getClass().getResourceAsStream("/addStringPair.avsc"));

        File file = new File("data.avro");

        DatumReader<GenericRecord> reader = new GenericDatumReader<GenericRecord>(null, newSchema);

        DataFileReader<GenericRecord> dataFileReader = new DataFileReader<GenericRecord>(file, reader);

        for (GenericRecord record : dataFileReader) {

            System.out.println("left=" + record.get("left") + ",right=" + record.get("right") + ",description="

                    + record.get("description"));

        }

    }

输出结果为

left=L,right=R,description=

left=L,right=R,description=

description用默认值空字符串代替

减少了field的情况

减少了field的schema

{

    "type":"record",

    "name":"com.sweetop.styhadoop.StringPair",

    "doc":"A pair of strings",

    "fields":[

        {"name":"left","type":"string"}

    ]

}

用减少了field的schema取读取

    @Test

    public void testRemoveField() throws IOException {

        //将schema从StringPair.avsc文件中加载

        Schema.Parser parser = new Schema.Parser();

        Schema newSchema = parser.parse(getClass().getResourceAsStream("/removeStringPair.avsc"));

        File file = new File("data.avro");

        DatumReader<GenericRecord> reader = new GenericDatumReader<GenericRecord>(null, newSchema);

        DataFileReader<GenericRecord> dataFileReader = new DataFileReader<GenericRecord>(file, reader);

        for (GenericRecord record : dataFileReader) {

            System.out.println("left=" + record.get("left"));

        }

    }

输出结果为：

left=L

left=L

删除的field被忽略掉

新旧版本schema

如果从新旧版本的角度取考虑。

新版本schema比旧版本schema增加了一个字段

1.新版本取读旧版本的数据，使用新版本schema里新增field的默认值

2.旧版本读新版本的数据，新版本schema里新增field被旧版本的忽略掉

新版本schema比旧版半schema较少了一个字段

1.新版本读旧版本的数据，减少的field被新版本忽略掉

2.旧版本读新版本的数据，旧版本的schema使用起被删除field的默认值，如果没有就会报错，那么升级旧版本

别名

别名是另一个用于schema兼容的方法，可以将写的schema的field名字转换成读的schema的field，记住并不是加了aliases字段。

而是将写的filed的name属性变为aliases，读的时候只认name属性。

来看下加了别名的schema

{

    "type":"record",

    "name":"com.sweetop.styhadoop.StringPair",

    "doc":"A pair of strings",

    "fields":[

        {"name":"first","type":"string","aliases":["left"]},

        {"name":"second","type":"string","aliases":["right"]}

    ]

}

使用别名schema去读数据，这里不能再用left，right，而要用first，second

    @Test

    public void testAliasesField() throws IOException {

        //将schema从StringPair.avsc文件中加载

        Schema.Parser parser = new Schema.Parser();

        Schema newSchema = parser.parse(getClass().getResourceAsStream("/aliasesStringPair.avsc"));

        File file = new File("data.avro");

        DatumReader<GenericRecord> reader = new GenericDatumReader<GenericRecord>(null, newSchema);

        DataFileReader<GenericRecord> dataFileReader = new DataFileReader<GenericRecord>(file, reader);

        for (GenericRecord record : dataFileReader) {

            System.out.println("first=" + record.get("first")+",second="+record.get("second"));

        }

    }

输出结果

first=L,second=R

first=L,second=R

hadoop深入研究:(十八)——Avro schema兼容的更多相关文章

hadoop深入研究:(十六)——Avro序列化与反序列化
转载请写明来源地址:http://blog.csdn.net/lastsweetop/article/details/9773233 所有源码在github上,https://github.com/l ...
菜鸟玩云计算之十八：Hadoop 2.5.0 HA 集群安装第1章
菜鸟玩云计算之十八:Hadoop 2.5.0 HA 集群安装第1章 cheungmine, 2014-10-25 0 引言在生产环境上安装Hadoop高可用集群一直是一个需要极度耐心和体力的细致工作 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十四）定义一个avro schema使用comsumer发送avro字符流，producer接受avro字符流并解析
参考<在Kafka中使用Avro编码消息:Consumer篇>.<在Kafka中使用Avro编码消息:Producter篇> 在了解如何avro发送到kafka,再从kafka ...
COS访谈第十八期：陈天奇
COS访谈第十八期:陈天奇 [COS编辑部按] 受访者:陈天奇采访者:何通编辑:王小宁简介:陈天奇,华盛顿大学计算机系博士生,研究方向为大规模机器学习.他曾获得KDD CUP 20 ...
NET运用String的十八层境界
古往今来,文本处理一直是所有编程语言的最基础的功能,也是最核心最重要的功能.任何初学者,如果想学一门编程语言,都要面对大量的文本处理.而或许有一天,即使你成了大师级的人物,也不敢说自己驾驭文本处理的能 ...
hadoop深入研究:(七)——压缩
转载请标明出处:hadoop深入研究:(七)——压缩文件压缩主要有两个好处,一是减少了存储文件所占空间,另一个就是为数据传输提速.在hadoop大数据的背景下,这两点尤为重要,那么我现在就先来了解下 ...
JAVA之旅（十八）——基本数据类型的对象包装类，集合框架，数据结构，Collection，ArrayList,迭代器Iterator，List的使用
JAVA之旅(十八)--基本数据类型的对象包装类,集合框架,数据结构,Collection,ArrayList,迭代器Iterator,List的使用 JAVA把完事万物都定义为对象,而我们想使用数据 ...
Android进阶(十八)AndroidAPP开发问题汇总(二)
Android进阶(十八)AndroidAPP开发问题汇总(二) 端口被占用解决措施: Android使用SimpleAdapter更新ListView里面的Drawable元素: http://ww ...
Java框架spring 学习笔记（十八）：事务管理（xml配置文件管理）
在Java框架spring 学习笔记(十八):事务操作中,有一个问题: package cn.service; import cn.dao.OrderDao; public class OrderSe ...

随机推荐

iOS内存管理（一）
最近有时间,正好把iOS相关的基础知识好好的梳理了一下,记录一下内存相关方面的知识. 在理解内存管理之前我觉得先对堆区和栈区有一定的了解是非常有必要的. 栈区:就是由编译器自动管理内存分配,释放过程的 ...
用UBOOT自带loadb命令加载应用程序到SDRAM中运行的方法
S3C44B0开发板中,用UBOOT自带loadb命令加载应用程序到SDRAM中运行的方法 1.开发板说明: 开发板上已有移植好的UBOOT运行. 2.交叉编译工具链为arm-linu-g ...
深入理解javascript之this
javascript中的this含义很丰富,它能够是全局对象,当前对象或者是随意对象,这都取决于函数的调用方式.函数有下面几种调用方式:作为对象方法调用.作为函数调用.作为构造函数调用.apply或c ...
seq2sparse（4）之PartialVectorMergeReducer源码分析
继前篇blogseq2sparse(3)之TFParitialVectorReducer源码分析之后,继续分析下面的代码,本次分析的是PartialVectorMergeReducer的源码,这个r ...
Debian 桌面美化
Debian 桌面美化安装 gnome-tweak-tool aptitude install gnome-tweak-tool 登陆gnome-look下载主题包 gnome-look上有很多主题 ...
#include<iostream.h>与#include<iostream> using namespace std的区别
所谓namespace,是指标识符的各种可见范围.C++标准程序库中的所有标识符都被定义于一个名为std的namespace中. 一 :<iostream>和<iostream.h ...
IO-序列化 Serializable Parcelable Object
简介 1.什么是序列化和反序列化对象的寿命通常随着生成该对象的程序的终止而终止,有时候,可能需要将对象的状态保存下来,在需要时再将对象恢复.我们把对象的这种,能记录自己的状态以便将来再生的能力,叫作 ...
06-自定义Attribute标记案例
自定义Attribute: 1)Attribute都从System. Attribute类继承,类名一般以Attribute结尾 2) 标记类的用途—AttributeUsage标记(标记的标记):A ...
(转徐明吉)C#生成随机数
private static char[] constant = { ', 'a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p ...
H1标签使用的七大注意事项
H1标签使用的七大注意事项: 1 每个页面都应该有H1标签,H1标签是每个网页不可缺少的要素. 2 使用H1标签的内容应该简洁明了; 3 H1标签要尽量出现在源文件代码的开头的部分,这样可以让访问者和 ...

hadoop深入研究:(十八)——Avro schema兼容