Apache Avro & Avro Schema简介
为什么需要schema registry?
首先我们知道:
- Kafka将字节作为输入并发布
- 没有数据验证
但是:
- 如果Producer发送了bad data怎么办?
- 如果字段被重命名怎么办?
- 如果数据类型改变了怎么办?
这些情况都会导致consumer break
所以:
- 我们需要数据能够自我描述
- 我们需要能够在不破坏下游消费者的情况下演化数据
- 能够拒绝坏数据
为什么不在kafka broker收到消息时验证消息,而是使用schema registry?
由下面两幅图可以看到,schema registry是独立于kafka的一个组件。
Kafka Core:

Confluent Components -Schema Registry:

为什么schema registry不集成在kafka broker,因为这样会打破kafka一些优秀的特性:
- Kafka不解析或读取你的数据(没有使用CPU)
- Kafka将字节作为输入,而不需要事件将它们加载到内存中(称为零拷贝) 。什么是零拷贝,移步至https://www.cnblogs.com/fangjb/p/13271886.html
- 就Kafka而言,它甚至不知道你的数据是否是整数或是字符串。
所以:
- Schema Registry需要是独立的组件
- 生产者和消费者需要能够与之对话
- 必须商定通用的数据格式
- 它需要支持schema
- 它需要支持进化
- 它需要是轻量级的
Solution:
Confluent Schema Registry
Apache Avro as the data format
Apache Avro& Avro Schema介绍
- Apache Avro是一个数据序列化系统。
- 可以将Avro看作是JSON附带一个schema
- Avro schema使用Json来定义
- Avro依赖于schema
Avro优点:
1.丰富的数据结构
2.使用快速的压缩二进制数据格式
3.schema随数据一起出现
4.schema可以以安全的方式随时间进化(schema evolution)
5. Document嵌入到schema中
Avro缺点:
1.某些语言对Avro的支持可能缺乏
2.不使用avro工具就不能“打印”数据(因为压缩了和序列化)
数据类型
Schema 定义了基本数据类型和复杂数据类型,其中复杂数据类型包含不同属性。通过各种数据类型用户可以自定义丰富的数据结构
基本类型:
|
类型 |
含义 |
|
null |
没有值 |
|
boolean |
布尔值 |
|
int |
32位有符号整数 |
|
long |
64位有符号整数 |
|
float |
单精度(32位)的IEEE 754浮点数 |
|
double |
双精度(64位)的IEEE 754浮点数 |
|
bytes |
8位无符号字节序列 |
|
string |
字符串 |
复杂类型
Avro提供了6种复杂类型。分别是Record,Enum,Array,Map,Union和Fixed。
Record类型:
Record类型使用的类型名字是 “record”,还支持其它属性的设置:
- name(必填):record类型的名字
- namespace:命名空间(可选),相当于java中的包名
- doc:这个类型的文档说明(可选)
- aliases:record类型的别名,是个字符串数组(可选)
- fields(必填):record类型中的字段,是个对象数组。每个字段需要以下属性:
- name(必填):字段名字
- doc:字段说明文档(可选)
- type(必填):一个schema的json对象或者一个类型名字
- default:默认值(可选)
- order:排序(可选),只有3个值ascending(默认),descending或ignore
- aliases:别名,字符串数组(可选)
一个record例子:
{
"type": "record",
"namespace": "com.aaa",
"name": "Employee",
"fields": [
{ "name": "id", "type": "string"},
{ "name": "first_name", "type": "string", "default": ""},
{ "name": "last_name", "type": "string", "default":""}
]
}
Enum
枚举类型的类型名字是”enum”,还支持其它属性的设置:
- name:枚举类型的名字(必填)
- namespace:命名空间(可选)
- aliases:字符串数组,别名(可选)
- doc:说明文档(可选)
- symbols:字符串数组,所有的枚举值(必填),不允许重复数据。
一个枚举例子:
{
"type": "enum",
"name": "customer_status",
"symbols": [
"BRONZE",
"SILVER",
"GOLD"
]
}
Array
数组类型的类型名字是”array”并且只支持一个属性:
items:数组元素的schema
一个数组例子:
{
"name": "email",
"type": "array",
"items": "string"
}
Map
Map是一种定义keys和values列表的方法,其中keys是字符串.
Example: secrets questions
- “What’s your
favourite color?”: “green” - “Where were
you born?”: “Tapei” - “Who you love most?”: “My wife”
Map类型的类型名字是”map”并且只支持一个属性:
values:map值的schema
Map的key必须是字符串。
一个Map例子:
{
"name": "secrets",
"type": "map",
"values": "long"
}
Union
组合类型,表示各种类型的组合,使用数组进行组合。比如[“null”,
“string”]表示类型可以为null或者string。
组合类型的默认值是组合类型的第一个元素,因此如果一个组合类型包括null类型,那么null类型一般都会放在第一个位置,这样子的话这个组合类型的默认值就是null。
组合类型中不允许同一种类型的元素的个数不会超过1个,除了record,fixed和enum。比如组合类中有2个array类型或者2个map类型,这是不允许的。
组合类型不允许嵌套组合类型
Apache Avro & Avro Schema简介的更多相关文章
- apache基金会开源项目简介
apache基金会开源项目简介 项目名称 描述 HTTP Server 互联网上首屈一指的HTTP服务器 Abdera Apache Abdera项目的目标是建立一个功能完备,高效能的IETF ...
- cxf 报错:java.lang.NoSuchMethodError: org.apache.ws.commons.schema.XmlSchemaCollection.read(Lorg/w3c/dom/Document;Ljava/lang/String;)
由于没有仔细查看官方提供的文档,由jdk版本不一致导致的出错: http://cxf.apache.org/cxf-316-release-notes.html 自己使用的是jdk1.8. 报Exce ...
- java.lang.IllegalArgumentException: No enum constant org.apache.ws.commons.schema.XmlSchemaForm.
一次系统断电维护之后,apache cxf 的 web service 接口调用一直报错: java.lang.IllegalArgumentException: No enum constant o ...
- apache commons Java包简介
更多信息,请参考:http://commons.apache.org/ 一.Commons BeanUtils说明:针对Bean的一个工具集.由于Bean往往是有一堆get和set组成,所以BeanU ...
- XML Schema 简介
XML Schema 是基于 XML 的 DTD 替代者. XML Schema 可描述 XML 文档的结构. XML Schema 语言也可作为 XSD(XML Schema Definition) ...
- Json Schema简介
1. 引言 什么是Json Schema? 以一个例子来说明 假设有一个web api,接受一个json请求,返回某个用户在某个城市关系最近的若干个好友.一个请求的例子如下: { "city ...
- [转帖] 学习一下 apache bench 的总结简介 ( LAMP的没用过..)
PS:网站性能压力测试是性能调优过程中必不可少的一环.只有让服务器处在高压情况下才能真正体现出各种设置所暴露的问题.Apache中有个自带的,名为ab的程序,可以对Apache或其它类型的服务器进行网 ...
- 转载:Apache commons开源工具简介
Apache Commons是一个非常有用的工具包,解决各种实际的通用问题,下面是一个简述表,详细信息访问http://jakarta.apache.org/commons/index.html Be ...
- DTD 和 Schema简介
什么是DTD? DTD(文档类型定义)的作用是定义 XML 文档的合法构建模块. 它使用一系列的合法元素来定义文档结构. DTD例子 <?xml version="1.0"? ...
随机推荐
- (四)Maven项目工程目录约定
使用maven创建的工程我们称它为maven工程,maven工程具有一定的目录规范,如下: src/main/java 存放项目的.java文件 src/main/resources 存放项目资源文件 ...
- Linux服务器安装python3.6
CentOS 7上默认安装的python版本是2.7.5,系统自带的旧版本python被系统很多其他软件环境依赖,因此不能卸载原Python,直接选择Python3.6.5进行全新安装. 1 安装Py ...
- mysql索引小总结
MySql 1.索引 mysql索引默认使用的是B+Tree(B-树的变种版).也可以使用HASH表. 二叉树: 二叉树又称二叉搜索树,二叉排序树,特点如下: 左子树上所有结点值均小于根结点 右子树上 ...
- Java类、实例初始化的顺序
求如下 java 代码的输出?? class T implements Cloneable{ public static int k = 0; public static T t1 = new T(& ...
- CPU明明8个核,网卡为啥拼命折腾一号核?
中断机制 我是CPU一号车间的阿Q,我又来了! 我们日常的工作就是不断执行代码指令,不过这看似简单的工作背后其实也并不轻松. 咱不能闷着头啥也不管一个劲的只管执行代码,还得和连接在主板上的其他单位打交 ...
- Java WebService(实战) 简单实例
一.准备工作(以下为本实例使用工具) 1.MyEclipse10.7.1 2.JDK 1.6.0_22 二.创建服务端 1.创建[Web Service Project],命名为[TheService ...
- Docker 基础知识 - Docker 概述
Docker 是一个开发.发布和运行应用程序的开放平台.Docker使您能够将应用程序与基础架构分离,以便快速交付软件.有了 Docker,你可以像管理应用程序一样管理你的基础设施.通过利用 Dock ...
- 入门大数据---Spark整体复习
一. Spark简介 1.1 前言 Apache Spark是一个基于内存的计算框架,它是Scala语言开发的,而且提供了一站式解决方案,提供了包括内存计算(Spark Core),流式计算(Spar ...
- Riccati方程迭代法求解
根据上述迭代法求解P,P为Riccati方程的解,然而用LQR需要计算K,再将K算出. (迭代过程中 ,我们可以将此算法和dlqr函数求解的参数进行对比,当误差小于我们设置的允许误差我们就可以把此算法 ...
- jmeter跨线程组获取cookie或jmeter线程组共享cookie-笔者亲测
一.Jmeter版本 此次示例采用的是apache-jmeter-5.2.1版本 二.设置配置文件使Cookie管理器保存cookie信息. 修改apache-jmeter-5.2.1/bin/jme ...