在分析Avro源码时，发现Avro为了对int、long类型数据压缩，采用Protocol Buffers的ZigZag编码（Thrift也采用了ZigZag来压缩整数）。

1. 补码编码

为了便于后面的分析，我们先回顾下几个概念：

原码：最高位为符号位，剩余位表示绝对值；
反码：除符号位外，对原码剩余位依次取反；
补码：对于正数，补码为其自身；对于负数，除符号位外对原码剩余位依次取反然后+1。

补码解决了原码中\(0\)存在两种编码的问题：

\[0=[0000 \enspace 0000]_原=[1000 \enspace 0000]_原
\]

补码\([1000 \enspace 0001]_补\) 表示\(-127\)；此外，原码中还存在加法错误的问题：

\[1 + (-1) = [0000 \enspace 0001]_原 + [1000 \enspace 0001]_原 = [1000 \enspace 0010]原 = -2
\]

若用补码，则可得到正确结果：

\[ 1 + (-1) = [0000 \enspace 0001]_补 + [1111 \enspace 1111]_补 = [0000 \enspace 0000]_补 = 0
\]

因此，在计算机存储整数时，采用的是补码。此外，整数的补码有一些有趣的性质：

左移1位（n << 1），无论正数还是负数，相当于乘以2；对于正数，若大于Integer.MAX_VALUE/2（1076741823），则会发生溢出，导致左移1位后为负数
右移31位（n >> 31），对于正数，则返回0x00000000；对于负数，则返回0xffffffff

这些性质正好在ZigZag编码中用到了。

2. ZigZag

对于int值1，-1，20151103，均是用4 Bytes来表示：

\[1 = [00 \enspace 00 \enspace 00 \enspace 01] \\
-1 = [ff \enspace ff \enspace ff \enspace ff] \\
20151103 = [01 \enspace 33 \enspace 7b \enspace 3f]
\]

在《Huffman编码》中证明了压缩编码应满足：

高概率的码字字长应不长于低概率的码字字长

一般情况下，使用较多的是小整数，那么较小的整数应使用更少的byte来编码。基于此思想，ZigZag被提出来。

编码

首先，ZigZag按绝对值升序排列，将整数hash成递增的32位bit流，其hash函数为h(n) = (n << 1) ^ (n >> 31)；对应地long类型（64位）的hash函数为(n << 1) ^ (n >> 63)。整数的补码（十六进制）与hash函数的对应关系如下：

n	hex	h(n)	ZigZag (hex)
0	00 00 00 00	00 00 00 00	00
-1	ff ff ff ff	00 00 00 01	01
1	00 00 00 01	00 00 00 02	02
-2	ff ff ff fe	00 00 00 03	03
2	00 00 00 02	00 00 00 04	04
...	...	...	...
-64	ff ff ff c0	00 00 00 7f	7f
64	00 00 00 40	00 00 00 80	80 01
...	...	...	...

拿到hash值后，想当然的编码策略：直接去掉hash值的前导0之后的byte作为压缩编码。但是，为什么ZigZag(64)=8001呢？这涉及到编码唯一可译性的问题，只有当编码为前缀码才能保证可译，即

任意一码字均不为其他码字的前缀

我们来看看，如果按上面的策略做压缩编码，则

h(0) = 0x0 = [00]

h(64) = 0x80 = [80]

h(16384) = 0x8000 = [80 00]

那么，当收到字节流[80 00]时，是应解码为两个整数64, 00，还是一个整数16384？因此，为了保证编码的唯一可译性，需要对hash值进行前缀码编码，ZigZag采用了如下策略：

input: int n

output: byte[] buf

loop

    if 第七位满1或有进位:

        n |= 0x80;

        取低位的8位作为一个byte写入buf;

        n >>>=7（无符号右移7位，在高位插0）;

    else:

        取低位的8位作为一个byte写入buf

end

ZigZag编码的Java实现（从org.apache.avro.io.BinaryData抠出来的）：

/** Encode an integer to the byte array at the given position. Will throw

 * IndexOutOfBounds if it overflows. Users should ensure that there are at

 * least 5 bytes left in the buffer before calling this method.

 * @return The number of bytes written to the buffer, between 1 and 5.

 */

public static int encodeInt(int n, byte[] buf, int pos) {

// move sign to low-order bit, and flip others if negative

  n = (n << 1) ^ (n >> 31);

  int start = pos;

  if ((n & ~0x7F) != 0) {

    buf[pos++] = (byte)((n | 0x80) & 0xFF);

    n >>>= 7;

    if (n > 0x7F) {

      buf[pos++] = (byte)((n | 0x80) & 0xFF);

      n >>>= 7;

      if (n > 0x7F) {

        buf[pos++] = (byte)((n | 0x80) & 0xFF);

        n >>>= 7;

        if (n > 0x7F) {

          buf[pos++] = (byte)((n | 0x80) & 0xFF);

          n >>>= 7;

        }

      }

    }

  }

  buf[pos++] = (byte) n;

  return pos - start;

}

ZigZag是一种变长编码，当整数值较大时，hash值的十六进制的有效位会较长，对应地ZigZag码字会出现需要5 byte存储；比如，

ZigZag(Integer.MAX_VALUE)=[fe ff ff ff 0f]

解码

解码为编码的逆操作，首先，将ZigZag编码还原成hash值，然后用hash函数\(h(n)\)的逆函数\(h^{-1}(n)\) = (n >>> 1) ^ -(n & 1)得到原始的整数值。Java代码实现（在avro源码org.apache.avro.io.BinaryDecoder中）如下：

public static int readInt(byte[] buf, int pos) throws IOException {

  int len = 1;

  int b = buf[pos] & 0xff;

  int n = b & 0x7f;

  if (b > 0x7f) {

    b = buf[pos + len++] & 0xff;

    n ^= (b & 0x7f) << 7;

    if (b > 0x7f) {

      b = buf[pos + len++] & 0xff;

      n ^= (b & 0x7f) << 14;

      if (b > 0x7f) {

        b = buf[pos + len++] & 0xff;

        n ^= (b & 0x7f) << 21;

        if (b > 0x7f) {

          b = buf[pos + len++] & 0xff;

          n ^= (b & 0x7f) << 28;

          if (b > 0x7f) {

            throw new IOException("Invalid int encoding");

          }

        }

      }

    }

  }

  pos += len;

  return (n >>> 1) ^ -(n & 1); // back to two's-complement

}

ZigZag总结如下：

ZigZag仅从经验出发，认为较小的整数会有较大的概率出现，故设计编码策略：小整数对应的ZigZag码字短，大整数对应的ZigZag码字长。
但是，在特定的场景下，比如，要传输的整数为大整数居多，ZigZag编码的压缩效率就不理想了。

整数压缩编码 ZigZag的更多相关文章

protobuf编码
proto2 Protocol Buffers 是一种轻便高效的结构化数据存储格式,可以用于结构化数据序列化,适合做数据存储或 RPC 数据交换格式.可用于通讯协议.数据存储等领域的语言无关.平台无 ...
protocol buffer 整数序列化
http://blog.csdn.net/csfreebird/article/details/7624807 varints用于正整数 (无符号整数) varints 是一个很不错的技术.将一个整 ...
高效的数据压缩编码方式 Protobuf
一. protocol buffers 是什么? Protocol buffers 是一种语言中立,平台无关,可扩展的序列化数据的格式,可用于通信协议,数据存储等. Protocol buffers ...
CSP 201612-4 压缩编码【区间DP+四边形不等式优化】
问题描述试题编号: 201612-4 试题名称: 压缩编码时间限制: 3.0s 内存限制: 256.0MB 问题描述: 问题描述给定一段文字,已知单词a1, a2, …, an出现的频率分别t1 ...
HNUSTOJ-1520 压缩编码
1520: 压缩编码时间限制: 1 Sec 内存限制: 2 MB提交: 107 解决: 54[提交][状态][讨论版] 题目描述某工业监控设备不断发回采样数据.每个数据是一个整数(0到1000 ...
zigzag压缩算法
前文 Base 128 Varints 编码(压缩算法) 介绍了Base 128 Varints这种对数字传输的编码,了解到了这种编码方式是为了最大程度压缩数字的.但是,在前文里,我们只谈论到了正数的 ...
C语言 · 查找整数 · 基础练习
问题描述给出一个包含n个整数的数列,问整数a在数列中的第一次出现是第几个. 输入格式第一行包含一个整数n. 第二行包含n个非负整数,为给定的数列,数列中的每个数都不大于10000. 第三行包含一个 ...
C语言 · 整数平均值
编写函数,求包含n个元素的整数数组中元素的平均值.要求在函数内部使用指针操纵数组元素,其中n个整数从键盘输入,输出为其平均值. 样例输入: (输入格式说明:5为输入数据的个数,3 4 0 0 2 是以 ...
C++整数转字符串的一种方法
#include <sstream> //ostringstream, ostringstream::str() ostringstream stream; stream << ...

随机推荐

关于IoCallDriver使用的疑惑
#pragma PAGEDCODE NTSTATUS HelloDDKRead(IN PDEVICE_OBJECT pDevObj, IN PIRP pIrp) { KdPrint(("Dr ...
使用EntityFramework6连接MySql数据库（db first方式）
准备工具: VS2013.MySQL For VisualStudio 1.1.4.Connector/Net 6.8.3(百度网盘里) 程序包管理器执行命令: Install-Package Ent ...
剑指Offer面试题：32.数字在排序数组中出现的次数
一.题目:数字在排序数组中出现的次数题目:统计一个数字在排序数组中出现的次数.例如输入排序数组{1,2,3,3,3,3,4,5}和数字3,由于3在这个数组中出现了4次,因此输出4. 二.解题思路 2 ...
[.net 面向对象编程基础] (1) 开篇
[.net 面向对象编程基础] (1)开篇使用.net进行面向对象编程也有好长一段时间了,整天都忙于赶项目,完成项目任务之中.最近偶有闲暇,看了项目组中的同学写的代码,感慨颇深.感觉除了定义个类,就 ...
C++的性能C#的产能?! - .Net Native 系列《二》：.NET Native开发流程详解
之前一文<c++的性能, c#的产能?!鱼和熊掌可以兼得,.NET NATIVE初窥> 获得很多朋友支持和鼓励,也更让我坚定做这项技术的推广者,希望能让更多的朋友了解这项技术,于是先从官方 ...
从零3D基础入门XNA 4.0(2)——模型和BasicEffect
[题外话] 上一篇文章介绍了3D开发基础与XNA开发程序的整体结构,以及使用Model类的Draw方法将模型绘制到屏幕上.本文接着上一篇文章继续,介绍XNA中模型的结构.BasicEffect的使用以 ...
基于Quick-cocos2d-x的资源更新方案一
图片来自网络思绪何来昨天写了一篇关于更新方案的理论游戏开发:通过路径搜索优先级来进行补丁升级(从端游到手游) 今天继续细化一下由于新项目采用的是Quick-cocos2d-x,那我就直接给出我 ...
TODO：小程序的春天你想做什么
TODO:小程序的春天你想做什么微信小程序是一种全新的连接用户与服务的方式,它可以在微信内被便捷地获取和传播,同时具有出色的使用体验. 初步了解小程序的特点导航明确,来去自如统一稳定, 视觉规范 ...
@OutputCache 详解-文章目录
OutputCache概念学习 OutputCache属性详解(一)一Duration.VaryByParam OutputCache属性详解(二)一 Location OutputCache属性详解 ...
ComboTree 的json格式和引用
在easyui内,用 <select>实现combotree. <td ><select class="easyui-combotree" url=& ...

整数压缩编码 ZigZag

1. 补码编码

2. ZigZag

编码

解码

整数压缩编码 ZigZag的更多相关文章

随机推荐

热门专题