LEB128相关知识
LEB128相关知识
介绍
LEB128(little endian base 128)是一种变长的整数压缩编码形式,它是出自于DWARF debug file format。在Android的Dalvik Executable format中使用该编码用于表示32位整数。由于32位整数占用固定的4个字节,可能大多数整数并不需要4个字节,最高几个字节可能为0(正数)或者为1(负数),该编码就是不保存最高位的这些字节。
原理
LEB128的表现形式都是一样的,如下面表格所示,由于是little endian,因此是从低字节到高字节。每个字节中的最高bit是标识信息,1表示还有后续字节,0表示结束,后面7bits是有效数据。将多个字节的该7bits从低到高组合起来就是所表示的整数。
LEB128分成有符号数和无符号数两种分别进行处理,不过,只是在编码和解码过程有些不同。
| 低地址 | +1 | +2 | +3 | +4 |
|---|---|---|---|---|
| 0 xxxxxxx | ||||
| 1 xxxxxxx | 0 xxxxxxx | |||
| 1 xxxxxxx | 1 xxxxxxx | 0 xxxxxxx | ||
| 1 xxxxxxx | 1 xxxxxxx | 1 xxxxxxx | 0 xxxxxxx | |
| 1 xxxxxxx | 1 xxxxxxx | 1 xxxxxxx | 1 xxxxxxx | 0 xxxxxxx |
无符号整数
将无符号整数写成二进制形式,从低位到高位7个bits为一个整体组合成一个字节,在该字节最高位填入上述所说的标识信息。
下面以10000为例,编码过程:
| 二进制形式为 | 10 0111 0001 0000 |
|---|---|
| 以7bits为整体 | 1001110 0010000 |
| 添加标识组合成新的字节(从后往前,即低bits到高bits) | 01001110(0x4E) 10010000(0x90) (最高位标识设置为0,表示没有后续字节) |
| LEB128 则为 | 0x90 0x4F (小端存放) |
解码过程:
| LEB128 | 0x90 0x4E |
|---|---|
| 二进制形式 | 10010000 01001110 |
| 去掉标识信息 | 0010000(低7bits) 1001110(高7bits) |
| 组合的结果为 | 10011100010000 (10000) |
编码代码为:
void EncodeULEB128(unsigned int value, unsigned char *leb128_buffer)
{
int pos = 0;
while (value != 0) {
leb128_buffer[pos++] = value & 0x7F | 0x80; //每个字节标识信息都设为1
value >>= 7;
}
if (pos > 0)
leb128_buffer[pos-1] &= 0x7F; //将最后一个字节的标识信息设为0
}
解码代码为:
void DecodeULEB128(unsigned char *leb128_buffer, unsigned int *value)
{
int pos = 0;
int offset = 0;
while (buffer[pos] != 0) {
*value |= ( (buffer[pos] & 0x7F) << offset ); //从低到高将 bits 合并到一起
offset += 7;
if (buffer[pos] & 0x80 == 0)
break;
pos += 1;
}
}
有符号数
有符号数分成了正数和负数,在计算机的存储中都是以补码存储,正数和上述无符号数一样的处理,负数的处理会有些区别,以-10000为例说明,
编码过程:
| 二进制补码 | 11111111 11111111 11111100 00011000(可以看出最高两字节都是符号扩展的1) |
|---|---|
| 以7bits为整体 | 1111 1111111 1111111 1111000 0011000 |
| 添加标识信息组合新的字节(从后往前,即低bits到高bits) | 01111000 10011000(此处结束条件不像上面那么明显,若前面和该7bits的最高位都为1时停止) |
| LEB128则为 | 0x98 0x78 |
解码过程:
| LEB128 | 0x98 0x78 |
|---|---|
| 二进制形式 | 10011000 01111000 |
| 去掉标识信息 | 0011000 1111000 (若最后一个字节中7bits的最高位为1,则前面需要符号扩展都添加1) |
| 组合结果 | 11111111 11111111 1111100 00011000 (-10000) |
编码代码为:
void EncodeLEB128(int value, unsigned char *buffer)
{
int pos = 0;
int more = 1;
while (more) {
unsigned char byte = value & 0x7F;
value >>= 7;
if ( ((value == 0) && (byte & 0x40) == 0) || //正数
((value == -1) && (byte & 0x40) != 0) ) //负数
more = 0;
if (more != 0)
byte != 0x80;
buffer[pos++] = byte;
}
}
编码代码为:
void DecodeLEB128(unsigned char *buffer, int *value)
{
int pos = 0;
int offset = 0;
unsigned char byte = buffer[pos++];
while (byte >= 0x80) {
*value |= (byte & 0x7f) << offset;
offset += 7;
byte = buffer[pos++];
}
if (byte & 0x40)
*value |= -(1 << offset);
}
总结
LEB128的理解难点是在有符号数上,编码结束条件不像无符号数那么明显(value等于0),分两种情况:
1. 若为正数,7bits中的最高位为0 并且 value == 0结束,value ==0 表示高字节没有数据,而7bits最高位为0用于表示是正数,用于解码;
2. 若为负数,7bits中的最高位为1 并且 value == -1结束, value == -1表示高字节都是符号扩展出来的1, 7bits最高位为1用于表示是负数,在解码时高位填充1。
参考
LEB128相关知识的更多相关文章
- 【Python五篇慢慢弹(5)】类的继承案例解析,python相关知识延伸
类的继承案例解析,python相关知识延伸 作者:白宁超 2016年10月10日22:36:57 摘要:继<快速上手学python>一文之后,笔者又将python官方文档认真学习下.官方给 ...
- 移动WEB像素相关知识
了解移动web像素的知识,主要是为了切图时心中有数.本文主要围绕一个问题:怎样根据设备厂商提供的屏幕尺寸和物理像素得到我们切图需要的逻辑像素?围绕这个问题以iphone5为例讲解涉及到的web像素相关 ...
- listener监听器的相关知识
从别人的博客上我学习了listener的相关知识现在分享给大家 1.概念: 监听器就是一个实现特定接口的普通java程序,这个程序专门用于监听另一个java对象的方法调用或属性改变,当被监听对象发生上 ...
- UIViewController相关知识
title: UIViewController 相关知识date: 2015-12-13 11:50categories: IOS tags: UIViewController 小小程序猿我的博客:h ...
- 【转】java NIO 相关知识
原文地址:http://www.iteye.com/magazines/132-Java-NIO Java NIO(New IO)是从Java 1.4版本开始引入的一个新的IO API,可以替代标准的 ...
- NSString使用stringWithFormat拼接的相关知识
NSString使用stringWithFormat拼接的相关知识 保留2位小数点 1 2 3 4 //.2代表小数点后面保留2位(2代表保留的数量) NSString *string = [NSSt ...
- iOS网络相关知识总结
iOS网络相关知识总结 1.关于请求NSURLRequest? 我们经常讲的GET/POST/PUT等请求是指我们要向服务器发出的NSMutableURLRequest的类型; 我们可以设置Reque ...
- 电路相关知识--读<<继电器是如何成为CPU的>>
电路相关知识–读<<继电器是如何成为CPU的>> */--> *///--> *///--> 电路相关知识–读<<继电器是如何成为CPU的> ...
- 地址标记,SpringMVC转发与调用相关知识存档
1.mytest_mavenprj1中,index的 <a href="login/login.html">点击登录</a> 与 <a href=&q ...
随机推荐
- js中三种弹出框
javascript的三种对话框是通过调用window对象的三个方法alert(),confirm()和prompt()来获得,可以利用这些对话框来完成js的输入和输出,实现与用户能进行交互的js代码 ...
- 可编程逻辑控制器(PLC)漏洞挖掘思路与验证
mailto wangkai0351@gmail.com 随时记录千奇百怪的漏洞挖掘思路,主要针对STEP7 v5+西门子S7-300/400系列PLC,欢迎同行前来交流. 组态信息下载完整性攻击 思 ...
- Codeforces Round #245 (Div. 1) B. Working out (dp)
题目:http://codeforces.com/problemset/problem/429/B 第一个人初始位置在(1,1),他必须走到(n,m)只能往下或者往右 第二个人初始位置在(n,1),他 ...
- 图数据库Neo4j
官网下载:https://neo4j.com/download/ 图数据库Neo4j入门:https://blog.csdn.net/gobitan/article/details/68929118 ...
- C#中五种访问修饰符作用范围 public、private、protected、internal、protected internal
1.五种访问修饰符包括哪些? public.private.protected.internal.protected internal 2.五种访问修饰符的作用范围? public :公有访问.不受 ...
- Hello1 web
<?xml version="1.0" encoding="UTF-8"?> xml版本,指定编码格式 <web-app versio ...
- Python03(Linux和Python简介)
Trainning-day02回顾1.rmdir : 删除空文件夹2.rm :删除文件或者文件夹 -r 删除目录以及其内容 -i 删除前的提示 -f 强制删除3.通配符 * 匹配任意多个任意字符 ?匹 ...
- Openresty 进行限流的方法
1.使用Openresty进行限流, 使用漏桶原理进行设计 和路由系统设计类似. LUA脚本去通过变量去redis取值,从redis中得到队列的大小.漏和桶的大小. 然后通过比较,队列大小与漏和桶进行 ...
- Python成长之路【第二篇】Python基础之数据类型
阅读目录 简介 1 什么是数据? x=10,10是我们要存储的数据 2 为何数据要分不同的类型 数据是用来表示状态的,不同的状态就应该用不同的类型的数据去表示 3 数据类型 数字(整形,长整形,浮点型 ...
- 网站内容js设置 禁止复制,禁止选择
网站内容禁止复制和粘贴.另存为的js代码 1.使右键和复制失效 方法1: 在网页中加入以下代码: 复制代码代码如下: <script language="Javascript&quo ...