clang_intprt_t类型探究
作者:玄魂工作室-钱海龙
问题
这篇手把手教你构建 C 语言编译器,里面有着这样的代码
void eval() {
int op, *tmp;
while (1) {
if (op == IMM) {ax = *pc++;} // load immediate value to ax
else if (op == LC) {ax = *(char *)ax;} // load character to ax, address in ax
else if (op == LI) {ax = *(int *)ax;} // load integer to ax, address in ax
else if (op == SC) {ax = *(char *)*sp++ = ax;} // save character to address, value in ax, address on stack
else if (op == SI) {*(int *)*sp++ = ax;} // save integer to address, value in ax, address on stack
}
...
return 0;
}
只看op == LC这段代码,ax是一个int类型,存放的值是char *指针类型地址,取完该地址所在的值再赋给变量ax
但是如此写代码,vim的youcomplete插件一直报错

那就举个例子
//test.c
#include <stdio.h>
int main() {
int a = 1;
int p = &a;
printf("the result is %d\n",*((int*)p));
}
32位linux gcc v4.8.4
试试32位gcc
~$ gcc test.c -o test
test.c: In function ‘main’:
test.c:4:13: warning: initialization makes integer from pointer without a cast [enabled by default]
int p = &a;
~$ ./test
the result is 1
虽然有警告,依然能运行成功正确输出,接下来试试32位g++
~$ g++ test.c -o test
ltest.c: In function ‘int main()’:
test.c:4:14: error: invalid conversion from ‘int*’ to ‘int’ [-fpermissive]
int p = &a;
直接抛出错误
64位linux gcc version 5.4.0
试试64位gcc
ch@ch-pc:~$ gcc test.c -o test
test.c: In function ‘main’:
test.c:4:13: warning: initialization makes integer from pointer without a cast [-Wint-conversion]
int p = &a;
^
test.c:5:35: warning: cast to pointer from integer of different size [-Wint-to-pointer-cast]
printf("the result is %d\n",*((int*)p));
^
ch@ch-pc:~$ ./test
段错误 (核心已转储)
运行时才出错,那么试试64位g++
ch@ch-pc:~$ g++ test.c -o test
test.c: In function ‘int main()’:
test.c:4:14: error: invalid conversion from ‘int*’ to ‘int’ [-fpermissive]
int p = &a;
^
test.c:5:41: warning: cast to pointer from integer of different size [-Wint-to-pointer-cast]
printf("the result is %d\n",*((int*)p));
编译不通过
当然-m32这种参数,就不讨论了
初步结论
g++编译的时候就认为是个错误,gcc32位编译可以正常运行,64位运行时报错
我们探讨一下原因,32位和64的int类型都是4个字节的,但是指针类型的大小不一致
#include <stdio.h>
int main() {
int *p;
printf("the result is %lu\n", sizeof(p));
}
分别在32位和64位编译器(注意是编译器,64位系统也有可能有32位编译器)编译后,运行
32位结果为"the result is 4"
64位结果为"the result is 8"
本质原因
64位,gcc编译后,拿到test可执行程序,程序执行会出现段错误,现在来反汇编一下
//test.c
#include <stdio.h>
int main() {
int a = 1;
int p = &a;
printf("the result is %d\n",*((int*)p));
}
//编译
~$ gcc test.c -o test
// objdump反汇编命令
// -S 尽可能尽可能反汇编出源代码
// -M 因为个人习惯问题,不太会看AT&A的汇编,还是搞成intel的来看
// nl只是把上面的结果显示一下行数,-b 行的显示方式
// -ba //显示所有行号(包括空行)
// -bt //显示所有行号(但不包括空行)
~$ objdump -S -M intel test | nl -ba
主要看一下,main函数

- 从138行开始看,对应着代码int a = 1,将数字1赋值给rbp栈上的-0x10处,也就是在距离bp栈的16字节处(因为0x10=16);如下图1行,B(地址)处的为数字1,占四个字节,那么中间竖线就是[rbp-0xc]处
- 139行,将地址传给了rax寄存器,注意rax是16字节(对应题目中的指针大小),对应下图2行,rax存储的就是(A,B)
- 140行,对应下图3行指令中eax是rax的低位,存储的值就是B(注意B是地址)四个字节,赋值给[rbp-0xc]处四个字节B(注意B是地址),而[rbp-0xc]到[rbp-0x10]还是数字1四个字节
- 最主要的问题出在141行,也就是把[rbp-0xc]的值,也就是B,赋值给rax的低位,本来这个rax的低位8个字节就是B,这个没问题,问题出在64位系统的给eax(rax的低位)赋值,会影响rax的高位,高位全被置为0了. 具体论证在这里
- 这样在143行,对应下图5行,尝试把rax寄存器的值当成地址,去该地址取值. rax寄存器的值是(0, B)(这里面是0, B各占8个字节,对应c代码里面的指针大小,16个字节),而实际需要的地址值是(A, B).

我们来用edb调试的结果,也跟想得一样

有一点我上面并没有讲到,就是上图4行的 rax 过渡到上图5行的时候高位并不一定是零,因为在142行的时候,有一个指令cdqe,这是eax拓展成rax的指令,所有要根据eax的正负性来判断.也就是说,如果eax表达出来是负数,rax的高位补出来的是全f;同理eax正数的情况下,rax高位补全的才是0
解决方案
在c99的标准库里面有一个结构体,intptr_t可以实现编译器位数兼容性
//头文件stdint.h
/* Types for `void *' pointers. */
#if __WORDSIZE == 64
# ifndef __intptr_t_defined
typedef long int intptr_t;
# define __intptr_t_defined
# endif
typedef unsigned long int uintptr_t;
#else
# ifndef __intptr_t_defined
typedef int intptr_t;
# define __intptr_t_defined
# endif
typedef unsigned int uintptr_t;
#endif
上述测试代码改成这样即可
#include <stdio.h>
#include <stdint.h>
int main() {
int a = 1;
int p = &a;
printf("the result is %d\n",*((int*)(intptr_t)p));
}
原始代码改成下面即可
if(op == IMM) {
ax = *pc++;
} else if(op == LC) {
ax = *(char *)(intptr_t)ax;
} else if(op == LI) {
ax = *(int *)(intptr_t)ax;
} else if(op ==SC) {
ax = *(char *)(intptr_t)*sp++ = ax;
} else if(op == SI){
*(int *)(intptr_t)*sp++ = ax;
} else if(op == PUSH) {
*--sp = ax;
} else if(op == JMP) {
pc = (int *)(intptr_t)*pc;
} else if(op == JZ) {
pc = ax ? pc + 1 : (int *)(intptr_t)*pc;
} else if(op == JNZ) {
pc = ax ? (int *)(intptr_t)*pc : pc + 1;
} else if(op == CALL) {
*--sp = (int)(intptr_t)(pc + 1);
pc = (int *)(intptr_t)*pc;
} else if(op == ENT) {
*--sp = (int)(intptr_t)bp;
bp = sp;
sp = sp - *pc++;
} else if(op == ADJ) {
sp = sp + (intptr_t)*pc++;
}
参考
- C---int和指针转换注意事项
- Disabling “cast from pointer to smaller type uint32_t” error in Clang
- Why is “cast from ‘X*’ to ‘Y’ loses precision” a hard error and what is suitable fix for legacy code
- C语言指针转换为intptr_t类型
- x86_64 registers rax/eax/ax/al overwriting full register contents [duplicate]
- CBW/CWDE/CDQE
clang_intprt_t类型探究的更多相关文章
- mysql、sqlserver数据库常见数据类型对应java中的的类型探究
由于本次测试表的结构不涉及到主键的自增长,所以mysql.sqlserver建表语句相同: CREATE TABLE testType ( id INT NOT NULL DEFAULT 0, gen ...
- java.lang.NumberFormatException: Infinite or NaN原因之浮点类型除数为0结果探究
背景 在对Double类型的数据进行计算操作,将结果转化为BigDecimal时抛出了下面的异常,进行了Debug才发现了问题原因,同时也暴露出了自己在一些基础知识上还有些欠缺. Exception ...
- Java 8新特性探究(三)泛型的目标类型推断
简单理解泛型 泛型是Java SE 1.5的新特性,泛型的本质是参数化类型,也就是说所操作的数据类型被指定为一个参数.通俗点将就是"类型的变量".这种类型变量可以用在类.接口和方法 ...
- Java 8新特性探究(二)类型注解和重复注解
本文将介绍java 8的第二个特性:类型注解. 注解大家都知道,从java5开始加入这一特性,发展到现在已然是遍地开花,在很多框架中得到了广泛的使用,用来简化程序中的配置.那充满争议的类型注解究竟是什 ...
- 一次修改mysql字段类型引发的技术探究
说来,mysql数据库是我们项目中用的比较多的库,ORM工具喜欢采用细粒度的MyBatis.这里面就这么引出了两者之间的故事! 首先,说改字段吧,将一个表中的varchar字段改为enum字段.如下: ...
- 探究 Redis 4 的 stream 类型
redis 2 10 月初,Redis 搞了个大新闻.别紧张,是个好消息:Redis 引入了名为 stream 的新数据类型和对应的命令,大概会在年底正式发布到 4.x 版本中.像引入新数据类型这样的 ...
- Swift - 值类型与引用类型的初步探究
前言 swift中的结构体和类在组成和功能上具有一定的相似性.两者都可以含有成员属性.成员方法用于数据存储和功能性模块封装.往往造成不知如何对二者进行区分和使用 值类型概念和引用类型概念 值类型的概念 ...
- 记一次批量更新整型类型的列 → 探究 UPDATE 的使用细节
开心一刻 今天,她给我打来电话 她:你明天陪我去趟医院吧 我:怎么了 她:我怀孕了,陪我去打胎 我:他的吗 她:嗯 我心一沉,犹豫了片刻:生下来吧,我养! 她:他的孩子,你不配养! 我:我随孩子姓 需 ...
- MyBatis探究-----返回Map类型数据
1.使用@MapKey @MapKey:告诉mybatis封装Map的时候使用哪个属性作为Map的key Map<K, V>:键是这条记录的主键key,值是记录封装后的javaBean 1 ...
随机推荐
- 07.LoT.UI 前后台通用框架分解系列之——轻巧的文本编辑器
LoT.UI汇总:http://www.cnblogs.com/dunitian/p/4822808.html#lotui 上次说的是强大的百度编辑器 http://www.cnblogs.com/d ...
- 使用技术手段限制DBA的危险操作—Oracle Database Vault
概述 众所周知,在业务高峰期,某些针对Oracle数据库的操作具有很高的风险,比如修改表结构.修改实例参数等等,如果没有充分评估和了解这些操作所带来的影响,这些操作很可能会导致故障,轻则导致应用错误, ...
- 带你实现开发者头条APP(四)---首页优化(加入design包)
title: 带你实现开发者头条APP(四)---首页优化(加入design包) tags: design,Toolbar,TabLayout,RecyclerView grammar_cjkRuby ...
- OpenGL超级宝典笔记----渲染管线
在OpenGL中任何事物都在3D空间中,但是屏幕和窗口是一个2D像素阵列,所以OpenGL的大部分工作都是关于如何把3D坐标转变为适应你屏幕的2D像素.3D坐标转为2D坐标的处理过程是由OpenGL的 ...
- 在centos7上安装ClamAV杀毒,并杀毒(centos随机英文10字母)成功
前言 上传文件的时候发现总是失败,查看top发现有个进程一直cpu占用80%以上,而且名称还是随机数.kill之后,一会儿又重新生成了.突然发现居然没有在服务端杀毒的经历.在此处补齐. 安装clama ...
- android Handler介绍
Handler使用介绍: Handler根据接收的消息,处理UI更新.Thread线程发出消息,通知Handler更新UI. Handler mHandler = new Handler() { p ...
- Atitit.如何建立研发体系
Atitit.如何建立研发体系 组织,流程,prj..Mana oppm 发管理是一个完整的管理体系,从结构上来讲,它主要由四个方面的内容构架而成:组织结构与岗位设置 管理流程与工作流程..项目及管 ...
- TFS 2015 敏捷开发实践 – 看板的使用
看板在现代应用开发过程中使用非常广泛,不管是使用传统的瀑布式开发还是敏捷开发,都可以使用看板管理.因为看板拥有简单的管理方法,直观的显示方式,所以很多软件开发团队选择使用看板进行软件开发管理.本文不在 ...
- vim+vundle配置
Linux环境下写代码虽然没有IDE,但通过给vim配置几个插件也足够好用.一般常用的插件主要包括几类,查找文件,查找符号的定义或者声明(函数,变量等)以及自动补全功能.一般流程都是下载需要的工具,然 ...
- .NET面试题系列[3] - C# 基础知识(1)
1 类型基础 面试出现频率:基本上肯定出现 重要程度:10/10,身家性命般重要.通常这也是各种招聘工作的第一个要求,即“熟悉C#”的一部分.连这部分都不清楚的人,可以说根本不知道自己每天都在干什么. ...