(转)C的代码是如何变成程序的
原文链接:http://blog.csdn.net/fz_ywj/article/details/8769825
C语言是一门典型的编译语言,源代码文件需要编译成目标代码文件才能运行。可以认为程序文件就是编译好的目标代码文件。
以GCC的编译过程为例。GCC的翻译过程可以分成四个阶段:预处理器、编译器、汇编器、链接器,执行这四个阶段的程序一起构成了一个编译系统。

图 1 GCC编译系统(取自《深入理解计算机系统》)
1 预处理器
预处理器(cpp)负责对源代码进行文本处理。它根据以字符#开头的命令,修改原始的C代码。如:
1. #include <stdio.h> 从编译器的内置查找路径的根部开始查找stdio.h文件,读取其内容,并把它直接插入到程序文本中。
2. #include ”my_header.h” 与上条的区别就是查找路径是从当前代码文件所在目录开始。
3. #define MACRO_NAME CONTEXT 将原始代码中所有的MACRO_NAME文本都替换成CONTEXT,这种替换可能会引起很多难以理解的错误。
4. #define FUNC_NAME(PARA_LIST) CONTEXT 与上条类似,区别在于会在查找到FUNC_NAME的地方进行参数匹配,并将CONTEXT中出现的参数名称用对应的文本进行替换。
5. #define MACRO_NAME #undef MACRO_NAME 前者用于单纯的宏定义,后者用于取消宏定义。
6. #ifdef #ifndef #else #endif 这几个都是用于条件编译的命令,用于决定被包括的文本是否加入到处理后的文本中。
常用的预处理命令就是这些,处理后就得到了另一个C代码文件,一般用.i作为扩展名。
这部分有一个常用的技巧:header guard,用于防止头文件被重复加载。
假设一个场景,某个工程中的3个文件:main.c、a.h、b.h,其中每个文件的开头有这样的文本:
- //main.c
- #include ”a.h”
- #include ”b.h”
- ...
- //a.h
- #include ”b.h”
- void func_a();
- //b.h
- void func_b();
上面提到了预处理器在处理#include时是直接的文本插入,处理后的main.i文件的内容是:
- //main.i
- void func_b();
- void func_a();
- void func_b();
- ...
b.h
的内容被载入了两次!这个例子足够简单,出现这种问题不会发生错误,但如果b.h文件很大,重复加载后可能会出现很多问题,还会导致编译时间的延长。这种
情况下我们可以使用header guard来防止头文件被重复加载,中间省略的部分即头文件的正式内容:
- #ifndef XXX_YYY_ZZZ
- #define XXX_YYY_ZZZ
- ...
- #endif
其中XXX_YYY_ZZZ是你自定义的宏名字。如果为每个头文件选择一个不重复的宏名字,这个宏组合保证了每个头文件只会被一个代码文件载入一次,因为第二次载入时XXX_YYY_ZZZ宏已经定义过了,就直接跳到了#endif的后面。
2 编译阶段
编译器(ccl)将文本文件hello.i翻译成文本文件hello.s,它包含一个汇编语言程序。汇编语言程序中的每条语句都以一
种标准的文本格式确切地描述了一条低级机器语言指令。汇编语言为不同高级语言的不同编译器提供了通用的输出语言,例如C编译器和Fortran编译器产生
的输出文件用的都是一样的汇编语言。
例如,hello.c为:
- #include <stdio.h>
- int main(int argc, char *argv[])
- {
- printf("hello world\n");
- return 0;
- }
运行gcc –S hello.c可以得到hello.s文件,其内容为:
- .file "hello.c"
- .def ___main; .scl 2; .type 32; .endef
- .section .rdata,"dr"
- LC0:
- .ascii "hello world\0"
- .text
- .globl _main
- .def _main; .scl 2; .type 32; .endef
- _main:
- LFB6:
- .cfi_startproc
- pushl %ebp
- .cfi_def_cfa_offset 8
- ...
所有以字符.开头的行都是指导汇编器和链接器的命令,其它行则是被翻译成汇编语言的代码。
3 汇编阶段
接下来,汇编器(as)将hello.s翻译成机器语言指令,把这些指令打包成一种叫做可重定位目标程序的格式,并将结果保存在目标
文件hello.o中。hello.o文件是一个二进制文件,它的字节编码是机器语言指令而不是字符,如果我们在文本编辑器中打开hello.o文件,看
到的将是一堆乱码。
运行gcc –c hello.c可以得到hello.o文件,它是二进制格式,无法直接查看,可以用反汇编器来查看它的编码:objdump –d code.o
以一种典型的可重定位目标格式ELF为例。ELF文件的头部数据包含了:
1. 生成该文件的系统的字的大小和字节顺序。
2. 帮助链接器语法分析和解释目标文件信息的数据。
ELF文件中包含的数据可分成几个节,每个节的位置和大小是由节头部表描述的:
1. .text 机器代码
2. .rodata 只读数据,比如双引号括起的字符串等。
3. .data 已初始化的全局变量。
4. .bss 未初始化的全局变量。在ELF文件中它只是占位符,在目标文件中不占据实际的空间。
5. .symtab 一个符号表,存放在程序中定义和引用的函数和全局变量的信息。
6. .rel.text 一个.text节中位置的列表,当链接器进行链接时,需要修改这些位置。
7. .rel.data 被引用或定义的全局变量的重定位信息,依赖于其它模块信息的已初始化的全局变量,其值在链接时需要被修改。
8. .debug 调试符号表。
9. .line 机器代码与源文件行号的对应关系,只有在-g选项时才会产生。
10. .strtab 一个字符串表,包括.symtab和.debug中的符号表,以及每个节的名字。

图 2 典型的ELF可重定位目标文件
4 链接阶段
链接器(ld)负责将多个可重定位目标文件(.o文件)合并为一个可执行文件,如hello程序文件就是由hello.o和printf.o文件合并得来
的。合并过程中链接器负责解析符号表,并修改不同编译模块间的引用信息,如hello.o的main函数调用printf函数时,机器代码的跳转位置直到
链接阶段才会确定,链接器会将跳转位置修改为printf函数的入口位置。
链接器解析本地符号的引用是非常简单的。编译器只允许每个模块中每个本地符号只有一个定义。不过,对全局符号的解析就很复杂。如果链接器在所有模块中都找
不到某个符号时,它就输出”undefined
reference”错误信息并终止。如果所有符号的解析都顺利完成,链接器最后会输出所有符号的引用位置都确定了的可执行文件。
(转)C的代码是如何变成程序的的更多相关文章
- 每周一书-编写高质量代码:改善C程序代码的125个建议
首先说明,本周活动有效时间为2016年8月28日到2016年9月4日.本周为大家送出的书是由机械工业出版社出版,马伟编著的<编写高质量代码:改善C程序代码的125个建议>. 编辑推荐 10 ...
- 《编写高质量代码:改善Python程序的91个建议》读后感
编写高质量代码:改善Python程序的91个建议 http://book.douban.com/subject/25910544/ 1.(建议16)is 用于判断两个对象的id是否相等,==才是判断 ...
- 编写高质量代码:改善Java程序的151个建议(第二章:基本类型)
编写高质量代码:改善Java程序的151个建议(第二章:基本类型) 目录 建议21:用偶判断,不用奇判断 建议22:用整数类型处理货币 建议23:不要让类型默默转换 建议24:边界还是边界 建议25: ...
- 编写高质量代码:改善Java程序的151个建议(第一章:JAVA开发中通用的方法和准则)
编写高质量代码:改善Java程序的151个建议(第一章:JAVA开发中通用的方法和准则) 目录 建议1: 不要在常量和变量中出现易混淆的字母 建议2: 莫让常量蜕变成变量 建议3: 三元操作符的类型务 ...
- 该对象尚未初始化。请确保在所有其他初始化代码后面的应用程序启动代码中调用 HttpConfiguration.EnsureInitialized()。
WebAPI使用属性路由,配置config.MapHttpAttributeRoutes();后出现错误: System.InvalidOperationException: 该对象尚未初始化.请确保 ...
- 编写高质量代码_改善C++程序的150个建议 读书笔记
这几天看了下这本书<编写高质量代码_改善C++程序的150个建议>,觉的蛮有收获的,再次记录下自己以前不清晰的知识点,以供学习. 编写符合标准的main函数 C语言标准规定了main函数的 ...
- 怎样用代码方式退出IOS程序
原文 :iOS Developer Library Technical Q&A QA1561 How do I programmatically quit my iOS application ...
- 如何:在 DHTML 代码和客户端应用程序代码之间实现双向通信
https://msdn.microsoft.com/zh-cn/library/a0746166 可以使用 WebBrowser 控件向 Windows 窗体客户端应用程序添加现有的动态 HTML ...
- 一行代码让微信小程序支持 cookie
weapp-cookie 一行代码让微信小程序支持 cookie,传送门:github Intro 微信原生的 wx.request 网络请求接口并不支持传统的 Cookie,但有时候我们现有的后端接 ...
- 使用 .NET WinForm 开发所见即所得的 IDE 开发环境,实现不写代码直接生成应用程序
直接切入正题,这是我09年到11年左右业余时间编写的项目,最初的想法很简单,做一个能拖拖拽拽就直接生成应用程序的工具,不用写代码,把能想到的业务操作全部封装起来,通过配置的方式把这些业务操作组织起来运 ...
随机推荐
- 服务端指南 数据存储篇 | 聊聊 Redis 使用场景(转)
作者:梁桂钊 本文,是升级版,补充部分实战案例.梳理几个场景下利用 Redis 的特性可以大大提高效率. 随着数据量的增长,MySQL 已经满足不了大型互联网类应用的需求.因此,Redis 基于内存存 ...
- linux中MySQL本地可以连接,远程连接不上问题
1.网络或防火墙问题 (1)检查网络直接ping你的远程服务器,ping 182.61.22.107,可以ping通说明网络没问题 (2)看端口号3306是不是被防火墙挡住了,telnet 182.6 ...
- dutacm.club 1094: 等差区间(RMQ区间最大、最小值,区间GCD)
1094: 等差区间 Time Limit:5000/3000 MS (Java/Others) Memory Limit:163840/131072 KB (Java/Others)Total ...
- SPOJ NETADMIN - Smart Network Administrator(二分)(网络流)
NETADMIN - Smart Network Administrator #max-flow The citizens of a small village are tired of being ...
- 洛谷 - Sdchr 的邀请赛 T4 信息传递
(乱搞艹爆正解系列) 对不起,由于博主太弱了,并不会正解的多项式exp(甚至多项式exp我都不会2333). 只能来说一说我是怎么乱搞的啦QWQ 首先这个题最关键的性质是: 一个在原置换 g 中长度为 ...
- 【莫队算法】【权值分块】bzoj3585 mex
orz PoPoQQQ. 本来蒟蒻以为这种离散化以后就对应不起来的题不能权值分块搞的说. ……结果,实际上>n的权值不会对答案作出贡献. #include<cstdio> #incl ...
- 【枚举】bzoj1709 [Usaco2007 Oct]Super Paintball超级弹珠
由于子弹的轨迹是可逆的,因此我们可以枚举所有敌人的位置,然后统计他们能打到的位置,这些位置也就是能打到他们的位置咯. O(n*k). #include<cstdio> using name ...
- 微服务之SpringCloud实战(四):SpringCloud Eureka源码分析
Eureka源码解析: 搭建Eureka服务的时候,我们会再SpringBoot启动类加上@EnableEurekaServer的注解,这个注解做了一些什么,我们一起来看. 点进@EnableEure ...
- BUG:Yii登录时 101 net::ERR_CONNECTION_RESET
Bug描述:YII web入口登录,无法登录一直等待,最终重定向 原因:设置的默认路由DefauRoute中的控制器中有错误,导致无法跳转找指定的路由规则 解决方案:这就多亏了SourceTree了, ...
- IO流--字符流缓冲技术
缓冲技术是为了提高数据的读写效率而提出的. (1)字符流的缓冲读 在字符流的缓冲技术中提供了一个newLine()方法,这个方法是跨平台的 在读数据的时候采用读完直接刷新的方式可以保证断电后数据不会丢 ...