(第一次写博客,好激动的说.......)
 
我们知道,一个程序由源代码到可执行文件往往由这几步构成:
预处理(Prepressing)-> 编译(Compilation)-> 汇编(Assembly)-> 链接(Linking)。
 
编译过程就是把预处理完的文件进行一系列词法分析、语法分析、语义分析及优化后生产相应的汇编代码文件,这个过程往往是我们所说的整个程序构建的核心部分。那么,这个核心部分究竟做了什么呢。
 
各位看官容我挽起袖子,且听我娓娓道来。
 
编译器做了什么?
  从最直观的角度来说,编译器就是将高级语言翻译成机器语言的一个工具。
  以 C语言为例,解释一下 ***.c -> ***.o 的过程。 假设test.c有下面一段代码
  array[index] = (index + 4) * (2 + 6);
  下面就来谈谈这个表达式是如何翻译成机器语言的过程。
  这个过程主要有如下五步,看起来好长的样子,看官需静下心来慢慢看。。。。
 
1.词法分析 -- 将源代码字符序列分割成一系列的记号
  源代码程序被输入到扫描器(Scanner)。
  扫描器的任务就是:运用一种有限状态机(Finite State Machine)的算法,将源代码字符序列分割成一系列的记号(Token)。还有一些其他工作(将标识符放到符号表,将数字、字符串放到文字表中)
  如下图(因为表格换页了,所以拍出来是这个样子,望海涵)
 
  词法分析产生的记号可以分为如下几类:关键字、标识符、字面量(包括数字、字符串等)和特殊符号(+ - * /)。
  需要注意的是:C语言的宏替换和文件包含等工作一般不是编译器做的,而是交给一个独立的预处理器。
  有一个叫做lex的程序可以实现词法扫描。
 
2.语法分析 --  产生语法树(以表达式为节点的树)
  语法分析器(Grammar Parser)将对上面产生的记号进行语法分析,产生语法树(Syntax Tree)-- 采用的是上下文无关语法的分析手段。
 简单的说,语法分析器生成的语法树就是以表达式(Expression)为节点的树。
 如图
 语法分析阶段必须对好多东西(符号的含义和优先级)进行区分,若出现了不合法(如括号不匹配,表达式缺少操作符等),编译器就会报告语法分析阶段的错误。
 仅仅是完成了对表达式语法层面的分析,并不了解这个语句是否真正有意义。
 语法分析也有一个现成的工具叫yacc(Yet Another Compiler Compiler)。
 
3.语义分析  --  将语法树中节点标明含义
  接下来就是,由语义分析器(Semantic Analyzer)来完成。
  任务就是:为语法树的表达式标识类型。就是下面这个样子,多了类型
  如图
 
 
 符号和数字是最小的表达式。
  编译器所能分析的语义是静态语义。(动态语义不能被分析)
  静态语义:在编译阶段可以确定的语义,通常包括声明和类型的匹配,类型的转换。
  动态语义:在运行期才能确定的语义,比如将0作为除数是一个运行期语义错误。
 
4.中间语言生成  -- 一个优化过程
  现代的编译器有着很多层次的优化,这里介绍的是一个源码级优化器(Source Code Optimizer),会在源码级别进行优化。比如例子中的(2 + 6),因为在编译阶段可以确定为8,所以这个表达式被优化掉了。
 
 因为直接在语法树上做优化是比较困难的,所以源代码优化器往往将整个语法树转换成中间代码(Intermediate Code),就是语法树的顺序表示(已经非常接近目标代码了)。
 中间代码有很多类型,在不同的编译器有着不同的表现形式,常见的有:三地址码(Three-address Code)、P代码(p-Code)。
 
中间代码使得编译器可以分成前端和后端。
前端:负责产生机器无关的中间代码
后端:将中间代码转换成目标代码
 
5.目标代码生成与优化(这里开始就是后端了,前面都是前端)
 编译器后端主要包括:代码生成器(Code Generator)和目标代码优化器(Target Code Optimizer)。
 代码生成器:将中间代码转换成目标机器代码。这个过程非常依赖于机器,因为不同的机器有不同的字长,寄存器,整数数据类型和浮点数数据类型等。
对于我们的例子,可能会生成下面的代码序列(用x86的汇编来表示),如图
 
目标代码优化器:对上述的目标代码进行优化。比如:选择合适的寻址方式,使用位移来代替乘法运算,删除多余的指令等。
对于我们的例子,有可能会优化成这个样子。
如图。
 
------  我是分割线   ------
 
好了,忙活了这么久,源代码终于变成了目标代码。
这时候问题来了,index和array的地址还没有确定。若用把目标代码用汇编器编译成真正能在机器上执行的指令,这两个地址从何而来呢。
若index和array定义在跟上面的源代码同一个编译单元里,那么编译器可以为它们分配空间,确定它们的地址。
若定义在其他模块呢?说来就话长了。。。。。。
 
附在那本书的一些话:(助于理解)
(1).现代的编译器可以将一个源代码文件编译成一个未链接的目标文件,然后由链接器最终将这些目标文件链接起来形成可执行文件。
(2).汇编器是将汇编代码转变成机器可以执行的指令,每一个汇编语句几乎都对应一条机器指令。
(3).所以汇编器的汇编过程相对于编译器来讲比较简单,它没有复杂的语法,也没有语义,也不需要做指令优化,只是根据汇编指令和机器指令的对照表一一翻译就可以了。
(4).经过预编译、编译和汇编直接输出目标文件(Object File)。
 
 
参考文献《程序员的自我修养--链接、装载与库》 P41-P48 (其实就是摘抄整理了一下,哈哈)

 

编译到底做了什么(***.c -> ***.o的过程)的更多相关文章

  1. malloc 函数到底做了什么?

    请看下面的代码. 猜测结果是什么?编译通过吗? #include <stdio.h> #include <stdlib.h> int main() { ; char *ptr ...

  2. OpenWrt编译到底脚本

    在办公室编译OpenWrt,费时很久,原因有两个. 一是办公室网络环境比较糟糕,经常断线不说,很多技术网站间歇性的连不上,不是撞到404就是DNS解析失败等. 二是初次编译OpenWrt时需要从网上下 ...

  3. vue.js中,input和textarea上的v-model指令到底做了什么?

    v-model是 vue.js 中用于在表单表单元素上创建双向数据绑定,它的本质只是一个语法糖,在单向数据绑定的基础上,增加了监听用户输入事件并更新数据的功能: 对,它本质上只是一个语法糖,但到底是一 ...

  4. 从vue.js的源码分析,input和textarea上的v-model指令到底做了什么

    v-model是 vue.js 中用于在表单表单元素上创建双向数据绑定,它的本质只是一个语法糖,在单向数据绑定的基础上,增加了监听用户输入事件并更新数据的功能:对,它本质上只是一个语法糖,但到底是一个 ...

  5. AFNetworking到底做了什么?(二)

      接着上一篇的内容往下讲,如果没看过上一篇内容可以点这: AFNetworking到底做了什么? 之前我们讲到NSUrlSession代理这一块: 代理8: /* task完成之后的回调,成功和失败 ...

  6. AFNetworking到底做了什么

    写在开头: 作为一个iOS开发,也许你不知道NSUrlRequest.不知道NSUrlConnection.也不知道NSURLSession...(说不下去了...怎么会什么都不知道...)但是你一定 ...

  7. CSS-animations和transitions性能:浏览器到底做了什么?

    CSS animations 和 transitions 的性能:浏览器到底做了什么?(译) 原文地址:http://blogs.adobe.com/webplatform/2014/03/18/cs ...

  8. new到底做了什么?

    下面是一个实例化自定义的对象,我们将要对他进行分析 //定义构造函数 function A(){ this.b = 1 //在这个对象里增加一个属性 //不可以拥有返回对象的return语句 } va ...

  9. 转Rollback后undo到底做了些什么?

    转自:http://biancheng.dnbcw.info/oracle/309191.html Rollback后undo到底做了些什么? 从概念上讲,undo正好与redo相对.当你对数据执行修 ...

随机推荐

  1. PHP验证码

    设计一个验证码类,在需要的时候可以随时调用 验证码类,保存为ValidateCode.class.php <?php //验证码类 session_start(); class Validate ...

  2. 以太网卡TSO技术

    一.简介 TSO(TCP Segment Offload)技术是一种利用网卡的少量处理能力,降低CPU发送数据包负载的技术,需要网卡硬件及驱动的支持.   二.原理 在不支持TSO的网卡上,TCP层向 ...

  3. django模型

    用django时,只要用到数据库就得用到模型. 一.数据库的MTV开发模式 从MVC到MTV 所谓软件架构的MVC模式将数据的存取逻辑(Module),表现逻辑(View)和业务逻辑(Controll ...

  4. js制作倒计时效果

    该程序可以计算任意指定的两个日期中间的差值. 本例子的指定日期是2017年1月1日,当前时间是2016年10月21日:计算它们之间的差值,在网页上显示如图所示: 关键部分代码: var nowtime ...

  5. 《MapReduce: Simplified Data Processing on Large Cluster 》翻译

    Abstract MapReduce是一种编程模型和一种用来处理和产生大数据集的相关实现.用户定义map函数来处理key/value键值对来产生一系列的中间的key/value键值对.还要定义一个re ...

  6. 边工作边刷题:70天一遍leetcode: day 74

    Binary Tree Upside Down 要点: recursion反转如何做?两个要点,一是在递归之后反转link(因为先要通过原来的link到下一层),二是要一层层把最底层的root返回来. ...

  7. js验证表单

    在日常生活中,对于上班时间比较灵活的单位来说,如何能够及时.准确地令公司员工了解自己的上班时间是一个棘手的问题.公司管理人员不会一个挨一个地打电话通知,难免总有员工会弄错自己的上班时间.这样,可以求助 ...

  8. POJ 1195 Mobile Phones

    树状数组,开始的时候wa了,后来看看,原来是概率论没学好,以为求(L,B) - (R,T) 矩阵内的和只要用sum(R+1,T+1) - sum(L,B) 就行了,.傻x了.. 必须 sum(R,T) ...

  9. uGUI练习(七) Drag And Drop

    练习目标 练习UI的拖放操作 一.相关组件 EventTrigger Canvas Group ScrollRect Mask Scrollbar 二.拖放练习 1.创建一个Panel,命名Panel ...

  10. java 16 - 9 增强for的概述和使用

    JDK5的新特性:自动拆装箱,泛型,增强for,静态导入,可变参数,枚举 增强for:是for循环的一种. 格式: for(元素数据类型 变量 : 数组或者Collection集合) { 使用变量即可 ...