深入理解c语言_从编译器的角度考虑问题

开源中国：

　　Dennis Ritchie教授过世了，他发明了C语言，一个影响深远并彻底改变世界的计算机语言。一门经历40多年的到今天还长盛不训的语言，今天很多语言都受到C的影响，C++，Java，C#，Perl，PHP，Javascript等等。但是，你对C了解吗？相信你看过本站的《C语言的谜题》还有《谁说C语言很简单？》。这里，我再写一篇关于深入理解C语言的文章，一方面是缅怀Dennis，另一方面是告诉大家应该如何学好一门语言。。

　　首先，我们先来看下面这个经典的代码：

int main()

{

　　int a = ;

　　printf(“%d\n”, a);

}

从这段代码里你看到了什么问题？我们都知道，这段程序里少了一个#include <stdio.h> 还少了一个return 0;的返回语句。

　　不过，让我们来深入的学习一下，这段代码在C++下无法编译，因为C++需要明确声明函数。这段代码在C的编译器下会编译通过，因为在编译期，编译器会生成一个printf的函数定义，并生成.o文件，链接时，会找到标准的链接库，所以能编译通过。

　　但是，你知道这段程序的退出码吗？在ANSI-C下，退出码是一些未定义的垃圾数。但在C89下，退出码是3，因为其取了printf的返回值。为什么printf函数返回3呢？因为其输出了’4′, ’2′,’\n’ 三个字符。而在C99下，其会返回0，也就是成功地运行了这段程序。你可以使用gcc的 -std=c89或是-std=c99来编译上面的程序看结果。

　　另外，我们还要注意main()，在C标准下，如果一个函数不要参数，应该声明成main(void)，而main()其实相当于main(…)，也就是说其可以有任意多的参数。

我们再来看一段代码：

#include <stdio.h>

void f(void)

{

    static int a = ;

    static int b;

    int c;

    ++a; ++b; ++c;

    printf("a=%d\n", a);

    printf("b=%d\n", b);

    printf("c=%d\n", c);

}  

int main(void)

{

    f();

    f();

    f();

}

　　这个程序会输出什么？

　　我相信你对a的输出相当有把握，就分别是4，5，6，因为那个静态变量。对于c呢，你应该也比较肯定，那是一堆乱数。

但是你可能不知道b的输出会是什么？答案是1，2，3。为什么和c不一样呢？因为，如果要初始化，每次调用函数里，编译器都要初始化函数栈空间，这太费性能了。但是c的编译器会初始化静态变量为0，因为这只是在启动程序时的动作。

　　全局变量同样会被初始化。

　　说到全局变量，你知道静态全局变量和一般全局变量的差别吗？是的，对于static 的全局变量，其对链接器不可以见，也就是说，这个变量只能在当前文件中使用。

我们再来看一个例子：

#include <stdio.h>

void foo(void)

{

    int a;

    printf("%d\n", a);

}  

void bar(void)

{

    int a = ;

}

int main(void)

{

    bar();

    foo();

}

　　你知道这段代码会输出什么吗？A) 一个随机值，B) 42。A 和 B都对（在“在函数外存取局部变量的一个比喻”文中的最后给过这个例子），不过，你知道为什么吗？

　　如果你使用一般的编译，会输出42，因为我们的编译器优化了函数的调用栈（重用了之前的栈），为的是更快，这没有什么副作用。反正你不初始化，他就是随机值，既然是随机值，什么都无所谓。

　　但是，如果你的编译打开了代码优化的开关，-O，这意味着，foo()函数的代码会被优化成main()里的一个inline函数，也就是说没有函数调用，就像宏定义一样。于是你会看到一个随机的垃圾数。

下面，我们再来看一个示例：

#include <stdio.h> 

int b(void) { printf(“”); return ; }  

int c(void) { printf(“”); return ; }  

int main(void)

{

    int a = b() + c();

    printf(“%d\n”, a);

}

　　这段程序会输出什么？，你会说是，3，4，7。但是我想告诉你，这也有可能输出，4，3，7。为什么呢？这是因为，在C/C++中，表达的评估次序是没有标准定义的。编译器可以正着来，也可以反着来，所以，不同的编译器会有不同的输出。你知道这个特性以后，你就知道这样的程序是没有可移植性的。

　　我们再来看看下面的这堆代码，他们分别输出什么呢？

示例一

int a=; a++; printf("%d\n", a);


示例二

int a=; a++ & printf("%d\n", a);


示例三

int a=; a++ && printf("%d\n", a);


示例四

int a=; if (a++ < ) printf("%d\n", a);


示例五

int a=; aa = a++; printf("%d\n", a);

只有示例一，示例三，示例四输出42，而示例二和五的行为则是未定义的。关于这种未定义的东西又叫Sequence Points，因为这会让编译器不知道在一个表达式顺列上如何存取变量的值。比如a = a++，a + a++，不过，在C中，这样的情况很少。

下面，再看一段代码：（假设int为4字节，char为1字节）

struct X { int a; char b; int c; };

printf("%d,", sizeof(struct X));

struct Y { int a; char b; int c; char d};

printf("%d\n", sizeof(struct Y));

这个代码会输出什么?

a) 9，10

b)12, 12

c)12, 16

答案是C，我想，你一定知道字节对齐，是向4的倍数对齐。

　　但是，你知道为什么要字节对齐吗？还是因为性能。因为这些东西都在内存里，如果不对齐的话，我们的编译器就要向内存一个字节一个字节的取，这样一来，struct X，就需要取9次，太浪费性能了，而如果我一次取4个字节，那么我三次就搞定了。所以，这是为了性能的原因。

　　但是，为什么struct Y不向12 对齐，却要向16对齐，因为char d; 被加在了最后，当编译器计算一个结构体的尺寸时，是边计算，边对齐的。也就是说，编译器先看到了int，很好，4字节，然后是 char，一个字节，而后面的int又不能填上还剩的3个字节，不爽，把char b对齐成4，于是计算到d时，就是13 个字节，于是就是16啦。但是如果换一下d和c的声明位置，就是12了。

　　另外，再提一下，上述程序的printf中的%d并不好，因为，在64位下，sizeof的size_t是unsigned long，而32位下是 unsigned int，所以，C99引入了一个专门给size_t用的%zu。这点需要注意。在64位平台下，C/C++ 的编译需要注意很多事。你可以参看《64位平台C/C++开发注意事项》。

下面，我们再说说编译器的Warning，请看代码：

#include <stdio.h> 

int main(void)  

{  

    int a;  

    printf("%d\n", a);  

}

考虑下面两种编译代码的方式：

cc -Wall a.c

cc -Wall -O a.c

前一种是不会编译出a未初化的警告信息的，而只有在-O的情况下，再会有未初始化的警告信息。这点就是为什么我们在makefile里的CFLAGS上总是需要-Wall和 -O。

最后，我们再来看一个指针问题，你看下面的代码：

#include <stdio.h>

int main(void)

{

    int a[];

    printf("%x\n", a);

    printf("%x\n", a+);

    printf("%x\n", &a);

    printf("%x\n", &a+);

}

假如我们的a的地址是：0Xbfe2e100, 而且是32位机，那么这个程序会输出什么？

第一条printf语句应该没有问题，就是 bfe2e100

第二条printf语句你可能会以为是bfe2e101。那就错了，a+1，编译器会编译成 a+ 1*sizeof(int)，int在32位下是4字节，所以是加4，也就是bfe2e104

第三条printf语句可能是你最头疼的，我们怎么知道a的地址？我不知道吗？可不就是bfe2e100。那岂不成了a==&a啦？这怎么可能？自己存自己的？也许很多人会觉得指针和数组是一回事，那么你就错了。如果是 int *a，那么没有问题，a == &a。但是这是数组啊a[]，所以&a其实是被编译成了 &a[0]。

第四条printf语句就很自然了，就是bfe2e114。

看过这么多，你可能会觉得C语言设计得真拉淡啊。不过我要告诉下面几点Dennis当初设计C语言的初衷：

）相信程序员，不阻止程序员做他们想做的事。

）保持语言的简洁，以及概念上的简单。

）保证性能，就算牺牲移植性。

今天很多语言进化得很高级了，语法也越来越复杂和强大，但是C语言依然光芒四射，Dennis离世了，但是C语言的这些设计思路将永远不朽。

参考：http://oss.org.cn/html/46/n-61746.html

深入理解c语言_从编译器的角度考虑问题_纪念Dennis Ritchie先生的更多相关文章

Shell简介：1分钟理解什么是Shell 脚本语言解释器以及编译器和编译语言
Shell简介:1分钟理解什么是Shell 脚本语言解释器以及编译器和编译语言现在我们使用的操作系统(Windows.Mac OS.Android.iOS 等)都是带图形界面的,简单直观,容易上 ...
【转载】理解C语言中的关键字extern
原文:理解C语言中的关键字extern 最近写了一段C程序,编译时出现变量重复定义的错误,自己查看没发现错误.使用Google发现,自己对extern理解不透彻,我搜到了这篇文章,写得不错.我拙劣的翻 ...
深入理解C语言的函数调用过程【转】
转自:http://blog.chinaunix.net/uid-25909619-id-4240084.html 原文地址:深入理解C语言的函数调用过程作者:wjlkoorey258 本文 ...
"深入理解C语言" 指针
本文对coolshell中的"深入理解C语言"这篇文章中提到的指针问题, 进行简要的分析. #include <stdio.h> int main(void){ ]; ...
深入理解C语言 - 指针使用的常见错误
在C语言中,指针的重要性不言而喻,但在很多时候指针又被认为是一把双刃剑.一方面,指针是构建数据结构和操作内存的精确而高效的工具.另一方面,它们又很容易误用,从而产生不可预知的软件bug.下面总结一下指 ...
理解C语言递归up_and_down
函数调用.理解递归对于程序,编译器会对其分配一段内存,在逻辑上可以分为代码段,数据段,堆,栈. 代码段:保存程序文本,指令指针EIP就是指向代码段,可读可执行不可写数据段:保存初始化的全局变量和静 ...
理解C语言中指针的声明以及复杂声明的语法
昨天刚把<C程序设计语言>中"指针与数组"章节读完,最终把心中的疑惑彻底解开了.如今记录下我对指针声明的理解.顺便说下怎样在C语言中创建复杂声明以及读懂复杂声明. 本文 ...
这样子来理解C语言中指针的指针
友情提示:阅读本文前,请先参考我的之前的文章<从四个属性的角度来理解C语言的指针也许会更好理解>,若已阅读,请继续往下看. 我从4个属性的角度来总结了C语言中的指针概念.对于C语言的一个指 ...
深入理解C语言-深入理解数组
数组,作为C语言中常见的复杂数据类型,了解其本质有助于深入了解C语言数组概念元素类型角度:数组是相同类型的变量的有序集合测试指针变量占有内存空间大小内存角度:联系的一大片内存空间数组初始化数 ...

随机推荐

C bit 操作
C 位操作一.C bit 操作(C语言二进制位操作) 1.Setting a bit Use the bitwise OR operator (|) to set a bit. number ...
常用AWK命令
常用AWK命令 Awk is a programming language which allows easy manipulation of structured data and the gene ...
C# 调用load事件
在一个函数或者事件中调用另外的事件,例如调用Load事件 private void EventForm_Load(object sender, EventArgs e) { //相关内容 } priv ...
htmlt中的块状元素与内联元素
块元素(block element) address - 地址 blockquote - 块引用 center - 举中对齐块 dir - 目录列表 div - 常用块级容易,也是CSS layout ...
dedecms 获取文章发布时间和获取文章最后更新时间
文章发布时间:[field:senddate function=MyDate('m-d',@me)/] 文章最后更新时间:[field:pubdate function=MyDate('m-d',@m ...
TDD三大定律
You must write a failing unit test before you write production code. You must stop writing that unit ...
python log 层次结构
文件结构 - run.py - b -- __init__.py run.py import logging import b log = logging.getLogger("" ...
SQL sum case when then else【转】
数据库 t 表 b 表内容 Id Name 胜负 1 张三胜 2 李四 ...
STL set_difference set_intersection set_union 操作
以下是STL algorithm的几个函数,使用的条件是有序容器,所以 vector在被sort了之后是可以使用的,set也是可以使用的. set_difference 这个是求得在第一个容器中有,第 ...
<四> SQL存储过程
存储过程的定义: create procedure procedurename @param1 nvarchar(30) as select * from tablename where name = ...

深入理解c语言_从编译器的角度考虑问题_纪念Dennis Ritchie先生

深入理解c语言_从编译器的角度考虑问题_纪念Dennis Ritchie先生的更多相关文章

随机推荐

热门专题