等号赋值与memcpy的效率问题

转自：http://www.aiuxian.com/article/p-1309055.html

偶尔看到一个说法，说，小内存的拷贝，使用等号直接赋值比memcpy快得多。结合自己搜集到的资料，整理成此文。

事实：strcpy等函数的逐字节拷贝，memcpy是按照机器字长逐字进行拷贝的，一个字等于4（32位机）或8（64位机）个字节。CPU存取一个字节和存取一个字一样，都是在一条指令、一个内存周期内完成的。显然，按字拷贝效率更高。

先给出一个程序：

`01`	`#include <stdio.h>`

`02`	`#define TESTSIZE 128`

`03`	`struct` `node {`

`04`	`char` `buf[TESTSIZE];`

05 };

`06`	`int` `main()`

07 {

`08`	`char` `src[TESTSIZE] = {0};`

`09`	`char` `dst[TESTSIZE];`

`10`	`(struct` `node)dst = (struct` `node)src;`

11 }

编译：gcc -g -o test test.c

获得汇编：objdump -S test

可以看到有这么一些汇编，对应的是等号赋值操作：

*(struct node*)dst = *(struct node*)src;
4004b6: 48 8d 85 00 ff ff ff lea    0xffffffffffffff00(%rbp),%rax
4004bd: 48 8d 55 80          lea    0xffffffffffffff80(%rbp),%rdx
4004c1: 48 8b 0a             mov    (%rdx),%rcx
4004c4: 48 89 08             mov    %rcx,(%rax)
4004c7: 48 8b 4a 08          mov    0x8(%rdx),%rcx
4004cb: 48 89 48 08          mov    %rcx,0x8(%rax)
4004cf: 48 8b 4a 10          mov    0x10(%rdx),%rcx
4004d3: 48 89 48 10          mov    %rcx,0x10(%rax)
4004d7: 48 8b 4a 18          mov    0x18(%rdx),%rcx
4004db: 48 89 48 18          mov    %rcx,0x18(%rax)
4004df: 48 8b 4a 20          mov    0x20(%rdx),%rcx
4004e3: 48 89 48 20          mov    %rcx,0x20(%rax)
4004e7: 48 8b 4a 28          mov    0x28(%rdx),%rcx
4004eb: 48 89 48 28          mov    %rcx,0x28(%rax)
4004ef: 48 8b 4a 30          mov    0x30(%rdx),%rcx
4004f3: 48 89 48 30          mov    %rcx,0x30(%rax)
4004f7: 48 8b 4a 38          mov    0x38(%rdx),%rcx
4004fb: 48 89 48 38          mov    %rcx,0x38(%rax)
4004ff: 48 8b 4a 40          mov    0x40(%rdx),%rcx
400503: 48 89 48 40          mov    %rcx,0x40(%rax)
400507: 48 8b 4a 48          mov    0x48(%rdx),%rcx
40050b: 48 89 48 48          mov    %rcx,0x48(%rax)
40050f: 48 8b 4a 50          mov    0x50(%rdx),%rcx
400513: 48 89 48 50          mov    %rcx,0x50(%rax)
400517: 48 8b 4a 58          mov    0x58(%rdx),%rcx
40051b: 48 89 48 58          mov    %rcx,0x58(%rax)
40051f: 48 8b 4a 60          mov    0x60(%rdx),%rcx
400523: 48 89 48 60          mov    %rcx,0x60(%rax)
400527: 48 8b 4a 68          mov    0x68(%rdx),%rcx
40052b: 48 89 48 68          mov    %rcx,0x68(%rax)
40052f: 48 8b 4a 70          mov    0x70(%rdx),%rcx
400533: 48 89 48 70          mov    %rcx,0x70(%rax)
400537: 48 8b 52 78          mov    0x78(%rdx),%rdx
40053b: 48 89 50 78          mov    %rdx,0x78(%rax)

获得libc的memcpy汇编代码：objdump -S /lib/libc.so.6

00973a30 <memcpy>:
973a30:       8b 4c 24 0c             mov    0xc(%esp),%ecx
973a34:       89 f8                   mov    %edi,%eax
973a36:       8b 7c 24 04             mov    0x4(%esp),%edi
973a3a:       89 f2                   mov    %esi,%edx
973a3c:       8b 74 24 08             mov    0x8(%esp),%esi
973a40:       fc                      cld
973a41:       d1 e9                   shr    %ecx
973a43:       73 01                   jae    973a46 <memcpy+0x16>
973a45:       a4                      movsb %ds:(%esi),%es:(%edi)
973a46:       d1 e9                   shr    %ecx
973a48:       73 02                   jae    973a4c <memcpy+0x1c>
973a4a:       66 a5                   movsw %ds:(%esi),%es:(%edi)
973a4c:       f3 a5                   rep movsl %ds:(%esi),%es:(%edi)
973a4e:       89 c7                   mov    %eax,%edi
973a50:       89 d6                   mov    %edx,%esi
973a52:       8b 44 24 04             mov    0x4(%esp),%eax
973a56:       c3                      ret
973a57:       90                      nop

原来两者都是通过逐字拷贝来实现的。但是“等号赋值”被编译器翻译成一连串的MOV指令，而memcpy则是一个循环。“等号赋值”比memcpy快，并不是快在拷贝方式上，而是快在程序流程上。

测试发现，“等号赋值”的长度必须小于等于128，并且是机器字长的倍数，才会被编译成连续MOV形式，否则会被编译成调用memcpy。而同样的，如果memcpy复制的长度小于等于128且是机器字长的整数倍，会被编译成MOV形式。所以，无论你的代码中如何写，编译器都会做好优化工作。

而为什么同样是按机器字长拷贝，连续的MOV指令就要比循环MOV快呢？
在循环方式下，每一次MOV过后，需要：1、判断是否拷贝完成；2、跳转以便继续拷贝。

循环还是比较浪费的。如果效率要求很高，很多情况下，我们需要把循环展开（比如在本例中，每次循环拷贝N个字节），以避免判断与跳转占用大量的CPU时间。这算是一种以空间换时间的做法。GCC就有自动将循环展开的编译选项（如：-funroll-loops）。

循环展开也是应该有个度的，并不是越展开越好（即使不考虑对空间的浪费）。因为CPU的快速执行很依赖于cache，如果cache不命中，CPU将浪费不少的时钟周期在等待内存上（内存的速度一般比CPU低一个数量级）。而小段循环结构就比较有利于cache命中，因为重复执行的一段代码很容易被硬件放在cache中，这就是代码局部性带来的好处。而过度的循环展开就打破了代码的局部性。如果要拷贝的字节更多，则全部展开成连续的MOV指令的做法未必会很高效。
综上所述，“等号赋值”之所以比memcpy快，就是因为它省略了CPU对于判断与跳转的处理，消除了分支对CPU流水的影响。而这一切都是通过适度展开内存拷贝的循环来实现的。

如果将libc的memcpy换成时等号循环赋值，效率会如何，程序如下timememcpy.c：

001 #include <stdio.h>

002 #include <string.h>

003 #include <stdlib.h>

004 #include <sys/time.h>

005

006 #define LEN 0x20000

007 #define MYM 1

008 #define LIBM 0

009 char *dst;

010 char *src;

011

012 typedef struct memcpy_data_size

013 {

014 int a[16];

015 }DATA_SIZE, *P_DATA_SIZE;

016

017 void *mymemcpy(void *to, const void *from, size_t size)

018 {

019 P_DATA_SIZE dst = (P_DATA_SIZE)to;

020 P_DATA_SIZE src = (P_DATA_SIZE)from;

021

022 int new_len = size/sizeof(DATA_SIZE)-1;

023 int remain = size%sizeof(DATA_SIZE)-1;

024

025 while (new_len >= 1)

026 {

027 *dst++ = *src++;

028 new_len--;

029 }

030 #if 0

031 while (new_len >= 2)

032 {

033 *dst++ = *src++;

034 *dst++ = *src++;

035 new_len = new_len -2;

036 }

037 if(new_len == 1)

038 {

039 *dst++ = *src++;

040 }

041 #endif

042 while (remain >= 0)

043 {

044 *((char *)dst + remain) = *((char *)src + remain);

045 remain--;

046 }

047

048 return to;

049 }

050

051

052 int main(int argc, char const* argv[])

053 {

054 int type = 0;

055 struct timeval start, end;

056 unsigned long diff;

057

058 gettimeofday(&start, NULL);

059 if(argc != 2){

060 printf("you should run it as : ./run 1(or 0)\n");

061 printf("1: run my memcpy\n");

062 printf("0: run lib memcpy\n");

063 exit(0);

064 }

065 type = atoi(argv[1]);

066 if(MYM != type && LIBM != type){

067 printf("you should run it as : ./run 1(or 0)\n");

068 printf("1: run my memcpy\n");

069 printf("0: run lib memcpy\n");

070 exit(0);

071 }

072

073 dst = malloc(sizeof(char)*LEN);

074 if (NULL == dst) {

075 perror("dst malloc");

076 exit(1);

077 }

078

079 src = malloc(sizeof(char)*LEN);

080 if (NULL == src) {

081 perror("src malloc");

082 exit(1);

083 }

084 if(MYM == type){

085 mymemcpy(dst, src, LEN);

086 printf("my memcpy:\n");

087 }

088 else{

089 memcpy(dst, src, LEN);

090 printf("lib memcpy:\n");

091 }

092 free(dst);

093 free(src);

094

095 gettimeofday(&end, NULL);

096 diff = 1000000*(end.tv_sec - start.tv_sec)+ end.tv_usec - start.tv_usec;

097 printf("run time is %ld us\n",diff);

098

099 return 0;

100 }

被注释掉的几行代码本来是用来循环展开的，可测试结果并没发现有什么好处，故，先注释掉。

在测试程序中，经过多次测试，并无法真正确定libc和自己实现的memcpy效率谁优谁劣。可能是由于运行时间太短以及进程调度所致。

目前为止，还没找到更好的测试方法，去验证效率的优劣。

现将我的测试数据粘贴至此，仅供参考：

编译程序：gcc -g -o timememcpy timememcpy.c

执行测试脚本为:run.sh

`01`	`#!/bin/sh`

`02`	`./timememcpy` `1`

`03`	`./timememcpy` `1`

`04`	`./timememcpy` `1`

`05`	`./timememcpy` `1`

`06`	`./timememcpy` `1`

`07`	`./timememcpy` `0`

`08`	`./timememcpy` `0`

`09`	`./timememcpy` `0`

`10`	`./timememcpy` `0`

`11`	`./timememcpy` `0`

运行该脚本，得结果如下：

[root@SPA c]# ./run.sh
my memcpy:
run time is 435 us
my memcpy:
run time is 237 us
my memcpy:
run time is 249 us
my memcpy:
run time is 304 us
my memcpy:
run time is 300 us
lib memcpy:
run time is 262 us
lib memcpy:
run time is 222 us
lib memcpy:
run time is 335 us
lib memcpy:
run time is 281 us
lib memcpy:
run time is 247 us

脚本内容修改为：

`01`	`#!/bin/sh`

`02`	`./timememcpy` `0`

`03`	`./timememcpy` `0`

`04`	`./timememcpy` `0`

`05`	`./timememcpy` `0`

`06`	`./timememcpy` `0`

`07`	`./timememcpy` `1`

`08`	`./timememcpy` `1`

`09`	`./timememcpy` `1`

`10`	`./timememcpy` `1`

`11`	`./timememcpy` `1`

再次运行，得结果：

[root@SPA c]# ./run.sh
lib memcpy:
run time is 479 us
lib memcpy:
run time is 461 us
lib memcpy:
run time is 512 us
lib memcpy:
run time is 405 us
lib memcpy:
run time is 365 us
my memcpy:
run time is 399 us
my memcpy:
run time is 314 us
my memcpy:
run time is 309 us
my memcpy:
run time is 510 us
my memcpy:
run time is 324 us

参考：

链接地址

注：这个程序是起了一个计数线程，与实际的memcpy线程并发执行。本人感觉运行时间这么短的程序，要是使用一个线程去计数的话，由于进程调度机制并无法保证计数线程和该程序运行时间相同，误差会更大，所以，在本文的程序中摒弃理论这种计数方式。

链接地址

等号赋值与memcpy的效率问题的更多相关文章

.net 表达式返回值和等号赋值的区别
.net 7.0的新特性中,有一个使用表达式体返回值的操作.请看如下代码: private string _userName=""; public string UserName{ ...
[Python] 等号赋值, copy, deepcopy的区别
参考链接: 1. 介绍python中的可变类型与不可变类型:https://blog.csdn.net/answer3lin/article/details/86430074 (也可以参考转载博客 P ...
Java中自增（++）和赋值（=）运算效率比较
前言将一个int型数组x[]从初值0变成1.有两种做法: // 只考虑后自增 int length = x.length; for (int i = 0; i < length; i++) ...
js对象等号赋值的bug
var a = {n: 1}; var b = a; a.x = a = {n: 2}; console.log(a.x); console.log(b.x); 有道题是这样的,觉得很奇葩,分析一下 ...
SQL 两表关联查询 where 条件中等号两端字段顺序对效率的影响
现有两表A(大).B(小)作关联查询,SQL语句如下: SQL1:select * from A,B where A.id = B.id SQL2:select * from A,B where B. ...
memmove和memcpy
1.memmove 函数原型:void *memmove(void *dest, const void *source, size_t count) 返回值说明:返回指向dest的void *指针参 ...
memmove和memcpy 以及strcmp strcpy几个库函数的实现
memmove和memcpy 1.memmove 函数原型:void *memmove(void *dest, const void *source, size_t count) 返回值说明:返回指向 ...
C的memset,memcpy,strcpy 的区别及memset memcpy memmove源码
extern void *memcpy(void *dest,void *src,unsigned int count);#include <string.h> 功能:由src所指内存 ...
C++，对象的 =赋值以及复制构造函数赋值
1. C++默认实现了 = 号赋值:operator=只要将一个对象的内容的内容逐位复制给另外一个对象即可. 2. C++默认实现了复制构造函数:同样,只要将一个对象的内容的内容逐位复制给另外一个对象 ...

随机推荐

apache开启虚拟主机localhost无法访问
今天在集成环境下配虚拟主机,没想到虚拟主机开启后,localhost竟然无法访问了,解决办法是这样的: 实例一,Apache 配置localhost虚拟主机步骤 1,用记事本打开apache目录下ht ...
POCO浅探
POCO作用类似于POJO.POJO的内在含义是指那些从来没有任何类继承.也没有实现任何接口,更是没有被其他框架侵入的JAVA对象.POCO的含义与此是一致的.POJO的意义就在于它的简单灵活性,能够 ...
【leetcode】Valid Number
Valid Number Validate if a given string is numeric. Some examples:"0" => true" 0.1 ...
CentOS 7部署flume
CentOS 7部署flume 准备工作: 安装java并设置java环境变量,在`/etc/profile`中加入 export JAVA_HOME=/usr/java/jdk1.8.0_65 ex ...
Win8环境WPF打开和关闭软键盘
代码如下: public class KeyBoardHelper { #region 键盘控制 /// <summary> /// 显示键盘 /// </summary> p ...
ASM:《X86汇编语言-从实模式到保护模式》第10章：32位x86处理器的编程架构
★PART1:32位的x86处理器执行方式和架构 1. 寄存器的拓展(IA-32) 从80386开始,处理器内的寄存器从16位拓展到32位,命名其实就是在前面加上e(Extend)就好了,8个通用寄存 ...
Spring Data JPA初使用(转载)
我们都知道Spring是一个非常优秀的JavaEE整合框架,它尽可能的减少我们开发的工作量和难度. 在持久层的业务逻辑方面,Spring开源组织又给我们带来了同样优秀的Spring Data JPA. ...
自定义ToolBar之一
其实已经有很多大神写过这方面的文章了,不过我比较蠢吧,老有一些地方看不懂的,翻了很多关于Toolbar方面的文章和视频,这儿总结一下. 参考资料:youtube:slidenerd 阶段一自定义配 ...
【python】dict4ini和xmltodict模块用途
dict4ini模块:可以读写配置文件 xmltodict模块:将xml和json互相转换 https://pypi.python.org/pypi/xmltodict
HDU 4314 Save the dwarfs (DP) ---转载
题目:传送门. 这个是DP,比赛的时候用贪心写了好久没写出来. 题意: 有n个矮人被困在深度为h的井中,每个矮人都ai(脚到肩膀的高度)和bi(手臂长度), 当存在a1 + a2 + ... + ak ...

等号赋值与memcpy的效率问题

等号赋值与memcpy的效率问题的更多相关文章

随机推荐

热门专题