复制数据的快速方法std::copy


C++复制数据各种方法大家都会,很多时候我们都会用到std::copy这个STL函数,这个效率确实很不错,比我们一个一个元素复制或者用迭代器复制都来的要快很多。

比如,我写了一段下面的代码,复制100000000数据量,std::copy的性能要比前两个性能要好。
 
    const int size = ;
int *k = new int[size];
int *p = new int[size];
//const int size = 5F5E100h; DWORD t1, t2; t1 = GetTickCount();
for (int i = ; i != size; i++)
p[i] = k[i];
t2 = GetTickCount();
cout << t2 - t1 << "ms" << std::endl; t1 = GetTickCount();
int *pStart = k, *pEnd = k + size, *pDest = p;
for (; pStart != pEnd; pDest++, pStart++)
*pDest = *pStart;
t2 = GetTickCount();
cout << t2 - t1 << "ms" << std::endl; t1 = GetTickCount();
std::copy(k, k + size, p);
t2 = GetTickCount();
cout << t2 - t1 << "ms" << std::endl;
在我的机子上表现如下:

很多时候我们知道用是可以这么用,可是为什么std::copy的效率要比我们这其他两种方法的效率要好呢?为了找到真正的原因,我们必须做机器级分析了,我们不妨跟踪一下前两个方法的汇编(VS编译器,x86)
 
下标取值的方法(A方法):
    for (int i = ; i != size; i++)
00F0A8B1 mov dword ptr [ebp-54h],
00F0A8B8 jmp main+0A3h (0F0A8C3h)
00F0A8BA mov eax,dword ptr [ebp-54h]
00F0A8BD add eax,
00F0A8C0 mov dword ptr [ebp-54h],eax
00F0A8C3 cmp dword ptr [ebp-54h],5F5E100h
00F0A8CA je main+0C0h (0F0A8E0h)
p[i] = k[i];
00F0A8CC mov eax,dword ptr [ebp-54h]
00F0A8CF mov ecx,dword ptr [p]
00F0A8D2 mov edx,dword ptr [ebp-54h]
00F0A8D5 mov esi,dword ptr [k]
00F0A8D8 mov edx,dword ptr [esi+edx*]
00F0A8DB mov dword ptr [ecx+eax*],edx
00F0A8DE jmp main+9Ah (0F0A8BAh)
 
迭代器方法(B方法):
    int *pStart = k, *pEnd = k + size, *pDest = p;
00F0A944 mov eax,dword ptr [k]
00F0A947 mov dword ptr [pStart],eax
00F0A94A mov eax,dword ptr [k]
00F0A94D add eax,17D78400h
00F0A952 mov dword ptr [pEnd],eax
00F0A955 mov eax,dword ptr [p]
00F0A958 mov dword ptr [pDest],eax
for (; pStart != pEnd; pDest++, pStart++)
00F0A95B jmp main+14Fh (0F0A96Fh)
00F0A95D mov eax,dword ptr [pDest]
00F0A960 add eax,
00F0A963 mov dword ptr [pDest],eax
00F0A966 mov ecx,dword ptr [pStart]
00F0A969 add ecx,
00F0A96C mov dword ptr [pStart],ecx
00F0A96F mov eax,dword ptr [pStart]
00F0A972 cmp eax,dword ptr [pEnd]
00F0A975 je main+163h (0F0A983h)
*pDest = *pStart;
00F0A977 mov eax,dword ptr [pDest]
00F0A97A mov ecx,dword ptr [pStart]
00F0A97D mov edx,dword ptr [ecx]
00F0A97F mov dword ptr [eax],edx
00F0A981 jmp main+13Dh (0F0A95Dh)
这两段汇编都有一个共同的特性就是都会有这么一种操作:
 
A在10-15行中,每次都取[ebp-54h]这个位置的值(也就是i),然后每次都取p和k的指针,然后再取i的值,然后以i的值(eax和edx)定位到数组相应位置[esi + eax*4]和[ecx + edx*4],然后再把[ecx + edx*4]放到[esi + eax*4]中。B在11到24行中,也是差不多的用法,只是他把下标位置改成了指针指向的位置。
 
分析到这里我们可以发现,这两个方法是在太累赘了,比如A,这么简单的赋值居然要访问存储器5次,大大降低了运行效率。
 
那么为什么std::copy会那么快呢?我们先来跟踪一下std::copy的源代码:
template<class _InIt,
class _OutIt> inline
_OutIt _Copy_memmove(_InIt _First, _InIt _Last,
_OutIt _Dest)
{ // implement copy-like function as memmove
const char * const _First_ch = reinterpret_cast<const char *>(_First);
const char * const _Last_ch = reinterpret_cast<const char *>(_Last);
char * const _Dest_ch = reinterpret_cast<char *>(_Dest);
const size_t _Count = _Last_ch - _First_ch;
_CSTD memmove(_Dest_ch, _First_ch, _Count);
return (reinterpret_cast<_OutIt>(_Dest_ch + _Count));
}
template<class _InIt,
class _OutIt> inline
_OutIt _Copy_unchecked1(_InIt _First, _InIt _Last,
_OutIt _Dest, _General_ptr_iterator_tag)
{ // copy [_First, _Last) to [_Dest, ...), arbitrary iterators
for (; _First != _Last; ++_Dest, (void)++_First)
*_Dest = *_First;
return (_Dest);
}
template<class _InIt,
class _OutIt> inline
_OutIt _Copy_unchecked1(_InIt _First, _InIt _Last,
_OutIt _Dest, _Trivially_copyable_ptr_iterator_tag)
{ // copy [_First, _Last) to [_Dest, ...), pointers to trivially copyable
return (_Copy_memmove(_First, _Last, _Dest));
}
template<class _InIt,
class _OutIt> inline
_OutIt _Copy_unchecked(_InIt _First, _InIt _Last,
_OutIt _Dest)
{ // copy [_First, _Last) to [_Dest, ...)
// note: _Copy_unchecked is called directly elsewhere in the STL
return (_Copy_unchecked1(_First, _Last,
_Dest, _Ptr_copy_cat(_First, _Dest)));
}
template<class _InIt,
class _OutIt> inline
_OutIt _Copy_no_deprecate1(_InIt _First, _InIt _Last,
_OutIt _Dest, input_iterator_tag, _Any_tag)
{ // copy [_First, _Last) to [_Dest, ...), arbitrary iterators
return (_Rechecked(_Dest,
_Copy_unchecked(_First, _Last, _Unchecked_idl0(_Dest))));
}
template<class _InIt,
class _OutIt> inline
_OutIt _Copy_no_deprecate1(_InIt _First, _InIt _Last,
_OutIt _Dest, random_access_iterator_tag, random_access_iterator_tag)
{ // copy [_First, _Last) to [_Dest, ...), random-access iterators
_CHECK_RANIT_RANGE(_First, _Last, _Dest);
return (_Rechecked(_Dest,
_Copy_unchecked(_First, _Last, _Unchecked(_Dest))));
}
template<class _InIt,
class _OutIt> inline
_OutIt _Copy_no_deprecate(_InIt _First, _InIt _Last,
_OutIt _Dest)
{ // copy [_First, _Last) to [_Dest, ...), no _SCL_INSECURE_DEPRECATE_FN warnings
_DEBUG_RANGE_PTR(_First, _Last, _Dest);
return (_Copy_no_deprecate1(_Unchecked(_First), _Unchecked(_Last),
_Dest, _Iter_cat_t<_InIt>(), _Iter_cat_t<_OutIt>()));
}
template<class _InIt,
class _OutIt> inline
_OutIt copy(_InIt _First, _InIt _Last,
_OutIt _Dest)
{ // copy [_First, _Last) to [_Dest, ...)
_DEPRECATE_UNCHECKED(copy, _Dest);
return (_Copy_no_deprecate(_First, _Last, _Dest));
}
我们发现,copy最后要么执行的是_Copy_unchecked1,要么执行的是_Copy_memmove,那究竟执行的是谁呢?我们来看中间函数_Copy_no_deprecate的返回值:
return (_Copy_no_deprecate1(_Unchecked(_First), _Unchecked(_Last),
_Dest, _Iter_cat_t<_InIt>(), _Iter_cat_t<_OutIt>()));
 
这里运用的是C++ 的traits技术,_Iter_cat_t<_InIt>其实是一个模板的别名:
template<class _Iter>
using _Iter_cat_t = typename iterator_traits<_Iter>::iterator_category;
 
iterator_traits可以用来显示一个STL里面广泛运用的用来判别迭代器的属性的东西,它一共有5个属性,其中iterator_category就是说明了这个迭代器是以下哪五种迭代器之一:
  1. input_iterator_tag //输入迭代器,单向一次一步移动,读取一次
  2. output_iterator_tag //输出迭代器,单向一次一步移动,涂写一次
  3. forward_iterator_tag //向前迭代器,单向一次一步移动,多次读写,继承自输入迭代器
  4. bidirectional_iterator_tag //双向迭代器,双向一次一步移动,多次读写,继承自向前迭代器
  5. random_access_iterator_tag //随机迭代器,任意位置多次读写,继承自双向迭代器
 
而在我们的例子里,由于我们是int *类型,所以这个东西的iterator_category是random_access_iterator_tag,所以我们会跳到_Copy_unchecked上,然后执行_Ptr_copy_cat
template<class _Source,
class _Dest> inline
_General_ptr_iterator_tag _Ptr_copy_cat(const _Source&, const _Dest&)
{ // return pointer copy optimization category for arbitrary iterators
return {};
}
template<class _Source,
class _Dest> inline
conditional_t<is_trivially_assignable<_Dest&, _Source&>::value,
typename _Ptr_cat_helper<remove_const_t<_Source>, _Dest>::type,
_General_ptr_iterator_tag>
_Ptr_copy_cat(_Source * const&, _Dest * const&)
{ // return pointer copy optimization category for pointers
return {};
}
 
因为我们的_Source和_Dest类型都是指针类型(而不是常量引用),所以会匹配第二个重载版本,然后经过conditional_t的转换,最后会转换成_Trivially_copyable_ptr_iterator_tag(那个转换太长了,大家可以去STL一个一个翻),然后调用_Copy_memmove,然后_Copy_memmove我们一眼就发现了一个很熟悉的东西:
_CSTD memmove(_Dest_ch, _First_ch, _Count);
 
memcpy与memmove其实差不多,目的都是将N个字节的源内存地址的内容拷贝到目标内存地址中,但是,当源内存和目标内存存在重叠时,memcpy会出现错误,而memmove能正确地实施拷贝,但这也增加了一点点开销。memmove与memcpy不同的处理措施:
  1. 当源内存的首地址等于目标内存的首地址时,不进行任何拷贝
  2. 当源内存的首地址大于目标内存的首地址时,实行正向拷贝
  3. 当源内存的首地址小于目标内存的首地址时,实行反向拷贝
 
这下我们就明白了,当我们对动态数组调用std::copy的时候,实际上就是调用的memmove的C标准库,用memmove可以加快复制过程。
 
 
memmove机器级实现方式

实际上我们其实可以在http://www.gnu.org/prep/ftp找到其实现代码,但是由于C标准库的代码真的杂乱无章,阅读难度实在是太高,我们能不能有另一种方法去感知memmove的实现方式呢?
 
首先我们有一个直觉就是,作为一个C标准库,在memmove内部,一定是有用了内联汇编的方式实现,如果直接用C/C++代码去实现,我们很难生成高质量的代码,网上有很多所谓的memmove的实现,其实都只是在C/C++层面上对功能进行了模拟而已,效率肯定是没有汇编高的。
 
现在我们的问题就是怎么实现汇编级的memmove,一看到这里我们就可以立马反映过来这不就是x86汇编的内容吗?在x86汇编中,我们要实现内存的复制,最常见的指令就是movsb,movsw,movsd(分别移动字节,字,双字)
  1. 这三个指令每一次执行都会将源地址到目的地址的数据的复制
  2. 目标地址由di决定(对于movsb,movsw是di,movsd是edi),每执行一次,根据DF的值+1(DF == 0)或者-1(DF ==1)
  3. 源地址由si决定(对于movsb,movsw是si,movsd是esi),每执行一次,根据DF的值+1(DF == 0)或者-1(DF ==1)
这三个指令还要配合rep来用,rep是重复指令,当ecx>0时它会一直执行被请求重复的指令。
 
我们可以在VS上进行内联汇编(x86下,x64还要配置太复杂了)
__asm
{
mov esi, dword ptr[k];
mov edi, dword ptr[p];
mov ecx, 5F5E100h;
rep movsd;
};

好吧,其实上面是memcpy。如果要实现memmove,还需要多进行一些判断,就像memmove要求的那样

事实上,我们只要单步调试就可以看到memmove执行的代码了,在VS里面看,的确是进行了汇编优化(注意VS编译器用的memmove的并不是在memmove.c定义的C的版本,而是在memcpy.asm的汇编版本),在我们的例子中,汇编代码如下:

ifdef MEM_MOVE
_MEM_ equ <memmove>
else ; MEM_MOVE
_MEM_ equ <memcpy>
endif ; MEM_MOVE % public _MEM_
_MEM_ proc \
dst:ptr byte, \
src:ptr byte, \
count:IWORD ; destination pointer
; source pointer
; number of bytes to copy OPTION PROLOGUE:NONE, EPILOGUE:NONE push edi ; save edi
push esi ; save esi ; size param/4 prolog byte #reg saved
.FPO ( , , $-_MEM_ , , , ) mov esi,[esp + 010h] ; esi = source
mov ecx,[esp + 014h] ; ecx = number of bytes to move
mov edi,[esp + 0Ch] ; edi = dest ;
; Check for overlapping buffers:
; If (dst <= src) Or (dst >= src + Count) Then
; Do normal (Upwards) Copy
; Else
; Do Downwards Copy to avoid propagation
; mov eax,ecx ; eax = byte count mov edx,ecx ; edx = byte count
add eax,esi ; eax = point past source end cmp edi,esi ; dst <= src ?
jbe short CopyUp ; no overlap: copy toward higher addresses cmp edi,eax ; dst < (src + count) ?
jb CopyDown ; overlap: copy toward lower addresses ;
; Buffers do not overlap, copy toward higher addresses. CopyUp:
cmp ecx, 020h
jb CopyUpDwordMov ; size smaller than 32 bytes, use dwords
cmp ecx, 080h
jae CopyUpLargeMov ; if greater than or equal to 128 bytes, use Enhanced fast Strings
bt __isa_enabled, __ISA_AVAILABLE_SSE2
jc XmmCopySmallTest
jmp Dword_align CopyUpLargeMov:
bt __favor, __FAVOR_ENFSTRG ; check if Enhanced Fast Strings is supported
jnc CopyUpSSE2Check ; if not, check for SSE2 support
rep movsb
mov eax,[esp + 0Ch] ; return original destination pointer
pop esi
pop edi
M_EXIT

因为我们的例子中没有重叠的内存区,而且大小也比128bytes要大,自然就进入了CopyUpLargeMov过程,我们可以很清楚地发现rep movsb了,memmove实现过程就是我们所想的那样。实际上memmove汇编版本还有其他大量的优化,有兴趣的朋友可以点进去memcpy.asm去看一看。

这样感觉很不错,用movsd指令以后我们可以很直观地发现我们已经减少了很多无谓的寄存器赋值操作(movsd指令还有被CPU进行加速的)我们接下来试下效果:

 
效果很不错,已经可以达到memmove的C标准库效果了。
 
 
 
 
Reference :
 

std::copy性能分析与memmove机器级实现的更多相关文章

  1. 系统级性能分析工具perf的介绍与使用

    测试环境:Ubuntu16.04(在VMWare虚拟机使用perf top存在无法显示问题) Kernel:3.13.0-32 系统级性能优化通常包括两个阶段:性能剖析(performance pro ...

  2. 系统级性能分析工具perf的介绍与使用[转]

    测试环境:Ubuntu16.04(在VMWare虚拟机使用perf top存在无法显示问题) Kernel:3.13.0-32 系统级性能优化通常包括两个阶段:性能剖析(performance pro ...

  3. 系统级性能分析工具 — Perf

    从2.6.31内核开始,linux内核自带了一个性能分析工具perf,能够进行函数级与指令级的热点查找. perf Performance analysis tools for Linux. Perf ...

  4. 系统级性能分析工具 — Perf【转】

    转自:https://blog.csdn.net/zhangskd/article/details/37902159 版权声明:本文为博主原创文章,转载请注明出处. https://blog.csdn ...

  5. CentOS6中OpenMP的运行时间或运行性能分析

    OpenMp作为单机多核心共享内存并行编程的开发工具,具有编码简洁等,容易上手等特点. 关于OpenMP的入门,博主饮水思源(见参考资料)有了深入浅出,循序渐进的分析.做并行开发,做性能分析是永远逃避 ...

  6. DevTools 实现原理与性能分析实战

    一.引言 从 2008 年 Google 释放出第一版的 Chrome 后,整个 Web 开发领域仿佛被注入了一股新鲜血液,渐渐打破了 IE 一家独大的时代.Chrome 和 Firefox 是 W3 ...

  7. Java 性能分析工具 , 第 3 部分: Java Mission Control

    引言 本文为 Java 性能分析工具系列文章第三篇,这里将介绍如何使用 Java 任务控制器 Java Mission Control 深入分析 Java 应用程序的性能,为程序开发人员在使用 Jav ...

  8. 常用排序算法的python实现和性能分析

    常用排序算法的python实现和性能分析 一年一度的换工作高峰又到了,HR大概每天都塞几份简历过来,基本上一天安排两个面试的话,当天就只能加班干活了.趁着面试别人的机会,自己也把一些基础算法和一些面试 ...

  9. 【转】一文掌握 Linux 性能分析之 CPU 篇

    [转]一文掌握 Linux 性能分析之 CPU 篇 平常工作会涉及到一些 Linux 性能分析的问题,因此决定总结一下常用的一些性能分析手段,仅供参考. 说到性能分析,基本上就是 CPU.内存.磁盘 ...

随机推荐

  1. 使用Flex4容器若干技巧

    本文适用于正在寻找使用Flex 4容器和布局的快速参考指南的开发人员. 尽管这不一定是一个复杂问题,但这似乎是许多开发人员的挫折的来源,特别是对于那些Flex刚刚入门的开发人员. 当开发人员不知道如何 ...

  2. Android 自定义Activity栈对Activity统一管理

    转载请注明出处:http://www.cnblogs.com/Joanna-Yan/p/6307239.html public class AppManager { private static St ...

  3. JavaWeb知识回顾二

    动态web资源相关 1.tomcat相关 tomcat的目录结构 bin -- tomcat服务器的批处理文件的存放目录 conf -- tomcat服务器配置文件的存放目录 lib -- tomca ...

  4. .NET 通用高扩展性的细粒度权限管理架构(webApi/Mvc)

    一. 权限场景分析: 1. 系统具有角色概念, 部门概念, 且都具有相应不同的权限 2. 用户具有多个角色, 多个部门等关系, 并且能给单个用户指派独有的权限 3. 具有细粒度权限控制到资源的RBAC ...

  5. Dev的WPF控件与VS2012不兼容问题

    在只有vs2010环境下Dev的wpf可以在视图模式下显示,但是安装vs2012后无法打开界面的视图模式,报错:无法创建控件实例! 发现是Dev的wpf控件与.net framework 4.5不兼容 ...

  6. Maven入门,Maven项目的创建,nexus 2.x搭建私服以及Maven多模块项目创建

    maven的了解做一个总结,以便日后查阅, 若有不足之处,还望指出,学无止境 当然也能起到入门效果. 一,搭建maven私服 1.工具 a. Nexus 2.5.1-01 b. Maven 3.3.9 ...

  7. iOS详解MMDrawerController抽屉效果(一)

      提前说好,本文绝对不是教你如何使用MMDrawerController这个第三方库,因为那太多人写了 ,也太简单了.这篇文章主要带你分析MMDrawerController是怎么实现抽屉效果,明白 ...

  8. Javascript面对对象. 第二篇

    但是还有一个问题,就是识别的问题,因为根本无法搞清楚他们到底是哪个对象的实例. 1.构造函数 function CreateObject(name,age){ //创建一个对象,使用构造函数的对象都是 ...

  9. MVC - 单点登录中间件

    本章将要和大家分享的是一个单点登录中间件,中间件听起来高深其实这里只是吧单点登录要用到的逻辑和处理流程封装成了几个方法而已,默认支持采用redis服务保存session的方式,也可以使用参数Func& ...

  10. 支持缩放的fresco图片控件 —— fresco sample: ZoomableDraweeView

    最近在实现一个类似淘宝中的评论列表的功能,其中要在列表中显示评论图,点击图片后显示大图进行查看,各家app几乎都会有这样的功能. 可以看到,一个体验较好的查看大图的基本功能有, 第一,左右滑动时切换图 ...