SyncedMemory类简介

最近在阅读caffe源码，代码来自BVLC/caffe，基本是参照网络上比较推荐的 Blob-->Layer-->Net-->Solver 的顺序来分析。其中SyncedMemory类是caffe中底层的结构，负责操作（申请、拷贝等）内存或显存中的数据。

syncedmem.cpp源码

SyncedMemory::SyncedMemory()    //构造函数,初始化内部的变量,size为0,指针为空等

  : cpu_ptr_(NULL), gpu_ptr_(NULL), size_(0), head_(UNINITIALIZED),

    own_cpu_data_(false), cpu_malloc_use_cuda_(false), own_gpu_data_(false) {

#ifndef CPU_ONLY

#ifdef DEBUG

  CUDA_CHECK(cudaGetDevice(&device_));  //cudaGetDevice()函数会返回当前被使用的设备

#endif

#endif

}

SyncedMemory::SyncedMemory(size_t size)   //构造函数,设置size_的值(不会分配内存)

  : cpu_ptr_(NULL), gpu_ptr_(NULL), size_(size), head_(UNINITIALIZED),

    own_cpu_data_(false), cpu_malloc_use_cuda_(false), own_gpu_data_(false) {

#ifndef CPU_ONLY

#ifdef DEBUG

  CUDA_CHECK(cudaGetDevice(&device_));

#endif

#endif

}

SyncedMemory::~SyncedMemory() {       //析构函数

  check_device();                     //检查gpu设备

  if (cpu_ptr_ && own_cpu_data_) {    //如果cpu数据的指针不为空并且数据为自身创建的

    CaffeFreeHost(cpu_ptr_, cpu_malloc_use_cuda_);    //释放数据

  }

#ifndef CPU_ONLY

  if (gpu_ptr_ && own_gpu_data_) {    //同理,gpu数据指针不为空并且数据为自身创建的

    CUDA_CHECK(cudaFree(gpu_ptr_));   //释放

  }

#endif  // CPU_ONLY

}

//将数据转移到cpu中.如果还未创建内存则申请对应大小的内存,

//如果数据只在gpu中则将数据拷至cpu中,如果cpu中已存在则不处理

inline void SyncedMemory::to_cpu() {

  check_device();

  switch (head_) {          //当前数据的状态

  case UNINITIALIZED:       //未分配状态

    CaffeMallocHost(&cpu_ptr_, size_, &cpu_malloc_use_cuda_);   //申请内存

    caffe_memset(size_, 0, cpu_ptr_);   //数据全部设置为0

    head_ = HEAD_AT_CPU;    //设置状态为数据位于内存中,由cpu处理

    own_cpu_data_ = true;   //数据由自身申请创建

    break;

  case HEAD_AT_GPU:         //当前数据位于gpu中

#ifndef CPU_ONLY

    if (cpu_ptr_ == NULL) {

      CaffeMallocHost(&cpu_ptr_, size_, &cpu_malloc_use_cuda_);   //如果cpu数据指针为空,则申请内存

      own_cpu_data_ = true;

    }

    caffe_gpu_memcpy(size_, gpu_ptr_, cpu_ptr_);    //将gpu_ptr_中的数据复制到cpu_ptr_中,复制size_大小

    head_ = SYNCED;         //设置状态为已同步(cpu数据与gpu数据拥有相同的数据)

#else

    NO_GPU;     //数据在gpu中但是不支持gpu,错误

#endif

    break;

  case HEAD_AT_CPU:   //数据已经在cpu中,不进行处理

  case SYNCED:

    break;

  }

}

//同理,将数据转移到gpu中

inline void SyncedMemory::to_gpu() {

  check_device();

#ifndef CPU_ONLY

  switch (head_) {

  case UNINITIALIZED:   //未初始化

    CUDA_CHECK(cudaMalloc(&gpu_ptr_, size_));   //申请显存

    caffe_gpu_memset(size_, 0, gpu_ptr_);       //置为0

    head_ = HEAD_AT_GPU;    //设置状态为gpu

    own_gpu_data_ = true;

    break;

  case HEAD_AT_CPU:     //数据位于cpu中

    if (gpu_ptr_ == NULL) {

      CUDA_CHECK(cudaMalloc(&gpu_ptr_, size_));   //申请显存

      own_gpu_data_ = true;

    }

    caffe_gpu_memcpy(size_, cpu_ptr_, gpu_ptr_);  //将数据从cpu_ptr_拷至gpu_ptr_

    head_ = SYNCED;

    break;

  case HEAD_AT_GPU:

  case SYNCED:

    break;

  }

#else

  NO_GPU;

#endif

}

//返回cpu数据的指针,指向的数据不可修改

const void* SyncedMemory::cpu_data() {

  check_device();   //检查设备是否出错

  to_cpu();         //数据转移至cpu中

  return (const void*)cpu_ptr_;

}

//将cpu的数据指针设置为data

void SyncedMemory::set_cpu_data(void* data) {

  check_device();   //检查

  CHECK(data);      //非空检查

  if (own_cpu_data_) {    //自身已经创建了cpu数据,先释放

    CaffeFreeHost(cpu_ptr_, cpu_malloc_use_cuda_);

  }

  cpu_ptr_ = data;        //指向data

  head_ = HEAD_AT_CPU;    //修改状态

  own_cpu_data_ = false;  //数据并非自身申请创建的,在调用析构函数时,并不会释放cpu_ptr_指向的内存

}

//返回gpu数据的指针,指向的数据不可修改

const void* SyncedMemory::gpu_data() {

  check_device();

#ifndef CPU_ONLY

  to_gpu();   //转移到gpu中

  return (const void*)gpu_ptr_;

#else

  NO_GPU;

  return NULL;

#endif

}

//设置gpu数据的指针

void SyncedMemory::set_gpu_data(void* data) {

  check_device();

#ifndef CPU_ONLY

  CHECK(data);

  if (own_gpu_data_) {    //自身创建的gpu数据,先释放

    CUDA_CHECK(cudaFree(gpu_ptr_));

  }

  gpu_ptr_ = data;

  head_ = HEAD_AT_GPU;

  own_gpu_data_ = false;    //同样设置为false

#else

  NO_GPU;

#endif

}

//返回cpu上的数据指针,指向的数据可修改

void* SyncedMemory::mutable_cpu_data() {

  check_device();

  to_cpu();

  head_ = HEAD_AT_CPU;

  return cpu_ptr_;

}

//返回gpu上的数据指针,指向的数据可修改

void* SyncedMemory::mutable_gpu_data() {

  check_device();

#ifndef CPU_ONLY

  to_gpu();

  head_ = HEAD_AT_GPU;

  return gpu_ptr_;

#else

  NO_GPU;

  return NULL;

#endif

}

//从cpu中来拷贝数据至gpu,异步拷贝

#ifndef CPU_ONLY

void SyncedMemory::async_gpu_push(const cudaStream_t& stream) {

  check_device();

  CHECK(head_ == HEAD_AT_CPU);    //当前数据应在cpu中

  if (gpu_ptr_ == NULL) {

    CUDA_CHECK(cudaMalloc(&gpu_ptr_, size_));   //申请gpu显存

    own_gpu_data_ = true;

  }

  const cudaMemcpyKind put = cudaMemcpyHostToDevice;    //设置拷贝方向,Host To Device

  //Copies data between host and device.异步操作,可能在数据拷贝完成之前函数便返回

  //cudaMemcpy()为同步的,数据拷贝完后函数才会返回

  CUDA_CHECK(cudaMemcpyAsync(gpu_ptr_, cpu_ptr_, size_, put, stream));  //将cpu_ptr_数据拷贝至gpu_ptr_中

  // Assume caller will synchronize on the stream before use

  head_ = SYNCED;   //共享

}

#endif

void SyncedMemory::check_device() {   //检查设备,判断是否出错

#ifndef CPU_ONLY

#ifdef DEBUG

  int device;

  cudaGetDevice(&device);   //返回当前被使用的设备

  CHECK(device == device_);

  if (gpu_ptr_ && own_gpu_data_) {

    cudaPointerAttributes attributes;

    CUDA_CHECK(cudaPointerGetAttributes(&attributes, gpu_ptr_));  //返回gpu_ptr_指针的属性到attributes中

    CHECK(attributes.device == device_);    //检查指针所在的设备与类中保存的设备device_是否一致

  }

#endif

#endif

}

syncedmem.hpp

// If CUDA is available and in GPU mode, host memory will be allocated pinned,

// using cudaMallocHost. It avoids dynamic pinning for transfers (DMA).

// The improvement in performance seems negligible in the single GPU case,

// but might be more significant for parallel training. Most importantly,

// it improved stability for large models on many GPUs.

//申请内存

inline void CaffeMallocHost(void** ptr, size_t size, bool* use_cuda) {

#ifndef CPU_ONLY

  if (Caffe::mode() == Caffe::GPU) {        //gpu模式下

    CUDA_CHECK(cudaMallocHost(ptr, size));  //分配锁页内存

    *use_cuda = true;   //使用了cuda

    return;

  }

#endif

#ifdef USE_MKL          //使用了Intel的Math Kernel Library库

  *ptr = mkl_malloc(size ? size:1, 64);

#else

  *ptr = malloc(size);  //朴实无华的内存创建(分页内存)

#endif

  *use_cuda = false;    //未使用cuda

  CHECK(*ptr) << "host allocation of size " << size << " failed";

}

//释放内存

inline void CaffeFreeHost(void* ptr, bool use_cuda) {

#ifndef CPU_ONLY

  if (use_cuda) {   //使用了cuda,则使用cuda函数释放对应的内存

    CUDA_CHECK(cudaFreeHost(ptr));

    return;

  }

#endif

#ifdef USE_MKL

  mkl_free(ptr);

#else

  free(ptr);

#endif

}

/**

 * @brief Manages memory allocation and synchronization between the host (CPU)

 *        and device (GPU).

 *

 * TODO(dox): more thorough description.

 */

class SyncedMemory {

 public:

  SyncedMemory();

  explicit SyncedMemory(size_t size);

  ~SyncedMemory();

  const void* cpu_data();

  void set_cpu_data(void* data);

  const void* gpu_data();

  void set_gpu_data(void* data);

  void* mutable_cpu_data();

  void* mutable_gpu_data();

  //数据的几种状态,UNINITIALIZED(未初始化,内存或显存还未申请), HEAD_AT_CPU(数据在cpu中),

  //HEAD_AT_GPU(数据在gpu中), SYNCED(数据在cpu和gpu中都存在,并且内容相同)

  enum SyncedHead { UNINITIALIZED, HEAD_AT_CPU, HEAD_AT_GPU, SYNCED };

  SyncedHead head() const { return head_; }

  size_t size() const { return size_; }

#ifndef CPU_ONLY

  void async_gpu_push(const cudaStream_t& stream);

#endif

 private:

  void check_device();

  void to_cpu();        //数据转移到cpu中

  void to_gpu();        //数据转移到gpu中

  void* cpu_ptr_;       //cpu中的数据指针

  void* gpu_ptr_;       //gpu中的数据指针

  size_t size_;         //数据的大小

  SyncedHead head_;     //数据的状态,共SyncedHead中指示的四种

  //cpu中的数据是否有自身创建,还是外部传入的指针?(自身创建自己负责释放,外部传的指针析构时不会释放,由外部决定)

  bool own_cpu_data_;

  bool cpu_malloc_use_cuda_;    //申请cpu数据时是否使用了cuda

  bool own_gpu_data_;   //同理,gpu中的数据是否由自身创建

  int device_;          //当前使用的gpu设备

  DISABLE_COPY_AND_ASSIGN(SyncedMemory);  //禁止类的拷贝或者赋值操作

};  // class SyncedMemory

小结

cpu处理的数据对应内存数据，gpu处理的数据对应显存数据
单纯创建SyncedMemory类的实例时并不会分配内存或显存，只有在实际需要访问数据的时候(如cpu_data()/mutable_gpu_data()等)时，才会在内部的to_cpu()或to_gpu()函数中分配对应的内存或显存
CaffeMallocHost()函数中使用cudaMallocHost()分配的锁页内存，这种内存可被gpu设备直接访问，读写速度比普通的分页内存(malloc申请)要快。关于CUDA的各种函数可参考官方提供的手册。

Caffe的源码笔者是第一次阅读，一边阅读一边记录，对代码的理解和分析可能会存在错误或遗漏，希望各位读者批评指正，谢谢支持！

参考

https://docs.nvidia.com/pdf/CUDA_Runtime_API.pdf

https://www.zhihu.com/question/27982282

Caffe源码-SyncedMemory类的更多相关文章

Caffe源码-Blob类
Blob类简介 Blob是caffe中的数据传递的一个基本类,网络各层的输入输出数据以及网络层中的可学习参数(learnable parameters,如卷积层的权重和偏置参数)都是Blob类型.Bl ...
Caffe源码-Solver类
Solver类简介 Net类中实现了网络的前向/反向计算和参数更新,而Solver类中则是对此进行进一步封装,包含可用于逐次训练网络的Step()函数,和用于求解网络的优化解的Solve()函数,同时 ...
Caffe源码-SGDSolver类
SGDSolver类简介 Solver类用于网络参数的更新,而SGDSolver类实现了优化方法中的随机梯度下降法(stochastic gradient descent),此外还具备缩放.正则化梯度 ...
Caffe源码-Net类（下）
net.cpp部分源码 // 接着上一篇博客的介绍,此部分为Net类中前向反向计算函数,以及一些与HDF5文件或proto文件相互转换的函数. template <typename Dtype& ...
Caffe源码-Net类（上）
Net类简介 Net类主要处理各个Layer之间的输入输出数据和参数数据共享等的关系.由于Net类的代码较多,本次主要介绍网络初始化部分的代码.Net类在初始化的时候将各个Layer的输出blob都统 ...
Caffe源码-Layer类
Layer类简介 Layer是caffe中搭建网络的基本单元,caffe代码中包含大量Layer基类派生出来的各种各样的层,各自通过虚函数 Forward() 和 Backward() 实现自己的功能 ...
Caffe源码-几种优化算法
SGD简介 caffe中的SGDSolver类中实现了带动量的梯度下降法,其原理如下,\(lr\)为学习率,\(m\)为动量参数. 计算新的动量:history_data = local_rate * ...
Caffe源码理解2：SyncedMemory CPU和GPU间的数据同步
目录写在前面成员变量的含义及作用构造与析构内存同步管理参考博客:blog.shinelee.me | 博客园 | CSDN 写在前面在Caffe源码理解1中介绍了Blob类,其中的数据成 ...
caffe源码阅读
参考网址:https://www.cnblogs.com/louyihang-loves-baiyan/p/5149628.html 1.caffe代码层次熟悉blob,layer,net,solve ...

随机推荐

C#Windows Forms 计算器--xdd
一.计算器 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data ...
linux 正确的关机流程
查看系统的使用状态 1.使用who命令查看在线用户. 2.使用netstat -a或ss -tnl查看网络状态: 3.使用ps -aux 查看后台运行的程序. 通过上述操作可以了解系统目前使用状态,从 ...
jquery操作css样式的方法
jquery操作css样式的方法(设置和获取)
网页解析之BeautifulSoup
介绍及安装 Beautiful Soup 是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据. BeautifulSoup 用来解析 HTML 比较简单,API非常人 ...
Swift - 给UICollectionview设置组背景和圆角
钟情圆角怎么办最近由于我们的UI钟情于圆角搞得我很方,各种圆角渐变,于是就有了下面这篇给UICollection组设置圆角和背景色的诞生,不知道在我们平时有没有遇到这样子的一些需求,就是按照每一组给 ...
cookie、session、token的区别
一. cookie 1.什么是cookie? Cookie 技术产生源于 HTTP 协议在互联网上的急速发展.随着互联网时代的策马奔腾,带宽等限制不存在了,人们需要更复杂的互联网交互活动,就必须同服 ...
Python使用百度地图API根据地名获取相应经纬度
今天有个需求,要根据地名获取经纬度坐标值. 于是我第一想法:打开百度地图,手动输入地名,获取.显然当地名较少时,可实施.然而,当地名较多时,此方法显然工作量很大. 于是,第二想法:代码获取,请求百度地 ...
Djangoday1 入门及第一个apphelloworld
1 Django基础指令新建一个django project新建app创建数据库表,更新数据库表或字段使用开发服务器清空数据库创建超级管理员导出数据导入数据Django 项目环境终端数据库命令行更多 ...
rsync工具、rsync常用选项、以及rsync通过ssh同步使用介绍
第8周5月14日任务课程内容: 10.28 rsync工具介绍10.29/10.30 rsync常用选项10.31 rsync通过ssh同步 10.28 rsync工具介绍 rsync是一个同步的工 ...
.Net Core+Vue.js模块化前后端分离快速开发框架NetModular更新日志(2019-12-08)
源码 GitHub:https://github.com/iamoldli/NetModular 码云:https://gitee.com/laoli/NetModular 欢迎star~ 文档 ht ...

Caffe源码-SyncedMemory类

SyncedMemory类简介

syncedmem.cpp源码

syncedmem.hpp

小结

参考

Caffe源码-SyncedMemory类的更多相关文章

随机推荐

热门专题