看到一篇将如何计算caffemodel大小的blog,感觉对理解模型大小很有帮助.

原文地址:http://blog.csdn.net/u014696921/article/details/52413561

  1. 模型参数很大一部分在于全连接层,而全连接层的参数 取决于全连接层的神经元个数 以及 前一层输出的feature maps 的神经元个数,前一层 feature maps的神经元个数非常重要!! 如果网络设计的不合理,在全连接层之前,feature maps 还是很大,那么全连接层的参数会非常非常多!举个例子,经典Lenet非常小吧? 28*28 的 Mnist 图片 经过 conv1: 5*5 pool1: 2*2 conv2: 5*5 pool2: 2*2

    到达全连接层之前的feature maps 是 4*4*50 (50是conv2的卷积核数 ),那么全连接层一的参数就是

    4*4*50*500 = 400,000 ,40万个参数

    但是如果把227*227的直接扔进去呢? 经过:conv1: 5*5 pool1: 2*2 conv2: 5*5 pool2: 2*2 ,

    到达全连接层之前的feature maps 是 54*54*50,那么全连接层一的参数是 54*54*50*500 =72,900,000 直接多出 54*54 / (4*4) = 182.25 倍的参数

所以网络的设计(卷积层+pool层) 应该与图片的输入相匹配,否则网络参数会”爆炸”

以下是caffemodel所占内存的计算方法:

虽然之前有大概想过caffemodel的大小的估算方法,但是一直没有自己亲自算一算,最近心血来潮,把这件事情给干了,下面是我的计算方法,在这里和各位朋友分享交流。

caffemodel是训练过程中产生的文件,里面主要存放的是网络模型中各层的w和b参数,另外还存放网络形状等其它的一些信息。所以我们可以看到,caffemodel的大小主要取决于模型的w和b参数的数量。

w和b参数的数量主要由下面的两个因素决定:

1. 网络结构。比如:卷积层数量,全连接层数量,卷积核大小、个数等等;
2. 网络输入。当网络含有全连接层的时候需要考虑这个因素,我在下面还会结合例子做具体的解释。

下面先给出一个简单的例子:

假设网络总共有10000个w和b参数,这些参数用float类型(4 Bytes)的变量表示,caffemodel的大小将大约是4*10000=40000 Bytes(会稍微大一点,因为caffemodel中除了存放参数还会存放类似上面提到的网络形状等等一些其它信息)。


下面再给出一个caffe中的具体例子(mnist的lenet_train_test.prototxt):

http://www.cnblogs.com/denny402/p/5106764.html的方法画出网络模型图如下(图片有点小~~具体的数字可以参考 lenet_train_test.prototxt):

该网络主要有两个卷积层和两个全连接层,具体可以简化如下图(两个卷积层的卷积核都为5*5,步长stride都为1,两个pool层都为2*2,步长为2):

下面是对各层w和b参数的计算,(如果对参数数量计算方式不是很了解的可以参看下面的这篇博文: http://blog.csdn.net/zouxy09/article/details/8781543

conv1:
w数量:5*5*1*20=500
b数量:20 conv2:
w数量:5*5*20*50=25000
b数量:50 ip1:
w数量:1*1*(4*4*50)*500=400000
b数量:500 ip2:
w数量:1*1*500*10=5000
b数量:10

把上面各层的参数相加得到:

(500 + 20) + (25000 + 50) + (400000 + 500) + (5000 + 10) = 431080

即总共有431080个w和b参数,因为每一个参数以float类型(4 Bytes)存储,所以存储这么多参数需要的空间为:

431080 * 4 = 1724320 (Byte) 约等于 1.64 MB 。

计算出来的结果和训练得到的caffemodel的大小差不多(稍微小了一点)。

到这里,我们就基本上解释了怎么估算一个caffemodel的大小了。上面还卖了个关子,提到w和b参数除了和网络结构有关以外,还和网络的输入有关。

以上面的mnist例子来说,假如输入不是28*28而是N*N(这里N是比28大的一个整数),那么假设pool2的输出表示为n*n(在网络结构不变的情况下,这里的n比4大),所以也就导致了ip1全连接层的w参数数量增多(ip1的w参数数量为 n*n*50*500),从而导致了caffemodel大小的变化。

从上面的计算大家也可以看到,一个网络的大小很大程度上取决于全连接层,第一个全连接层的连接数(参数数量)一般是最多的。后来《Network in Network》把全连接层换成average pooling,目的就是为了减小参数的数量。有兴趣的朋友可以搜一搜这篇论文看看。

【Caffe】caffemodel的大小计算(转载)的更多相关文章

  1. TensorFlow与caffe中卷积层feature map大小计算

    刚刚接触Tensorflow,由于是做图像处理,因此接触比较多的还是卷及神经网络,其中会涉及到在经过卷积层或者pooling层之后,图像Feature map的大小计算,之前一直以为是与caffe相同 ...

  2. Java对象的内存布局以及对象所需内存大小计算详解

    1. 内存布局 在HotSpot虚拟机中,对象的内存布局可以分为三部分:对象头(Header). 实例数据(Instance Data)和对齐填充(Padding). 1) 对象头(Header): ...

  3. C++类所占内存大小计算

    C++类所占内存大小计算 说明:笔者的操作系统是32位的. class A {}; sizeof( A ) = ? sizeof( A ) = 1明明是空类,为什么编译器说它是1呢? 空类同样可以实例 ...

  4. (一一七)基本文件操作 -SDWebImage清除缓存 -文件夹的大小计算

    在iOS的App沙盒中,Documents和Library/Preferences都会被备份到iCloud,因此只适合放置一些记录文件,例如plist.数据库文件.缓存一般放置到Library/Cac ...

  5. C++类的大小计算汇总

    C++中类涉及到虚函数成员.静态成员.虚继承.多继承.空类等. 类,作为一种类型定义,是没有大小可言的. 类的大小,指的是类的对象所占的大小.因此,用sizeof对一个类型名操作,得到的是具有该类型实 ...

  6. 【转载】【内存对齐(二)】__declspec( align(#) )的用法和大小计算

    转自:http://www.cppblog.com/deercoder/archive/2011/03/13/141747.html 感谢作者! 在上面讲到了关于pack的内存对齐和计算方法,这里继续 ...

  7. Java对象大小计算

    这篇说说如何计算Java对象大小的方法.之前在聊聊高并发(四)Java对象的表示模型和运行时内存表示 这篇中已经说了Java对象的内存表示模型是Oop-Klass模型. 普通对象的结构如下,按64位机 ...

  8. struct 大小计算

    结构体是一种复合数据类型,通常编译器会自动的进行其成员变量的对齐,已提高数据存取的效率.在默认情况下,编译器为结构体的成员按照自然对齐(natural alignment)条方式分配存储空间,各个成员 ...

  9. 虚函数列表: 取出方法 // 虚函数工作原理和(虚)继承类的内存占用大小计算 32位机器上 sizeof(void *) // 4byte

    #include <iostream> using namespace std; class A { public: A(){} virtual void geta(){ cout < ...

随机推荐

  1. AHOI 2009 中国象棋

    题面 题目描述 这次小可可想解决的难题和中国象棋有关,在一个N行M列的棋盘上,让你放若干个炮(可以是0个),使得没有一个炮可以攻击到另一个炮,请问有多少种放置方法.大家肯定很清楚,在中国象棋中炮的行走 ...

  2. 八. 输入输出(IO)操作7.文件的随机读写

    Java.io 包提供了 RandomAccessFile 类用于随机文件的创建和访问.使用这个类,可以跳转到文件的任意位置读写数据.程序可以在随机文件中插入数据,而不会破坏该文件的其他数据.此外,程 ...

  3. 代理模式(Proxy)--动态代理(CGLIB)

    上一篇:代理模式(Proxy)--动态代理(jdk) (1)CGLIB技术是第三方代理技术,可以对任何类生成代理,代理的原则是对目标对象进行继承代理 (2)如果目标对象被final修饰,则无法被CGL ...

  4. 用gulp+webpack构建多页应用——记一次Node多页应用的构建过程

    通过参考网上的一些构建方法,当然也在开发过程中进行了一番实践,最终搭建了一套适用于当前多页应用的构建方案,当然该方案还处于draft版本,会在后续的演进过程中不断的优化. 个人觉得该方案的演进过程相对 ...

  5. Android中调用系统所装的软件打开文件(转)

    Android中调用系统所装的软件打开文件(转) 在应用中如何调用系统所装的软件打开一个文件,这是我们经常碰到的问题,下面是我所用到的一种方法,和大家一起分享一下! 这个是打开文件的一个方法: /** ...

  6. centos从头学习配置web服务器环境

    为了学习linux下配置web服务器环境,于是安装了vmware,准备在虚拟机里面学习web服务器的搭建! 首先是在虚拟机里安装centos,我选择的是32位的centos6.6版本,因为新版本7据说 ...

  7. Delphi创建开机启动项的方法示例

    Delphi可以通过创建开机启动项键值的方法,将程序添加到开机启动项中.通过本实例代码就可以为您的程序添加到快速启动中,随着Windows一起启动,开机即运行的程序.该实例代码简单,主要是通过添加注册 ...

  8. mybatis-mysql小优化

    原文:http://blog.csdn.net/jinzhencs/article/details/51656548 1.查询某条记录是否存在 <!-- 查询s是否被创建过:Uuid,name, ...

  9. iOS教程:如何使用NSFetchedResultsController

    不知不觉我们已经来到了Core Data系列教程的最后一部分了,在这里我们要讨论如何使用NSFetchedResultsController来优化我们的应用,提高应用的运行速度,减少其内存占用. 你是 ...

  10. Android自定义View(二)

    前言 魅族手机的闹钟应用中有个倒计时,这个控件还是蛮有趣的.左边是魅族闹钟,右边是我们最终实现的效果,虽然有些细节还需优化,不过基本上已经达到了想要的效果,我们先来就来看看如何实现吧. 分析 确定宽高 ...