caffemodel是训练过程中产生的文件,里面主要存放的是网络模型中各层的w和b参数,另外还存放网络形状等其它的一些信息。所以我们可以看到,caffemodel的大小主要取决于模型的w和b参数的数量。

w和b参数的数量主要由下面的两个因素决定:

网络结构。比如:卷积层数量,全连接层数量,卷积核大小、个数等等;
网络输入。当网络含有全连接层的时候需要考虑这个因素,我在下面还会结合例子做具体的解释。

下面先给出一个简单的例子: 
      假设网络总共有10000个w和b参数,这些参数用float类型(4 Bytes)的变量表示,caffemodel的大小将大约是4*10000=40000 Bytes(会稍微大一点,因为caffemodel中除了存放参数还会存放类似上面提到的网络形状等等一些其它信息)。

下面再给出一个caffe中的具体例子(mnist的lenet_train_test.prototxt): 
用 link1 的方法画出网络模型图如下(图片有点小~~具体的数字可以参考 lenet_train_test.prototxt): 

大模型运行期间监控本地显卡使用情况_Network

       该网络主要有两个卷积层和两个全连接层,具体可以简化如下图(两个卷积层的卷积核都为5*5,步长stride都为1,两个pool层都为2*2,步长为2): 

大模型运行期间监控本地显卡使用情况_卷积_02

下面是对各层w和b参数的计算,(如果对参数数量计算方式不是很了解的可以参看下面的这篇博文: link2)

conv1:

w数量:5*5*1*20=500
b数量:20
conv2:

w数量:5*5*20*50=25000
b数量:50
ip1:

w数量:1*1*(4*4*50)*500=400000
b数量:500
ip2:

w数量:1*1*500*10=5000
b数量:10

把上面各层的参数相加得到: 
(500 + 20) + (25000 + 50) + (400000 + 500) + (5000 + 10) = 431080 
即总共有431080个w和b参数,因为每一个参数以float类型(4 Bytes)存储,所以存储这么多参数需要的空间为: 
431080 * 4 = 1724320 (Byte) 约等于 1.64 MB 。

计算出来的结果和训练得到的caffemodel的大小差不多(稍微小了一点)。

到这里,我们就基本上解释了怎么估算一个caffemodel的大小了。上面还卖了个关子,提到w和b参数除了和网络结构有关以外,还和网络的输入有关。 
以上面的mnist例子来说,假如输入不是28*28而是N*N(这里N是比28大的一个整数),那么假设pool2的输出表示为n*n(在网络结构不变的情况下,这里的n比4大),所以也就导致了ip1全连接层的w参数数量增多(ip1的w参数数量为 n*n*50*500),从而导致了caffemodel大小的变化。

从上面的计算大家也可以看到,一个网络的大小很大程度上取决于全连接层,第一个全连接层的连接数(参数数量)一般是最多的。后来《Network in Network》把全连接层换成average pooling,目的就是为了减小参数的数量。有兴趣的朋友可以搜一搜这篇论文看看。