视觉的深度学习与网络的构建，训练及测试

原创

wx62d966d625404 2022-07-22 10:38:20 ©著作权

©著作权归作者所有：来自51CTO博客作者wx62d966d625404的原创作品，请联系作者获取转载授权，否则将追究法律责任

视觉的深度学习与网络的构建，训练及测试_类方法

已经很久没有更新平台的内容，今天抽空来给大家分享一些关于计算机视觉领域的一个重点，那就是“深度学习”，接下来就来详细聊聊深度学习（为什么要深度学习特征？？？），然后来说说深度网络的搭建，最后让我们自己用手DIY属于自己的网络，现在就开始ing......

一说起“深度学习”，大家有想过为什么要去搭建复杂网络，去学习更高级的特征呢？其实很简单，因为趋势是朝着类脑那个大方向，现在类脑工作已经得到很多研究员的关注。

类脑计算实际上存在两个技术层面：第1层面是“走出诺依曼框架”，主要属于人工神经网络的大范畴；第2层面是“基于神经科学的计算机算法”，试图超越人工神经网络框架和摆脱权值计算模型，实现对生物脑的高逼真性模拟。所以欧盟都已经联合开始研究人脑，都成立一个叫“人类脑计划”，美国也开始关注类脑。所以类脑计算这个方向是前途无量的。

第1类 主要有欧盟的“人类脑计划”和美国的“BRAINs”计划，虽然技术路径不同，但都是从生物脑的微观层面的实验数据和知识入手，通过逐渐整合，向上寻找中观和宏观层面上的数量关系规律，最终建立起整体的脑理论模型。
该类方法的特点是“自下而上”，一场大规模的微观海量的数据和碎片化的实验知识的“拼图工程”。首先发展高尖端技术工具，以实现对脑的微观的结构和功能的全面测量和记录；然后建立起全脑微观数据库；在此基础上，逐渐向大规模的脑计算模型上发展，并试图形成对脑活动、脑病变和脑智能的机制性解读的整体理论；最后形成比较成熟的类脑计算技术和类脑人工智能。这种研究属于长周期的大科学或大工程，需要动员大量人力物力和财力。

第2类 研究方法的特点是“自上而下”。直接将研究重心放在一个“好的”脑理论的建造上，然后向下导出神经元模型和神经元群体网络模型；之后测试和检验模型与微观神经知识和数据之间的契合度。这种研究的关键在于怎样找到正确的理论入手点，这一步不是单纯的建模方法问题，也不是一般的学科性理论问题，而是若干个重要学科的理论进程中的汇合点上的再综合，属于科学大周期性的结晶过程。这种研究属于长周期和“形而上”的小科学。目前，采用第2类方法的主要有美国Numenta公司和中国的神经深构造运算与脑计算机实验室（Neural Deep Structure Computing & MindComputer Lab，Mindputer Lab），两个实验室技术路径虽异，但总体方法都是先从全脑角度来建立理论框架，然后将理论逐渐地向下细化，导出中观和微观的计算模型，之后再检验与微观层面的实验数据和知识的互恰性。

各有利弊：

两类研究方法各有利弊，第1类方法就像在万米悬崖峭壁贴身攀岩，向上的每一步很费时且充满未知。因为，从海量的数据中去试图进行全脑网络的微观拼图，是一个大随机性的事件，即使有超级计算机或其他先进微观技术的帮助，欧美两个脑项目的10年计划时间是远远不够的。而第2类方法更像是空中伞降，难点在降落伞上，只要降落伞做得好，则向下定点降落的时间和复杂度比攀岩小的多。科学史已经证明，一个好的理论是大大削减科学探险随机性风险的锐利刀具。

有点说偏了，今天我们主要来说说深度学习这些事！

为什么要深度学习?

先来一个简单的例子：

视觉的深度学习与网络的构建，训练及测试_类方法_02

视觉的深度学习与网络的构建，训练及测试_数据_03

视觉的深度学习与网络的构建，训练及测试_深度学习_04

这都是底层特征的可视化，说明底层特征也只能学习一些基础的纹理等特征，但是如果达到人脑的视觉感知，就必须要学习更高级的高层语义特征。所以才会出现更深更复杂的网络，可以理解为挖掘更高层的语义特征来进行目标的表示。如下：

视觉的深度学习与网络的构建，训练及测试_数据_05

什么才是深度学习？

一般会有：1）组合模型；2）端到端的学习（End-to-End）。

学习

从具体------------------------>抽象

1）组合模型

视觉的深度学习与网络的构建，训练及测试_数据_06

犹如上面的流程图，充分说明了模型的组合学习。

2）End-to-End

下面两个链接是前期推送的内容，充分表明了网络的端到端学习过程。

深度学习---反向传播的具体案例

神经网络介绍—利用反向传播算法的模式学习

接下来参考了“slide credit Marc’aurelio Ranzato,CVPR ‘14 tutorial”

视觉的深度学习与网络的构建，训练及测试_深度学习_07

下面这个链接也详细介绍了CNN的演变与改进：

深度网络的“从古至今”的蜕变

框架

深度学习发展迅速，随之不同的框架也大量涌现出来。

Torch7

NYU
scientific computing framework in Lua
supported by Facebook

Theano/Pylearn2

U. Montreal
scientific computing framework in Python
symbolic computation and automatic differentiation

Cuda-Convnet2

Alex Krizhevsky
Very fast on state-of-the-art GPUs with Multi-GPU parallelism
C++ / CUDA library

TF，。。。。。。

因为我入门到现在一直用Caffe，所以今天节详细说说这个框架。

原因（参考）：

● Expression: models + optimizations are plaintext schemas, not code.
● Speed: for state-of-the-art models and massive data.
● Modularity: to extend to new tasks and settings.
● Openness: common code and reference models for reproducibility.
● Community: joint discussion and development through BSD-2 licensing.

● Pure C++ / CUDA architecture for deep learning

● command line, Python, MATLAB interfaces

● Fast, well-tested code
● Tools, reference models, demos, and recipes
● Seamless switch between CPU and GPU

网络（Net）

一个网络是由一组不同层连接而成：、

name: "dummy-net"
layers{ name: "data" …}
layers { name: "conv" …}
layers { name: "pool" …}
… more layers …
layers { name: "loss" …}

LeNet：

视觉的深度学习与网络的构建，训练及测试_数据_08

层（Layer）

name: "conv1"
                                                           type: CONVOLUTION
                                                           bottom: "data"
                                                           top: "conv1"
                                                           convolution_param {
                                                                      num_output: 20
                                                                      kernel_size: 5
                                                                      stride: 1    
                                                                      weight_filler {
                                                                                  type: "xavier"
                                                                      }
                                                           }

Protobuf

网络（Net）和层（Layer）就是通过Protobuf来定义的。

Blob

Caffe源码---Blob基本使用

Solving： 训练一个网络

train_net: "lenet_train.prototxt"
                                                base_lr: 0.01
                                                momentum: 0.9
                                                weight_decay: 0.0005
                                                max_iter: 10000
                                                snapshot_prefix: "lenet_snapshot"

如果你需要GPU训练：

caffe train -solver lenet_solver.prototxt -gpu 0

最后举一些流行的例子，有兴趣的朋友可以自己动手去DIY。

目标检测：

R-CNN: Regions with Convolutional Neural Networks
http://nbviewer.ipython.org/github/BVLC/caffe/blob/master/examples/detection.ipynbFull R-CNN scripts available at https://github.com/rbgirshick/rcnn

视觉的深度学习与网络的构建，训练及测试_类方法_09

视觉风格识别

Karayev et al. Recognizing Image Style. BMVC14. Caffe fine-tuning example.
Demo online at http://demo.vislab.berkeleyvision.org/

视觉的深度学习与网络的构建，训练及测试_数据_10

场景识别

http://places.csail.mit.edu/

视觉的深度学习与网络的构建，训练及测试_深度学习_11

微调（Fine-tuning）

视觉的深度学习与网络的构建，训练及测试_类方法_12

输入：不同的源文件；

最后一层：不同的分类器。

如何成为一名成功的“炼丹师”——DL训练技巧

今天就到这里，希望可以给需要的朋友一带来一些帮助，谢谢！

上一篇：基于心理学和数据驱动的方法进行游戏《LOL&王者荣耀》事件检测与亮点事件预

下一篇：计算机视觉怎么给图像分类？KNN、SVM、BP神经网络、CNN、迁移学习供你选（附开源代码）

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯