在研二的时候有一次机会去参加CCF大会,了解到深度学习,因为毕业后没有准备向这个方向工作,只是自己的一点点理解。


这是一些些讲座的内容

讲座:可视媒体计算的意义

在大数据和深度学习的推动下,图像分类和标注进入新的高度。

深度学习处理3D图像 deep learning 3d 图像_深度学习处理3D图像

1。ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。是美国哈佛的计算机科学家,模拟人类的识别系统建立的。能够从图片识别物体。ImageNet是一个非常有前景的研究项目,未来用在机器人身上,就可以直接辨认物品和人了。

2。三维实时重建 、交互与理解,使得3D数字媒体的获取和标注便捷。

3。实时草图绘制辅助。利用数据库的知识为用户提供辅助提示,减少创作难度,如下图。

深度学习处理3D图像 deep learning 3d 图像_深度学习_02


讲座;人体感知与自然交互

     类脑计算与视觉认知

     以脑认知科学研究成果为基础,借鉴人类感知,认知机理,突破现有的计算模式,建立类似人脑的信息组织,存储和处理的计算机架构已成为目前计算机科学和人工智能领域备受关注的大问题。

    物体识别与分类机理存在的问题;


深度学习CNN问题

1. 缺乏理论支持(隐层数目?最优结构)

2. 缺乏记忆功能

3. 缺乏在无监督学习下的执行能力

4. 用大容量神经网络容易过拟合大数据

5. 现有的cnn不具备人脑视觉通道很多特性。

长短时记忆相结合

TrueNorth :IBM 的百万神经元类人脑芯片

技术途径:

在brain-inspried启示下,摆脱冯诺依曼计算结构的束缚,尝试采用采用注意力选择/事件驱动的信息获取,网络化分布方式信息处理。结合长时短时记忆功能的计算网络,探索面向视觉认知的类脑计算。


讲座;虚拟现实+  赵沁平

近年发展:

深度学习处理3D图像 deep learning 3d 图像_深度学习_03


实验室已完成:

虚拟支架手术  抗战阅兵

新的研究领域:

可穿戴设备;新型虚拟现实交互设备,如全息,光塑显示;移动终端应用;新型网络设备;人体科学;大数据应用。

存在问题;

深度学习处理3D图像 deep learning 3d 图像_深度学习_04

目前我们通过机器学习去解决这些问题的思路都是这样的(以视觉感知为例子):

  从开始的通过传感器(例如CMOS)来获得数据。然后经过预处理、特征提取、特征选择,再到推理、预测或者识别。最后一个部分,也就是机器学习的部分,绝大部分的工作是在这方面做的,也存在很多的paper和研究。而中间的三部分,概括起来就是特征表达。良好的特征表达,对最终算法的准确性起了非常关键的作用,而且系统主要的计算和测试工作都耗在这一大部分。但,这块实际中一般都是人工完成的。靠人工提取特征。

深度学习处理3D图像 deep learning 3d 图像_深度学习处理3D图像_05

  截止现在,也出现了不少特征(好的特征应具有不变性(大小、尺度和旋转等)和可区分性):例如Sift的出现,是局部图像特征描述子研究领域一项里程碑式的工作。由于SIFT对尺度、旋转以及一定视角和光照变化等图像变化都具有不变性,并且SIFT具有很强的可区分性,的确让很多问题的解决变为可能。但它也不是万能的。

  

深度学习处理3D图像 deep learning 3d 图像_神经网络_06

然而,手工地选取特征是一件非常费力、启发式(需要专业知识)的方法,能不能选取好很大程度上靠经验和运气,而且它的调节需要大量的时间。既然手工选取特征不太好,那么能不能自动地学习一些特征呢?答案是能!Deep Learning就是用来干这个事情的,看它的一个别名UnsupervisedFeatureLearning,就可以顾名思义了,Unsupervised的意思就是不要人参与特征的选取过程。

  总的来说,人的视觉系统的信息处理是分级的。从低级的V1区提取边缘特征,再到V2区的形状或者目标的部分等,再到更高层,整个目标、目标的行为等。也就是说高层的特征是低层特征的组合,从低层到高层的特征表示越来越抽象,越来越能表现语义或者意图。而抽象层面越高,存在的可能猜测就越少,就越利于分类。例如,单词集合和句子的对应是多对一的,句子和语义的对应又是多对一的,语义和意图的对应还是多对一的,这是个层级体系。

 


理解:

       对于深度学习来说,其思想就是对堆叠多个层,也就是说这一层的输出作为下一层的输入。通过这种方式,就可以实现对输入信息进行分级表达了。

浅层学习是机器学习的第一次浪潮。例如支撑向量机(SVM,SupportVector Machines)、 Boosting、最大熵方法(如LR,Logistic Regression)等。这些模型的结构基本上可以看成带有一层隐层节点(如SVM、Boosting),或没有隐层节点(如LR)。

深度学习是机器学习的第二次浪潮。深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。因此,“深度模型”是手段,“特征学习”是目的。区别于传统的浅层学习,深度学习的不同在于:1)强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点;

2)明确突出了特征学习的重要性,也就是说,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。

deep learning训练过程方法:1)首先逐层构建单层神经元,这样每次都是训练一个单层网络。2)当所有层训练完后,Hinton使用wake-sleep算法进行调优。

1)使用自下上升非监督学习(就是从底层开始,一层一层的往顶层训练):

       采用无标定数据(有标定数据也可)分层训练各层参数,这一步可以看作是一个无监督训练过程,是和传统神经网络区别最大的部分(这个过程可以看作是feature learning过程):

       具体的,先用无标定数据训练第一层,训练时先学习第一层的参数(这一层可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层),由于模型capacity的限制以及稀疏性约束,使得得到的模型能够学习到数据本身的结构,从而得到比输入更具有表示能力的特征;在学习得到第n-1层后,将n-1层的输出作为第n层的输入,训练第n层,由此分别得到各层的参数;

2)自顶向下的监督学习(就是通过带标签的数据去训练,误差自顶向下传输,对网络进行微调):

       基于第一步得到的各层参数进一步fine-tune整个多层模型的参数,这一步是一个有监督训练过程;第一步类似神经网络的随机初始化初值过程,由于DL的第一步不是随机初始化,而是通过学习输入数据的结构得到的,因而这个初值更接近全局最优,从而能够取得更好的效果;所以deep learning效果好很大程度上归功于第一步的feature learning过程。

深度学习常用方法:

 AutoEncoder自动编码器; Sparse Coding稀疏编码;Restricted BoltzmannMachine(RBM)限制波尔兹曼机;Deep BeliefNetworks深信度网络;Convolutional Neural Networks卷积神经网络。

 

深度学习与BP区别?

相同:  二者的相同在于deep learning采用了神经网络相似的分层结构,系统由包括输入层、隐层(多层)、输出层组成的多层网络,只有相邻层节点之间有连接,同一层以及跨层节点之间相互无连接,每一层可以看作是一个logistic regression模型;这种分层结构,是比较接近人类大脑的结构的。

深度学习处理3D图像 deep learning 3d 图像_深度学习处理3D图像_07

                                           图1Bp                                          图2 deep learning

不同

(1)强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点;

(2)训练方法不同:

Bp即Back Propagation。采用反向传播算法

 

BP算法存在的问题:

梯度越来越稀疏:从顶层越往下,误差校正信号越来越小;收敛到局部最小值:尤其是从远离最优区域开始的时候(随机值初始化会导致这种情况的发生);一般,我们只能用有标签的数据来训练:但大部分的数据是没标签的,而大脑可以从没有标签的的数据中学习。

深度学习

深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。BP

BP (Back Propagation)神经网络,即误差反传误差反向传播算法的学习过程,由信息的正向传播和误差的反向传播两个过程组成。输入层各神经元负责接收来自外界的输入信息,并传递给中间层各神经元;中间层是内部信息处理层,负责信息变换,根据信息变化能力的需求,中间层可以设计为单隐层或者多隐层结构;最后一个隐层传递到输出层各神经元的信息,经进一步处理后,完成一次学习的正向传播处理过程,由输出层向外界输出信息处理结果。当实际输出与期望输出不符时,进入误差的反向传播阶段。误差通过输出层,按误差梯度下降的方式修正各层权值,向隐层、输入层逐层反传。周而复始的信息正向传播和误差反向传播过程,是各层权值不断调整的过程,也是神经网络学习训练的过程,此过程一直进行到网络输出的误差减少到可以接受的程度,或者预先设定的学习次数为止。

CNN

    卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。