一、前言
随着深度学习技术在智能驾驶、智慧金融、智能制造、智慧农业、智慧医疗、智能家居等领域的逐步应用,作为引领这一轮科技革命和产业变革的战略性技术,人工智能的产业化已经取得了显著的效果,显示出带动性很强的“头雁”效应。图像识别技术作为深度学习一个重要应用,是信息时代的一门重要的技术,其产生目的是为了让计算机代替人类去处理大量的物理信息。随着计算机技术的发展,人类对图像识别技术的认识越来越深刻。图像识别技术的过程分为信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。卷积神经网络图像识别技术是一种比较新型的图像识别技术,是在传统的图像识别方法和基础上融合神经网络算法的一种图像识别方法。在神经网络图像识别技术中,遗传算法与BP网络相融合的神经网络图像识别模型是非常经典的,在很多领域都有它的应用。在图像识别系统中利用神经网络系统,一般会先提取图像的特征,再利用图像所具有的特征映射到神经网络进行图像识别分类。
二、深度学习的发展背景
深度学习是指在多层神经网络上运用各种机器学习算法解决图像、文本等问题的算法集合。近年来在语音识别自然语言处理、目标识别和分类等领域取得了巨大的进展。深度学习主要包括深度置信网络、卷积神经网络和递归神经网络等。它的核心是深度特征学习,通过分层网络获取分层次的特征信息,从而解决以往需要人工设计特征的重要难题。其中,卷积神经网络是一种以卷积运算为核心的深度学习神经网络,相比以往的浅层机器学习模型,其在特征提取表达和模型拟合上有着前所未有的优势。它通过卷积运算组合低层特征,能得出具有更加抽象和本质的高层特征,尤其在具有复杂结构的信息处理上有优异的表现。
2006年,作为理论提出阶段,机器学习领域的泰斗Hinton指出多层的神经网络结构能够学习到更深刻更本质的特征,并通过“逐层初始化”的训练办法克服了传统神经网络训练瓶颈问题,引领了DL的发展方向。
2011年以来,微软研究院和谷歌的语音识别人员采用深度神经网络技术,使语音识别有了突破性进展,识别误差可降低20%~30%。 2013年百度宣布成立百度研究院,而其第一个研究重点就是DL。2013年10月,Facebook试图通过启用DL这一新的人工智能技术来帮助理解它的用户和相关数据。2015年国际机器学习大会上来自工业界和学术界的各位专家对DL展开激烈讨论,指出DL在人类擅长的领域已经取得了令人振奋的成功,未来的探索方向是人类并不擅长的任务、数据集。2015年国际计算机视觉与模式识别会议上关于DL和CNN的研究成果较往年有大幅的提升。2015年9月,微软亚洲研究院的“深层残差网络”在ILSVRC中获得图像分类、定位以及检测全部项目的冠军,如分类方面将错误率降低至4.94%,比人眼辨识(错误率5.1%)更精确。
深度学习正在取得重大进展,解决了人工智能界的尽较大努力很多年仍没有进展的问题。它已经被证明,它能够擅长发现高维数据中的复杂结构,因此它能够被应用于科学、商业和政府等领域。除了在图像识别、语音识别等领域打破了纪录,它还在另外的领域击败了其他机器学习技术,包括预测潜在的药物分子的活性、分析粒子加速器数据、重建大脑回路、预测在非编码DNA突变对基因表达和疾病的影响。
三、lenet5卷积神经网络模型
3.1卷积神经网络及其发展
卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积运算且具有深度结构的前馈神经网络(Feedforward Neural Networks)。相比早期的BP神经网络,卷积神经网络最重要的特性在于“局部感知”与“参数共享”。在 1998 年,Yann LeCun和YoshuaBengio等人提出 LeNet-5网络架构在上世纪七八十年代,反向传播算法被提出并成功运用到网络模型的参数优化上,然而到了九十年代,人工智能并未达到预期的智能水平,相关研究再次陷入低谷期,而这个时期却是SVM(支持向量机)发展的巅峰时期,尤其是核方法的引入,使得SVM 发挥出巨大的潜力,另外那个时期实际上仍以人工设计的特征为主流,加之机器硬件发展速度较为缓慢,神经网路计算复杂等原因致使 LeNet-5 网络并没有成为那个时代的宠儿,而直到2012年,AlexNet获得ImageNet 图像识别竞赛冠军时,CNN 才重新回到人们的视野,LeNet-5 也被公认为是现代 CNN 发展史上的开山之作。至此,卷积神经网络开始大放异彩,成为了众多科学领域的研究重点之一。
卷积神经网络的基本结构由输入层、卷积层、池化层、全连接层、输出层构成。
其中卷积层用来进行特征提取,池化层用于降低维数,全连接层可用于结果预测。卷积层的卷积核本质就是特征提取器,配合深度网络模型可以自动提取输入信号的深层信息。其内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias vector),类似于一个前馈神经网络的神经元(neuron)。卷积层参数包括卷积核大小、步长和填充。
池化层,实现特征图的采样处理,在减少数据量的同时保留有用的信息,也使CNN具有抗畸变的能力。在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。池化层选取池化区域与卷积核扫描特征图步骤相同,由池化大小、步长和填充控制。
全连接层(如softmax层)一般位于网络尾端,对前面逐层变换和映射提取的特征进行回归分类等处理,也可作输出层,把训练得到的特征图汇总成特征向量,为输入图像的另一种信息表示。卷积神经网络中的全连接层等价于传统前馈神经网络中的隐含层。全连接层通常搭建在卷积神经网络隐含层的最后部分,并只向其它全连接层传递信号。特征图在全连接层中会失去3维结构,被展开为向量并通过激励函数传递至下一层。
3.2卷积神经网络的特性
3.2.1局部感知
一般认为,人对外界的认知是从局部到全局的,而对于图像来说,空间联系也是局部的像素联系较为紧密,而距离较远的像素相关性则较弱。因而,每个神经元其实没有必要对全局图像进行感知,只需要对局部进行感知,然后在更高层将局部的信息综合起来就得到了全局的信息。网络部分连通的思想,也是受启发于生物学里面的视觉系统结构。视觉皮层的神经元就是局部接受信息的(即这些神经元只响应某些特定区域的刺激)。在CNN中而卷积层则可以保持形状不变。当输入图像时,卷积层会以3维数据的形式接收输入数据,并同样以3维数据的形式输出至下一层。因此,可以正确理解图像等具有形状的数据,而且由于局部连接,大大降低了参数量,节省了内存。
3.2.3共享权重
也可理解为“平移不变性”,卷积神经网络在图像的某一区域学到某个模式之后,它就可以在图像的任何地方识别这个模式。而对于全连接网络来说,如果模式出现在新的位置,它只能重新学习这个模式。这使得卷积神经网络在处理图像时可以高效利用数据(因为视觉世界从根本上具有平移不变性),只需要更少的训练样本就可以学到具有泛化能力的数据表示。
3.2.3多卷积核
一个卷积核只能提取某一种特征,而计算机对于一副图像的理解过程中,往往需要对其多个特征进行学习,其每个卷积核都是一种特征提取方式,就像一个筛子,将图像中符合条件的部分筛选出来。
四、深度学习的应用
4.1目标检测技术
目前主流的目标检测算法主要是基于深度学习模型,目标检测,也叫目标提取,是一种基于目标几何和统计特征的图像分割,它将目标的分割和识别合二为一,其准确性和实时性是整个系统的一项重要能力。尤其是在复杂场景中,需要对多个目标进行实时处理时,目标自动提取和识别就显得特别重要。以汽车拍照自动识别技术为例,当汽车通过的时候,汽车自身具有的检测设备会有所感应。此时检测设备就会启用图像采集装置来获取汽车正反面的图像。获取了图像后必须将图像上传到计算机进行保存以便识别。最后车牌定位模块就会提取车牌信息,对车牌上的字符进行识别并显示最终的结果。在对车牌上的字符进行识别的过程中就用到了基于模板匹配算法和基于人工神经网络算法。
随着计算机技术的发展和计算机视觉原理的广泛应用,利用计算机图像处理技术对目标进行实时跟踪研究越来越热门,对目标进行动态实时跟踪定位在智能化交通系统、智能监控系统、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。
4.2人脸识别技术
人脸识别是基于人的面部特征信息进行身份识别的一种生物识别技术。使用摄像头或者摄像机采集含有人脸的图像或视频,自动检测图像信息和跟踪人脸,对检测到的人脸进行脸部的一系列相关分析技术。自从2012 年卷积神经网络首次应用在ILSVRC 图像分类比赛并取得令人瞩目的成绩以来,卷积神经网络被广泛应用于图像识别与分类领域。人们孜孜不倦的研究使得不断改进的网络模型一一涌现,刷新着ILSVRC 比赛记录,也使得卷积神经网络对于图像特征的学习提取能力日新月异的发展。同时,借由ImageNet,MSCOCO 等大规模数据集的出现,卷积神经网络的训练强度不断提升,使得模型有着更强的泛化能力,提升在实际图像分类问题中的应用效果。
4.3无人驾驶技术
无人驾驶的感知部分作为计算机视觉的领域范围,也不可避免地成为CNN发挥作用的舞台。作为人工智能等技术在汽车行业、交通领域的延伸与应用,无人驾驶近几年在世界范围内受到了产学界甚至国家层面的密切关注。目前,人工智能在汽车自动驾驶技术中也有了广泛应用。自动驾驶汽车依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作,它是一个集环境感知、规划决策、多等级辅助驾驶等功能于一体的综合系统,它集中运用了计算机、现代传感、信息融合、通讯、人工智能及自动控制等技术, 是典型的高新技术综合体。
4.4自然语言处理技术
在深度学习还未爆发之前,自然语言处理一直发展缓慢,而且距离具体的实用也很遥远,传统方法只是基于句子的结构,并没有将句子的意思用一种计算机理解的方案表现出来,因此自然语言处发展缓慢。直到近年来,得益于深度学习的爆发,自然语言得到了快速发展。神经网络具有的高度灵活性和端到端的属性,成功的让自然语言处理更加易于使用。

五、深度学习的未来展望
深度学习是本轮人工智能爆发的关键技术。人工智能技术在计算机视觉和自然语言处理等领域取得的突破性进展,使得人工智能迎来新一轮爆发式发展。而深度学习是实现这些突破性进展的关键技术。其中,基于深度卷积神经网络的图像分类技术已超过人眼的准确率,基于深度神经网络的语音识别技术已达到95%的准确率,基于深度神经网络的机器翻译技术已接近人类的平均翻译水平。准确率的大幅提升使得计算机视觉和自然语言处理进入产业化阶段,带来新产业的兴起。面对这样的发展形势,当前应加快自动化机器学习、模型压缩等深度学习应用技术研究,依托国内的市场优势和企业的成长优势,针对具有我国特色的个性化应用需求,加快对深度学习应用技术的研究。加强对自动化机器学习、模型压缩等技术的研究,加快深度学习的工程化落地应用。加强深度学习在计算机视觉领域应用研究,进一步提升目标识别等视觉任务的准确率,以及在实际应用场景中的性能。加强深度学习在自然语言处理领域的应用研究,提出性能更优的算法模型,提升机器翻译、对话系统等应用的性能。
六、总结
随着人工智能和大数据时代的到来,同时得益于计算能力的飞速发展,深度学习已经成为各界研究的热点。卷积神经网络是近年发展起来,并引起广泛重视的一种高效识别方法。卷积神经网络以其局部权值共享的特殊结构在模式识别方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。卷积神经网络作为深度学习的一种重要模型,为解决图像识别等问题而设计并取得了很好的效果,通过大量的样本形成训练数据由此来训练模型进行识别,运用到医疗行业,则可以通过学习模型与生物信息进行比对,识别,从而保证了在药物图像识别的准确性和效率。