NLP图卷积网络框架图图卷积网络图像分类

转载

mob64ca13f83523 2024-01-17 11:02:37

文章标签 NLP图卷积网络框架图数据结构与算法人工智能池化卷积 文章分类 NLP 人工智能

一、图像分类定义

可以用一个简单的公式来描述图像分类的过程：

NLP图卷积网络框架图图卷积网络图像分类_人工智能

训练：通过训练集{(x1,y1),...,{xn,yn}}来获得一个预测函数f，满足在训练集上的最小误差。

测试：向预测函数f输入一个从来没有见过的x，得到预测值y。

NLP图卷积网络框架图图卷积网络图像分类_NLP图卷积网络框架图_02

二、泛化能力

　　我们在训练的过程中，要注意所训练出来的模型的泛化能力。所谓泛化能力，就是要让模型认识不同形态、不同颜色等不同特征的同类事物，例如苹果，苹果有黄色的、绿色的、红色的等，当训练出来的模型不能只认识红色的，而要认识各种不同种类的苹果。

　　所以，我们在训练模型的时候，提供的训练集就要尽可能的包含多种同类事物（局部特征可能不同），让模型来自己学习他们的共性，从而获得泛化能力。

NLP图卷积网络框架图图卷积网络图像分类_数据结构与算法_03

三、传统机器学习的训练和测试过程

在机器学习领域中，如果我们要对一个图片进行分类，想要让其具有良好的泛化能力，我们不能将原始的RGB图片直接作为输入，而是需要经过以下过程：

NLP图卷积网络框架图图卷积网络图像分类_NLP图卷积网络框架图_04

1.在训练的时候，首先要对图像进行特征提取，摒除一些干扰因素，例如杂乱的背景等等

2.使用分类算法进行训练，训练的时候用标签来计算损失，最后得到训练好的分类器（模型）。

3.测试时，同样要首先对图像做特征提取（要和训练时的特征提取操作一致），然后使用训练好的模型进行预测，得到预测值。

四、图像特征提取介绍

1.颜色特征

NLP图卷积网络框架图图卷积网络图像分类_池化_05

颜色特征是将图片的颜色做直方图，直方图就是其颜色分布的特征。

2.全局形状

NLP图卷积网络框架图图卷积网络图像分类_人工智能_06

通过PCA降维来提取全局形状特征，但是当形状旋转和扭曲的时候，效果不好。

3.局部形状

NLP图卷积网络框架图图卷积网络图像分类_池化_07

4.纹理

NLP图卷积网络框架图图卷积网络图像分类_NLP图卷积网络框架图_08

常用的图像特征有以下几种：

1.SIFT特征

NLP图卷积网络框架图图卷积网络图像分类_NLP图卷积网络框架图_09

SIFT是一种比较有用的特征，将一个区域划分为16格，每一个提取一个8维的梯度向量，然后将16个8维向量串起来得到一个128维的特征向量。主要用在图像分类和图像匹配等任务。

2.HOG特征

HOG主要用在目标检测领域，能够比较精确的将目标的形状给检测出来，所以在目标检测和跟踪方面用得比较多。

3.LBP特征

NLP图卷积网络框架图图卷积网络图像分类_池化_11

主要对人脸特征的提取比较好。

4.Harr特征

NLP图卷积网络框架图图卷积网络图像分类_卷积_12

即角点特征，使用各种过滤器对图像进行处理，可以提取横向、纵向等方向的边界。

五、使用SVM来分类iris兰花

NLP图卷积网络框架图图卷积网络图像分类_数据结构与算法_13

NLP图卷积网络框架图图卷积网络图像分类_数据结构与算法_14

六、CNN结构初窥

NLP图卷积网络框架图图卷积网络图像分类_数据结构与算法_15

相比于前面的机器学习对图像的分类来说，CNN可以将一个图片直接作为输入，然后通过卷积层和全连接层，就可以得到分类的输出，是一个端到端的过程。

七、深度学习中的激励函数

NLP图卷积网络框架图图卷积网络图像分类_卷积_16

激励函数是一些非线性的函数，这些函数的特性有所不同：

1.Sigmoid函数可以将数值压缩到0-1的区间。

2.tanh可以将数值压缩到-1-1的区间。

3.Relu函数实现一个取正的效果，所有负数的信息都抛弃。

4.leaky Relu是一种相对折中的Relu，认为当数值为负的时候可能也存在一定有用的信息，那么就乘以一个系数0.1（可以调整或自动学习），从而获取负数中的一部分信息。

5.Maxout使用两套参数，取其中值大的一套作为输出。

6.ELU类似于Leaky Relu，只是使用的公式不同。

每一层的非线性激励函数组合起来，就可以形成一个非常复杂的非线性函数，也就可以有足够的能力来处理大量的信息（即可以保存大量的知识来指导分类）。

八、卷积运算过程

NLP图卷积网络框架图图卷积网络图像分类_卷积_17

输入图像：32*32是图像的高和宽，其中的每一格是一个像素点，由于RGB图像有3个颜色通道，所以该图像的channel为3，一共就是32*32*3。

卷积核：卷积核的size一般是奇数*奇数，channel要与被卷积的图像相同，这里也为3。

特征图：就是卷积后的图像，宽和高一般情况下会变小（valid padding），但是我们可以通过padding的方式使之不发生变化，也就是“same”的padding方式。特征图的channel值应该是等于卷积核的个数，因为每一个卷积核对图像进行卷积，都会产生一个channel为1的矩阵，6个卷积核产生的结果就是6个图层的叠加，所以结果维度为28*28*6。

卷积的计算过程：

NLP图卷积网络框架图图卷积网络图像分类_卷积_18