看demo学算法之卷积神经网络（CNN）

原创

wx5bab0d6058de6 2024-08-20 09:40:58 博主文章分类：python-机器学习 ©著作权

文章标签 算法 cnn 计算机视觉池化激活函数 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者wx5bab0d6058de6的原创作品，请联系作者获取转载授权，否则将追究法律责任

卷积神经网络（CNN）介绍：

卷积神经网络是一种深度学习算法，主要用于处理具有类似网格结构的数据，如图像。它通过层次化的特征提取和转换来识别图像中的模式。CNN的主要组成部分包括卷积层、池化层、激活层、全连接层和归一化层。

CNN的工作流程：

输入图像：首先，将图像作为输入数据传入网络。
特征提取：通过卷积层和激活层提取图像的局部特征。
特征选择：通过池化层减少特征维度，同时保留重要信息。
特征分类：通过全连接层将提取的特征转化为最终的分类结果。
输出结果：网络输出结果，如图像的类别标签。

好的，让我们通过一个简单的例子来更直观地理解卷积神经网络（CNN）的工作原理。

例子：手写数字识别

假设我们有一个简单的CNN模型，用于识别28x28像素的手写数字图像（例如MNIST数据集中的数字）。

网络结构：

输入层：28x28像素的灰度图像。
卷积层1：使用6个5x5的卷积核，步长为1，无填充（valid padding）。
激活层1：ReLU激活函数。
池化层1：2x2的最大池化。
卷积层2：使用16个5x5的卷积核，步长为1，无填充。
激活层2：ReLU激活函数。
池化层2：2x2的最大池化。
全连接层：有120个神经元。
激活层3：ReLU激活函数。
输出层：有10个神经元（对应0到9的数字），使用softmax激活函数。

工作流程：

输入图像：28x28像素的手写数字图像。
卷积层1：使用6个5x5的卷积核在输入图像上滑动，生成6个不同的特征图。
激活层1：应用ReLU激活函数，增强非线性特征。
池化层1：对每个特征图进行2x2的最大池化，减少数据维度。
卷积层2：使用16个5x5的卷积核在池化后的特征图上滑动，生成16个新的特征图。
激活层2：再次应用ReLU激活函数。
池化层2：进行2x2的最大池化。
全连接层：将池化后的特征图展平为一维向量，输入到全连接层。
激活层3：应用ReLU激活函数。
输出层：通过softmax函数输出每个数字类别的概率。

结果：

模型输出10个概率值，每个值对应一个数字类别（0到9）。最高的概率值对应的数字即为模型预测的数字。
这个例子展示了CNN如何通过层次化的特征提取和转换来识别图像中的模式。通过调整网络结构和参数，CNN可以适应更复杂的图像识别任务。

Python代码实例：

import tensorflow as tf
from tensorflow.keras import datasets, layers, models
import matplotlib.pyplot as plt
# 1. 加载和预处理数据
(train_images, train_labels), (test_images, test_labels) = datasets.mnist.load_data()
train_images = train_images.reshape((60000, 28, 28, 1)).astype('float32') / 255
test_images = test_images.reshape((10000, 28, 28, 1)).astype('float32') / 255
# 2. 构建CNN模型
model = models.Sequential()
model.add(layers.Conv2D(6, (5, 5), activation='relu', input_shape=(28, 28, 1)))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(16, (5, 5), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Flatten())
model.add(layers.Dense(120, activation='relu'))
model.add(layers.Dense(10, activation='softmax'))
# 3. 编译模型
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])
# 4. 训练模型
history = model.fit(train_images, train_labels, epochs=5, validation_data=(test_images, test_labels))
# 5. 评估模型
test_loss, test_acc = model.evaluate(test_images, test_labels)
print(f'测试准确率: {test_acc:.4f}')
# 6. 模型预测
predictions = model.predict(test_images)
predicted_labels = tf.argmax(predictions, axis=1)
# 7. 绘制训练过程中的损失和准确率
plt.figure(figsize=(12, 4))
# 损失
plt.subplot(1, 2, 1)
plt.plot(history.history['loss'], label='训练损失')
plt.plot(history.history['val_loss'], label='验证损失')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.legend()
# 准确率
plt.subplot(1, 2, 2)
plt.plot(history.history['accuracy'], label='训练准确率')
plt.plot(history.history['val_accuracy'], label='验证准确率')
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.legend()
plt.show()