1. 什么是目标检测?
目标检测 (Object Detection) 就是将图片中的物体用一个个矩形框框出来,并且识别出每个框中的物体是啥,而且最好的话是能够将图片的所有物体都框出来。
目标检测本质上包含两个任务:物体识别和物体定位。
在本文中,我们将使用 OpenCV(一种流行的计算机视觉库)构建一个对象检测和跟踪系统。
OpenCV 具有许多功能,深度学习也不例外。
从 OpenCV 3.4 版开始 逐渐增加了深度学习推理的功能。
但是,它 仍然没有通过其名为 的 API 提供深度学习模型的训练。
2.什么是对象追踪
对象跟踪是识别和跟踪视频流中对象的过程。
我们将了解使用 opencv python 进行对象检测的不同技术,包括:
- 密集光流
该技术涉及计算图像中每个像素的光流(即运动矢量)。我们将使用 Farneback 算法来计算密集光流。
- 稀疏光流
该技术涉及识别图像中的关键点并跟踪其运动。我们将使用 Lucas-Kanade 算法来计算稀疏光流。
- 卡尔曼滤波
这是一种统计技术,它使用一系列测量来估计系统的状态。我们将使用卡尔曼滤波来预测下一帧中物体的位置。
- Meanshift 和 Camshift
是迭代技术,涉及在图像上移动窗口以定位对象。我们将使用平均移位和凸轮移位来跟踪物体的位置。
- 单个对象跟踪器
是跟踪算法,它们使用不同技术的组合来跟踪单个对象。这是使用 opencv python 进行对象检测中最常用的方法之一。
- 重新识别实现多目标跟踪
使用重新识别来跟踪视频流中的多个对象。
重新识别涉及识别先前已检测到但可能已从框架中消失然后重新出现的物体。
要求
要使用 opencv-python 构建对象跟踪对象检测系统,我们需要安装以下库:
- OpenCV
pip install opencv-python
- NumPy的
pip install numpy
此外,我们需要一个映像来测试系统。一旦我们有了必要的库和数据,我们就可以开始构建系统了。
使用 OpenCV 构建对象检测和跟踪
目标检测和跟踪是计算机视觉中的关键任务,而 OpenCV 是实现这些任务的强大库。在本教程中,我们将学习如何使用 opencv python 构建对象检测。我们将从讨论数据集和数据预处理开始。
数据
使用 opencv-python 构建对象检测的第一步是获取数据集。
数据集是图像或视频的集合,我们将使用它们来训练我们的系统。
有许多数据集可用于对象检测和跟踪,例如 COCO 数据集、KITTI 数据集和 Pascal VOC 数据集。
COCO 数据集包含超过 330,000 张图像,在 80 个类别中标记了超过 250 万个对象实例。
数据集可从COCO官网(http://cocodataset.org/#download)下载。
MobileNet SSD 模型在 COCO 数据集上进行了预训练,该数据集包含 80 个不同对象类别的 330,000 多张图像。预训练模型可供下载,可用于实时应用程序中的对象检测,如前面提供的代码实现所示。我们将利用这个预训练的模型,使用 opencv-python 执行对象检测。
使用 OpenCV 构建对象检测和跟踪
下面是该过程的基本代码实现和说明:
第 1 步:安装 OpenCV 库
首先,您需要在系统上安装 OpenCV 库。您可以通过运行以下命令来执行此操作:
pip install opencv-python
第 2 步:导入必要的库
现在,导入将在程序中使用的必要库。我们需要 OpenCV 库和 NumPy 库进行矩阵计算。我们还需要 imutils 库来调整帧大小。
import cv2
import numpy as np
import imutils
步骤 3:加载对象检测模型
接下来,加载对象检测模型。您可以使用 YOLO、SSD 或 Faster R-CNN 等预训练模型进行对象检测。在此示例中,我们将使用 MobileNet SSD 模型,通过 opencv python 执行对象检测,该模型轻量级且快速。
# Load the object detection model
model = cv2.dnn.readNetFromTensorflow('models/MobileNetSSD_deploy.prototxt',
'models/MobileNetSSD_deploy.caffemodel')
步骤 4:初始化视频捕获对象
现在,初始化视频捕获对象以从相机或视频文件中读取帧。
# Initialize the video capture object
cap = cv2.VideoCapture(0) # for accessing the default camera
#cap = cv2.VideoCapture('path_to_video_file') # for accessing the video file
第 5 步:遍历帧接下来,循环遍历视频捕获对象捕获的帧。在循环的每次迭代中,读取帧,调整帧大小,并将其传递给对象检测模型以检测对象。
while True:
# Read the frame
ret, frame = cap.read()
# Resize the frame
frame = imutils.resize(frame, width=500)
# Pass the frame to the object detection model
blob = cv2.dnn.blobFromImage(frame, 0.007843, (500, 500), 127.5)
model.setInput(blob)
detections = model.forward()
# Loop through the detections
for i in range(detections.shape[2]):
confidence = detections[0, 0, i, 2]
# Filter out weak detections
if confidence > 0.5:
# Get the bounding box coordinates
box = detections[0, 0, i, 3:7] * np.array([500, 500, 500, 500])
(startX, startY, endX, endY) = box.astype('int')
# Draw the bounding box and label on the frame
cv2.rectangle(frame, (startX, startY), (endX, endY), (0, 255, 0), 2)
label = '{:.2f}%'.format(confidence * 100)
cv2.putText(frame, label, (startX, startY - 15), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 255, 0), 2)
# Show the frame
cv2.imshow('Object Detection', frame)
# Check for key presses
key = cv2.waitKey(1) & 0xFF
if key == ord('q'):
break
步骤 6:释放资源
最后,释放视频捕获对象并关闭所有窗口。
# Release the video capture object and close all windows
cap.release()
使用预训练模型 - MobileNet SSD
MobileNet SSD 是一种单次目标检测架构,它使用 MobileNet 架构的变体作为其基础网络。MobileNet 是一种轻量级神经网络架构,专为移动和嵌入式视觉应用而设计,通过使用深度可分离卷积而不是传统卷积来实现。
MobileNet SSD 架构基于这种深度可分离卷积的思想,并针对在计算资源有限的移动设备和嵌入式系统上运行进行了优化。
MobileNet SSD 架构由两个主要部分组成:基础网络和检测网络。
如何在单个数据点上使用模型进行推理?
以下是使用 OpenCV 对单个数据点执行 MobileNet SSD 模型推理的步骤。这是系统的扩展版本,它使用我们之前构建的 opencv python 执行对象检测。下面是该过程的基本代码实现和说明:
第 1 步:安装 OpenCV 库
首先,您需要在系统上安装 OpenCV 库。您可以通过运行以下命令来执行此操作:
pip install opencv-python
步骤 2:加载对象检测模型
接下来,加载 MobileNet SSD 对象检测模型。MobileNet SSD 模型由两个文件组成:一个包含模型体系结构的 .prototxt 文件,一个包含模型权重的 .caffemodel 文件。您可以从 Internet 下载这些文件,也可以使用 OpenCV 库附带的文件。
# Load the object detection model
model = cv2.dnn.readNetFromCaffe('models/MobileNetSSD_deploy.prototxt',
'models/MobileNetSSD_deploy.caffemodel')
第 3 步:加载输入图像
加载要对其执行对象检测的输入图像。您可以使用 cv2.imread() 函数从文件中读取图像。
# Load the input image
image = cv2.imread('path_to_image')
第 4 步:预处理输入图像
在将输入图像传递到对象检测模型之前对其进行预处理。需要将图像大小调整为固定大小,将其转换为 Blob,然后从中减去数据集的平均值。
# Preprocess the input image
resized_image = cv2.resize(image, (300, 300))
blob = cv2.dnn.blobFromImage(resized_image, 0.007843, (300, 300), 127.5)
第 5 步:通过模型传递图像
将预处理的图像传递到 MobileNet SSD 模型以执行对象检测。
# Pass the image through the model
model.setInput(blob)
detections = model.forward()
步骤 6:可视化输出
在输入图像上可视化目标检测模型的输出。遍历检测到的对象,在它们周围绘制边界框和标签,并显示生成的图像。
# Visualize the output
for i in range(detections.shape[2]):
confidence = detections[0, 0, i, 2]
if confidence > 0.5:
class_id = int(detections[0, 0, i, 1])
class_name = classes[class_id]
box = detections[0, 0, i, 3:7] * np.array([image.shape[1], image.shape[0], image.shape[1], image.shape[0]])
(startX, startY, endX, endY) = box.astype('int')
cv2.rectangle(image, (startX, startY), (endX, endY), (0, 255, 0), 2)
label = '{}: {:.2f}%'.format(class_name, confidence * 100)
cv2.putText(image, label, (startX, startY - 15), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 255, 0), 2)
cv2.imshow('Object Detection', image)
cv2.waitKey(0)
cv2.destroyAllWindows()
这将显示带有检测到的对象及其标签的输入图像。
注意:在上面的代码实现中,未定义类列表。在运行代码之前,需要定义此列表。类列表包含训练 MobileNet SSD 模型检测的对象类的名称。这些类名对应于 COCO 数据集中的 80 个对象类别,MobileNet SSD 模型已对其进行了预训练。
当您从 OpenCV 存储库下载 MobileNetSSD_deploy.prototxt 文件时,它包含 80 个对象类的列表及其相应的 ID。下面是类列表可能如下所示的示例:
# Define the list of object classes
classes = ['background', 'person', 'bicycle', 'car', 'motorcycle', 'airplane', 'bus', 'train', 'truck', 'boat',
'traffic light', 'fire hydrant', 'stop sign', 'parking meter', 'bench', 'bird', 'cat', 'dog', 'horse',
'sheep', 'cow', 'elephant', 'bear', 'zebra', 'giraffe', 'backpack', 'umbrella', 'handbag', 'tie',
'suitcase', 'frisbee', 'skis', 'snowboard', 'sports ball', 'kite', 'baseball bat', 'baseball glove',
'skateboard', 'surfboard', 'tennis racket', 'bottle', 'wine glass', 'cup', 'fork', 'knife', 'spoon',
'bowl', 'banana', 'apple', 'sandwich', 'orange', 'broccoli', 'carrot', 'hot dog', 'pizza', 'donut',
'cake', 'chair', 'couch', 'potted plant', 'bed', 'dining table', 'toilet', 'tv', 'laptop', 'mouse',
'remote', 'keyboard', 'cell phone', 'microwave', 'oven', 'toaster', 'sink', 'refrigerator', 'book',
'clock', 'vase', 'scissors', 'teddy bear', 'hair drier', 'toothbrush']
跟踪与检测
跟踪比检测更快
对象跟踪通常比对象检测更快,因为它涉及在后续帧中跟踪对象,而不是单独分析每个帧。使用 opencv python 进行对象检测涉及处理每一帧,这在计算上可能很昂贵。
当检测失败时,跟踪会有所帮助
在对象检测失败(例如遮挡或对象部分可见)的情况下,对象跟踪会有所帮助。
跟踪算法可以使用先前的信息来估计物体的位置,即使它并不完全可见。