人工智能中有一个很重要的领域是计算机视觉。
计算机视觉可以通过计算机和软件系统实现图像和场景识别。计算机视觉包括图像识别、物体检测、图像生成、图像分辨率辨析等领域,现在大多数案例都是跟对象检测有关,所以提起计算机视觉总会想到这一方面。
本文会简单介绍现代对象检测的概念,软件开发人员面临的挑战,解决方案以及高性能对象检测的代码教程。
对象识别是指计算机在图像/场景中定位对象并识别每个对象的能力。它广泛应用在人脸识别、车辆识别、行人计数、网络图像、系统安全和无人车等领域。
2012 年深度学习的突破和快速的实用化,让新算法和检测方式发生了质的改变,如 R-CNN,Fast-CGNN,Faster-RCNN,RetinaNet 以及 SSD 和 YOLO 等快速而高度精确的物体检测算法和方法。
不过用这些方法额需要对机器学习、深度学习、数学有着相当的理解,而现在数百万的计算机从业者还打不到这个要求。我们团队几个月前意识到这个问题,并且构建了一个 Python 库 ImageAI,他允许开发者轻松地将计算机视觉技术集成到现有或者新的应用程序中。
GitHub 地址:OlafenwaMoses/ImageAI
想要集成还需要简单的几步:
电脑上安 Python
安装 ImageAI 及其依赖
下载对象检测模型
运行代码(最少 10 行就 ok)
让我们再展开吧。
从官网下载并安装 Python 3(https://python.org)
2. 通过 pip 安装各种依赖
i. Tensorflow(pip install tensorflow)
ii. Numpy(pip install numpy)
iii. SciPy(pip install scipy)
iv. OpenCV(pip install opencv-python)
v. Pillow(pip install pillow)
vi. Matplotlib(pip install matplotlib)
vii. H5py(pip install h5py)
viii. Keras(pip install keras)
ix. ImageAI(pip install https://github.com/OlafenwaMoses/ImageAI/releases/download/2.0.1/imageai-2.0.1-py3-none-any.whl)
3.在这个链接下载 RetinaNet 模型文件
ok 你现在已经安装了各种依赖,现在可以来编写对象检测的第一行代码了。
我们先来创建一个 Python 文件并命名(如 FristDetecion.py),然后将下面代码复制其中。将 RetinaNet 模型文件和要检测的图片复制到一个文件夹呢。
FirstDetection.py
from imageai.Detection import ObjectDetection
import os
execution_path = os.getcwd()
detector = ObjectDetection()
detector.setModelTypeAsRetinaNet()
detector.setModelPath( os.path.join(execution_path , "resnet50_coco_best_v2.0.1.h5"))
detector.loadModel()
detections = detector.detectObjectsFromImage(input_image=os.path.join(execution_path , "image.jpg"), output_image_path=os.path.join(execution_path , "imagenew.jpg"))
for eachObject in detections:
print(eachObject["name"] + " : " + eachObject["percentage_probability"] )
运行代码,然后把结果打印到控制台,然后你能在文件夹内看到新的图像。
检测前:
检测后:
这张图控制台的结果:
person : 55.8402955532074
person : 53.21805477142334
person : 69.25139427185059
person : 76.41745209693909
bicycle : 80.30363917350769
person : 83.58567953109741
person : 89.06581997871399
truck : 63.10953497886658
person : 69.82483863830566
person : 77.11606621742249
bus : 98.00949096679688
truck : 84.02870297431946
car : 71.98476791381836
这张图控制台的结果:
person : 71.10445499420166
person : 59.28672552108765
person : 59.61582064628601
person : 75.86382627487183
motorcycle : 60.1050078868866
bus : 99.39600229263306
car : 74.05484318733215
person : 67.31776595115662
person : 63.53200078010559
person : 78.2265305519104
person : 62.880998849868774
person : 72.93365597724915
person : 60.01397967338562
person : 81.05944991111755
motorcycle : 50.591760873794556
motorcycle : 58.719027042388916
person : 71.69321775436401
bicycle : 91.86570048332214
motorcycle : 85.38855314254761
我们来看看这十行代码的工作原理:
from imageai.Detection import ObjectDetection
import os
execution_path = os.getcwd()
这三行中,第一行导入 ImageAI.Detection 类,第二、三行导入 Python os 类并定义一个变量保存到指定文件夹。
detector = ObjectDetection()
detector.setModelTypeAsRetinaNet()
detector.setModelPath( os.path.join(execution_path , "resnet50_coco_best_v2.0.1.h5"))
detector.loadModel()
detections = detector.detectObjectsFromImage(input_image=os.path.join(execution_path , "image.jpg"), output_image_path=os.path.join(execution_path , "imagenew.jpg"))
这五行代码,第一行定义检测类,第二行设置模型类型 RetinaNet,第三行模型路径,第四行加载模型;第五行调用检测函数并输出图像到指定路径。
for eachObject in detections:
print(eachObject["name"] + " : " + eachObject["percentage_probability"] )
这两行代码,我们输出所有的结果(名字和概率)。
ImageAI 支持非常多的对象检测自定义,提取每个对象就是其中之一。通过简单的将参数 extract_detected_objects = True 解析为 detectObjectsFromImage 函数,如下所示,就可以创建一个文件夹,提取每个对象并保存到这个文件中。
detections, extracted_images = detector.detectObjectsFromImage(input_image=os.path.join(execution_path , "image.jpg"), output_image_path=os.path.join(execution_path , "imagenew.jpg"), extract_detected_objects=True)
在第一张图中,我们得到了每一个的对象的单独的图片。
ImageAI 提供了很多有用的功能,可用于各种对象检测的自定义任务和生产部署。其中包括:
调整最小概率:默认情况下,50% 以下概率的对象不会显示。如果需要可以自行调整。
自定义对象检测:使用提供的 CustomerObject 类,可以检测一个或者几个特定对象。
检测速度:可以设定 fast、faster、fastest,缩短检测时间
输入输出类型:自定义文件路径,Numpy 数组或者图像文件流的形式输入输出