1. github地址: https://github.com/matterport/Mask_RCNN,下载到本地:
git clone https://github.com/matterport/Mask_RCNN
2. 下载coco图像库并解压,并放置在coco文件夹下。coco数据库的下载地址为 http://cocodataset.org/#download,COCO是一个大型的对象检测、分割和字幕解析数据集,其论文地址为 https://arxiv.org/abs/1405.0312 。该数据集比较大且下载速度比较慢,为了方便可以在我的微云中下载该数据集:https://share.weiyun.com/5wnXQOn-g。
3、以coco2014的数据为例来完成系统的搭建,有5个快速入门的文件:
- demo.ipynb:(Mask_RCNN\samples\)
是开始学习最简单的方式,它展示了一个使用预先在MS COCO上训练的模型在指定的图像中分割对象的例子,包括了在任意图像上运行对象检测和实例分割的代码。
- train_shapes.ipynb :(Mask_RCNN\samples\shapes\)
演示如何在自己的数据集上训MASK R-CNN,这部分代码通过一个玩具数据集(形状)来演示如何在一个新数据集上的训练。
这些文件包含了MASK RCNN整个框架的主要代码。
- inspect_data.ipynb(Mask_RCNN\samples\coco\)
展示了准备训练数据的不同预处理步骤。
- inspect_model.ipynb(Mask_RCNN\samples\coco\)
深入地介绍了检测和分割对象的步骤,它提供了管道(pipeline)的每个步骤的可视化。
- inspect_weights.ipynb (Mask_RCNN\samples\coco\)
检查一个训练过的模型的重量,寻找异常和奇怪的模式。
下面依次搭建以上代码的运行环境:
1)demo.py
在运行之前,必须保证有训练好的模型加载文件,若没有会自动下载,但速度比较慢。其默认的模型文件为‘Mask_RCNN\ mask_rcnn_coco.h5’,即文件名为mask_rcnn_coco.h5,放在源代码根目录 Mask_RCNN\下,可以在我的微云直接下载该文件并放置在 Mask_RCNN\文件夹下,执行demo.py可以看到首先会打印模型相关的配置信息,随后会随机处理images文件夹下的一个图像文件,打印文件信息:
Configurations:
BACKBONE resnet101
BACKBONE_STRIDES [4, 8, 16, 32, 64]
BATCH_SIZE 1
BBOX_STD_DEV [0.1 0.1 0.2 0.2]
COMPUTE_BACKBONE_SHAPE None
DETECTION_MAX_INSTANCES 100
DETECTION_MIN_CONFIDENCE 0.7
DETECTION_NMS_THRESHOLD 0.3
FPN_CLASSIF_FC_LAYERS_SIZE 1024
GPU_COUNT 1
GRADIENT_CLIP_NORM 5.0
IMAGES_PER_GPU 1
IMAGE_CHANNEL_COUNT 3
IMAGE_MAX_DIM 1024
IMAGE_META_SIZE 93
IMAGE_MIN_DIM 800
IMAGE_MIN_SCALE 0
IMAGE_RESIZE_MODE square
IMAGE_SHAPE [1024 1024 3]
LEARNING_MOMENTUM 0.9
LEARNING_RATE 0.001
LOSS_WEIGHTS {'rpn_class_loss': 1.0, 'rpn_bbox_loss': 1.0, 'mrcnn_class_loss': 1.0, 'mrcnn_bbox_loss': 1.0, 'mrcnn_mask_loss': 1.0}
MASK_POOL_SIZE 14
MASK_SHAPE [28, 28]
MAX_GT_INSTANCES 100
MEAN_PIXEL [123.7 116.8 103.9]
MINI_MASK_SHAPE (56, 56)
NAME coco
NUM_CLASSES 81
POOL_SIZE 7
POST_NMS_ROIS_INFERENCE 1000
POST_NMS_ROIS_TRAINING 2000
PRE_NMS_LIMIT 6000
ROI_POSITIVE_RATIO 0.33
RPN_ANCHOR_RATIOS [0.5, 1, 2]
RPN_ANCHOR_SCALES (32, 64, 128, 256, 512)
RPN_ANCHOR_STRIDE 1
RPN_BBOX_STD_DEV [0.1 0.1 0.2 0.2]
RPN_NMS_THRESHOLD 0.7
RPN_TRAIN_ANCHORS_PER_IMAGE 256
STEPS_PER_EPOCH 1000
TOP_DOWN_PYRAMID_SIZE 256
TRAIN_BN False
TRAIN_ROIS_PER_IMAGE 200
USE_MINI_MASK True
USE_RPN_ROIS True
VALIDATION_STEPS 50
WEIGHT_DECAY 0.0001
Processing 1 images
image shape: (375, 500, 3) min: 0.00000 max: 255.00000 uint8
molded_images shape: (1, 1024, 1024, 3) min: -123.70000 max: 150.10000 float64
image_metas shape: (1, 93) min: 0.00000 max: 1024.00000 float64
anchors shape: (1, 261888, 4) min: -0.35390 max: 1.29134 float32
最后显示分割的结果:
2)train_shapes.py
直接运行,就会进行训练,这个不需要添加配置文件,该段代码不需要训练库文件,首先自动生成一些圆形或者方形的图像,然后拿来训练,最后训练好之后会自行进行检测,最终输出检测结果:
虽然很简单,但展示了整个模型训练、检测的过程。
首先下载annotations_trainval2014.zip和train2014.zip,同样可以在我的微云下载,将其解压到samples/coco文件夹下,将55行COCO_DIR改为COCO_DIR = "./" ,即COCO图像库根目录所在位置。执行该程序会随机从samples\coco\train2014选取一些文件演示整个训练文件不同预处理步骤,并以可视化的方式显示出来。
下载val2014.zip并解压到smaples/coco文件夹下,下载instances_minival2014.json.zip,解压,instances_minival2014.json放入annotations文件夹,61行改为COCO_DIR = "./"。执行程序,会随机从samples\coco\test2014选去一些文件演示检测分割的步骤,并以可视化方式显示出来。