深度学习计算机视觉图像分割领域指标mIoU(平均交并比)计算代码与逐行解析

  • mIoU相关
  • mIoU计算代码与逐行解析
  • 注意事项

mIoU相关

在计算机视觉深度学习图像分割领域中,mIoU值是一个衡量图像分割精度的重要指标。mIoU可解释为平均交并比,即在每个类别上计算IoU值(即真正样本数量/(真正样本数量+假负样本数量+假正样本数量))。在本篇博客中,笔者本想详细地列举计算公式,但是看到kangdk博主的博客已经工整正确清晰简洁地解析了mIoU计算公式,因此请各位读者朋友移步链接: 论文笔记 | 基于深度学习的图像语义分割技术概述之5.1度量标准,或者选择阅读计算机视觉深度学习图像分割综述原文1。在这里,笔者也对kangdk博主表示衷心的感谢。

mIoU计算代码与逐行解析

在本篇博客中,笔者逐行解释一下mIoU的计算代码。本段mIoU代码来自于github,贡献于城市图像语义分割的迁移任务论文2的工程代码中。下面,笔者先放出对应的Python代码解析:

import numpy as np
import argparse
import json
from PIL import Image
from os.path import join

#设标签宽W,长H
def fast_hist(a, b, n):#a是转化成一维数组的标签,形状(H×W,);b是转化成一维数组的标签,形状(H×W,);n是类别数目,实数(在这里为19)
    '''
	核心代码
	'''
    k = (a >= 0) & (a < n)#k是一个一维bool数组,形状(H×W,);目的是找出标签中需要计算的类别(去掉了背景)
    return np.bincount(n * a[k].astype(int) + b[k], minlength=n ** 2).reshape(n, n)#np.bincount计算了从0到n**2-1这n**2个数中每个数出现的次数,返回值形状(n, n)


def per_class_iu(hist):#分别为每个类别(在这里是19类)计算mIoU,hist的形状(n, n)
    '''
	核心代码
	'''
    return np.diag(hist) / (hist.sum(1) + hist.sum(0) - np.diag(hist))#矩阵的对角线上的值组成的一维数组/矩阵的所有元素之和,返回值形状(n,)


def label_mapping(input, mapping):#主要是因为CityScapes标签里面原类别太多,这样做把其他类别转换成算法需要的类别(共19类)和背景(标注为255)
    output = np.copy(input)#先复制一下输入图像
    for ind in range(len(mapping)):
        output[input == mapping[ind][0]] = mapping[ind][1]#进行类别映射,最终得到的标签里面之后0-18这19个数加255(背景)
    return np.array(output, dtype=np.int64)#返回映射的标签
'''
compute_mIoU函数是以CityScapes图像分割验证集为例来计算mIoU值的
由于作者个人贡献的原因,本函数除了最主要的计算mIoU的代码之外,还完成了一些其他操作,
比如进行数据读取,因为原文是做图像分割迁移方面的工作,因此还进行了标签映射的相关工作,在这里笔者都进行注释。
大家在使用的时候,可以忽略原作者的数据读取过程,只需要注意计算mIoU的时候每张图片分割结果与标签要配对。
主要留意mIoU指标的计算核心代码即可。
'''
def compute_mIoU(gt_dir, pred_dir, devkit_dir=''):#计算mIoU的函数
    """
    Compute IoU given the predicted colorized images and 
    """
    with open(join(devkit_dir, 'info.json'), 'r') as fp: #读取info.json,里面记录了类别数目,类别名称,标签映射方式等等。
      info = json.load(fp)
    num_classes = np.int(info['classes'])#读取类别数目,这里是19类,详见博客中附加的info.json文件
    print('Num classes', num_classes)#打印一下类别数目
    name_classes = np.array(info['label'], dtype=np.str)#读取类别名称,详见博客中附加的info.json文件
    mapping = np.array(info['label2train'], dtype=np.int)#读取标签映射方式,详见博客中附加的info.json文件
    hist = np.zeros((num_classes, num_classes))#hist初始化为全零,在这里的hist的形状是[19, 19]

    image_path_list = join(devkit_dir, 'val.txt')#在这里打开记录验证集图片名称的txt
    label_path_list = join(devkit_dir, 'label.txt')#在这里打开记录验证集标签名称的txt
    gt_imgs = open(label_path_list, 'r').read().splitlines()#获得验证集标签名称列表
    gt_imgs = [join(gt_dir, x) for x in gt_imgs]#获得验证集标签路径列表,方便直接读取
    pred_imgs = open(image_path_list, 'r').read().splitlines()#获得验证集图像分割结果名称列表
    pred_imgs = [join(pred_dir, x.split('/')[-1]) for x in pred_imgs]#获得验证集图像分割结果路径列表,方便直接读取

    for ind in range(len(gt_imgs)):#读取每一个(图片-标签)对
        pred = np.array(Image.open(pred_imgs[ind]))#读取一张图像分割结果,转化成numpy数组
        label = np.array(Image.open(gt_imgs[ind]))#读取一张对应的标签,转化成numpy数组
        label = label_mapping(label, mapping)#进行标签映射(因为没有用到全部类别,因此舍弃某些类别),可忽略
        if len(label.flatten()) != len(pred.flatten()):#如果图像分割结果与标签的大小不一样,这张图片就不计算
            print('Skipping: len(gt) = {:d}, len(pred) = {:d}, {:s}, {:s}'.format(len(label.flatten()), len(pred.flatten()), gt_imgs[ind], pred_imgs[ind]))
            continue
        hist += fast_hist(label.flatten(), pred.flatten(), num_classes)#对一张图片计算19×19的hist矩阵,并累加
        if ind > 0 and ind % 10 == 0:#每计算10张就输出一下目前已计算的图片中所有类别平均的mIoU值
            print('{:d} / {:d}: {:0.2f}'.format(ind, len(gt_imgs), 100*np.mean(per_class_iu(hist))))
    
    mIoUs = per_class_iu(hist)#计算所有验证集图片的逐类别mIoU值
    for ind_class in range(num_classes):#逐类别输出一下mIoU值
        print('===>' + name_classes[ind_class] + ':\t' + str(round(mIoUs[ind_class] * 100, 2)))
    print('===> mIoU: ' + str(round(np.nanmean(mIoUs) * 100, 2)))#在所有验证集图像上求所有类别平均的mIoU值,计算时忽略NaN值
    return mIoUs


def main(args):
   compute_mIoU(args.gt_dir, args.pred_dir, args.devkit_dir)#执行计算mIoU的函数


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument('gt_dir', type=str, help='directory which stores CityScapes val gt images')#设置gt_dir参数,存放验证集分割标签的文件夹
    parser.add_argument('pred_dir', type=str, help='directory which stores CityScapes val pred images')#设置pred_dir参数,存放验证集分割结果的文件夹
    parser.add_argument('--devkit_dir', default='dataset/cityscapes_list', help='base directory of cityscapes')#设置devikit_dir文件夹,里面有记录图片与标签名称及其他信息的txt文件
    args = parser.parse_args()
    main(args)#执行主函数

在上面的代码中,可以看到原作者是将验证集的图片进行分割并输出,并将逐张图片与标签配对进行mIoU值的计算,整体计算的核心代码共两个函数(fast_hist(a, b, n),per_class_iu(hist)),合计5行代码,其余的代码均为分割结果与标签的读取或处理。由于原工程进行的是图像分割迁移方面的相关工作,在代码中还做了一些标签映射的相关工作,在其中使用到了一个info.json文件,笔者也贴出来如下所示:

{
  "classes":19,
  "label2train":[
    [0, 255],
    [1, 255],
    [2, 255],
    [3, 255],
    [4, 255],
    [5, 255],
    [6, 255],
    [7, 0],
    [8, 1],
    [9, 255],
    [10, 255],
    [11, 2],
    [12, 3],
    [13, 4],
    [14, 255],
    [15, 255],
    [16, 255],
    [17, 5],
    [18, 255],
    [19, 6],
    [20, 7],
    [21, 8],
    [22, 9],
    [23, 10],
    [24, 11],
    [25, 12],
    [26, 13],
    [27, 14],
    [28, 15],
    [29, 255],
    [30, 255],
    [31, 16],
    [32, 17],
    [33, 18],
    [-1, 255]],
  "label":[
    "road",
    "sidewalk",
    "building",
    "wall",
    "fence",
    "pole",
    "light",
    "sign",
    "vegetation",
    "terrain",
    "sky",
    "person",
    "rider",
    "car",
    "truck",
    "bus",
    "train",
    "motocycle",
    "bicycle"],
  "palette":[
    [128,64,128],
    [244,35,232],
    [70,70,70],
    [102,102,156],
    [190,153,153],
    [153,153,153],
    [250,170,30],
    [220,220,0],
    [107,142,35],
    [152,251,152],
    [70,130,180],
    [220,20,60],
    [255,0,0],
    [0,0,142],
    [0,0,70],
    [0,60,100],
    [0,80,100],
    [0,0,230],
    [119,11,32],
    [0,0,0]],
  "mean":[
    73.158359210711552,
    82.908917542625858,
    72.392398761941593],
  "std":[
    47.675755341814678,
    48.494214368814916,
    47.736546325441594]
}

由于原作者是在CityScapes数据集上进行测试,仅使用了19类数据(而没有使用原有的34类),因此使用到了info.json中的label2train,并进行了一些诸如类名读取的其他操作,各位读者可以不用太在意。

在计算mIoU时,对于一张图像分割结果,输入仅仅需要1. flatten的(一维的)图像分割结果,2. flatten(一维的)图像分割标签,3. 类别数。fast_hist函数首先返回一个形状为 [类别数, 类别数] 的矩阵;然后per_class_iu函数再返回一个长度为类别数的向量,记录了该张图像每个类别的mIoU指标。如核心代码所示,mIoU计算主要使用到了numpy中的bincount函数与diag函数进行了巧妙计算。其中,包含np.bincount函数的fast_hist函数主要将分割结果与标签进行结合,输出就已经包含了分割结果中各类别的分类准确程度;而包含np.diag函数的per_class_iu函数主要进行最终mIoU结果的计算,具体请详见代码注释。

注意事项

  1. 对于计算mIoU的代码,只有5行核心代码,其余代码主要有关原作者工程中的的数据与标签处理。
  2. 在读者朋友们计算mIoU指标时,可以随意更改数据读取接口,能完成相应计算功能即可。

欢迎阅读笔者后续博客,各位读者朋友的支持与鼓励是我最大的动力

written by jiong 自天佑之,吉无不利


  1. A Review on Deep Learning Techniques Applied to Semantic Segmentation ↩︎
  2. Learning to Adapt Structured Output Space for Semantic Segmentation ↩︎