yolov7实例分割导出onnx yolov2输出

转载

mob64ca140a8e67 2024-03-06 16:15:30

文章标签 yolov7实例分割导出onnx ide 数据数位 文章分类 计算机视觉人工智能

v2版本，文中使用的参数和数值为代码中默认值并以voc数据集为例来说明的。

一．输入数据处理

jitter类似的手段：产生一个指定范围的随机数，调整输入图像作为传播使用的数据。

truth的使用上相对v1发生了变化，一张图片最大能容纳30个目标（这30个目标是预定的，可以修改），超过30个的目标舍去，每个目标以(x,y,w,h,id)为顺序存储。每张图片对应的输出outpunum为5*30 = 150个。

二．新增层的处理

route layer

copy过来，再做为输出使用，指定的层由layers参数确定，将不同大小的特征图连接到一块。其实这个操作在caffe里都不能算一层，只需要指针指向一下就可以了。这里主要说下copy的顺序，Layers参数可以有多个，即将多个层的数据拷贝过来做为输出。将每个batch中的各个层数据一次copy到output，即拷贝后的结果为：

L1 L2…Ln, L1 L2…Ln, …, L1 L2…Ln

batch1, batch2, … batchm

reorg layer

route layer之后，它是否需要存在要看上面一层特征的大小是否需要变化，在voc的例子中，由于需要将26层的26*26*512的特征图转化成13*13*2048，使用stride为2的reorg layer。

512个通道分成了4部分,分别遍历了所有数据，结合reorg_cpu的代码来看

1部分(0-127),横向从0开始取偶数位w=26个,纵向间隔stride*w*stride(4行),则通道间隔为h*stride*w*stride(从这里可以看出通道变化范围必须为原来的1/4)

2部分(128-255),横向从1开始取奇数位w=26个,之后同上(c2与上一样但offset变化为从1开始,而h2起始值没变)

3部分(256-383),横向从52开始取偶数位w=26个(h2起始位1,则out_index起始位52,之后与1部分相同)

4部分(384-511)横向从53开始取奇数位w=26个(h2起始为1,w2起始为1,则out_index起始为53,后续规律相同)

4行的1/4,恰好取完.

三．检测层的处理

v1那样使用全连接的方法，而是使用1*1的卷积生成125个通道，输出尺寸为w*h*c = 13*13*125，即将每张图片划分为13*13个网格，每个网格预测5个目标，每个目标包含三个部分，依次为：目标位置4个点、包含目标置信度1个点、目标类别置信度20个点，总共25个点。为了更加方便的以偏移取数据，使用flatten方法将最后的网络输出做转置处理，这样网络变成了125*13*13，每次取数据都可以按各个网络的5个预测目标依次处理。也可以将flatten理解成将输出的三维矩阵压扁成125*169的二维矩阵，对之后的取数据来讲，是等效的。

flatten，按顺序取数据（目标位置、置信度、坐标）为13行的每一行的列中分别取出，不符合上面的要求，转置后，变成了13*13的每个位置上取5组可能的预测信息。

logistic激活，是为了将输出压缩到0-1之间，用于后续计算误差（有无目标）。

softmax方法处理。然后就是计算回归的位置误差敏感项，根据误差求导生成。

v2版本的时候遇到的一个多gpu下训练不收敛的问题，或者出现nan，或者训练的时候收敛，但是是否有目标的置信度逐渐减小，直至为0，这样预测的目标置信度就都是0了。我是用的是tiny-yolo.cfg的配置，经过排查和各种尝试，发现刚开始训练时学习速率太大，在steps为-1,100,80000,100000的分段调整速率的划分中，使用小速率多学习一段时间，即可解决这个问题，比如改为-1,1000,80000,100000.分享出来，避免大家遇到相同的问题而纠结很久。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。