工地视频监控行为分析 YOLOv5

原创

燧机科技 2024-07-16 16:15:56 ©著作权

文章标签 YOLO 计算机视觉开发语言人工智能锚点 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者燧机科技的原创作品，请联系作者获取转载授权，否则将追究法律责任

工地视频监控行为分析对监控范围人员行为如高空作业安全带穿戴识别、安全帽佩戴识别、反光衣识别、工装着装识别等。当工地视频监控行为分析检测出人员未按要求在作业时穿戴安全带、安全帽、反光衣、工装时，系统连接当场语音广播提醒并抓拍传给后台监控留档保存。

YOLOv5是一种单阶段目标检测算法，该算法在YOLOv4的基础上添加了一些新的改进思路，使其速度与精度都得到了极大的性能提升。主要的改进思路如下所示：

输入端：在模型训练阶段，提出了一些改进思路，主要包括Mosaic数据增强、自适应锚框计算、自适应图片缩放；
基准网络：融合其它检测算法中的一些新思路，主要包括：Focus结构与CSP结构；
Neck网络：目标检测网络在BackBone与最后的Head输出层之间往往会插入一些层，Yolov5中添加了FPN+PAN结构；
Head输出层：输出层的锚框机制与YOLOv4相同，主要改进的是训练时的损失函数GIOU_Loss，以及预测框筛选的DIOU_nms。

工地视频监控行为分析 YOLOv5_人工智能

随着人们安防意识的日益增强，安防监控已经从单一的监控机器发展成视频监控系统，数量和需求也变得越来越多以及复杂多样，给监控人员增加了很大的压力。一般有近百个乃至上千个监控视频画面。长时间盯着以后，后台人员将逐渐进入生理疲惫，无法及时对视频画面中潜在的安全事件作出响应。

在YOLO系列算法中，针对不同的数据集，都需要设定特定长宽的锚点框。在网络训练阶段，模型在初始锚点框的基础上输出对应的预测框，计算其与GT框之间的差距，并执行反向更新操作，从而更新整个网络的参数，因此设定初始锚点框也是比较关键的一环。在YOLOv3和YOLOv4检测算法中，训练不同的数据集时，都是通过单独的程序运行来获得初始锚点框。

# 检测类
class Detect(nn.Module):
    stride = None  # strides computed during build
    export = False  # onnx export

    def __init__(self, nc=80, anchors=(), ch=()):  # detection layer
        super(Detect, self).__init__()
        self.nc = nc  # number of classes
        self.no = nc + 5  # number of outputs per anchor
        self.nl = len(anchors)  # number of detection layers
        self.na = len(anchors[0]) // 2  # number of anchors
        self.grid = [torch.zeros(1)] * self.nl  # init grid
        a = torch.tensor(anchors).float().view(self.nl, -1, 2)
        self.register_buffer('anchors', a)  # shape(nl,na,2)
        self.register_buffer('anchor_grid', a.clone().view(self.nl, 1, -1, 1, 1, 2))  # shape(nl,1,na,1,1,2)
        self.m = nn.ModuleList(nn.Conv2d(x, self.no * self.na, 1) for x in ch)  # output conv

    def forward(self, x):
        # x = x.copy()  # for profiling
        z = []  # inference output
        self.training |= self.export
        for i in range(self.nl):
            x[i] = self.m[i](x[i])  # conv
            bs, _, ny, nx = x[i].shape  # x(bs,255,20,20) to x(bs,3,20,20,85)
            x[i] = x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2).contiguous()

            if not self.training:  # inference
                if self.grid[i].shape[2:4] != x[i].shape[2:4]:
                    self.grid[i] = self._make_grid(nx, ny).to(x[i].device)

                y = x[i].sigmoid()
                y[..., 0:2] = (y[..., 0:2] * 2. - 0.5 + self.grid[i].to(x[i].device)) * self.stride[i]  # xy
                y[..., 2:4] = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i]  # wh
                z.append(y.view(bs, -1, self.no))

        return x if self.training else (torch.cat(z, 1), x)

    @staticmethod
    def _make_grid(nx=20, ny=20):
        yv, xv = torch.meshgrid([torch.arange(ny), torch.arange(nx)])
        return torch.stack((xv, yv), 2).view((1, 1, ny, nx, 2)).float()

工地视频监控行为分析工地周边危险行为及状况，如睡岗离岗识别、周界入侵、危险区域闯入、抽烟识别、重点区域人员徘徊、攀爬、玩手机打电话识别等。一旦发现异常，马上抓拍并警报。还能够连接现场音响进行语音提示，方便现场人员及时改正和采用援救措施，提高监管效率，减少人力成本，降低现场作业意外情况。