ResNet 人像识别人像识别验证

转载

mob6454cc6a68aa 2024-04-17 17:25:43

文章标签 ResNet 人像识别计算机视觉深度学习人脸识别数据库 文章分类 架构后端开发

0. 前言

首先明确几个概念：

人脸检测：是指图片中是否存在人脸，若存在则返回人脸在图中的位置坐标
人脸验证：验证即验证是否为某人，比如FaceID解锁，手机不需要得出你是谁的结论，只需要验证你是否和手机预存录入的人脸是同一个人。同样使用身份证近火车站，身份验证时是完成你的脸和身份证上的脸是否为同一人。
人脸识别：人脸识别则是要得出你是谁。比如上班人脸打卡机，需要预先将你和你同事的人脸录入进数据库储存，上班时打卡机会将你的脸和数据库中的人脸数据对比，得出你是谁

综上，人脸验证时验证你是否是预先定义的人，而人脸识别是识别你是谁。

其次，关于人脸识别的技术，随着深度学习的到来，曾经的手工制作特征已经退居二线，所以当前更多关注深度学习来实现人脸识别。

1. 原理初识

人脸识别系统的工作流程

ResNet 人像识别人像识别验证_数据库

Transform：人脸对齐，需要将人脸眼睛位置标准化(大家按同样标准站好，才好对比)
Crop：无疑，只保存人脸部分。
Deep Neural Network：深度神经网络，个人理解是提取图片特征，再以特征为依据拼接出128维向量来表示图片

1.1 个人对维度的理解

在2维坐标系中，每一个数据用2个数字表示；3维坐标系中，每一个数据用3个数字表示。同时在这些坐标中，类似的数据在坐标中的位置是比较靠近的。

以二维坐标为例，以下图片展示对于具有离心率和颜色两个特征的椭圆在二维坐标中的分布：

ResNet 人像识别人像识别验证_人脸识别_02

在该坐标系中，每个数据有两个数字(即两个特征)表示，他们根据各自特征散布在坐标系中。

事实上人脸识别输出的128维向量(也即128个数字)代表着每一个人脸数据拥有128个特征，根据这128个特征散布在128维坐标系中。

1.2 如何进行人脸的对比？

从上面的二维坐标系中可以看出，对于相似的两个椭圆(比如形状和颜色相似)通常是邻近的，也即是邻近的椭圆通常是比较相似的。如果我们要识别一个新椭圆，只需要知道新椭圆距离谁最近，就大致能猜出该椭圆的性质和颜色了。

同理，在人脸坐标系中，相似的人脸应该是邻近的，不相似的人脸应该是远离的。对于待检测的人脸，只需要知道在128维坐标系中距离哪个人脸近，就能够大致判断待检测的人脸是谁的人脸了。

ResNet 人像识别人像识别验证_ResNet 人像识别_03

1.3 那么如何度量两者之间的距离？

在坐标系中度量两者间的距离，最简单直接的就是欧几里得距离：

ResNet 人像识别人像识别验证_人脸识别_04

这个公式就是中学学的两点之间的距离公式，只不过在人脸坐标系中，扩展到i扩展到128。如果得到了待识别的人脸F，则计算F和数据库中所有人脸的距离，得到待识别人脸和数据库中所有人脸的距离，找到距离最小的，也就找到了待检测人脸的用户信息。为了保证精度，我们一般会给这个最小距离设置阈值，只有当阈值低于某个值(也即两个人脸很近很近时，才认为时同一个人，否则就认为数据库中未找到)，才认为两张脸来自同一个人