一、背景知识
(1)从main入手的对原人脸检测历程进行了参考以及开进, vector<string> names;定义的矢量string组,它和直接定义的数组相比,可以对矢量的长度单元进行相应的增加和减少。因而它是更利于存储一些未知的组数据的。
(2) _finddata_t file;这个变量的定义用来存储文件的各种信息,便于之后的文件的查找应用,在之后的识别过程中会用到。
那么到底如何查找文件呢?我们需要一个结构体和几个大家可能不太熟悉的函数。这些函数和结构体在<io.h>的头文件中,结构体为struct _finddata_t ,函数为_findfirst、_findnext和_fineclose。具体如何使用,我会慢慢讲来~
首先讲这个结构体吧~struct _finddata_t ,这个结构体是用来存储文件各种信息的。说实话,这个结构体的具体定义代码,我没有找到,不过还好,文档里面在_find里有比较详细的成员变量介绍。我基本上就把文档翻译过来讲吧:
unsignedatrrib:文件属性的存储位置。它存储一个unsigned单元,用于表示文件的属性。文件属性是用位表示的,主要有以下一些:_A_ARCH(存档)、_A_HIDDEN(隐藏)、_A_NORMAL(正常)、_A_RDONLY(只读)、_A_SUBDIR(文件夹)、_A_SYSTEM(系统)。这些都是在<io.h>中定义的宏,可以直接使用,而本身的意义其实是一个无符号整型(只不过这个整型应该是2的几次幂,从而保证只有一位为1,而其他位为0)。既然是位表示,那么当一个文件有多个属性时,它往往是通过位或的方式,来得到几个属性的综合。例如只读+隐藏+系统属性,应该为:_A_HIDDEN | _A_RDONLY | _A_SYSTEM 。
time_ttime_create:这里的time_t是一个变量类型(长整型?相当于long int?),用来存储时间的,我们暂时不用理它,只要知道,这个time_create变量是用来存储文件创建时间的就可以了。
time_ttime_access:文件最后一次被访问的时间。
time_ttime_write:文件最后一次被修改的时间。
_fsize_tsize:文件的大小。这里的_fsize_t应该可以相当于unsigned整型,表示文件的字节数。
charname[_MAX_FNAME]:文件的文件名。这里的_MAX_FNAME是一个常量宏,它在<stdlib.h>头文件中被定义,表示的是文件名的最大长度。
以此,我们可以推测出,struct_finddata_t ,大概的定义如下:
struct_finddata_t
{
unsigned attrib;
time_ttime_create;
time_ttime_access;
time_ttime_write;
_fsize_t size;
charname[_MAX_FNAME];
};
前面也说了,这个结构体是用来存储文件信息的,那么如何把一个硬盘文件的文件信息“存到”这个结构体所表示的内存空间里去呢?这就要靠_findfirst、_findnext和_fineclose三个函数的搭配使用了。
首先还是对这三个函数一一介绍一番吧……
long_findfirst( char *filespec, struct _finddata_t *fileinfo );
返回值:如果查找成功的话,将返回一个long型的唯一的查找用的句柄(就是一个唯一编号)。这个句柄将在_findnext函数中被使用。若失败,则返回-1。
参数:
filespec:标明文件的字符串,可支持通配符。比如:*.c,则表示当前文件夹下的所有后缀为C的文件。
fileinfo:这里就是用来存放文件信息的结构体的指针。这个结构体必须在调用此函数前声明,不过不用初始化,只要分配了内存空间就可以了。函数成功后,函数会把找到的文件的信息放入这个结构体中。
int_findnext( long handle, struct _finddata_t *fileinfo );
返回值:若成功返回0,否则返回-1。
参数:
handle:即由_findfirst函数返回回来的句柄。
fileinfo:文件信息结构体的指针。找到文件后,函数将该文件信息放入此结构体中。
int_findclose( long handle );
返回值:成功返回0,失败返回-1。
参数:
handle:_findfirst函数返回回来的句柄。
大家看到这里,估计都能猜到个大概了吧?先用_findfirst查找第一个文件,若成功则用返回的句柄调用_findnext函数查找其他的文件,当查找完毕后用,用_findclose函数结束查找。恩,对,这就是正确思路。下面我们就按照这样的思路来编写一个查找C:\WINDOWS文件夹下的所有exe可执行文件的程序。
#include<stdio.h>
#include <io.h>
constchar*to_search="C:\\WINDOWS\\*.exe"; //欲查找的文件,支持通配符
intmain()
{
longhandle; //用于查找的句柄
struct_finddata_tfileinfo; //文件信息的结构体
handle=_findfirst(to_search,&fileinfo); //第一次查找
if(-1==handle)return -1;
printf("%s\n",fileinfo.name); //打印出找到的文件的文件名
while(!_findnext(handle,&fileinfo)) //循环查找其他符合的文件,知道找不到其他的为止
{
printf("%s\n",fileinfo.name);
}
_findclose(handle); //别忘了关闭句柄
system("pause");
return0;
}
当然,这个文件的查找是在指定的路径中进行,如何遍历硬盘,在整个硬盘中查找文件呢?大家可以在网络上搜索文件递归遍历等方法,这里不再做进一步介绍。
细心的朋友可能会注意到我在程序的末尾用了一个system函数。这个与程序本身并没有影响,和以前介绍给大家的使用getchar()函数的作用相同,只是为了暂停一下,让我们能看到命令提示符上输出的结果而已。不过system函数本身是一个非常强大的函数。大家可以查查MSDN看看~简单来说,它是一个C语言与操作系统的相互平台,可以在程序里通过这个函数,向操作系统传递command命令
*******
我在代码中定义
vector<string> names;
_finddata_t file;
long lf;
if((lf = _findfirst("images\\*.*", &file))==-1l)
{
cout<<"没有图片"<<endl;
getch();
return 0;
}
else
{
while( _findnext( lf, &file ) == 0 ) //当查找成功时
{
if(file.attrib == _A_NORMAL); //现有图片的存储的属性
else if(file.attrib == _A_RDONLY);
else if(file.attrib == _A_HIDDEN );
else if(file.attrib == _A_SYSTEM );
else if(file.attrib == _A_SUBDIR);
else
{
string str1 = "images\\";
string str2 = file.name;
names.push_back(str1+str2); //文件名的定义
}
}
}
_findclose(lf);
在查找过程中 _findfirst("images\\*.*", &file))获取images文件夹下的文件信息,并且
&file 获取问价夹下的所有文件的结构体指针,并且供后序的使用 _findnext( lf, &file ) ,查找邻接的下一个具体的文件信息,之后将文件的名字都传给了names矢量组。当检索完毕,退出此检索过程。
(3) size_t scaleOptLen = scaleOpt.length(); //typedef unsigned __int64 size_t; 即size_t stand for the unsigned int
size_t表示的是unsigned int
(4)级联分类器
来自:
OpenCV支持的目标检测的方法是利用样本的Haar特征进行的分类器训练,得到的级联boosted分类器(Cascade Classification)。注意,新版本的C++接口除了Haar特征以外也可以使用LBP特征。
FeatureEvaluator,功能包括读操作read、复制clone、获得特征类型getFeatureType,分配图片分配窗口的操作setImage、setWindow,计算有序特征calcOrd,计算绝对特征calcCat,创建分类器特征的结构create函数。级联分类器类CascadeClassifier。目标级联矩形的分组函数groupRectangles。
目前提供的分类器包括Haar分类器和LBP分类器(LBP分类器数据较少))具体步骤如下:
这里再补充一点:后来我又进行了一些实验,对正面人脸分类器进行了实验,总共有4个,alt、alt2、alt_tree、default。对比下来发现alt和alt2的效果比较好,alt_tree耗时较长,default是一个轻量级的,经常出现误检测。所以还是推荐大家使用haarcascade_frontalface_atl.xml和haarcascade_frontalface_atl2.xml。
(5)跟踪用的
CamShift算法
详细参见本博文:
简介
CamShift算法,即"Continuously Apative Mean-Shift"算法,是一种运动跟踪算法。它主要通过视频图像中运动物体的颜色信息来达到跟踪的目的。我把这个算法分解成三个部分,便于理解:
Back Projection计算。
Mean Shift算法
CamShift算法
1) 、Back Projection计算
计算Back Projection的步骤是这样的:
1~. 计算被跟踪目标的色彩直方图。在各种色彩空间中,只有HSI空间(或与HSI类似的色彩空间)中的H分量可以表示颜色信息。所以在具体的计算过程中,首先将其他的色彩空间的值转化到HSI空间,然后会其中的H分量做1D直方图计算。
2.~ 根据获得的色彩直方图将原始图像转化成色彩概率分布图像,这个过程就被称作"Back Projection"。
在OpenCV中的直方图函数中,包含Back Projection的函数,函数原型是:
void cvCalcBackProject(IplImage** img, CvArr** backproject, const CvHistogram* hist);
传递给这个函数的参数有三个:
1_. IplImage** img:存放原始图像,输入。
2_. CvArr** backproject:存放Back Projection结果,输出。
3_. CvHistogram* hist:存放直方图,输入
实现:
1.准备一张只包含被跟踪目标的图片,将色彩空间转化到HSI空间,获得其中的H分量
2.计算H分量的直方图,即1D直方图
3.计算Back Projection:
2) Mean Shift算法
这里来到了CamShift算法,OpenCV实现的第二部分,这一次重点讨论Mean Shift算法。
在讨论Mean Shift算法之前,首先讨论在2D概率分布图像中,如何计算某个区域的重心(Mass Center)的问题
讨论Mean Shift算法的具体步骤,Mean Shift算法可以分为以下4步:
1~.选择窗的大小和初始位置.
2~.计算此时窗口内的Mass Center.
3~.调整窗口的中心到Mass Center.
4~.重复2和3,直到窗口中心"会聚",即每次窗口移动的距离小于一定的阈值。
3) CamShift算法
1.原理
在了解了MeanShift算法以后,我们将MeanShift算法扩展到连续图像序列(一般都是指视频图像序列),这样就形成了CamShift算法。CamShift算法的全称是"Continuously Apaptive Mean-SHIFT",它的基本思想是视频图像的所有帧作MeanShift运算,并将上一帧的结果(即Search Window的中心和大小)作为下一帧MeanShift算法的Search Window的初始值,如此迭代下去,就可以实现对目标的跟踪。整个算法的具体步骤分5步:
Step 1:将整个图像设为搜寻区域。
Step 2:初始话Search Window的大小和位置。
Step 3:计算Search Window内的彩色概率分布,此区域的大小比Search Window要稍微大一点。
Step 4:运行MeanShift。获得Search Window新的位置和大小。
Step 5:在下一帧视频图像中,用Step 3获得的值初始化Search Window的位置和大小。跳转到Step 3继续运行。
(6)相关系数的应用
用来进行识别的!!!
二、算法实现过程详解
(1)首先先建立一个images文件夹,在其中放置一些头像的照片。之后我们在程序中用 _finddata_t file;对文件名进行了加载,为后续的识别过程做好前提。同时建立一个矢量的图像存储单元vector<IplImage*> faces;为后来的识别对比做好准备。
(2)建立了一个级联分类器变量对 CascadeClassifier cascade, nestedCascade; 利用进行人脸的检测以及人眼的检测
String cascadeName =
"haarcascades/haarcascade_frontalface_alt.xml"; //使用的预先训练好的检测器人前脸检测
String nestedCascadeName =
"haarcascades/haarcascade_eye_tree_eyeglasses.xml"; //预先训练好的眼睛和眼睛框检测
(3)进入处理过程
在image还是新的图像时,我们进行一些列的初始化。并且对图像进行直方图的提取,其中hdims表示提取后的所保留的几个阶段,而hranges是所有的值得缩放比例
if( !image ) //如果此时的image 还是新的图时
{
image = cvCreateImage( cvGetSize(frame), 8, 3 );
image->origin = frame->origin;
hsv = cvCreateImage( cvGetSize(frame), 8, 3 );
hue = cvCreateImage( cvGetSize(frame), 8, 1 );
mask = cvCreateImage( cvGetSize(frame), 8, 1 );
backproject = cvCreateImage( cvGetSize(frame), 8, 1 );
hist = cvCreateHist( 1, &hdims, CV_HIST_ARRAY, &hranges, 1 ); //float hranges_arr[] = {0,180}; float* hranges = hranges_arr; //int hdims = 16;
//构建直方图
histimg = cvCreateImage( cvSize(320,200), 8, 3 ); //后序的直方图的显示表示图
cvZero( histimg );
}
(4)因为开始的时候track_object定义为0,所以我们首先进入的是else部分。我们利用Haar检测器,进行检测,
CvRect result; //可将其转化为感兴趣的区域,即人脸区域的方框
result = detectAndDraw( frameCopy, cascade, nestedCascade, scale ); //frameCopy IMAGE TO MAT //cascade and nestedCascade are CascadeClassifier // double scale = 1;
detectAndDraw代码的注释已经很详细就不多解释了:
CvRect detectAndDraw( Mat& img,
CascadeClassifier& cascade, CascadeClassifier& nestedCascade,
double scale)
{
int i = 0;
double t = 0; //用来记录检测出人脸所用的时间
vector<Rect> faces; //存储检测到的人脸所在矩形区域
CvRect result;
result.x = 0;
result.y = 0;
result.width = 0;
result.height = 0;
const static Scalar colors[] = { CV_RGB(0,0,255),
CV_RGB(0,128,255),
CV_RGB(0,255,255),
CV_RGB(0,255,0),
CV_RGB(255,128,0),
CV_RGB(255,255,0),
CV_RGB(255,0,0),
CV_RGB(255,0,255)} ; //画圆圈的颜色
//define two mat
Mat gray, smallImg( cvRound (img.rows/scale), cvRound(img.cols/scale), CV_8UC1 ); //图形矩阵进行缩放
cvtColor( img, gray, CV_BGR2GRAY );
resize( gray, smallImg, smallImg.size(), 0, 0, INTER_LINEAR ); //INTER_LINEAR - 双线性插值 (缺省使用)
equalizeHist( smallImg, smallImg ); //直方图均衡化
//cvShowImage("eg", imgBuf);
t = (double)cvGetTickCount(); //欲测量的算法耗时
cascade.detectMultiScale( smallImg, faces, //faces 得到被检测物体的矩形框向量组
1.1, 2, 0 //为每一个图像尺度中的尺度参数,默认值为1.1 //为每一个级联矩形应该保留的邻近个数
|CV_HAAR_SCALE_IMAGE //转换后的区域寻找人脸
,
Size(30, 30) ); //.minSize和maxSize用来限制得到的目标区域的范围
for( vector<Rect>::const_iterator r = faces.begin(); r != faces.end(); r++, i++ )
{
//每一个检测到的区域进行检测
Mat smallImgROI; //另一个小的感兴趣的位置
vector<Rect> nestedObjects;
Point center; //中心点
Scalar color = colors[i%8];
int radius;
center.x = cvRound((r->x + r->width*0.5)*scale); // double scale = 1; 未进行变换
center.y = cvRound((r->y + r->height*0.5)*scale); //分别检测到的中心处的坐标
radius = cvRound((r->width + r->height)*0.25*scale); //圆的半径
result.x = center.x-radius; //其实就是我们要的那个中心为center,半径为radius的框
result.y = center.y-radius;
result.width = 2*radius;
result.height = 2*radius;
//ellipse( img, center, Size((int)(faces[i].width*0.5), (int)(faces[i].height*0.5)), 0, 0, 360, cvScalar(255, 0, 255), 2, 8, 0);
return result;
}
return result;
}
selection.x = MAX(result.x,0);
selection.y = MAX(result.y,0);
selection.width = MIN(result.width,image->width-result.x); //即从提取的图片中的左上角开始,一直到整幅图像的右下角
selection.height = MIN(result.height,image->height-result.y);
cvSetImageROI(image,selection); //在图像选定感兴趣的区域
face = cvCreateImage( cvGetSize(image), 8, 3 );
face->origin = image->origin;
cvCopy(image,face); //现在的face即为那个左上到全部右下
cvResetImageROI(image);
并且我们对选定的范围进行了减小,这样为后序的人眼检测提供方便:
int w = selection.width/3;
int h = selection.height/3;
selection.x = selection.x+selection.width/2-w/2;
selection.y = selection.y+selection.height/2-h/2;
selection.width = w; //即为此处的做顶点向前和向上推进了1/3
selection.height = h;
cascade.load( nestedCascadeName ); //寻找人眼
result = detectAndDraw( frameCopy, cascade, nestedCascade, scale );
cascade.load( cascadeName );
//此时result为人眼的区域
if(!(result.x==0 && result.y==0 && result.width==0 && result.height==0))
{
selection.x = MAX(result.x,0);
selection.y = MAX(result.y,0);
selection.width = MIN(result.width,image->width-result.x);
selection.height = MIN(result.height,image->height-result.y);
}
lose = 0;
track_object=-1;