向量的相似度
考虑M个类型的模式,它们分别记作
,编号随意。假定通过已知类型属性的观测样本,业已抽取出M个样本模式向量
。给定一任意的未知模式向量
,希望判断它归属于哪一类模式。这个问题称为模式分类,它是模式识别的基本问题之一。模式分类的基本思想是将未知模式向量
同M个样本模式向量进行比对,看
与哪一个样本模式向量最相似,并据此作出模式分类的判断。假定
分别作为术知模式向量
和已知样本模式向量
之间的相似关系的符号。以
与
的相似关系为例,若
则称未知模式向量
与样本模式向量
更相似。
相似度(similarity)或相异度(dissirmilarity ):
最简单和最直观的相似度是两个向量之间的Euclidean距离。
未知模式向量
与第主个原象模式向量
之间的 Euclidean距离记作
,定义为
Mahalanobis距离
令
代表N个样本模式向量的均值向量。
再令
表示N个样本模式向量的协方差矩阵。
从未知模式向量
到均值向量
之间的Mahalanobis 距离定义为
从第主个样本模式向量
到均值向量
的 Mahalanobis 距离定义为
根据近邻分类法,将未知模式向量
归为满足
的近邻
所属的模式类型。
两个向量之间的相似度的测度不一定局限于距离函数。两个向量的夹角的余弦函数
若
,
成立,则认为未知模式向量
与样本模式向量
最相似。上式的变型
称为Tanirnoto测度。
待分类的信号称为目标信号,分类通常是根据菜种物理或几何概念进行的。令X为目标信号,
代表第i类目标的分类概念。于是,可以有这种的关系:
这类有效关系一般用目标–概念距离(object-concept distance)
描述420。因此,若日标–概念距离
最小,则将X归为第i类目标
;。