【交通行业】轨迹相似性度量介绍_聚类

轨迹相似性度量的介绍

数据相似性一般使用距离来度量,这些距离包括欧氏距离(Euclidean Distance),曼哈顿距离(Manhattan Distance),切比雪夫距离 ( Chebyshev Distance ),闵可夫斯基距离(Minkowski Distance),标准化欧氏距离 (Standardized Euclidean distance ),马氏距离(Mahalanobis Distance),夹角余弦(Cosine),皮尔逊相关系数(Pearson correlation),汉明距离(Hamming distance),杰卡德相似系数(Jaccard similarity coefficient),布雷柯蒂斯距离(Bray Curtis Distance)等等。

【交通行业】轨迹相似性度量介绍_css_02

轨迹相似性对于移动对象分析来说是一个重要的指标,如何度量轨迹相似性,则是中心问题。与一般数据类似的是,两个轨迹之间的相似性通常是由轨迹点之间距离的某种集合来衡量的,沿着这个方向,不同应用程序的几个典型的相似函数包括Closest-Pair Distance、Sum-of-Pairs Distance、DTW、LCSS和ERP、EDR。值得注意的是,其中一些相似性函数最初是针对时间序列数据提出的。但由于轨迹是多维空间中一类特殊的时间序列,这些相似函数同样适用于轨迹数据。

【交通行业】轨迹相似性度量介绍_css_03

(1)Closest-Pair Distance

测量两条轨迹相似度的一个简单方法是使用它们的最小距离。为了做到这一点,我们从两条轨迹中找到最近的一对点,并计算它们之间的距离。更正式地,给定两条轨迹A和B,其最近邻距离可以计算如下:

【交通行业】轨迹相似性度量介绍_聚类_04

(2)Sum-of-Pairs Distance

Agrawal等人提出了两个轨迹之间的另一个相似函数,他们简单地使用对应点对之间距离的和来度量相似度。设A,B为点数相同的两条轨迹,其距离定义如下:

【交通行业】轨迹相似性度量介绍_css_05

(3)Dynamic Time Warping Distance(DTW)

正如我们所看到的,欧几里得距离的一个明显的限制是,它要求两条轨迹长度相同,这在现实生活中是不太可能的。更理想的相似度度量应该在两条轨迹的长度上具有一定的灵活性。动态时间规整(DTW)距离是第一个基于这种动机的方法。DTW的基本思想是允许“重复”某些点,以便获得最佳对齐。

给定轨迹a = {a1,…,an},令Head(A)表示a1, Rest(A)表示{a2,…,an}。定义长度为n和m的两条轨迹A和B之间的时间弯曲距离

【交通行业】轨迹相似性度量介绍_css_06

其中d(,)可以是在点上定义的任意距离函数。

(4)Longest Common Subsequence

前两个相似函数的一个共同缺点是它们对噪声比较敏感,因为包括噪声在内的所有点都需要匹配。因此,仅仅由于一个噪声点,就可能积累一个过大的距离。为了解决这一问题,提出了用最长公共子序列(lcs)来更鲁棒地测量两条轨迹的距离。它的基本思想是允许跳过一些点,而不是重新排列它们。因此,远点将被忽略,使其对噪声具有鲁棒性。LCSS方法的优点有两个:1)有些点是不匹配的,而在欧几里得距离和DTW距离中,所有的点都必须匹配,即使它们是离群点。2) LCSS距离允许更有效的近似计算。

设A和B分别为长度为n和m的两条轨迹。鉴于整数δ和距离阈值ε,a和B之间LCSS定义如下:

【交通行业】轨迹相似性度量介绍_聚类_07

参数δ是用来控制在时间,我们能走多远为了匹配一个给定的点从一个轨道到另一个点的轨迹。ε是一个匹配的阈值来确定是否考虑到这一点。基于LCSS的概念,有作者提出了两个相似函数S1和S2( Zheng, Y., Zhang, L., Xie, X., Ma, W.Y.: Mining interesting locations and travel sequences from gps trajectories. WWW(2009))

(5)EDR Distance

虽然LCSS可以处理带有噪声的轨迹,但它是一种非常粗糙的度量方法,因为它不区分具有相似公共子序列的轨迹,而是关注于不同大小的轨迹之间的间隙。这促使我们提出了一个新的距离函数的建议,称为Edit Distance on Real Sequence。

定义:给定两个长度分别为n和m的轨迹A、B,匹配阈值ε, A和B之间的EDR距离是需要对S进行插入、删除或替换使其变成B的操作次数。

【交通行业】轨迹相似性度量介绍_css_08

与欧几里得距离、DTW和LCSS相比,EDR具有以下优点:

①在EDR中,匹配阈值通过量化一对元素到两个值(0和1)之间的距离来减少噪声的影响(LCSS也执行相同的量化)。因此,在EDR中,异常值对测量距离的影响要比在欧几里得距离和DTW中小得多。

②与LCSS不同的是,EDR会根据两个匹配子轨迹之间的间隙长度对其进行惩罚,这使得EDR比LCSS更精确。

(6)ERP Distance

【交通行业】轨迹相似性度量介绍_聚类_09

前面讨论的所有相似函数可以分为两类。第一个是欧几里得距离,它是一个度量,但不能支持局部时移。第二类包括DTW、LCSS和EDR,它们能够处理本地时移,但是非公制的。为了解决这个问题,我们提出了带实际惩罚的ERP,它代表了L1-norm和ERP的结合。

通过仔细分析DTW的距离可以看出,DTW不是度量标准的原因是,当需要添加一个gap时,它会重复前面的点。因此,点与gap之间的差值取决于前一个点。相反,ERP在两个匹配点之间使用真实的惩罚值,而在计算不匹配点的距离时使用一个恒定值。因此,ERP可以支持本地时移,并且是一种度量。

给定长度分别为n和m的轨迹A,B,一个随机点g, ERP距离定义如下:

【交通行业】轨迹相似性度量介绍_聚类_09

(7)其它

(方法来自‘一种出租车载客轨迹空间聚类方法’)

如下图所示,Tr1 和 Tr2 分别为参与距离计算的两条子轨迹。点 Pi1' 与点 Pi2' 分别是点 Pi1 和点 Pi2 在子轨迹 Tr2 上的投影点,θ 是两条子轨迹之间的夹角。

【交通行业】轨迹相似性度量介绍_聚类_11

子轨迹 Tr1 和 Tr2 之间的轨迹距离为:d(Tr1 ,Tr2)= d水平 + d垂直 + d角度 。其中水平距离、垂直距离、角度距离的定义如下:

①(水平距离) 是指 Pj1 和 Pj2 分别到点 Pi1 和 点 Pi2 在子轨迹 Tr2 上的投影点的距离的平均值。

【交通行业】轨迹相似性度量介绍_相似性度量_12

②(垂直距离) 是指点 Pi1 和点 Pi2 分别到子轨迹 Tr2 的垂直距离的平均值。

【交通行业】轨迹相似性度量介绍_css_13

③(角度距离) θ 为子轨迹 Tr1 和 Tr2 之间的夹角,|Tr | 1 为子轨迹 Tr1 的长度。当角度大于 0 小于 90° 时,角度距离为较短子轨迹长度乘以夹角的正弦值。当角度大于 90°小于 180°时,角度距离即为较长子轨迹的长度。

【交通行业】轨迹相似性度量介绍_css_14

【交通行业】轨迹相似性度量介绍_聚类

轨迹相似性度量的应用

可根据轨迹相似性进行轨迹聚类,以论文《航空器飞行轨迹相似性度量及聚类分析》为例进行介绍。

基于相似性度量的飞行轨迹聚类能够为航线优化设计、空中交通管理智能化提供技术支持。对飞行轨迹数据进行预处理之后,引入欧氏距离和余弦相似度2种度量,分别构建实际轨迹与理想轨迹、实际轨迹之间的相似性矩阵,利用谱聚类方法对终端区实测飞行轨迹进行聚类,并针对不同相似性度量的特点进行对比分析。结果表明 ,基于实际轨迹与理想轨迹相似性以及基于混合度量计算实际轨迹间相似性的聚类结果均较为理想,能够有效识别盛行交通流和异常轨迹。

当实际轨迹的整体相似性较差时,需要通过构建轨迹间的相似性矩阵实现聚类,具体相似性度量如下:

1)计算每2条轨迹间对应点的平均距离,得到平均距离矩阵DA

2)计算每2条轨迹间对应点的最大距离,得到最大距离矩阵DM

3)计算每2条轨迹由起点和终点构成向量的余弦相似度 ,得到整体余弦矩阵 Cos

4)计算每 2 条轨迹间对应向量的平均余弦 ,得到平均余弦矩阵 COS

5)根据下式计算每2条轨迹的综合性度量,得到综合性度量矩阵 Loc

【交通行业】轨迹相似性度量介绍_相似性度量_16

上式中xloc为轨迹间最大距离点所处位置 ,n 为轨迹点个数 ,则 ζ越小表示最大距离点越靠近起始点 ,即轨迹间的相似性越高 ;d1为轨迹起始点间的距离 ,dm 为最大距离,则 σ越小表示起始点距离相对于最大距离越小 ,即轨迹间的相似性越高 ;ε为基于上述 2 种方法的综合性度量 ,ζ和 σ 乘积越小 ,则 ε越接近于1,轨迹间的相似性越高 。

基于上述5种度量构建5个相似性矩阵 ,并进行归一化处理 ,使得矩阵中元素值大小对于轨迹相似性判断的尺度一致。为了分析不同相似性度量的特点 ,将相似性矩阵分配不同的权重后进行聚类 ,权重分配见表1

【交通行业】轨迹相似性度量介绍_聚类_17

将相似性矩阵依据上述不同权重进行加权平均后 ,利用谱聚类方法对飞行轨迹进行聚类。聚类结果如下:

【交通行业】轨迹相似性度量介绍_css_18

总结以上聚类结果可知,在使用独立相似性度量时 ,基于轨迹对应点的最大距离(S2)度量得到的聚类效果较好。将不同的相似性度量加权平均得到的混合度量(S6),在一定程度上提高了聚类效果,且增加了鲁棒性 ,使聚类结果更加稳定。对不同相似性度量的聚类结果对比分析见表 2 。

【交通行业】轨迹相似性度量介绍_聚类_19

【交通行业】轨迹相似性度量介绍_聚类_20

可以改进的方向:(1)相似性度量可以使用以上提到的轨迹数据专用的相似性度量(2)除了对轨迹本身进行聚类外,还可以提取轨迹的特征来表征这一条数据(3)聚类结果对比分析过于主观,可以进行量化。(个人想法如有不妥之处请见谅)

参考文献:

(1)《Computing with Spatial Trajectories》

(2)一种出租车载客轨迹空间聚类方法

链接:https://pan.baidu.com/s/1Cyp4G-GXeZ2xdvmA77PNhg

提取码:a1r0

(3)航空器飞行轨迹相似性度量及聚类分析

链接:https://pan.baidu.com/s/1PqbM4Pz4RicNXSu88qHQUQ

提取码:h6h7

【交通行业】轨迹相似性度量介绍_聚类_21