Traffic forecast

Abstract

对现实世界交通的模拟可以用来帮助验证交通政策,但是检测出的真实世界的轨迹是稀疏的,这就使得我们的模拟变得非常的困难。那么需要我们去解决的一大问题就是根据现有的稀疏轨迹,去尽可能准确的模拟还原真实轨迹。因为现实世界大量的需求,轨迹预测成为当前一个比较前沿的课题。本文从选题的价值和意义,当前研究是如何做的,当前方法的主要问题,如何解决这些问题,解决方案的主要亮点等几个方面进行展开。

精确且及时的位置预测可以为车联网用户提供更好的服务,同时也可以预测道路车辆流量,甚至在某些情况下可以检测到一些潜在的危险.在通常情况下,车辆位置的预测主要基于对历史车辆轨迹的信息挖掘.由于不是每个交通路口都存在检测设备,这就导致我们可获取的车辆轨迹信息存在稀疏性,给预测带来了困难.在以往的位置预测方法中,通常仅仅选取相似度最高的一条历史路径来进行预测.

Background

随着车载和手持G P S设备的普及,G P S轨迹数据( 如浮动车数据(floating card ata,FCD) 等)已成为交通状态模拟分析的重要数据源之一.由于采集高频轨迹数据通信成本高, 因此,60%以上的GPS轨迹数据均属于低频采样[1].但低频轨迹数据在采样间隔内可能会经过多条道路和交叉口, 增加了车辆行驶路线的不确定性, 致使轨迹数据无法准确地反映出车辆在路网中真实的行驶轨迹和状态, 降低了数据应用价值.因此, 如何根据低频采样G P S轨迹数据获取车辆真实行驶路线已成为国内外学者研究的重点内容之一[2-15]。文献[2] 设计了基于DGS证据理论的导航数据地图匹配方法.文献[4,7] 在顾及轨迹曲线和路网相似性等因素的基础上研究了高频轨迹数据的匹配方法.文献[6] 设计了基于曲率积分约束的浮动车匹配算法.文献[16] 在考虑路网几何拓扑结构和时间、速度限制等因素的基础上, 构造了STGMatching轨迹数据匹配算法.文献[17] 在STGMatching算 法 的 基 础 上, 设 计 了 基 于 邻 近G P S轨迹点相关性的最佳路径选择算法.文献[18] 采用条件随机场方法结合上下文信息进行低频轨迹数据的匹配.文献[5,19] 将低频GPS轨迹点数据作为输入端, 将待匹配路段作为隐马尔科夫模型(h i d d e n Markov model,HMM) 的表现端, 设计了基于HMM的低频轨迹匹配算法.为避免HMM模型的“ 标注偏移” 问题, 文献[20] 采用条件随机场(conditionrandomfields,CRFs) 实现了手机GPS定位数据与地图的匹配.但上述算法均未使用历史轨迹数据, 导致GPS轨迹与道路网匹配的准确率不高.文献[3] 基于武汉出租车数据构建了历史轨迹经验库, 设计了轨迹数据的匹配算法.文献[1,21] 基于出租车群体的历史轨迹数据和概率推断模型, 构建基于历史经验的出行系统(h i s t o r yb a s e dr o u t e i n f e r e n c es y s t e m,H I R S) , 轨迹匹配准确率和运算效率都得到了提升, 但H I R S算法的求解效率不高.为此,我们目前计划构建基于强化学习和马尔科夫决策过程的低频轨迹匹配算法, 以提高匹配的准确率和求解效率.

Related works

I 当前研究思路

  • 构建历史经验库
    历史轨迹是构建马尔科夫决策过程回报函数的重要基础.因此, 如何利用原始高频采样轨迹数据构建历史轨迹经验库则是首先需要完成的任务.轨迹数据中的每条GPS日志均记录了一辆车在较长时间段内的GPS点位置信息, 包括了多条行驶路径信息.为此, 需将GPS日志划分成多条路段, 保证每个路段只有唯一的起点和终点.GPS日志记录划分过程可参见文献[21].文献[21] 首先引入staypoint的概念, 每个staypoint是上一路段终点和下一路段的起点;然后通过检测GPS日志记录中的staypoint可将日志拆分为多个连续的路段.最后, 利用文献[22]提出的增量算法将历史高频轨迹数据匹配到对应的道路上, 把匹配获得的结果存入历史经验库,作为构建回报函数的基础.
  • 基于强化学习的全局最优路径求解
    如何在相邻的GPS点间多条候选路径中选取一条路径, 使组成的路径最接近真实的行车轨迹, 是本算法需解决的关键问题.马尔科夫决策过程是随机动态系统的最优决策过程, 是解决该类问题的有力工具之一.

II 当前方法的主要问题

  1. 在将我们的问题建模成强化学习问题之前,我们首先需要将轨迹匹配转换为马尔科夫决策过程(MDP),标准MDP过程需要如下参数:
  • 状态(state) : 在每次决策过程中,agent均位于某个GPS候选点上, 因此某时刻agent所处的GPS候选点即为MDP的状态.
  • 决策(action) :agent选择连接当前候选点和下一个候选点的路径.
  • 回报值(reward) : 评估action选出的路径优劣性, 将评估结果作为回报值.
  • 转移概率P: 依据回报值不断更新转移概率, 回报值大的状态其对应的转移概率大.agent在不断进行决策、状态转移的同时, 根据得到的回报值更新对环境的认知, 进而影响决策过程, 直到获得最优路径为止.

精准的将轨迹匹配建模出马尔科夫决策过程,其中回报值(reward)参数的准确定义是我们当前面临的最大问题。

  1. 我们当前面临的另外一个问题是思路上的问题,如何更为有效的将构建的历史经验库和基于强化学习的全局最优路径求解进行结合。
  2. 另一个需要实验验证的问题是选择哪一个强化学习算法能够更好的解决轨迹匹配问题。

Method

  1. 我们计划设置回报函数R由历史经验回报值R1, 偏移距离回报值R2组成, 均需要归一化处理, 计算公式如下R=k1×R1+k2×R2
    式中R为回报函数,k1、k2表示权重系数,k1与k2的和为1;R1为历史经验回报值;R2为偏移距离回报值.
  2. 我们计划候选路径集选取主要依据候选点之间是否存在历史轨迹;若存在, 则将历史轨迹和候选点间最短路径作为候选路径; 否则, 则将最短路径作为候选路径集.在确定候选路径集后, 将轨迹匹配问题转换为马尔科夫决策过程, 采用强化学习算法求解连续GPS点序列的全局最优解, 通过不断试错的方法获得经验知识, 然后根据经验知识完善行动策略, 进而完成轨迹数据的匹配。
  3. 由于强化学习利用了蒙特卡罗抽样方法和动态规划单步迭代方法的优点, 克服了蒙特卡罗策略演化问题和动态规划随状态数增加时复杂性呈指数增加的缺点; Q-learning算法是在状态转移概率和奖惩未知的情况下来估计最优策略的Q值。所以我们选择暂时使用Q-learning算法,但是我们会在后续的实验中测试对比各个强化学习算法的优越性。

Highlight and Contribution

针对低频轨迹数据匹配精确不高的缺陷,我们计划提出一种基于强化学习和历史轨迹的低频轨迹数据匹配算法。首先根据高频轨迹数据建立历史轨迹经验数据库,然后以历史轨迹经验数据库和GPS点偏移距离作为回报函数构建马尔科夫决策模型,并引入强化学习来进行马尔科夫决策过程求解。我们计划提出的方法相比之前的方法,有效使用了历史轨迹数据,并结合使用了当前比较前沿的强化学习技术进行尝试。相信我们的办法会有不一样的效果,为低频轨迹数据匹配课题研究添砖加瓦。