针对图像生成任务,GAN模型主要包括生成器(generative model,G)和判别器(discriminative model,D)两部分。
GAN模型的优势是不需要先验知识而使用一种噪声分布直接进行采样,逐渐完全逼近真实数据。但是由于缺乏先验信息,会产生不可控的训练结果,因此研究人员提出引入条件变量的CGAN模型。基于CGAN模型,以输入图像作为条件变量,提出了Image-to-Image模型[18]实现图像到图像的图像转换任务。图 1为其模型应用于遥感影像与栅格地图之间转换的结构示意图。

图 1 Image-to-Image模型框架
1.2 DR2RR-CGAN模型道路提取流程
图 2为基于DR2RR-CGAN模型的车行道级道路提取的主要流程。

图 2 基于DR2RR-CGAN模型的车行道级道路提取流程
2 车行道级道路提取方法
2.1 朝向-颜色映射栅格化转换
车辆轨迹数据通常以矢量点数据的形式进行存储,而GAN网络的输入为栅格图片形式的多维矩阵,因此首先需要将车辆轨迹数据转换为栅格图片。通常矢-栅转换是将平面坐标系下的轨迹点直接映射到平面上,难以存储轨迹点更多的属性信息,如朝向等信息。因此本文首先提出将轨迹属性信息转换到栅格图片颜色空间中的朝向-颜色映射栅格化转换方法。车辆轨迹点的朝向一般以正北方向为0°,沿顺时针方向,取值范围为[0°~360°),如图 3(a)。

图 3 轨迹点朝向分布与HSV颜色模型
图 4所示为轨迹数据朝向-颜色映射栅格化转换前后对比图。可以看出通过将轨迹朝向转换到HSV颜色空间,显著区分了位置邻近但朝向相异的轨迹点,明显提升了视觉提取车行道信息的效率。

图 4 轨迹数据朝向-颜色映射栅格化转换
2.2 DR2RR-CGAN模型
参考Image-to-Image图像转换框架,本文设计了DR2RR-CGAN模型,实现有向轨迹地图向车行道级道路地图的转换。在该模型中,有向轨迹地图X作为条件变量分别输入生成器和判别器中,其中生成器和判别器分别采用残差网络生成器和多尺度PatchGAN判别器。模型结构如图 5。

图 5 DR2RR-CGAN模型框架
2.2.1 残差网络生成器
GAN模型的生成器一般采用自编码模型或其变形,如U-Net模型[22],其过程都是首先下采样提取深度特征,然后上采样生成目标的结构。其中模型深度受下采样过程中卷积计算的限制,根据输入图像的大小不同,最大深度有限。而卷积计算的深度直接影响模型生成效果,一般神经网络模型深度越深,卷积计算次数越多,模型学习能力越强。为了增加模型深度,参考Pix2PixHD[20]和PGGAN模型[23],本文在自编码生成模型中引入残差网络,提出了残差网络生成器,其结构如图 6所示。

图 6 残差网络生成器
2.2.2 多尺度PatchGAN判别器
PatchGAN判别器[18]是通过对输入图像进行多次卷积计算,输出一个大小为N的特征图,进一步对特征图上每一个元素判断真或假,最后求均值即为输入图像为真或假的概率。判别器结构就是一个卷积网络,其输出特征图上的像素点对应原输入图像上的映射区域即为其感受野,也就是PatchGAN判别器中Patch的含义,其结构如图 7所示。

图 7 感受野
2.2.3 目标函数
在深度学习网络模型优化过程中,衡量目标值与真实值差异的函数称为损失函数,如平方损失函数、对数损失函数等。训练集的平均损失称为经验风险,模型优化过程,即为经验风险最小化过程。但经验风险最小化过程又要防止过拟合,需要降低模型复杂度,称为结构风险最小化,常用L1、L2范数等。这种使得经验风险和结构风险最优化的优化函数称为目标函数。
参考Image-to-Image模型和Pix2PixHD模型,一方面为了提升生成车行道级道路图像的精细程度,另一方面为了降低训练模型的过拟合风险。
2.3 模型训练
为了训练用于车行道级道路提取的DR2RR-CGAN模型,本文选取了郑州市郑东新区部分区域作为模型训练样本区,区域大小为4000 m×5500 m。训练数据为样本区内的轨迹数据和车行道级道路数据,其中车行道级道路数据为基于谷歌影像人工采集获取。首先将车辆轨迹源数据和道路数据进行坐标系转换,将WGS-84地理坐标投影为高斯-克吕格投影下的平面直角坐标;接着进行朝向-颜色映射栅格化转换,将车辆轨迹点朝向转换为HSV颜色空间,同时将车辆轨迹点和道路数据投影到地图平面;然后为了增加模型训练样本数量,按500 m×500 m网格模板,分别沿水平方向和竖直方向按照步长100 m对样本区域进行分割,将模型训练样本区分割为1836张轨迹栅格图和1836张道路栅格图。
根据输入图像的分辨率和轨迹数据特点,本文对模型生成器的残差网络层数、多尺度判别器感受野组合进行了多次试验对比调试,最终将生成器的残差网络设置为10层,多尺度判别器设置为7×7、16×16、34×34、70×70、142×142像素感受野组合(根据式(7),对于500×500像素的图像,根据卷积层的层数不同,小于图像尺寸的感受野像素大小可以为7×7、16×16、34×34、70×70、142×142、286×286)。模型训练过程设置迭代次数为1000次,训练时长约38 h,损失值变化曲线如图 8。

图 8 模型训练过程损失值变化曲线
3 试验与分析
3.1 试验环境与数据预处理
试验的硬件环境为Ubuntu18.04系统、64 GB内存、Quadro P5000显卡、16 GB显存,基于Python3.6编程语言、Tensorflow1.12.0深度学习开源库进行算法实现与结果分析。
为了验证本文提出DR2RR-CGAN模型的车行道级道路提取效果和模型对不同区域、不同特征轨迹数据的适应性,试验验证分别选取了郑州市三环、南京市部分主城区、成都市高新南区等区域的轨迹数据。其中各试验区域的数据详情见表 1。
表 1 数据详情
区域 | 郑州 | 南京 | 成都 |
区域面积/km2 | 236.25 | 210 | 82.5 |
道路长度/km | 1597 | 1424 | 959 |
采集时间 | 2016-11-15 | 2015-09-01 | 2014-08-20 |
采集时长/h | 1 | 1 | 1 |
采样间隔/s | >60 | >30 | >30 |
数据量/个 | 503 296 | 1 078 798 | 359 924 |
数据密度/(个/km) | 315 | 757 | 375 |
主要属性 | 时间、经度、 纬度、朝向 | 时间、经度、 纬度 | 时间、经度、 纬度 |
3.2 试验结果与精度分析
首先将轨迹数据朝向-颜色映射栅格化转换,然后进行矢-栅转换并按照500 m×500 m网格大小进行图像分割,最后将分割后图片输入训练后的DR2RR-CGAN模型得到生成道路,图 9分别为郑州、成都、南京区域道路提取效果。为了对比评价道路提取效果,本文分别将DR2RR-CGAN模型、Image-to-Image模型和栅格化方法[4](其中缓冲区半径为10 m,细化算法采用查表法)进行定性和定量评价。

图 9 道路提取效果
3.2.1 朝向-颜色映射栅格化转换对车行道级道路提取效果的影响
图 10为是否进行朝向-颜色映射栅格化转换对车行道级道路提取效果的影响,图中分别为两个区域的道路提取效果对比。可以看出非朝向-颜色映射栅格化转换轨迹生成道路存在偏离影像中道路区域的现象,而朝向-颜色映射栅格化转换后轨迹生成道路则不存在偏离现象(图 10中1、2区域)。其原因为输入非朝向-颜色映射栅格化转换的轨迹数据,模型不能真正区分左右双线道路,而只是根据模型训练的知识生成双线却没有实际意义的道路,因此会存在偏离道路区域的现象。

图 10 道路提取效果对比
3.2.2 DR2RR-CGAN模型与Image-to-Image模型道路提取效果对比
图 11为DR2RR-CGAN模型与Image-to-Image模型道路提取效果对比。可见,Image-to-Image模型提取道路在轨迹相对稀疏区域出现单线道路(区域1)和非完整道路(区域2),同时出现许多较短的零碎路段不能连接为完整道路(区域3);而相较于Image-to-Image模型,DR2RR-CGAN模型提取道路的光滑度更加平滑,车行道级道路的双线(车行道)更加完整,基本构成了完整的车行道级道路网。说明本文提出改进的残差网络生成器和多尺度PatchGAN判别器对车行道级道路提取有着显著的提升作用,可以提取出更加完整、细节更加真实的车行道级道路。

图 11 道路提取效果对比
3.2.3 DR2RR-CGAN模型与栅格化方法道路提取效果对比
图 12为DR2RR-CGAN模型与栅格化方法道路提取效果对比。可见,在一定的缓冲区参数下,栅格化方法只有在高等级道路中轨迹分布明显分离的情况才能提取车行道级道路(区域1),同时缓冲区参数、细化算法等参数会影响道路提取效果,如轨迹分布稀疏区域较难提取出道路(区域2);相较于栅格化方法,DR2RR-CGAN模型提取道路更加完整。

图 12 道路提取效果对比
3.2.4 道路交叉口区域提取效果
观察图 11(区域1)、图 12(区域1)中道路交叉口区域DR2RR-CGAN模型的道路提取效果,图 13为上述区域的道路交叉口放大图。可以看出,提取道路在道路交叉口区域混为一团难以正确表达各车行道之间的连通关系,其原因为车辆轨迹栅格化后在道路交叉口区域相互叠加导致DR2RR-CGAN模型难以识别出道路交叉口细节与连通关系。

图 13 道路交叉口区域提取效果
3.2.5 评价指标对比
由于缺乏车行道级道路对比数据,本文以郑州市中原区部分区域遥感影像为参照样本,手动提取了该区域的车行道级道路数据作为参考,道路长度约300 km。定量评价方法采用文献[26]提出的缓冲区方法,对参考数据分别建立4、6、8 m半径缓冲区(缓冲区半径过大会导致相邻车行道的缓冲区重叠),然后分别统计落入缓冲区内的道路长度并计算精确率、召回率和F1值等评价指标。
综上,从3个城市的道路提取试验和参照区域评价指标对比结果可以得出以下结论:
(1) DR2RR-CGAN模型方法具有很强的实用性,可以应用于不同区域、不同特征的轨迹数据以提取车行道级道路。
(2) 本文提出改进的残差网络生成器、多尺度PatchGAN判别器以及轨迹朝向-颜色映射对车行道级道路提取有着显著的提升作用。
















