RegionEncoder - Unsupervised Representation Learning of Spatial Data via Multimodal Embedding
作者将这个工作叫做 Learning an Embedding Space for Regions (LESR),将空间区域映射到低维特征。空间有自相关性和异质性,一个好的embedding表示需要捕捉到这两种特性。自相关性从两个角度去做,(1)图卷积神经网络(局部谱运算?),(2)一个区分不相关的负样本的鉴别器。异质性通过出租车的加权轨迹图建模。
文章主要贡献有三点
- 用多模态构建了空间embedding
- 提出了一种新的网络结构
- 在两个不同的城市验证有效
该文章用卫星图像,poi,加权人口流动图和空间信息这些多模态数据得到了区域语义信息。
空间信息:地理上相邻的地方理应相似
人员流动:人们从一个区域走到另一个区域,这两个区域应该有语义上的关联
POI信息:即使地理位置不相连,但是POI信息也能反映出两个区域的相似性(POI信息应该是高维的?)
卫星图像:容易获取,帮助分析城市的环境
区域划分:先框出了一个大矩形,然后分割成小矩形格网,横着m个竖着m个,总共n=m2个。
空间图:小矩形挨着的话,就是图中的顶点之间有边相连,这样构成了空间图,并定义出了度矩阵D和邻接矩阵A。无权图。
轨迹图:用出租车数据,上车点和下车点的坐标映射到小矩形,小矩形之间边是有权边,权重是区域间归一化后的轨迹数,得到加权边矩阵Ω。
POI分布矩阵:每个小矩形可以包含多个poi点,全部poi点一共有p个,得到n*p的特征矩阵X
卫星图像:一张三通道的图像I
把上述这些东西通过函数映射到n*d矩阵H中,n是小矩形,d是每个小矩形的语义向量。
来看具体实现
卫星图I做去噪卷积自编码器
GCN学习空间信息(D,A,Ω,X),轨迹信息和POI数据的表示,
将视觉特征融合到相关空间特征上去
去噪自编码器
enconder层是两个卷积层再接三个全连接层, decoder是三个全连接加两个卷积层。
图卷积
一部分是空间信息和POI信息
Z是要求的隐向量,Z0初始值为X,激活函数为RELU。该文章用了两层GCN,第二层GCN提取了隐向量,就是Z2。
然后就是训练的损失函数了,还是用skip-gram和负采样做损失函数
另一部分是交通图
用KL散度对加权的图重新建模
定义两个小矩形连接的概率如下,两个向量越接近,乘积越大,分母越小。
而两个小矩形在训练数据连接的频率是
用KL散度得到了最后的损失函数
这个图是同时最小化这两个损失函数
vr就是训练后得到的隐向量
最后用MLP做分类器,上两部分分别得到的隐向量,如果两个向量属于一个格子,则为1,不是的话则为0。训练分类器后,拿mlp中间的隐层作为最终隐向量。
所以总的损失函数为