RegionEncoder - Unsupervised Representation Learning of Spatial Data via Multimodal Embedding

 

作者将这个工作叫做 Learning an Embedding Space for Regions (LESR),将空间区域映射到低维特征。空间有自相关性和异质性,一个好的embedding表示需要捕捉到这两种特性。自相关性从两个角度去做,(1)图卷积神经网络(局部谱运算?),(2)一个区分不相关的负样本的鉴别器。异质性通过出租车的加权轨迹图建模。

 

文章主要贡献有三点

  • 用多模态构建了空间embedding
  • 提出了一种新的网络结构
  • 在两个不同的城市验证有效

 

该文章用卫星图像,poi,加权人口流动图和空间信息这些多模态数据得到了区域语义信息。

空间信息:地理上相邻的地方理应相似

人员流动:人们从一个区域走到另一个区域,这两个区域应该有语义上的关联

POI信息:即使地理位置不相连,但是POI信息也能反映出两个区域的相似性(POI信息应该是高维的?)

卫星图像:容易获取,帮助分析城市的环境

 

区域划分:先框出了一个大矩形,然后分割成小矩形格网,横着m个竖着m个,总共n=m2个。

空间图:小矩形挨着的话,就是图中的顶点之间有边相连,这样构成了空间图,并定义出了度矩阵D和邻接矩阵A。无权图。

轨迹图:用出租车数据,上车点和下车点的坐标映射到小矩形,小矩形之间边是有权边,权重是区域间归一化后的轨迹数,得到加权边矩阵Ω。

POI分布矩阵:每个小矩形可以包含多个poi点,全部poi点一共有p个,得到n*p的特征矩阵X

卫星图像:一张三通道的图像I

 

把上述这些东西通过函数映射到n*d矩阵H中,n是小矩形,d是每个小矩形的语义向量。

 

 来看具体实现

卫星图I做去噪卷积自编码器

GCN学习空间信息(D,A,Ω,X),轨迹信息和POI数据的表示,

将视觉特征融合到相关空间特征上去

HuggingFaceEmbeddings使用本地的embedding模型_数据

 

 

去噪自编码器

enconder层是两个卷积层再接三个全连接层, decoder是三个全连接加两个卷积层。

 

图卷积

一部分是空间信息和POI信息

HuggingFaceEmbeddings使用本地的embedding模型_损失函数_02

 Z是要求的隐向量,Z0初始值为X,激活函数为RELU。该文章用了两层GCN,第二层GCN提取了隐向量,就是Z2

然后就是训练的损失函数了,还是用skip-gram和负采样做损失函数

HuggingFaceEmbeddings使用本地的embedding模型_卷积_03

另一部分是交通图

用KL散度对加权的图重新建模

定义两个小矩形连接的概率如下,两个向量越接近,乘积越大,分母越小。

HuggingFaceEmbeddings使用本地的embedding模型_损失函数_04

而两个小矩形在训练数据连接的频率是

HuggingFaceEmbeddings使用本地的embedding模型_数据_05

用KL散度得到了最后的损失函数

HuggingFaceEmbeddings使用本地的embedding模型_卷积_06

这个图是同时最小化这两个损失函数

vr就是训练后得到的隐向量

 

 

 最后用MLP做分类器,上两部分分别得到的隐向量,如果两个向量属于一个格子,则为1,不是的话则为0。训练分类器后,拿mlp中间的隐层作为最终隐向量。

HuggingFaceEmbeddings使用本地的embedding模型_卷积_07

 

HuggingFaceEmbeddings使用本地的embedding模型_卷积_08

 

 所以总的损失函数为

HuggingFaceEmbeddings使用本地的embedding模型_卷积_09