PaddleSpatial是基于百度飞桨深度学习框架开发的时空大数据计算工具和平台,融合了百度领先的区域分割、时间序列、城市迁移学习等时空数据处理能力。本次将由百度研究院资深研究员、PaddleSpatial技术负责人周景博,为大家分享PaddleSpatial如何实现深度学习与时空大数据的结合,以助力智慧城市发展。

本文主要覆盖四部分内容:

  • 百度大数据和人工智能技术助力智慧城市建设
  • PaddleSpatial开源算法介绍
  • 城市认知计算在智慧城市的应用
  • 在智能交通方面的探索

简述人工智能大数据深度学习机器学习的关系 人工智能和大数据结合_百度

一、百度大数据和人工智能技术助力智慧城市建设

首先讲一下我们项目研发的方法论。我们可以用一个三角形来表示大数据、人工智能和智慧城市之间的关系。百度的大数据的优势体现在多个方面。百度是国内唯一一个同时拥有海量的搜索数据和地图数据的人工智能公司。百度是国内最大的搜索引擎公司,同时百度地图也是国内应用最广泛的电子地图移动app。正是这些海量的动态时空大数据和互联网大数据,实现了城市的数字化,让我们更快更直接地感受城市的变化规律。这为更好地建设智慧城市提供了必要的数据基础。同时,大数据也为人工智能提供了燃料,对训练机器模型是必不可少的。这样大数据和人工智能共同为智慧城市的建设,提供了必要的数据和技术支撑。

简述人工智能大数据深度学习机器学习的关系 人工智能和大数据结合_百度_02

二、PaddleSpatial开源算法介绍

PaddleSpatial的研发目的正是为了充分利用百度的时空大数据能力和人工智能技术,构建基础算法的开源工具,来支撑上层城市的应用。

目前PaddleSpatial开源的主要算法模块包括区域切分,社区属性预测,空间图神经网络,城市迁移学习和城市时间序列数据预测等等。同时我们在上层研发了一些相关的城市计算的应用,包括区域画像,出行画像,城市量化分析,智能交通等等。下面我将一一做简要的分享。

简述人工智能大数据深度学习机器学习的关系 人工智能和大数据结合_大数据_03

首先我们先介绍一下PaddleSpatial里有亮点的几个算法模块。

第一,是支持空间点的关系预测的空间图神经网络模型。图神经网络近两年取得了非常大的进展,但是存在一个问题是,它通常将图当成一个拓扑图来处理,建模的是结点和结点之间的关系。实际上在地理数据中,点和点的相对位置和角度是非常重要的。如何建模两点之间的距离及角度,是目前图神经网络不能很好处理的问题。因此我们提出一个空间自适应的图神经网络算法。它把地理空间中两点之间的相对距离和角度信息,很好整合到图神经网络框架中。

第二个功能是城市区域切分。它主要是基于路网数据,将城市切分成细分单元,进而将这个基础单元作为研究对象。城市区域切分和自然语言处理中的应用相对比,实际上是定义了城市空间域上的“切词”能力。和已有的算法做对比可以看出,PaddleSpatial开源的城市区域切分方法的准确率远高于已有的方法。PaddleSpatial可以将全国划分成150万个区块,为进一步的城市研究提供了坚实的基础。

完成城市区域切分之后,下一步就是研究城市区域的各类属性,比如人口数量,房价,以及人群分布等。这里我们也研发了一个城市区域稀疏标签预测算法。城市区域稀疏标签的一个典型的应用是城中村检测。城中村在很多城市都存在,但是数量是非常稀疏的。通过我们研究的算法,可以实现对整个城市城中村的检测。初步的实验结果也证明我们的方法显著优于现有的最好方法。

在建模区块之后,还会研究区块间的人流关系,比如说不同的区块之间流量是多少。我们也专门提出了面向城市区域之间的流量预测模型。该模型的创新点包括变分的有向图自编码器,城市多模态信息融合的先验分布对齐以及基于泊松分布的解码器等。在已有的区域流量数据上,取得了非常好的效果。

三、城市认知计算在智慧城市的应用

前面我着重分享了PaddleSpatial的特色算法工具,后面我会再侧重介绍一下我们实验室正在进行的城市认知计算相关的项目。我们的目标是构建城市空间的认知计算能力,进而能更好地理解城市,造福城市居民。

简述人工智能大数据深度学习机器学习的关系 人工智能和大数据结合_百度_04

我们首先介绍的是区域画像。区域画像包括人群画像、生活地图、常访区域、区域指数、用地分布、功能分布等特色功能。区域画像具有更细粒度的分析力和辨识能力,可以动态感知区域间人流分布和人流特征,并进行城市功能区的实时分析。区域画像的覆盖范围非常精细,可以支持省到街道的5级空间维度的缩放,相关数据可以支持覆盖全国的用户特征和功能设施分析。

同时,和区域画像相关联,我们还建立了城市的出行画像。与区域画像不通,出行画像以每个出发地和目的地构成OD 对为基本研究单位,细粒度刻画人群的移动属性。通过海量历史人群数据,进行量化的指标分析和预测能力建模,提升城市的感知能力。

这里是我们构建的区域画像和出行画像的系统。首先来看出行画像,对于每一个出发地和目的地构成的OD 对,我们可以是实现细粒度的人群分析,展示在同一路径上的不同的人群的流量、交通方式等维度。区域画像则可以实现对一个区域的人群和属性的分析。我们可以建立每个区域的生活地图,分析该区域衣食出行的需求和供给情况。我们还可以分析该区域的常访地点,观察不同层级的出发地和目的地等。然后,我们还构建了细粒度的区域指数,包括便民指数、生活品质指数等。我们还可以对区域进行用地和功能分布的分析。用地分布体现了区域的规划定位,比如居民用地和教育用地等;而功能分布则体现了该区域自发形成的服务功能,比如休闲娱乐和餐饮美食等功能。

简述人工智能大数据深度学习机器学习的关系 人工智能和大数据结合_大数据_05

我们还会进一步研究城市之间的关系,并学习城市的已知规律,将它应用到其他的城市上。在2020年疫情期间,我们实验室和地图合作完成了一个新冠肺炎感染高风险小区的识别项目。该项目结合多模态学习和城市区域迁移学习技术,设计了城市新冠肺炎感染高风险小区的识别算法。去年新冠疫情刚爆发的时候,只有武汉开始大规模流行。通过看武汉发生大规模疫情爆发的小区特点是什么样的,来抽取出规律,进而指导其他城市。我们研发的模型可以定位新冠疫情高风险小区的成因,提示政府对不同区域采取针对性优化措施,助力政府提高疫情管控能力。

PaddleSpatial构建的平台能力在与雄安新区管委会,联合国开发署和北京市交研院的合作中都取得了示范性应用。其中我们完成雄安大数据报告被人民网、澎湃新闻、中新网、河北卫视等50多家权威报道;同时我们还与新华社瞭望共建“中国幸福城市实验室”,从2018年起持续为新华社主导的中国幸福城市排名提供技术支持,产生了广泛的技术影响力。近期我们还将城立方的能力扩展到支持智能交通上,致力于让城市交通运营商模式行健致远,也取得了很好的效果。

我们设计了全国首个基于大数据和人工智能的城市幸福感指数框架。整个框架设计为9+X结构。其中“9”指九大一级指数,共包括100多个细分指标,力求覆盖居民衣食住行的每一个维度和细分群体。比如,以“生活品质”指数为例,它就覆盖了“文体休闲水平、人均绿地占有度”等8个二级指标,每个二级指标进一步细分为更多三级指标。

去年,我们的指数框架还新增了一个X指数,用于覆盖每年的时事热点,2020年的X指数是基于“新冠疫情”事件研发的“大数据抗疫指数”。相对于传统的问卷调查和统计方法,百度城市幸福感指数具有科学性、创新性和全面性等优势。

简述人工智能大数据深度学习机器学习的关系 人工智能和大数据结合_百度_06

PaddleSpatial的能力还可以协助我们进行城市发展趋势的研判和分析,为城市管理者制定决策,提供数据和技术上的支持。近期我们支持了雄安、温州等城市的城市大数据报告。特别是雄安的大数据报告,从2018年开始做,已经连续做了第4期,产生了广泛的媒体影响力。

简述人工智能大数据深度学习机器学习的关系 人工智能和大数据结合_数据_07

四、在智能交通方面的探索

最后,我再简单总结一下我们在智能交通上做的一些探索。我们今年上半年研发了业界领先的轨迹还原模块。根据不同的十字路口拍摄的数据,来复现车辆在城市上的完整轨迹。它作为百度交通大脑的亮点功能,上线到了保定和亦庄城市的交通大脑上。另外,结合已有的城市交通网络和流量的预测,我们也和交管部门合作探索道路规划和交通枢纽建设优化的相关工作。

简述人工智能大数据深度学习机器学习的关系 人工智能和大数据结合_百度_08

总之,我们希望持续的建设和优化PaddleSpatial,实现用百度人工智能让城市更智慧的远景目标。谢谢大家的关注!