1、文章信息
《DeepUrbanEvent: A System for Predicting Citywide Crowd Dynamics at Big Events》该文章由东京大学的空间情报科学研究中心(CSIS)和日本产业技术综合研究所的人工智能研究中心(AIRC)合作,作为口头演讲(前6%)在数据挖掘顶级会议KDD 2019上发表。第一作者姜仁河现为东京大学情报基盘中心助理教授。
原文链接:
https://dl.acm.org/doi/pdf/10.1145/3292500.3330654
2、摘要
事件下的人群管理一直以来都是一个重要且有社会影响力的研究课题。当重大事件(如地震、台风、大型节假日)发生时,为了维护公共安全及维持公共设施运作,人群管理是相关政府和公共服务部门的第一要务。但在大事件的情况下,人类行为变得与日常生活中截然不同,这使得对大型事件下人群动态的预测变得非常具有挑战性,尤其是在整个城市尺度。因此在本研究中,我们旨在仅从当前瞬时的观测中提取“深度“趋势以生成对于短期内人群动态变化的准确预测,这被认为是处理特殊事件情况的一种有效方法。基于这个动机,我们构建了一个名为DeepUrbanEvent的在线系统,连续地以最近的一系列全市人群动态观测值作为输入并对未来进行一系列预测作为输出。该系统是一个基于卷积递归神经网络设计的新型深度学习模型,以类似于视频预测的的方式有效地对高度复杂的时空数据进行建模。我们将提出的原型系统应用于多个大型现实事件,实验结果证实了我们提出的方法相比于现有方法的优势和它作为在线人群管理系统的高度可部署性。
3、动机
(1) 现有的人群流动的预测模型聚焦于对通常情况下人的日常活动建模,但当大型事件或灾害发生时,人群的移动性会变得截然不同并且与日常行为几乎无关。在这类情况下,现有模型常采取的时间窗长度(例如半小时、1小时)有可能会错失短期内的突变从而无法做出准确的预测。针对这个问题,我们采取细粒度时间窗以捕捉当前瞬时观测中的“深度“趋势从而对短期内人群的移动性变化做出准确预测。
(2) 如果将整个城市区域按规则格网划分,我们注意到全市范围的人群动态事实上可以分解为两部分:一方面是区域内的人群密度,另一方面是区域间的人群流动。前者可被视作节点特征,而后者可被视作边特征,两者相互依存。利用这一观察,我们提出利用两者的相互依存关系对两者同时建模联合预测,以同时增强对两者的预测能力。
4、问题定义
基于上述动机,通过将时空域按细粒度时间窗和规则格网离散化,人群密度和人群流动可由两个类视频的4维张量表示。我们进一步将全市范围的人群动态预测问题定义为其两者的多步联合预测:
5、模型
(1) 多层ConvLSTM结构:
通过利用卷积运算替代全连接LSTM单元内的矩阵乘法,ConvLSTM提升了FC-LSTM在捕捉序列依存性的同时获取局部空间依存性的能力,这一改进也奠定了ConvLSTM在类视频学习任务中的重要角色。我们因此也采用ConvLSTM作为基础模型,其定义如下列公式。
通过堆叠多层ConvLSTM(结构如下图所示),模型所能捕捉的非线性的空间依存性的感受野也从邻接网格拓展到局部区域。我们利用此多层ConvLSTM结构可以轻松处理人群密度(单通道节点特征)的类视频张量。但考虑到人群流动的通道高维性(ƞ2,ƞ为局部图的节点数),我们认为直接应用该方法不足以很好地处理人群密度的类视频张量。
(2) 人群流动的卷积自动编码器:
对于人群流动,我们首先通过考虑所有可能的交通工具(如步行、驾车、乘地铁)中的最高时速(约为48km/h)、时间窗长度(以5 min为例)和单位格网大小(以500 m为例)推算出单位时间窗内最大穿行的格网数(约为ƞ/2),进而对每一个格网构建以该格网为中心的ƞ×ƞ的局部图。此局部图的集合包含了每个时间窗内全市每个格网所有可能的人群流动量。
同时,考虑到每一个局部图的分布(以短程流动为主的类似二维高斯分布)的相似性(尤其在细粒度时间窗的情况下),我们提出利用卷积自动编码器(CNN AutoEncoder)来提取这种共有特征的同时降维。
(3) 多任务ConvLSTM模型:
在全市范围的人群动态预测问题的定义中,我们可以看到人群密度(节点特征)和人群流动(边特征)两个任务是高度相关的。我们因此采取多任务学习,利用上述两者的相互依存关系对两者同时建模,以增强对两者的预测能力。特别地,我们提出的模型框架如下图所示:
首先,分别将人群密度和编码过的人群流动的两个类视频张量作为输入,并分别通过ConvLSTM学习序列的隐藏表示;利用一个共享的ConvLSTM编码器学习级联的隐藏序列以提取短期内人群动态的“深度”趋势,并利用一个共享的ConvLSTM解码器对其提取的“深度”趋势进行解码;最后通过分开的ConvLSTM同时输出两个类视频张量的预测序列。对于输出的人群流动的类视频张量,我们再通过训练好的卷积自动解码器对其进行解码再与真实值作比较。值得注意的是,对于共享的ConvLSTM编码/解码器,我们应用(2)人群流动的卷积自动编码器来通过缩小/放大频道维来更好地进行多任务(Crowd Density and Crowd Flow)间的特征压缩;同时,在ConvLSTM层之间,我们也应用了批标准化(batch normalization)。
6、实验
这篇文章中我们使用的是由日本移动运营商NTT DoCoMo获取的从2010年8月至2013年7月三年间的约160万用户的GPS轨迹数据。我们通过将原始GPS轨迹按5分钟的细粒度时间窗和500×500米的规则网格聚合将用户的个人信息隐藏。
特别地,我们选取4个有代表性的重大事件:(1)3.11 东日本大地震(2011年3月11日);(2)2011年第15号台风(2011年9月21日);(3)新年(2012年1月1日);(4)东京马拉松(2011年2月27日)。我们使用每个事件的当天作为测试集,事件前的10天作为相应的训练集。下表展示了我们提出的方法与baseline模型就MSE(均方误差)在4个事件集的预测精度比较:(序列长度α=β=12,即预测未来的1小时)
下图展示了我们提出的方法在4个事件集上对东京都最大的两个车站(即东京站,新宿站)人群密度的预测时间序列曲线:(未来1小时后的预测值)
7、结论
本文中我们提出了一个数据驱动的针对大型事件下人群动态预测的原型系统DeepUrbanEvent。我们提出分解人群动态并提出利用卷积自动编码器和多任务ConvLSTM模型同时对人群密度和人群流动的两个相互依存的类视频张量建模并进行联合预测。多个大型现实事件的实验结果证实了我们提出的方法相比于现有方法的优势。
Attention
如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!
转载:https://blog.csdn.net/zuiyishihefang/article/details/114559032