1.背景介绍
在高方差时段(如节假日和体育赛事等等)准确的预测交通量,对于异常检测、资源分配、预算规划和其他相关的任务都是至关重要,这些任务有助于网约车大规模优化用户体验,然而,预测这些变量极具挑战性,因为这种极端事件预测取决于天气、城市人口增长和其他导致预测不确定性的外部因素。
近几年来,长短期记忆网络技术以其端到端建模,易于映入外生变量和自动特征抽取的特点,成为了一种流行的时间序列建模框架。LSTM方法利用多个维度的大量数据,可以对复杂的非线性特征相互作用进行建模,这对于预测极端事件是至关重要的。
在Lingxue Zhu和Nikolay Laptev发表在IEEE的一篇论文Deep and Confident Prediction for Time Series at Uber中,介绍一种新的端到端贝叶斯神经网络(BNN)结构,它能在大规模的情况下更精准地预测时间序列结果和不确定性预测。
2.概述
2.1不确定性预测
首先,我们用函数
来表示一个神经网络,其中f表示是网络的结构,用**W**来表示模型参数的集合。在BNN模型中,引入了权重参数的先验,并且模型的目标是去拟合最优的后验分布。比如,高斯先验通常假设:
。
然后,我们进一步数据生成分布定为
。在回归问题中,我们通常假设:
(其中具有一定的噪声
)。
接着,给定N个观测值
和
,贝叶斯推理的目标是找到模型参数的后验分布
。最后给定一个新的数据点
,在通过将后验分布边缘化之后,可以得到预测分布
。
其中,方差量化了预测的不确定性,可以用总方差定律进行分解:
,我们立刻看到方差被分解为两项,
(反映了我们对模型参数_W_的规格的不确定性,被称为模型不确定性)和
(表示固有的噪声)。
对于上述分解公式的一个基本假设是
由相同的过程产生的,但是在实际情况中,往往并非如此。特别是在异常检测,如果某些时间序列具有不同寻常的模式,那么会使训练后的模型有很大的不同。所以,我们要结合以下三个方面来测量预测的不确定性:
- 模型的不确定性
- 模型的错误识别
- 固有噪声
接下来就详细介绍这三个方面。
2.1.1模型的不确定性
模型不确定性估计的关键就是后验分布
(即贝叶斯推理)。由于非线性所导致的非共轭性,后验分布在神经网络中是极其具有挑战性的。在深度学习中,类似推理的研究已经有了很多,在仔细对比后,我们选用蒙特卡罗丢失法(MC dropout)来模拟模型的不确定性。
具体算法如下:给定一个新的输入
,然后我们在每层神经网络上随机抛弃掉一部分输出
,即以一定的概率**p**随机抛弃掉每个隐藏层单元。然后随机前馈重复B次,得到
。这样就可以把模型的不确定性近似看为样本方差
(其中
)。近几年来,已经在将最优抛弃率p作为模型参数的一部分进行自适应选择方面有了很多研究,但是这种方法需要去修改训练阶段。实际上,我们发现模型的不确定性估计通常在_p_的合理范围是鲁棒的。
2.1.2模型的错误识别
接下来,我们要通过BNN模型去解决潜在的模型错误识别的问题。我们解决这一问题的方法是,在训练数据集中去预测那些具有完全不同模式的未知样本时获取的不确定性,和通过训练一个从时间序列中自动抽取代表性特征编码器来确定这种不确定性的来源。在测试时,每一个样本的编码效果都将会有助于计算样本集与训练集之间的距离。
计算它们之间距离的另一种方式是,使用一个encoder-decoder框架为所有训练集的时间序列拟合出一个潜在的embedding空间。这样,我们就可以在这个embedding空间来测量测试样本和训练样本之间的距离。
接下来,我们需要解决的问题就是如何将这种错误识别和模型不确定性结合起来。在这里,我们采用了一个方法是,将encoder-decoder网络与一个预测网络连接起来,在推理时将其是为一个大网络,算法如图一所示:
图一:用MC dropout算法来近似模型的不确定性和模型的错误识别
上述算法1使用MC dropout算法展示了这样一个推理网络。具体来说,给定一个输入时间序列
,encoder构造了所学到的embedding向量
,并将其作为特征输入到预测网络_h_中。
在这个前馈过程中,MC dropout应用于encoder和预测网络的所有层。所以,encoder层重的随机抛弃会智能地去干扰embedding空间中的输入,从而导致潜在的模型错误识别,并且通过预测网络进一步传播。
2.1.3固有噪声
最后,我们来估计一下固有的噪声
。在这个场景下,我们提出了一种简单但自适应的方法,即通过残差平方和和评估一个独立的验证集来估计噪声水平。具体地说,
是在训练集上拟合好的模型,
是独立的验证集,然后,我们通过公式
来估计
。
注意
是独立于
的。如果我们进一步假设
是一个真实模型的无偏估计,那么我们就会有
,其中偏置项是
,并且它会随着训练样本数量的增加而降低,尤其是当训练集样本N趋于∞时偏置项会趋于0。因此,假如模型是无偏的,
就提供了一个对固有噪声水平接近的无偏估计。在样本有限的情况下,
只能高估噪声水平并且趋于更加保守。
我们的BNN模型最终的推理算法结合了固有噪声估计和MC dropout,算法2给出了最终的推理算法,如图二所示:
图二:推理算法结合了固有噪声估计和MC dropout算法
3.实验
该论文中的实验结果,是以lstm网络+全连接为基础产生的。该神经网络的完整结构主要包括两部分:(i)encoder-decoder框架,用于得到时间序列中的自有关系,并且在预训练期间就学习好(ii)预测网络,他的输入来自于encoder-decoder框架所学习到embedding层以及潜在的外部特性(如天气事件等)。这个鲁棒的体系结构如下图三所示:
图三:完整的体系结构
在拟合预测模型之前,我们首先要进行预训练,以拟合出一个能够从时间序列中抽取有用且具有代表性的embedding的encoder。其目标有两个方向:(i)确保所学习的embedding为预测提供有用的特征;(ii)证明可以在embedding中捕获异常输入,从而进一步传播到预测网络中。
3.1实验数据
这里我们从kaggle上找到数据集NYC Uber Pickups with Weather and Holidays,这个数据集有很多我们需要的特征,但是我们还是需要对其处理一下,把区域字段合并,将节假日字段改为0-1数字表示,合并出来的数据如图四所示:
图四:处理过后的实验数据
由于要使用LSTM网络作为一个encoder-decoder框架,所以我们将上述处理之后的数据读出成时序数据,然后在将其转化为监督问题数据。
参考代码:
def series_to_supervised(data, n_in=1, n_out=1, dropnan=True):
n_vars = 1 if type(data) is list else data.shape[1]
df = pd.DataFrame(data)
cols, names = list(), list()
# input sequence (t-n, ... t-1)
for i in range(n_in, 0, -1):
cols.append(df.shift(i))
names += [('var%d(t-%d)' % (j+1, i)) for j in range(n_vars)]
# forecast sequence (t, t+1, ... t+n)
for i in range(0, n_out):
cols.append(df.shift(-i))
if i == 0:
names += [('var%d(t)' % (j+1)) for j in range(n_vars)]
else:
names += [('var%d(t+%d)' % (j+1, i)) for j in range(n_vars)]
# put it all together
agg = pd.concat(cols, axis=1)
agg.columns = names
# drop rows with NaN values
if dropnan:
agg.dropna(inplace=True)
return agg
3.2实验模型
给定一个时间序列
,encoder的LSTM去读取前T个时间戳数据
来构造一个固定维度的embedding状态向量。然后decoder的LSTM根据这个embedding状态向量和
去构造接下来F个时间戳数据
。为了从embedding状态向量中构建接下来的时间戳数据,embedding状态向量一定要包含来自输入时间序列中具有代表性和意义的元素。
在对encoder-decoder结构预处理之后,我们就将这个结构作为一个能智能提取特征的黑盒。具体来说,LSTM节点状态被抽取为固定维度的embedding向量。然后,用这个embedding向量作为特征来训练模型去预测接下里几个时间段的数据。在外部特性可用的场景中,可以将这些特性连接到embedding向量并一起传递到最终的预测网络。
有两个超参数需要被特别说明一下:丢弃率_P和迭代次数B。对于丢弃率来说,不确定性估计在一系列P上相对稳定,所以我们要选择一个在验证集上表现的最好的一个P_。对于迭代次数来说,估计的预测不确定性的标准差是与
成正比。在对不同迭代次数测量了标准差之后,发现几百次迭代就足以实现稳定的估计。
该模型的encoder-decoder框架是由两层LSTM单元构成,分别包含128和32个隐状态,预测网络由三个全连接层组成,分别包含128、64和16个隐藏单元。我们的输入样本是使用一个滑动窗口构成的,其中每个样本都是以前15个小时作为输入,来预测未来一小时的数据。并且对原始数据进行MinMaxScaler标准化,把数据放缩到0~1之间,以减轻指数效应。
参考代码:
encoder_inputs = Input(shape=(train_X.shape[1], train_X.shape[2]))
encoder_lstm1 = LSTM((128), return_state=True,return_sequences=True)
encoder_outputs1, state_h1, state_c1 = encoder_lstm1(encoder_inputs)
drop_out1 = Dropout(0.05)
encoder_lstm2 = LSTM((64), return_state=True,return_sequences=False)
encoder_outputs2, state_h2, state_c2 = encoder_lstm2(encoder_outputs1)
drop_out2 = Dropout(0.05)
external_features = Input(shape=(6,))
print(external_features)
dense1 = Dense(128,activation='tanh')
temp = Concatenate(axis=1)([state_c2,external_features])
dense1_output = dense1(temp)
drop_out3 = Dropout(0.05)
dense2 = Dense(64,activation='tanh')
dense2_output = dense2(dense1_output)
drop_out4 = Dropout(0.05)
dense3 = Dense(16,activation='tanh')
dense3_output = dense3(dense2_output)
drop_out5 = Dropout(0.05)
dense4 = Dense(1,activation='tanh')
dense4_output = dense4(dense3_output)
model = Model(inputs=[encoder_inputs,external_features], outputs=dense4_output)
model.compile(loss='mse', optimizer='adam')
## fit network
input_list = []
input_list.append(train_X)
input_list.append(temp_train)
history = model.fit(input_list, train_y, epochs=1000, batch_size=10, validation_data=([test_X,temp_test], test_y), verbose=2,shuffle=False)
3.3实验结果
我们用LSTM模型和这个模型分别来预测我们的数据,我们使用前15024个小时的数据作为我们的训练集合,剩下3024个小时的数据作为我们的验证集,实验结果如图五(LSTM模型)和图六(论文模型)下:
图五:LSTM模型预测情况
图六:上述模型预测情况
我们可以看到很明显的看到,LSTM模型预测的效果明显没有该篇文章所展示的论文模型效果好,尤其在峰值预测的时候更为明显,我们所展示的模型近乎完全拟合了。
4.总结
这篇文章展示了一种用于Uber不确定性估计的端到端神经网络结构。利用MC dropout和固有噪声估计,给出了一种为神经网络预测提供不确定性估计的简单方法,它覆盖率大部分的不确定性因素。这个框架的一个关键特性在于它不用修改底层架构的情况下适用于任何神经网络。
用这种提出的不确定性估计方法来对特殊事件(如假日,体育赛事,天气等等)的不确定度进行了估计,提高了异常检测的精度。对于一些高不确定性事件中,我们可以对内部异常检测模型的置信区间进行调整,准确度能相应的提升,这有时可以为实际运营带来很大的提升。