在高方差时段(如节假日和体育赛事等等)准确的预测交通量,对于异常检测、资源分配、预算规划和其他相关的任务都是至关重要,这些任务有助于网约车大规模优化用户体验,然而,预测这些变量极具挑战性,因为这种极端事件预测取决于天气、城市人口增长和其他导致预测不确定性的外部因素。
近几年来,长短期记忆网络技术以其端到端建模,易于映入外生变量和自动特征抽取的特点,成为了一种流行的时间序列建模框架。LSTM 方法利用多个维度的大量数据,可以对复杂的非线性特征相互作用进行建模,这对于预测极端事件是至关重要的。
在 Lingxue Zhu 和 Nikolay Laptev 发表在 IEEE 的一篇论文Deep and Confident Prediction for Time Series at Uber中,介绍一种新的端到端贝叶斯神经网络( BNN )结构,它能在大规模的情况下更精准地预测时间序列结果和不确定性预测。
首先,我们用函数
然后,我们进一步数据生成分布定为
接着,给定 N 个观测值
其中,方差量化了预测的不确定性,可以用总方差定律进行分解:
对于上述分解公式的一个基本假设是
模型不确定性估计的关键就是后验分布
具体算法如下:给定一个新的输入
接下来,我们要通过 BNN 模型去解决潜在的模型错误识别的问题。我们解决这一问题的方法是,在训练数据集中去预测那些具有完全不同模式的未知样本时获取的不确定性,和通过训练一个从时间序列中自动抽取代表性特征编码器来确定这种不确定性的来源。在测试时,每一个样本的编码效果都将会有助于计算样本集与训练集之间的距离。
计算它们之间距离的另一种方式是,使用一个 encoder-decoder 框架为所有训练集的时间序列拟合出一个潜在的 embedding 空间。这样,我们就可以在这个 embedding 空间来测量测试样本和训练样本之间的距离。
接下来,我们需要解决的问题就是如何将这种错误识别和模型不确定性结合起来。在这里,我们采用了一个方法是,将 encoder-decoder 网络与一个预测网络连接起来,在推理时将其是为一个大网络,算法如图一所示:
图一:用 MC dropout 算法来近似模型的不确定性和模型的错误识别
上述算法 1 使用 MC dropout 算法展示了这样一个推理网络。具体来说,给定一个输入时间序列
在这个前馈过程中,MC dropout 应用于 encoder 和预测网络的所有层。所以,encoder 层重的随机抛弃会智能地去干扰 embedding 空间中的输入,从而导致潜在的模型错误识别,并且通过预测网络进一步传播。
最后,我们来估计一下固有的噪声
注意
我们的 BNN 模型最终的推理算法结合了固有噪声估计和 MC dropout,算法 2 给出了最终的推理算法,如图二所示:
图二:推理算法结合了固有噪声估计和 MC dropout 算法
该论文中的实验结果,是以 lstm 网络+全连接为基础产生的。该神经网络的完整结构主要包括两部分:( i ) encoder-decoder 框架,用于得到时间序列中的自有关系,并且在预训练期间就学习好( ii )预测网络,他的输入来自于 encoder-decoder 框架所学习到 embedding 层以及潜在的外部特性(如天气事件等)。这个鲁棒的体系结构如下图三所示:
图三:完整的体系结构
在拟合预测模型之前,我们首先要进行预训练,以拟合出一个能够从时间序列中抽取有用且具有代表性的 embedding 的 encoder。其目标有两个方向:( i )确保所学习的 embedding 为预测提供有用的特征;( ii )证明可以在 embedding 中捕获异常输入,从而进一步传播到预测网络中。
这里我们从 kaggle 上找到数据集NYC Uber Pickups with Weather and Holidays,这个数据集有很多我们需要的特征,但是我们还是需要对其处理一下,把区域字段合并,将节假日字段改为 0-1 数字表示,合并出来的数据如图四所示:
图四:处理过后的实验数据
由于要使用 LSTM 网络作为一个 encoder-decoder 框架,所以我们将上述处理之后的数据读出成时序数据,然后在将其转化为监督问题数据。
参考代码:
def series_to_supervised(data, n_in=1, n_out=1, dropnan=True):
n_vars = 1 if type(data) is list else data.shape[1]
df = pd.DataFrame(data)
cols, names = list(), list()
# input sequence (t-n, ... t-1)
for i in range(n_in, 0, -1):
cols.append(df.shift(i))
names += [('var%d(t-%d)' % (j+1, i)) for j in range(n_vars)]
# forecast sequence (t, t+1, ... t+n)
for i in range(0, n_out):
cols.append(df.shift(-i))
if i == 0:
names += [('var%d(t)' % (j+1)) for j in range(n_vars)]
else:
names += [('var%d(t+%d)' % (j+1, i)) for j in range(n_vars)]
# put it all together
agg = pd.concat(cols, axis=1)
agg.columns = names
# drop rows with NaN values
if dropnan:
agg.dropna(inplace=True)
return agg
给定一个时间序列
在对 encoder-decoder 结构预处理之后,我们就将这个结构作为一个能智能提取特征的黑盒。具体来说,LSTM 节点状态被抽取为固定维度的 embedding 向量。然后,用这个 embedding 向量作为特征来训练模型去预测接下里几个时间段的数据。在外部特性可用的场景中,可以将这些特性连接到 embedding 向量并一起传递到最终的预测网络。
有两个超参数需要被特别说明一下:丢弃率_P和迭代次数B。对于丢弃率来说,不确定性估计在一系列P上相对稳定,所以我们要选择一个在验证集上表现的最好的一个P_。对于迭代次数来说,估计的预测不确定性的标准差是与
该模型的 encoder-decoder 框架是由两层 LSTM 单元构成,分别包含 128 和 32 个隐状态,预测网络由三个全连接层组成,分别包含 128、64 和 16 个隐藏单元。我们的输入样本是使用一个滑动窗口构成的,其中每个样本都是以前 15 个小时作为输入,来预测未来一小时的数据。并且对原始数据进行 MinMaxScaler 标准化,把数据放缩到 0 ~ 1 之间,以减轻指数效应。
参考代码:
encoder_inputs = Input(shape=(train_X.shape[1], train_X.shape[2]))
encoder_lstm1 = LSTM((128), return_state=True,return_sequences=True)
encoder_outputs1, state_h1, state_c1 = encoder_lstm1(encoder_inputs)
drop_out1 = Dropout(0.05)
encoder_lstm2 = LSTM((64), return_state=True,return_sequences=False)
encoder_outputs2, state_h2, state_c2 = encoder_lstm2(encoder_outputs1)
drop_out2 = Dropout(0.05)
external_features = Input(shape=(6,))
print(external_features)
dense1 = Dense(128,activation='tanh')
temp = Concatenate(axis=1)([state_c2,external_features])
dense1_output = dense1(temp)
drop_out3 = Dropout(0.05)
dense2 = Dense(64,activation='tanh')
dense2_output = dense2(dense1_output)
drop_out4 = Dropout(0.05)
dense3 = Dense(16,activation='tanh')
dense3_output = dense3(dense2_output)
drop_out5 = Dropout(0.05)
dense4 = Dense(1,activation='tanh')
dense4_output = dense4(dense3_output)
model = Model(inputs=[encoder_inputs,external_features], outputs=dense4_output)
model.compile(loss='mse', optimizer='adam')
## fit network
input_list = []
input_list.append(train_X)
input_list.append(temp_train)
history = model.fit(input_list, train_y, epochs=1000, batch_size=10, validation_data=([test_X,temp_test], test_y), verbose=2,shuffle=False)
我们用 LSTM 模型和这个模型分别来预测我们的数据,我们使用前 15024 个小时的数据作为我们的训练集合,剩下 3024 个小时的数据作为我们的验证集,实验结果如图五( LSTM 模型)和图六(论文模型)下:
图五:LSTM 模型预测情况
图六:上述模型预测情况
我们可以看到很明显的看到,LSTM 模型预测的效果明显没有该篇文章所展示的论文模型效果好,尤其在峰值预测的时候更为明显,我们所展示的模型近乎完全拟合了。
这篇文章展示了一种用于 Uber 不确定性估计的端到端神经网络结构。利用 MC dropout 和固有噪声估计,给出了一种为神经网络预测提供不确定性估计的简单方法,它覆盖率大部分的不确定性因素。这个框架的一个关键特性在于它不用修改底层架构的情况下适用于任何神经网络。
用这种提出的不确定性估计方法来对特殊事件(如假日,体育赛事,天气等等)的不确定度进行了估计,提高了异常检测的精度。对于一些高不确定性事件中,我们可以对内部异常检测模型的置信区间进行调整,准确度能相应的提升,这有时可以为实际运营带来很大的提升。
项目源码地址:https://momodel.cn/explore/5d3fb3121afd943289223b91?&tab=1&type=app
论文:Deep and Confident Prediction for Time Series at Uber
论文:Long short-term memory
博客:Engineering Uncertainty Estimation in Neural Networks for Time Series Prediction at Uber
论文:Learning phrase representations
using rnn encoder-decoder for statistical machine translation
博客:深度学习如何估计模型不确定性(epistemic uncertainty)
Mo(网址:momodel.cn)是一个支持 Python 的人工智能在线建模平台,能帮助你快速开发、训练并部署模型。
Mo 人工智能俱乐部 是由网站的研发与产品设计团队发起、致力于降低人工智能开发与使用门槛的俱乐部。团队具备大数据处理分析、可视化与数据建模经验,已承担多领域智能项目,具备从底层到前端的全线设计开发能力。主要研究方向为大数据管理分析与人工智能技术,并以此来促进数据驱动的科学研究。
目前俱乐部每周六在杭州举办以机器学习为主题的线下技术沙龙活动,不定期进行论文分享与学术交流。希望能汇聚来自各行各业对人工智能感兴趣的朋友,不断交流共同成长,推动人工智能民主化、应用普及化。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.