随机游走序列平稳吗_【问答】时间序列系列（一）—— 平稳序列

编写：果壳屋

什么是平稳/非平稳序列？ 如果时间的变化不会导致分布的变化——我们谈论的是分布统计属性，如均值、方差和协方差——我们就把时间序列称为为平稳的(stationary)。这并不意味着序列不会随时间而变化，只是它的变化方式本身不会随时间而变化。平稳的时间序列的类型如下：

严平稳(strict stationary)：任何阶的矩(moment)(例如均值、方差、三阶以及更高阶的矩)的联合分布不取决于时间。第一个例子，均值随时间而增加，时间序列存在上升趋势。第二个例子，序列不包含任何趋势，但数据的方差确实差异很大，因此这也不具有非静止性。第三个例子，则随着时间的增加，分布会逐渐收窄，这意味着协方差是时间的函数。从严平稳的角度，这三个例子都不是平稳时间序列。实际上，这个定义太严格了，不能用于实际模型。
一阶平稳(first-order stationary)：序列的均值永不随着时间而变化，而其他阶的矩，如方差可以改变。
二阶(或弱)平稳(second-order/weak stationary)：序列具有恒定的均值、方差和自协方差(autocovariance)，其他阶的矩可以随着时间的推移而自由变化。

非平稳(non-stationary)的定义是，如果时间序列的统计属性随时间而变化，那么时间序列是非平稳的。大多数真实数据集是不平稳的。有时这是一件好事，如果你的目标是找到导致数据不平稳的原因，但大多数时候，这些原因是次要的，而它们会影响你的工作。破坏平稳性的最常见原因是均值趋势，而均值趋势的变化又是由单位根(unit root)的出现或固定趋势的存在。趋势平稳模型(trend-stationary model)中，数据围绕确定性趋势(序列均值)波动。这些确定性趋势可以是线性的或是二次的，但波动的幅度(一个振荡的高度)在整个系列中既不增加也不减小。差值平稳模型(difference-stationary model)是需要一个或多个差分才能成为平稳模型。例如，对股票市场数据等财务数据进行差分处理。大多数统计预测方法都基于时间序列大致为平稳的假设。平稳序列相对容易预测，因为预测结果的统计属性与过去数据的统计属性相同。非平稳数据通常不可预知、无法建模。但是，如果可以删除和隔离导致不平稳的因素，则可以通过使序列平稳来进行预测。对差值平稳数据进行预测，则应首先转换为趋势平稳数据(例如通过趋势去除)，以便对去趋势的平稳数据进行进一步的统计分析。这是因为，例如，如果序列随着时间的推移而持续增加，样本均值和方差将随着样本的大小而增长，并且它们始终会低估未来期间中的均值和方差。序列"去趋势"(de-trending)通常是指拟合回归线，然后从原始数据中减去它。 随机行走与非固定时间序列相同吗？ 随机行走是非平稳的。但并非所有非平稳过程都是随机行走。非平稳时间序列的均值和/或方差不是固定的。考虑下面的例子：

其中

是白噪声：

，

。 1. 非平稳纯随机游走 对于上面的式子，如果

、

和

，那么模型变为：

这是纯粹的随机游走和非平稳。为什么是非平稳的？做如下推演：

得到：

因此

，

，方差是时间的函数，序列是非平稳的。下图显示了这样一个过程如何随着时间的推移而演变的示例：

(图片来自： https://tamino.wordpress.com/2010/03/11/not-a-random-walk/ ) 2. 非平稳和带漂移的随机游走 如果

、

和

，那么模型成为：

这是带漂移的随机游走和非平稳。用上面的推演方法可以推出均值和方差随时间增长，是非平稳的。这样的过程可以看起来像：

(图片来自：https://tamino.wordpress.com/2010/03/11/not-a-random-walk/) 3. 非平稳，但不是随机游走 如果

、

和

，那么模型成为：

这个模型完全是时间的函数，是随时间上升还是下降取决于 b 取正或负。由于 t 的存在，这个模型也是非平稳的——随着样本量的增加，其均值和方差将不断增加。这样的序列如下图(英国多年来的名义 GDP)：

(图像由 ONS 提供) 为什么机器学习算法不能处理非静止数据？ 非平稳表示序列在不同时间具有不同统计属性，而大多数机器学习算法都是基于统计构建的，它们假定训练和测试数据都来自同一分布。这就是为什么如果过去收集的数据与我们现在的统计数据不同，它们不起作用的原因。