
编写:果壳屋
什么是平稳/非平稳序列?
如果时间的变化不会导致分布的变化——我们谈论的是分布统计属性,如均值、方差和协方差——我们就把时间序列称为为平稳的(stationary)。这并不意味着序列不会随时间而变化,只是它的变化方式本身不会随时间而变化。平稳的时间序列的类型如下:
严平稳(strict stationary):任何阶的矩(moment)(例如均值、方差、三阶以及更高阶的矩)的联合分布不取决于时间。第一个例子,均值随时间而增加,时间序列存在上升趋势。第二个例子,序列不包含任何趋势,但数据的方差确实差异很大,因此这也不具有非静止性。第三个例子,则随着时间的增加,分布会逐渐收窄,这意味着协方差是时间的函数。从严平稳的角度,这三个例子都不是平稳时间序列。实际上,这个定义太严格了,不能用于实际模型。
一阶平稳(first-order stationary):序列的均值永不随着时间而变化,而其他阶的矩,如方差可以改变。
二阶(或弱)平稳(second-order/weak stationary):序列具有恒定的均值、方差和自协方差(autocovariance),其他阶的矩可以随着时间的推移而自由变化。
非平稳(non-stationary)的定义是,如果时间序列的统计属性随时间而变化,那么时间序列是非平稳的。大多数真实数据集是不平稳的。有时这是一件好事,如果你的目标是找到导致数据不平稳的原因,但大多数时候,这些原因是次要的,而它们会影响你的工作。
破坏平稳性的最常见原因是均值趋势,而均值趋势的变化又是由单位根(unit root)的出现或固定趋势的存在。趋势平稳模型(trend-stationary model)中,数据围绕确定性趋势(序列均值)波动。这些确定性趋势可以是线性的或是二次的,但波动的幅度(一个振荡的高度)在整个系列中既不增加也不减小。差值平稳模型(difference-stationary model)是需要一个或多个差分才能成为平稳模型。例如,对股票
市场数据等财务数据进行差分处理。
大多数统计预测方法都基于时间序列大致为平稳的假设。平稳序列相对容易预测,因为预测结果的统计属性与过去数据的统计属性相同。非平稳数据通常不可预知、无法建模。但是,如果可以删除和隔离导致不平稳的因素,则可以通过使序列平稳来进行预测。
对差值平稳数据进行预测,则应首先转换为趋势平稳数据(例如通过趋势去除),以便对去趋势的平稳数据进行进一步的统计分析。这是因为,例如,如果序列随着时间的推移而持续增加,样本均值和方差将随着样本的大小而增长,并且它们始终会低估未来期间中的均值和方差。序列"去趋势"(de-trending)通常是指拟合回归线,然后从原始数据中减去它。
随机行走与非固定时间序列相同吗?
随机行走是非平稳的。但并非所有非平稳过程都是随机行走。非平稳时间序列的均值和/或方差不是固定的。考虑下面的例子:

其中

是白噪声:

,

。
1. 非平稳纯随机游走
对于上面的式子,如果

、

和

,那么模型变为:

这是纯粹的随机游走和非平稳。为什么是非平稳的?做如下推演:

得到:

因此

,

,方差是时间的函数,序列是非平稳的。
下图显示了这样一个过程如何随着时间的推移而演变的示例:

(图片来自 :
https://tamino.wordpress.com/2010/03/11/not-a-random-walk/
)
2. 非平稳和带漂移的随机游走
如果

、

和

,那么模型成为:

这是带漂移的随机游走和非平稳。
用上面的推演方法可以推出均值和方差随时间增长,是非平稳的。
这样的
过程可以看起来像:

(图片来自 :https://tamino.wordpress.com/2010/03/11/not-a-random-walk/)
3. 非平稳,但不是随机游走
如果

、

和

,那么模型成为:

这个模型完全是时间的函数,是随时间上升还是下降取决于 b
取正或负。
由于 t
的存在,这个模型也是非平稳的——随着样本量的增加,其均值和方差将不断增加。
这样的序列如下图(英国多年来的名义 GDP):

(图像由 ONS 提供)
为什么机器学习算法不能处理非静止数据?
非平稳表示序列在不同时间具有不同统计属性,而大多数机器学习算法都是基于统计构建的,它们假定训练和测试数据都来自同一分布。这就是为什么如果过去收集的数据与我们现在的统计数据不同,它们不起作用的原因。