时间序列和回归分析有什么本质区别?

论坛 期权论坛 知乎     
知乎用户   2019-8-14 01:08   20529   5
转载声明:本文由互联网用户自发贡献,部分转载来源来自知乎(zhihu.com),强烈建议您访问知乎查看完整内容。本社区不拥有所有权,也不承担任何法律责任。如有侵权,请联系optbbs@163.com。一经查实,即刻删除。
觉得时间序列就是不满足样本独立同分布的回归,就是x是上一个样本的y,y是下一个样本的x的回归(AR1,其他类似),解决办法是平稳性遍历性,然后就和样本独立同分布的回归差不多了。不觉得时间序列和回归分析有什么本质区别。
分享到 :
0 人收藏

5 个回复

倒序浏览
2#
热心回应  16级独孤 | 2019-8-14 01:08:37 发帖IP地址来自
两者的核心区别在于对数据的假设:回归分析假设每个数据点都是独立的,而时间序列则是利用数据之间的相关性进行预测。本文会先说明两者对数据的具体假设差异,再说明AR模型为什么虽然看上去像回归分析但还是有差别,最后也提到一个常见的混淆两者后在金融方向可能出现的问题。
[h1]回归分析对数据的假设:独立性[/h1]在回归分析中,我们假设数据是相互独立的。这种独立性体现在两个方面:一方面,自变量(X)是固定的,已被观测到的值,另一方面,每个因变量(y)的误差项是独立同分布,对于线性回归模型来说,误差项是独立同分布的正态分布,并且满足均值为0,方差恒定。
这种数据的独立性的具体表现就是:在回归分析中,数据顺序可以任意交换。在建模的时候,你可以随机选取数据循序进行模型训练,也可以随机选取一部分数据进行训练集和验证集的拆分。也正因为如此,在验证集中,每个预测值的误差都是相对恒定的:不会存在误差的积累,导致预测准确度越来越低。
[h1]时间序列对数据的假设:相关性[/h1]但对于时间序列分析而言,我们必须假设而且利用数据的相关性。核心的原因是我们没有其他任何的外部数据,只能利用现有的数据走向来预测未来。因此,我们需要假设每个数据点之间有相关性,并且通过建模找到对应的相关性,利用它去预测未来的数据走向。这也是为什么经典的时间序列分析(ARIMA)会用ACF(自相关系数)和PACF(偏自相关系数)来观察数据之间的相关性。

ACF和PACF分别用两种方式衡量数据点与数据点之间的相关性时间序列对相关性的假设直接违背了回归分析的独立性假设。在多段时间序列预测中,一方面,对于未来预测的自变量可能无法真实的观察到,另一方面,随着预测越来越远,误差会逐渐积累:你对于长远未来的预测应该会比近期预测更不确定。因此,时间序列分析需要采用一种完全不同的视角,用不同的模型去进行分析研究。
[h1]AR模型和线性回归模型的“相似”和区别[/h1]时间序列分析中一个基础模型就是AR(Auto-Regressive)模型。它利用过去的数据点来预测未来。举例而言,AR(1)模型利用当前时刻的数据点预测未来的值,它们的数学关系可以被表示为:

它的表达形式的确和线性回归模型非常类似,甚至连一般的AR(n)模型都和线性回归有很高的相似性。唯一的差别就是等式右边的自变量(X)变成了过去的因变量(y)

而正是因为这一点微小的差异,导致两者的解完全不同。在AR模型中,由于模型自变量成为了过去的因变量,使得自变量与过去的误差之间有相关性。而这种相关性使得利用线性模型得到的AR模型的解会是有偏估计(biased)。
对于上述结论的实际证明需要引入过多的概念。在此我们只对AR(1)模型作为一个特例来分析。不失一般性,我们可以通过平移数据将AR(1)模型表示成如下的形式:

对于这类模型,线性回归会给出以下的估计值:

对于一般的线性回归模型而言,由于所有的自变量都会被视为已经观测到的真实值。所以当我们取均值的时候,我们可以把分母当作已知,通过过去观测值和未来误差无关的性质得到无偏的结论。

但是在时间序列下就无法得到无偏的兴致了,因为分子分母会互相干扰。因为自变量无法被视为已知,而且未来的观察值会与过去的误差项相互联系。因此,相关性使得利用线性模型得到的AR模型的解会是有偏估计(biased)。
更直观的数据模拟也可以说明这个问题[sup][1][/sup]。如下图所示,左边是当参数真是值为0.9时通过数据模拟作出的平均值,可以看到真实值(黑线)和模拟值(红线)有一定的差距,但随着数据量的增大,差距在逐渐的缩小。右边是真正参数不同的时候,偏差的大小。可以看到,它们的误差一直存在,但是随着数据量的增加,误差逐渐变小。

利用回归模型预测AR模型的数据模拟结果:参数估计会是有偏估计事实上,我们会用线性回归模型去近似求解AR模型。因为虽然结果会是有偏的,但是却是一致估计。也就是说,当数据量足够大的时候,求解的值会收敛于真实值。这里就不再做展开了。
[h1]忽视独立性的后果:金融方向的常见错误[/h1]希望看到这里你已经弄懂了为什么不能混淆模型的假设:尤其是独立性或相关性的假设。接下来我会说一个我见过的因为混淆假设导致的金融方向的错误
随着机器学习的发展,很多人希望能够将机器学习和金融市场结合起来。利用数据建模来对股票价格进行预测。他们会用传统的机器学习方法将得到的数据随机的分配成训练集和测试集。利用训练集训练模型去预测股票涨跌的概率(涨或跌的二维分类问题)。然后当他们去将模型应用到测试集时,他们发现模型的表现非常优秀——能够达到80~90%的准确度。但是在实际应用中却没有这么好的表现。
造成这个错误的原因就是他们没有认识到数据是高度相关的。对于时间序列,我们不能通过随机分配去安排训练集和测试集,否则就会出现“利用未来数据”来预测“过去走向”的问题。这个时候,即使你的模型在你的测试集表现出色,也不代表他真的能预测未来股价的走向。
有兴趣的同学可以在留言区讨论对于这种情况我们可以如何合理的假设独立性来创造训练集和测试集。
[h1]总结[/h1]
  • 时间序列和回归分析的主要区别在于对数据的假设:回归分析假设每个数据点都是独立的,而时间序列则是利用数据之间的相关性进行预测。
  • 虽然线性回归和AR模型看上去有很大的相似性。但由于缺失了独立性,利用线性回归求解的AR模型参数会是有偏的。但又由于这个解是一致的,所以在实际运用中还是利用线性回归来近似AR模型。
  • 忽视或假设数据的独立性很可能会造成模型的失效。金融市场的预测的建模尤其需要注意这一点。
3#
热心回应  16级独孤 | 2019-8-14 01:08:38 发帖IP地址来自
数据科学里面的分支,可以按数据结构描述(如面板数据,时间序列,图像数据等等),也可按分析工具来分类(如回归分析,贝叶斯方法,广义线性模型,机器学习etc)。时间序列属于前者,回归分析属于后者。分类方法不同,有交集是很正常的。
时间序列数据的特征是:a) 自相关性(线形or非线性);b) 不可交换性(样本顺序不能交换)。满足这两个条件的都可以称之为时间序列数据。而“时间序列分析”是指能够应用在时间序列上,进行分析和解释的统计学方法。
回归分析是指研究Y的(条件)期望因何种方式到某些因素(包括自身)的影响。由于回归分析的应用场景中最简单的数据结构是可交换独立同分布数据,也是教材中花费最大篇幅讲解的,因此出现了把“独立同分布”等同于“回归分析”的状况。事实上,回归分析是广泛应用在时间序列建模上的。
另外,时间序列里除了回归方法以外,还研究很多其他的问题,如响应变量的二阶矩变化(arch model),连续时间模型的估计( processes),隐变量模型的估计(HMM),滤波与平滑等等。
因此,时间序列不能等同于回归分析。
4#
热心回应  16级独孤 | 2019-8-14 01:08:39 发帖IP地址来自
时间序列分析就是回归分析,只不过时间序列分析很特殊,所以就单独作为一个课题来讲。
5#
热心回应  16级独孤 | 2019-8-14 01:08:40 发帖IP地址来自
朋友,你说的独立性是指是“残差的独立性”,且在时间序列算法上这一点跟“残差平方最小化”一样重要。
因为如果(y_t,y_t-1...)存在自相关性,我们通过选择合适的f(y_t-1,y_t-2...)方程后算出y_t的期望值,并算得剩余的残差实现了独立性,那么就说明y的时间序列自相关性都可以由该f方程解释并预测。
例如一只股票的涨跌波动,你算准了该股每天的期望值和残差,且残差自相关为0(也就是独立),那就会极少出现连续几天都是“股价观测值”大于(或小于)“股价估计值”,于是你就可以更容易把我股票涨跌概率。
所以统计学和经济金融的时间序列算法关注的并不仅仅是预测值,而是残差和预测值的概率分布。
6#
热心回应  16级独孤 | 2019-8-14 01:08:41 发帖IP地址来自
时间序列分析就是有顺序样本的回归分析。又因为有顺序,可以把老样本当一个自变量对新样本做预测,这就是自回归。分析到底放几个临近的老样本也是一个技术活,这就是分析是几阶自回归。如果每个样本的期望不是0,那么还应该再加入其他的自变量进行回归,这时候老样本放进去对新样本做回归的时候要减去老样本的均值估计。等等。我不是做金融的,一般统计里面没有单独分析时间序列,都是分析纵向数据。就是即有不同的个体,还有每个个体的重复测量。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:182358
帖子:1746
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP