【回归】回归分析中的假定:什么假定?为什么要满足?(为什么会违背?)违背假定的后果?怎样检验?如何改 ...

论坛 期权论坛 编程之家     
选择匿名的用户   2021-6-1 01:54   262   0

1. 回归方程的假定是什么?

大前提:回归分析模型是正确设立的,具有可解释的经济意义(即模型是通过研究经济理论、选择变量及函数、收集整理统计数据而建立的)。

(1)y 与 x 线性关系

(2)重复抽样中,x 是非随机的(固定的,因为“原因明确”),但 y 是随机的。

(3)对随机误差项 ξi 的假定:零均值、同方差、不相关(即不自相关)

Eξi=0;Cov(ξi,ξi)=σ^2;Cov(ξi,ξj)=0(i≠j)

(4)随机误差项满足正态分布, ξi ~ N(0, σ^2)

(5)xi 与 ξi 间不相关(即 xi 是外生性变量),Cov(xi,ξi)=0

(6)对于多元还需要:不存在完全的多重共线性

1.1 其中,高斯-马尔可夫条件是什么?

该条件即上述的假定(3),源于高斯-马尔可夫定理,首先说这个定理。

【高斯-马尔可夫定理】在给定经典线性回归的假定下,回归系数的最佳线性无偏估计量就是最小二乘估计(OLS)量。称此时的 OLS 量满足BLUE(Best Linear Unbiased Estimators 最佳线性无偏估计)性质,最佳指方差最小(即估计量的有效性)。

这个定理有什么用?它给我们提供了一个特定条件下寻找BLUE估计量的方法,也就是说如果一个线性回归方程满足某些假定,此时的最小二乘估计量就是最佳线性无偏估计量,不可能找到一个更优的线性无偏估计量,因为这已经是方差最小的情况了。所以我们喜欢研究那些满足该定理中的假定的问题。

这个定理中的内容是什么红色标注内容)?

  假设(线性方程

  Y_i=\beta_0+\beta_1 x_i+\varepsilon_i。(i = 1……n)

  其中β0和β1是非随机且未观测到的参数,xi 是观测到的非随机变量,εi是随机误差项,Yi是随机变量。(xi非随机,yi是随机抽样而得的

  高斯-马尔可夫定理的条件是:(该条件均是对随机误差项的假定!!)

  {\rm E}\left(\varepsilon_i\right)=0,零均值

  {\rm var}\left(\varepsilon_i\right)=\sigma^2<\infty,同方差

  {\rm cov}\left(\varepsilon_i,\varepsilon_j\right)=0i\not=j (不相关)

  βi的线性无偏估计指的是E{x'e}=0使得E{b}=β(待更)

👉高斯-马尔可夫定理

与高斯-马尔可夫条件有什么关系?

从定理的内容可以发现,前两条是对研究问题的界定,即研究的是一元线性回归方程问题,而回归分析本来就要求是非随机自变量、随机因变量。所以如果我们已知研究一元线性回归模型,那么误差项不需要假定为正态分布,只需要满足高斯-马尔可夫条件即可(满足稍弱的条件)。


下面从以下几个方面逐一分析假定:假定是什么?为什么要满足?(或不满足的后果是什么)怎么检验假定?不满足时如何改进?(下面直接用what,why,how,do代替了,方便打字。)


2. 模型建立正确

what?模型建立正确是进一步研究分析模型的基础,这是大前提,严格说不属于假设,不过很重要。

why?第一,在做回归分析前,需要先做相关分析。即使是不相关的杂乱无章的数据,也可以求得回归方程,但是是否显著、是否有意义就未知,所以需要先确保存在相关才能进行回归分析。第二,需要考虑经济意义,通过研究经济理论、选择合理的变量及函数、收集整理统计数据而建立的。因为回归分析结果和检验结果只有统计意义,不表示在实际意义。比如某人的身高和某棵树的高度,都是逐年增加的,可能会存在相关关系及回归方程的显著,但是这两个变量从常识上来看也许具有相关关系,但是不具有因果关系,不能说因为我长高导致了树的长高,这样没有现实意义。所以,一个结果显著的回归分析能否说自变量x和自变量y之间就一定存在某种显著关系,还要看实际意义,统计只是帮助分析的工具。

how?经济理论、选择哪些有意义的变量,是在建立模型时需要考虑的问题,如果不满足则没有分析的必要。

可检验的是① 相关分析:求样本相关系数并对其进行显著性检验(t 检验);② 模型的拟合优度,也即样本回归线对样本观察数据拟合的程度,可用两个统计量的大小衡量,分别为,判定系数R^2(或调整的多重判定系数Ra^2)、估计标准误差Se。

3. 线性关系

what?线性关系是给了x对y影响形式做了一个界定,认为这种影响是线性的,指每变动1单位的x时,y平均变动β(回归系数,是常数)单位。

why?这使得该方程具有比较简单的形式,此时误差函数始终是凸函数,找到它的极值(最小方差点)是比较容易的,所以总可以得到最优参数,再去估计、预测该问题的除了样本观察值以外的数据点。但是如果不满足,会导致很大的泛化误差

注:泛化误差,用来刻画一个机器学习方法的泛化能力(用该方法学习到的模型对未知数据的预测能力)。泛化误差就是所学习到的模型的期望风险,可理解为,这个模型去估计、预测未知数据时的偏差程度。也就是说如果不满足线性关系,很可能预测其他未知数据时就有很大误差,因为使用了错误的线性模型。

凸函数👉什么是“线性”回归模型

其实“线性方程”有两层含义,该函数不仅与自变量x成线性关系(x是一次的),而且与参数a、b成线性关系(参数是一次的)。但是我们回归分析的假设仅仅是针对y与x间的线性关系,而计量经济学中多针对的是参数线性,具体区别见下面的文章。

参数线性👉计量经济学中,关于“线性”概念

最小二乘估计量的性质包括线性、无偏、最小方差,证明了系数是 Yi 的线性组合,也是 ξi 的线性组合(这是估计量的线性特性,注意区分)。证明线性时用到了∑ei=0(残差和);证明无偏用到了 xi 是外生性变量所以E(xi·ξi)=Exi·Eξi,以及Eξi=0;证明最小方差用到了正态性假定及G-M定理。

最小二乘的估计性质解析证明了各性质(但没说系数与 ξi),以及小样本时要研究一致性、渐近无偏性、渐近有效性,研究了参数估计量的概率分布,随机误差项方差的估计。

泛化误差👉回归分析的五个基本假设,翻译自Going Deeper into Regression Analysis with Assumptions, Plots & Solutions

how?F检验、t检验(待更

4. x 非随机,y 随机

what?该假定是研究回归问题时对变量的要求,可通过观察研究问题得知,如果不满足,则不能选用回归分析研究。

5. 误差项零均值

why?此时,β0 和 β1 都是常数,有 E(β0)=β0,E(β0)=β0,则对于给定的x值,E(y)=β0+β1x,也即假定模型的形式为一条直线。

how?无需检验,对序列中心化处理即可,或者说把误差中的常数值放到回归函数的其他部分里。

6. 误差项同方差-未完

what?对所有x,误差项的方差都相同,为一个常数σ^2。对每一个x,ξi 均满足均值为0的正态分布,异方差表示 ξi 围绕均值0的分散程度不同(即对于不同的x,随机误差项不同)。

why出现异方差?

  • ① 模型中省略的解释变量有着差异性的影响,该影响被包含在 ξi 中,剔除变量消除共线性时应注意;
  • ② 模型函数形式设定错误,如非线性设定为线性;
  • ③ 测量误差,因为自变量取值越大,测量误差越大,且随时间变化,技术和仪器也不同;
  • ④ 截面数据中总体各单位的差异。

异方差后果?

  • ① OLS估计不具有有效性,虽然是无偏的,但不是最小方差线性无偏估计;
  • ② 参数的显著性检验失效,置信区间不可靠,本应该接受的H0被错误拒绝,即本来不重要的解释变量被错误地保留;
  • ③ 回归方程应用效果不好。

how?检验思路:检验 ξi 的异方差性,就是检验 ξi 的方差与解释变量观测值 xi 间的相关性及相关的“形式”。如何表示方差:采用OLS法估计模型,求得 ξi 的估计量,用 \hat{e_i} 表示。e_i=Y_i-(\hat{Y_i})_{OSL},用 Var(\hat{\varepsilon _i})=E(\varepsilon _i^{2})\approx \tilde{e_{i}}^2 表示随机误差项的方差。

《异方差的检验》:https://wenku.baidu.com/view/c2116d21866fb84ae45c8d9e.html

do?处理:

①加权最小二乘法

7. 误差项不相关

8. 误差项正态分布

9. 不存在多重共线性

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP