【回归】回归分析中的假定：什么假定？为什么要满足？（为什么会违背？）违背假定的后果？怎样检验？如何改 ...

1. 回归方程的假定是什么？

大前提：回归分析模型是正确设立的，具有可解释的经济意义（即模型是通过研究经济理论、选择变量及函数、收集整理统计数据而建立的）。

（1）y 与 x 线性关系

（2）重复抽样中，x 是非随机的（固定的，因为“原因明确”），但 y 是随机的。

（3）对随机误差项 ξi 的假定：零均值、同方差、不相关（即不自相关）

Eξi=0；Cov(ξi，ξi)=σ^2；Cov(ξi，ξj)=0（i≠j）

（4）随机误差项满足正态分布， ξi ~ N(0, σ^2)

（5）xi 与 ξi 间不相关（即 xi 是外生性变量），Cov(xi，ξi)=0

（6）对于多元还需要：不存在完全的多重共线性

1.1 其中，高斯-马尔可夫条件是什么？

该条件即上述的假定（3），源于高斯-马尔可夫定理，首先说这个定理。

【高斯-马尔可夫定理】在给定经典线性回归的假定下，回归系数的最佳线性无偏估计量就是最小二乘估计(OLS)量。称此时的 OLS 量满足BLUE(Best Linear Unbiased Estimators 最佳线性无偏估计)性质，最佳指方差最小（即估计量的有效性）。

这个定理有什么用？它给我们提供了一个特定条件下寻找BLUE估计量的方法，也就是说如果一个线性回归方程满足某些假定，此时的最小二乘估计量就是最佳线性无偏估计量，不可能找到一个更优的线性无偏估计量，因为这已经是方差最小的情况了。所以我们喜欢研究那些满足该定理中的假定的问题。

这个定理中的内容是什么（红色标注内容）？

　　假设（线性方程）

　　 $Y_i=\beta_0+\beta_1 x_i+\varepsilon_i$ 。（i = 1……n）

　　其中β0和β1是非随机且未观测到的参数，xi 是观测到的非随机变量，εi是随机误差项，Yi是随机变量。（xi非随机，yi是随机抽样而得的）

　　高斯－马尔可夫定理的条件是：（该条件均是对随机误差项的假定！！）

　　 ${\rm E}\left(\varepsilon_i\right)=0,$ （零均值）

　　 ${\rm var}\left(\varepsilon_i\right)=\sigma^2<\infty,$ （同方差）

　　 ${\rm cov}\left(\varepsilon_i,\varepsilon_j\right)=0$ ， $i\not=j$ (不相关)

　　βi的线性无偏估计指的是E{x'e}=0使得E{b}=β(待更)

👉《高斯－马尔可夫定理》

与高斯-马尔可夫条件有什么关系？

从定理的内容可以发现，前两条是对研究问题的界定，即研究的是一元线性回归方程问题，而回归分析本来就要求是非随机自变量、随机因变量。所以如果我们已知研究一元线性回归模型，那么误差项不需要假定为正态分布，只需要满足高斯-马尔可夫条件即可（满足稍弱的条件）。

下面从以下几个方面逐一分析假定：假定是什么？为什么要满足？（或不满足的后果是什么）怎么检验假定？不满足时如何改进？（下面直接用what，why，how，do代替了，方便打字。）

2. 模型建立正确

what？模型建立正确是进一步研究分析模型的基础，这是大前提，严格说不属于假设，不过很重要。

why？第一，在做回归分析前，需要先做相关分析。即使是不相关的杂乱无章的数据，也可以求得回归方程，但是是否显著、是否有意义就未知，所以需要先确保存在相关才能进行回归分析。第二，需要考虑经济意义，通过研究经济理论、选择合理的变量及函数、收集整理统计数据而建立的。因为回归分析结果和检验结果只有统计意义，不表示在实际意义。比如某人的身高和某棵树的高度，都是逐年增加的，可能会存在相关关系及回归方程的显著，但是这两个变量从常识上来看也许具有相关关系，但是不具有因果关系，不能说因为我长高导致了树的长高，这样没有现实意义。所以，一个结果显著的回归分析能否说自变量x和自变量y之间就一定存在某种显著关系，还要看实际意义，统计只是帮助分析的工具。

how？经济理论、选择哪些有意义的变量，是在建立模型时需要考虑的问题，如果不满足则没有分析的必要。

可检验的是① 相关分析：求样本相关系数并对其进行显著性检验（t 检验）；② 模型的拟合优度，也即样本回归线对样本观察数据拟合的程度，可用两个统计量的大小衡量，分别为，判定系数R^2（或调整的多重判定系数Ra^2）、估计标准误差Se。

3. 线性关系

what？线性关系是给了x对y影响形式做了一个界定，认为这种影响是线性的，指每变动1单位的x时，y平均变动β(回归系数，是常数)单位。

why？这使得该方程具有比较简单的形式，此时误差函数始终是凸函数，找到它的极值（最小方差点）是比较容易的，所以总可以得到最优参数，再去估计、预测该问题的除了样本观察值以外的数据点。但是如果不满足，会导致很大的泛化误差。

注：泛化误差，用来刻画一个机器学习方法的泛化能力（用该方法学习到的模型对未知数据的预测能力）。泛化误差就是所学习到的模型的期望风险，可理解为，这个模型去估计、预测未知数据时的偏差程度。也就是说如果不满足线性关系，很可能预测其他未知数据时就有很大误差，因为使用了错误的线性模型。

凸函数👉《什么是“线性”回归模型》

其实“线性方程”有两层含义，该函数不仅与自变量x成线性关系（x是一次的），而且与参数a、b成线性关系（参数是一次的）。但是我们回归分析的假设仅仅是针对y与x间的线性关系，而计量经济学中多针对的是参数线性，具体区别见下面的文章。

参数线性👉《计量经济学中，关于“线性”概念》

《最小二乘估计量的性质》包括线性、无偏、最小方差，证明了系数是 Yi 的线性组合，也是 ξi 的线性组合（这是估计量的线性特性，注意区分）。证明线性时用到了∑ei=0（残差和）；证明无偏用到了 xi 是外生性变量所以E(xi·ξi)=Exi·Eξi，以及Eξi=0；证明最小方差用到了正态性假定及G-M定理。

《最小二乘的估计性质解析》证明了各性质（但没说系数与 ξi），以及小样本时要研究一致性、渐近无偏性、渐近有效性，研究了参数估计量的概率分布，随机误差项方差的估计。

泛化误差👉《回归分析的五个基本假设》，翻译自《Going Deeper into Regression Analysis with Assumptions, Plots & Solutions》

how？F检验、t检验（待更）

4. x 非随机，y 随机

what？该假定是研究回归问题时对变量的要求，可通过观察研究问题得知，如果不满足，则不能选用回归分析研究。

5. 误差项零均值

why？此时，β0 和 β1 都是常数，有 E(β0)=β0，E(β0)=β0，则对于给定的x值，E(y)=β0+β1x，也即假定模型的形式为一条直线。

how？无需检验，对序列中心化处理即可，或者说把误差中的常数值放到回归函数的其他部分里。

6. 误差项同方差-未完

what？对所有x，误差项的方差都相同，为一个常数σ^2。对每一个x，ξi 均满足均值为0的正态分布，异方差表示 ξi 围绕均值0的分散程度不同（即对于不同的x，随机误差项不同）。

why出现异方差？

① 模型中省略的解释变量有着差异性的影响，该影响被包含在 ξi 中，剔除变量消除共线性时应注意；
② 模型函数形式设定错误，如非线性设定为线性；
③ 测量误差，因为自变量取值越大，测量误差越大，且随时间变化，技术和仪器也不同；
④ 截面数据中总体各单位的差异。

异方差后果？

① OLS估计不具有有效性，虽然是无偏的，但不是最小方差线性无偏估计；
② 参数的显著性检验失效，置信区间不可靠，本应该接受的H0被错误拒绝，即本来不重要的解释变量被错误地保留；
③ 回归方程应用效果不好。

how？检验思路：检验 ξi 的异方差性，就是检验 ξi 的方差与解释变量观测值 xi 间的相关性及相关的“形式”。如何表示方差：采用OLS法估计模型，求得 ξi 的估计量，用 $\hat{e_i}$ 表示。 $e_i=Y_i-(\hat{Y_i})_{OSL}$ ，用 $Var(\hat{\varepsilon _i})=E(\varepsilon _i^{2})\approx \tilde{e_{i}}^2$ 表示随机误差项的方差。