1. 回归方程的假定是什么?
大前提:回归分析模型是正确设立的,具有可解释的经济意义(即模型是通过研究经济理论、选择变量及函数、收集整理统计数据而建立的)。
(1)y 与 x 线性关系
(2)重复抽样中,x 是非随机的(固定的,因为“原因明确”),但 y 是随机的。
(3)对随机误差项 ξi 的假定:零均值、同方差、不相关(即不自相关)
Eξi=0;Cov(ξi,ξi)=σ^2;Cov(ξi,ξj)=0(i≠j)
(4)随机误差项满足正态分布, ξi ~ N(0, σ^2)
(5)xi 与 ξi 间不相关(即 xi 是外生性变量),Cov(xi,ξi)=0
(6)对于多元还需要:不存在完全的多重共线性
1.1 其中,高斯-马尔可夫条件是什么?
该条件即上述的假定(3),源于高斯-马尔可夫定理,首先说这个定理。
【高斯-马尔可夫定理】在给定经典线性回归的假定下,回归系数的最佳线性无偏估计量就是最小二乘估计(OLS)量。称此时的 OLS 量满足BLUE(Best Linear Unbiased Estimators 最佳线性无偏估计)性质,最佳指方差最小(即估计量的有效性)。
这个定理有什么用?它给我们提供了一个特定条件下寻找BLUE估计量的方法,也就是说如果一个线性回归方程满足某些假定,此时的最小二乘估计量就是最佳线性无偏估计量,不可能找到一个更优的线性无偏估计量,因为这已经是方差最小的情况了。所以我们喜欢研究那些满足该定理中的假定的问题。
这个定理中的内容是什么(红色标注内容)?
假设(线性方程)
。(i = 1……n)
其中β0和β1是非随机且未观测到的参数,xi 是观测到的非随机变量,εi是随机误差项,Yi是随机变量。(xi非随机,yi是随机抽样而得的)
高斯-马尔可夫定理的条件是:(该条件均是对随机误差项的假定!!)
(零均值)
(同方差)
, (不相关)
βi的线性无偏估计指的是E{x'e}=0使得E{b}=β(待更)
👉《高斯-马尔可夫定理》
与高斯-马尔可夫条件有什么关系?
从定理的内容可以发现,前两条是对研究问题的界定,即研究的是一元线性回归方程问题,而回归分析本来就要求是非随机自变量、随机因变量。所以如果我们已知研究一元线性回归模型,那么误差项不需要假定为正态分布,只需要满足高斯-马尔可夫条件即可(满足稍弱的条件)。
下面从以下几个方面逐一分析假定:假定是什么?为什么要满足?(或不满足的后果是什么)怎么检验假定?不满足时如何改进?(下面直接用what,why,how,do代替了,方便打字。)
2. 模型建立正确
what?模型建立正确是进一步研究分析模型的基础,这是大前提,严格说不属于假设,不过很重要。
why?第一,在做回归分析前,需要先做相关分析。即使是不相关的杂乱无章的数据,也可以求得回归方程,但是是否显著、是否有意义就未知,所以需要先确保存在相关才能进行回归分析。第二,需要考虑经济意义,通过研究经济理论、选择合理的变量及函数、收集整理统计数据而建立的。因为回归分析结果和检验结果只有统计意义,不表示在实际意义。比如某人的身高和某棵树的高度,都是逐年增加的,可能会存在相关关系及回归方程的显著,但是这两个变量从常识上来看也许具有相关关系,但是不具有因果关系,不能说因为我长高导致了树的长高,这样没有现实意义。所以,一个结果显著的回归分析能否说自变量x和自变量y之间就一定存在某种显著关系,还要看实际意义,统计只是帮助分析的工具。
how?经济理论、选择哪些有意义的变量,是在建立模型时需要考虑的问题,如果不满足则没有分析的必要。
可检验的是① 相关分析:求样本相关系数并对其进行显著性检验(t 检验);② 模型的拟合优度,也即样本回归线对样本观察数据拟合的程度,可用两个统计量的大小衡量,分别为,判定系数R^2(或调整的多重判定系数Ra^2)、估计标准误差Se。
3. 线性关系
what?线性关系是给了x对y影响形式做了一个界定,认为这种影响是线性的,指每变动1单位的x时,y平均变动β(回归系数,是常数)单位。
why?这使得该方程具有比较简单的形式,此时误差函数始终是凸函数,找到它的极值(最小方差点)是比较容易的,所以总可以得到最优参数,再去估计、预测该问题的除了样本观察值以外的数据点。但是如果不满足,会导致很大的泛化误差。
注:泛化误差,用来刻画一个机器学习方法的泛化能力(用该方法学习到的模型对未知数据的预测能力)。泛化误差就是所学习到的模型的期望风险,可理解为,这个模型去估计、预测未知数据时的偏差程度。也就是说如果不满足线性关系,很可能预测其他未知数据时就有很大误差,因为使用了错误的线性模型。
凸函数👉《什么是“线性”回归模型》
其实“线性方程”有两层含义,该函数不仅与自变量x成线性关系(x是一次的),而且与参数a、b成线性关系(参数是一次的)。但是我们回归分析的假设仅仅是针对y与x间的线性关系,而计量经济学中多针对的是参数线性,具体区别见下面的文章。
参数线性👉《计量经济学中,关于“线性”概念》
《最小二乘估计量的性质》包括线性、无偏、最小方差,证明了系数是 Yi 的线性组合,也是 ξi 的线性组合(这是估计量的线性特性,注意区分)。证明线性时用到了∑ei=0(残差和);证明无偏用到了 xi 是外生性变量所以E(xi·ξi)=Exi·Eξi,以及Eξi=0;证明最小方差用到了正态性假定及G-M定理。
《最小二乘的估计性质解析》证明了各性质(但没说系数与 ξi),以及小样本时要研究一致性、渐近无偏性、渐近有效性,研究了参数估计量的概率分布,随机误差项方差的估计。
泛化误差👉《回归分析的五个基本假设》,翻译自《Going Deeper into Regression Analysis with Assumptions, Plots & Solutions》
how?F检验、t检验(待更)
4. x 非随机,y 随机
what?该假定是研究回归问题时对变量的要求,可通过观察研究问题得知,如果不满足,则不能选用回归分析研究。
5. 误差项零均值
why?此时,β0 和 β1 都是常数,有 E(β0)=β0,E(β0)=β0,则对于给定的x值,E(y)=β0+β1x,也即假定模型的形式为一条直线。
how?无需检验,对序列中心化处理即可,或者说把误差中的常数值放到回归函数的其他部分里。
6. 误差项同方差-未完
what?对所有x,误差项的方差都相同,为一个常数σ^2。对每一个x,ξi 均满足均值为0的正态分布,异方差表示 ξi 围绕均值0的分散程度不同(即对于不同的x,随机误差项不同)。
why出现异方差?
- ① 模型中省略的解释变量有着差异性的影响,该影响被包含在 ξi 中,剔除变量消除共线性时应注意;
- ② 模型函数形式设定错误,如非线性设定为线性;
- ③ 测量误差,因为自变量取值越大,测量误差越大,且随时间变化,技术和仪器也不同;
- ④ 截面数据中总体各单位的差异。
异方差后果?
- ① OLS估计不具有有效性,虽然是无偏的,但不是最小方差线性无偏估计;
- ② 参数的显著性检验失效,置信区间不可靠,本应该接受的H0被错误拒绝,即本来不重要的解释变量被错误地保留;
- ③ 回归方程应用效果不好。
how?检验思路:检验 ξi 的异方差性,就是检验 ξi 的方差与解释变量观测值 xi 间的相关性及相关的“形式”。如何表示方差:采用OLS法估计模型,求得 ξi 的估计量,用 表示。 ,用 表示随机误差项的方差。
《异方差的检验》:https://wenku.baidu.com/view/c2116d21866fb84ae45c8d9e.html
do?处理:
①加权最小二乘法
7. 误差项不相关
8. 误差项正态分布
9. 不存在多重共线性
|