为什么线性回归模型中要假设随机误差等方差并且服从正态分布？

提示: 作者被禁止或删除内容自动屏蔽

姚岑卓 · 2018-10-7 07:33:21

简而言之：正态分布假设主要是为了统计推断和参数拟合做的假设。
多元正态分布一个很好的性质就是，在对它进行任何的线性变换（加减和伸缩）后，所得到的多元分布依旧是正态的。由于我们假设误差是独立同分布的正态分布，那么经过它们线性变换的因变量(y)以及参数估计(b)都是多元正态分布的。在此基础上我们就可以对参数(b)进行假设检验，来探求某一个自变量(x)对于因变量(y)是否有线性相关性，真是可以对一系列参数(b)进行任意的线性检验，例如某一个自变量(x1)的参数(b1)是否和另一个自变量(x2)的参数(b2)相同。如果假设正态分布，那么这些检验可能就会非常复杂。
而在参数拟合中，我们也需要对于误差的分布有一定的假设。正态分布的假设让回归曲线对于极端值更加敏感：因为在正态假设下，极大的误差看起来是很不可能的，所以当极大的误差出现时，回归曲线往往会偏向极端点。

Image source: Montgomery, Peck & Vining, Introduction to Linear Regression Analysis这时正态假设在某些情况下可能会限制线性回归的表现。例如在数据收集本来就不是很稳定，异常值有可能能出现时，我们可能就需要进行异常值检测(anomaly detection)来去掉异常值，或者利用其他的假设(Laplace residual assumption)来让回归变得更加稳定一些。但与此同时，一般而言就无法方便的进行统计推断了。

babyquant · 2018-10-7 14:54:07

这个有很多步的：
如果仅仅是一堆数据，有一个因变量y，若干个自变量X1,X2,...Xp，现在要找到一个线性函数f(X)来逼近y，那么最优无偏逼近就是最小二乘法求得的解，如果样本数n>=p，而且X线性无关，那么解释唯一的，可以通过矩阵求逆获得。此时我们还没有假设样本是独立的，也没有假设方差是固定的。
然后如果我们假设了y是独立的，并且方差不变，那么我们可以对拟合系数的方差进行估计；
然后如果我们对线性拟合之后的误差进行假设，比如假设它是正态分布，那么我们可以对拟合系数的分布进行估计。
之后，我们知道了拟合系数的估计值符合正态分布，就可以套用各种t检验、F检验、Z-score了。

Narrator · 2018-10-7 17:04:22

Andrew 的机器学习课里面说的好像是因为误差的来源很多，然后中心极限定理得到的

朱珂锐 · 2018-10-8 18:05:12

从偏科普的角度来回答一下这个问题。。。
1.为什么线性回归要引入误差。在机器学习的语义下，线性回归被认为是在拟合Y在给定X下的条件分布
，并且假设
，也即，y在给定X下的分布是一个以X的某种线性组合为中心的正态分布。由于现实工作中目标值的观测以及因素对目标的影响都是存在误差的，因此我们需要给一些存在可能但是可能性比较低的取值一些机会。于是不再像曲线拟合一样去求解
，而是把y当成一个随机变量，且
，这样一来自然就有
。（限定y的分布在某一个确定的分布族上可以有效的简化模型、防止过拟合）
2.为什么选择误差的分布是正态分布。这一事实最早是高斯发现的，高斯在考虑观测误差的分布时认为，既然对多次观测取平均的做法很有用，最大似然估计也很有用，那么最好的误差分布应该使得在其上的最大似然估计恰好就是多次观测的平均值，在一些其他的约束下，高斯找到了这个分布的密度函数

后来的中心极限定理也印证了这个结论。因此后来的实际工作中经常会把由多个因素共同影响的结果的误差认为是正态的。
3.为什么需要有残差的协方差矩阵为
。样本间的独立性自然要求非对角元为0，而至于对角元相等，主要是为了保证OLS估计的方差最小、无偏性、相合性。
（4.不太认同部分答案中认为做正态假设更方便做后续统计检验的观点，毕竟是先有正态分布地位的确立，再有建立在其上的一系列统计分析。。。）

passenger · 2018-10-7 12:14:29

知乎无法导入带公式的文档，只能以图片形式直接拿进来了：

Wu Kevin · 2018-10-7 15:19:18

线性模型里面要保证true model只有一个假设：
，没有正太这个假设。正太假设是后面为了得到标准的检验统计量强行加进去的，比如t统计量，F统计量
2018-10-13凌晨更新：
我以上的说法不准确。看到了各位的回答，有的靠谱，有的不靠谱，我来给一个正统的计量经济学的回答：
准确的表达是这样：在古典线性模型（有限样本理论）中，会有误差项独立正态分布这个假设，使得我们可以对估计量采用精确正态分布进行统计推断；
但是古典理论的假设现实很难满足，在渐进理论框架下就没有正态分布也没有完全独立性（假设
用
一阶矩独立性来替代），渐进理论下假设很放松，但是即使如此，根据中心极限定理也可以得到估计量的渐进正太分布，从而可以查正太分布表进行统计推断（古典理论查的是t分布表）

为什么线性回归模型中要假设随机误差等方差并且服从正态分布？

6 个回复