简而言之:正态分布假设主要是为了统计推断和参数拟合做的假设。
多元正态分布一个很好的性质就是,在对它进行任何的线性变换(加减和伸缩)后,所得到的多元分布依旧是正态的。由于我们假设误差是独立同分布的正态分布,那么经过它们线性变换的因变量(y)以及参数估计(b)都是多元正态分布的。在此基础上我们就可以对参数(b)进行假设检验,来探求某一个自变量(x)对于因变量(y)是否有线性相关性,真是可以对一系列参数(b)进行任意的线性检验,例如某一个自变量(x1)的参数(b1)是否和另一个自变量(x2)的参数(b2)相同。如果假设正态分布,那么这些检验可能就会非常复杂。
而在参数拟合中,我们也需要对于误差的分布有一定的假设。正态分布的假设让回归曲线对于极端值更加敏感:因为在正态假设下,极大的误差看起来是很不可能的,所以当极大的误差出现时,回归曲线往往会偏向极端点。
Image source: Montgomery, Peck & Vining, Introduction to Linear Regression Analysis这时正态假设在某些情况下可能会限制线性回归的表现。例如在数据收集本来就不是很稳定,异常值有可能能出现时,我们可能就需要进行异常值检测(anomaly detection)来去掉异常值,或者利用其他的假设(Laplace residual assumption)来让回归变得更加稳定一些。但与此同时,一般而言就无法方便的进行统计推断了。
|