谢邀。
维基百科上提纲挈领是这么说的:Degrees of freedom (statistics)
In statistics, the number of degrees of freedom is the number of values in the final calculation of a statistic that are free to vary.
关于样本方差,里面提到:
i.e., the sample variance has N-1 degrees of freedom, since it is computed from N random scores minus the only 1 parameter estimated as intermediate step, which is the sample mean.
言简意赅,我也没法说得更好了。
拾人牙慧,这里谈谈我的理解。
简单说, ![]()
个样本,如果在某种条件下,样本均值是先定的 (fixed),那么只剩 ![]()
个样本的值是可以变化的。
下面这个例子也许可以说明:
假设你现在手头有 3 个样本,![]()
。因为样本具有随机性,所以它们取值不定。但是假设出于某种原因,我们需要让样本均值固定,比如说, ![]()
, 那么这时真正取值自由,”有随机性“ 的样本只有 2 个。 试想,如果 ![]()
,那么每选取一组 ![]()
的取值, ![]()
将不得不等于 ![]()
对于第三个样本来说,这种 “不得不” 就可以理解为被剥夺了一个自由度。所以就这个例子而言,3 个样本最终"自由"的只有其中的 2 个。不失一般性, ![]()
个样本, 留出一个自由度给固定的均值,剩下的自由度即为 ![]()
。
突兀的举上面这个例子干什么?事实上,计算样本方差时,样本均值就需要给定。计算样本均值也就是维基百科里提到的 'intermediate step'。如果你去观察计算样本方差的一系列表达式,比如往往最常会被介绍的方差的无偏估计 (样本方差) ![]()
,你会发现样本均值这一项都包含在内。考虑到方差是衡量数据偏差程度的统计量,计算一下样本均值作为中间步骤的中间量,也不失其合理性。于是,为计算样本方差,样本里原有的 ![]()
个自由度,有一个自由度被分配给计算样本均值,剩下自由度即为 ![]()
。
这篇基于英文维基百科的回答所作出的解释难免粗糙甚至错误。愿抛砖引玉,希望对大家有所启发。
欢迎大家留言讨论,批评指正。
|