如何理解统计学中「自由度」这个概念？

看到了一个类似问题，但是下面没有满意的答案。
比如在计算标准差的时候下面除以根号n还是根号（n-1），记得是跟自由度是有关系的，但是究竟是何种关系，则不甚明了，希望能够有人给出解答，谢谢。

有关回应 · 2021-5-28 06:50:34

由于概率论整体发展较晚，到1934年才提出公理化体系，因此无论国内还是国际上，概率论史的资料都并不多见。这个问题已经提出五年了。我希望能够给出一个完整的回答。

首先，最严格、最不会产生歧义的定义，就是在卡方分布
中，定义参数
为自由度。但是这种定义完全无法体现自由度的内在概念，我们最多就知道它是
个正态随机变量的平方和。我想大多数人都是在学习后继课程的时候才慢慢明白自由度的统计意义的。
第二种方法即为以朴素的限制个数来定义自由度，这也是自由度的雏形，它可以追溯到高斯的时代-1821年。但其早期的定义是由Gosset给出，就是1908年以‘student’署名的、提出t分布的那篇发在生物测量学期刊的论文[sup][1][/sup]（原来20世纪就已经是生物的世纪了啊）。但是这篇文章中并未提出自由度（degree of freedom）这个名字。（以上来自维基百科[sup][2][/sup]）
‘自由度’这个名称的普及，应归功于生物统计学家Fisher在1922年阐述卡方检验的论文[sup][3][/sup]。在这篇论文中，Fisher提到：由于在中间过程中，我们用了四个均值，因此自由度降低了四。这个较为初级的定义，最终被扩充为：样本容量减去限制等式的个数。用高级点的语言，就是线性子空间的维数[sup][4][/sup]。
自由度的第三种定义是二次型的秩。这种定义的最初来源是Cramer在其1946年的著作Mathematical Methods of Statistics[sup][5][/sup]中提到的（P381）：

大意就是二次型的秩，与自由度一致很明显，用矩阵的秩定义自由度，相比子空间维数，更偏重代数一些。但还不止于此，其更深刻的意义在于检验。为此，首先介绍Cochran定理[sup][6][/sup]（这个version相对简单）：
设
，矩阵
是幂等阵，
，且
均为对称幂等阵。则有：

是相互独立的卡方分布，自由度为
。
。
我们看到，在这个定理中，二次型的秩被证明为与自由度相同。这或许也是Cramer秩定义的灵感来源。

我们知道，
分布定义为[卡方分布/自由度]的比值，因此在已知卡方统计量和自由度的情况下，可以直接得到
统计量。因此，一旦方差（可写成二次型的形式）可以写成如上的分解式，我们就可以直接做
检验了。
例如，设参数个数为
（不算截距项），有线性模型
，或
，其中
，
，误差项为独立同分布的正态项，此时最小二乘或极大似然估计为：
（截距项包含在里边了）。
则有
。可得到残差平方和
。
如果原假设是
，则在原假设之下，记
。有拆分：

通过正则方程组及均值的矩阵表达式，上式可化简为：

此时，按照矩阵理论，两边的秩分别为
，且易证每个二次型都是幂等阵。后边的两项，分别是
和
。则按照Cochran定理，可直接由二次型和秩进行
检验。
我们知道幂等阵的特征值只能是0或1，而二次型经变换后可以换成特征值与特征向量结合的形式。此时，秩与自由度便产生了一一对应的关系：秩等于特征值中‘1’的个数。而
检验及卡方检验也可释义为，每一个自由度，或每一个特征值‘1’，给予二次型的平均贡献。
最后，说一下非整数自由度。按照以上的定义方式，第二种定义-子空间维数则必为整数，第一种定义并不局限于整数自由度，而第三种定义可以拓展到非整数自由度：幂等阵中特征值中‘1’的个数可以等价定义为特征值的和，由矩阵论可知即为二次型的迹，而迹可以是非整数的。

Welch两样本t检验中，可以出现非整数的自由度：

如图，这里的自由度是4.4604。
大家可能想不到，这里的非整数自由度是以第一种方法定义的，即卡方分布的参数。Welch的原始论文[sup][7][/sup]中，他是以分布函数+Taylor展开推导出来这个自由度近似公式。
2. 岭回归（Ridge Regression）。
起初为了应对共线性的问题，Tikhonov提出了以下正则化的线性回归参数估计式：
。这时，通过第三种定义，我们仍然能获得二次型的自由度
。这时，在模型间的比较中，我们可以将该迹替代参数个数
，代入信息准则AIC或BIC的计算公式中。

但需要注明的是，虽然整数自由度的三种定义是等价的，非整数自由度却并不是等价的，而仅是近似关系。例如
，按矩阵迹，自由度应为1。但
满足自由度为2的卡方分布，计算可知其实际上是指数分布，而不是自由度为1的卡方分布。

有关回应 · 2021-5-28 06:50:35

谢邀。
维基百科上提纲挈领是这么说的：Degrees of freedom (statistics)
In statistics, the number of degrees of freedom is the number of values in the final calculation of a statistic that are free to vary.
关于样本方差，里面提到：
i.e., the sample variance has N-1 degrees of freedom, since it is computed from N random scores minus the only 1 parameter estimated as intermediate step, which is the sample mean.
言简意赅，我也没法说得更好了。
拾人牙慧，这里谈谈我的理解。
简单说，
个样本，如果在某种条件下，样本均值是先定的 (fixed)，那么只剩
个样本的值是可以变化的。
下面这个例子也许可以说明：
假设你现在手头有 3 个样本，
。因为样本具有随机性，所以它们取值不定。但是假设出于某种原因，我们需要让样本均值固定，比如说，
，那么这时真正取值自由，”有随机性“ 的样本只有 2 个。试想，如果
,那么每选取一组
的取值，
将不得不等于
对于第三个样本来说，这种 “不得不” 就可以理解为被剥夺了一个自由度。所以就这个例子而言，3 个样本最终"自由"的只有其中的 2 个。不失一般性，
个样本，留出一个自由度给固定的均值，剩下的自由度即为
。
突兀的举上面这个例子干什么？事实上，计算样本方差时，样本均值就需要给定。计算样本均值也就是维基百科里提到的 'intermediate step'。如果你去观察计算样本方差的一系列表达式，比如往往最常会被介绍的方差的无偏估计（样本方差）
，你会发现样本均值这一项都包含在内。考虑到方差是衡量数据偏差程度的统计量，计算一下样本均值作为中间步骤的中间量，也不失其合理性。于是，为计算样本方差，样本里原有的
个自由度，有一个自由度被分配给计算样本均值，剩下自由度即为
。

这篇基于英文维基百科的回答所作出的解释难免粗糙甚至错误。愿抛砖引玉，希望对大家有所启发。
欢迎大家留言讨论，批评指正。

有关回应 · 2021-5-28 06:50:36

放两页我的《心理统计学》课程 PPT。

课堂上的解释：自由度（df）这个词更好的翻译是自由维度，否则容易误解为自由程度。下面试从n = 2 的情形给出平面可视化的解释，再推及 n = 3 的空间可脑补化解释，最后推广到一般的子空间正交分解情形。

在下图中，样本量为 2 的标准正态分布理论情形，横轴为
，纵轴为
。
，把图旋转45度，新横轴为蓝色虚线
，新纵轴为红色虚线
。可以理解
为啥服从标准正态分布，
为啥服从
分布。自由度为1——因为它只在红色虚线方向上（只在一个维度上）随机波动。

[code]set.seed(1997)x1

有关回应 · 2021-5-28 06:50:37

前面很多答主已经回答得很全面了，不过看到 @Matrix 提到的从预测值的角度来看所谓“自由度”，这里就补充一个从参数估计出发的角度。
首先要赞同 @宫白羽指出的一点，degree of freedom是一个借用物理学的术语，不是一个很适合统计学的名词，毕竟把测度空间里的随机变量类比成物理空间里的constrained particles实在不是什么绝妙的思路。
那么问题来了，统计推断中这个constraint又是从哪里来的呢？从预测值出发可以类似地定义出一套"degree of freedom"，我们也可以看出，其实这个“自由度”是模型的“自由度”。以题主提到的标准差为例，一个最简单的一阶矩模型
，对
不加以参数假定的话，我们就只有一个参数
。从频率学派的观点看，
这个参数是"fixed but unknown"的，当然我们可以给出它的估计量
。把一个有真实值的参数，用观测值来代替，某种程度上就是这个constraint，这个角度来看，参数模型下constraint的个数应该和被估计参数个数是对应的。
于是接下来我们想做进一步的推断，比如分析下误差项
，那么问题就来了：
的真实值我们无从得知啊？只好用一个empirical的
代替。注意这里为了估计1个参数，引入了1项带有随机性的empirical term，后续的推断自然就可能出现bias或者efficiency loss。如果是一阶矩加加减减还好说，二阶矩的话为了检验的效力足够好，有时候就要引入一些修正项（为了无偏性），就比如标准差里面那个
。这个具体数值很多答主比如 @纯粹也提到了，其实是一点线性代数推出来的，一般来说二阶矩的话通常就可以化成chi-square distribution（毕竟是标准正态平方和），对应那个“自由度”就是某个矩阵的秩。
个独立的观测值，中间要解
个方程来估计参数，剩下的秩就是
，也就是在线性回归模型里看到的那个自由度。
如果目光不止局限在线性模型呢？很多参数或者半参数的统计方法，其实都面临着由true parameter和empirical estimate之间差别所带来的“自由度”问题（答主最近在做的一个小问题就和广义估计方程里这个issue有关）。在频率学派的角度下，由于我们把参数当成是确定的，但我们又不知道，只能用估计值来替代去做后续的诊断和检验，这大概就是自由度的损失来源了。

有关回应 · 2021-5-28 06:50:38

姑妄言之。
窃以为从回归分析的角度能够得到比较直观的解释——投影矩阵的秩。作为例子，样本方差
可以视为
对
回归得到的残差(residual)平方和除以自由度(n-1)。
考虑标准线性模型
，其中
，
，
，
。最小二乘法得到投影
，适合正规方程
；无妨设
，则
。
帽子矩阵(hat matrix)
是
到
的正交投影，作为幂等矩阵有
，于是预测值
对应的自由度是
。注意
是
到
的正交投影，作为幂等矩阵有
，于是残差
对应的自由度是
。
平方和之所以好用，是因为本质上反映了(Frobenius/Hilbert-Schmidt)内积结构
，注意向量是矩阵的特殊形式——只有一列。残差平方和的期望为

所以
的一个无偏估计就是残差平方和除以自由度。
推广到非参数回归需要一定的修饰, 有兴趣的话可以参看
https://www.stat.cmu.edu/~ryantibs/advmethods/notes/df.pdf

如何理解统计学中「自由度」这个概念？

5 个回复