偏差、方差、噪声、泛化误差以及过拟合和欠拟合之间的关系

首先定义: 在一个训练集D上的模型, 对于测试样本x的预测值为 $f(x; D)$

在不同训练集D上训练出的模型, $f$ 对同一个测试样本x的预测值取期望, 即期望预测--- $\bar{f}(x)=E_D[f(x;D)]$

偏差\方差\噪声都是针对测试样本来计算的

即，将一个测试样本x输入到模型中，计算出 $f(x; D)$

偏差方差和噪声都是针对于同一个样本x，不同模型的输出值 $f(x; D)$ 进行相应计算的

模型的期望预测与真实值的偏离程度

$bias^2(x) = (\bar{f}(x)-y)^2$

使用不同训练集训练出的k个模型, 对于测试样本x产生的k个预测值, 方差为

$var(x)=E_D[(f(x;D)-\bar{f}(x))^2]$

其中 $f(x; D)$ 有k个(不同训练集训练出的模型, 结构相同参数不同)

真实标记与数据集中的实际标记之间的偏差：

$\varepsilon^2=E_D[(y_D-y)^2]$

泛化误差就是偏差的期望

$Err(X)=E[(y-f(x;D))^2]$

对算法的泛化误差进行分解:

泛化误差可以分解为方差\偏差\噪声之和

偏差-方差分解说明，泛化性能是由学习算法的能力，数据的充分性以及学习任务本身的难度所共同决定

给定学习任务，为了能够取得好的泛化性能，需要使1）偏差较小，即能够充分的拟合数据；3）方差较小，即使得数据的扰动产生的影响小。

偏差：度量了模型的期望预测和真实结果的偏差，刻画了模型本身的拟合能力

方差：度量了同样大小的训练集的变动所导致的学习性能的变化，刻画了数据扰动所造成的影响

噪声：表达了当前任务上任何模型所能达到的期望泛化误差的下界，刻画了学习问题本身的难度

如何解决过拟合、欠拟合？

偏差-方差窘境问题

随着模型复杂度的提升，偏差逐渐减小，方差逐渐增大，最佳的模型复杂度是在total error最小的时候，该点的导数为0

因为泛化误差： $Err(x)=var(x)+bias^2(x)+noise$ ，令 $\frac{d Err}{d Complexity} = 0$ ，有：

$\frac{d\, bias}{d\, Complexity}=-\frac{d\,var}{d\, Complexity}$

bias-variance-tradeoff

但是偏差-方差分解实用价值很有限. 偏差和方差并不能够真正的被计算,因为我们不知道数据的真实分布. 偏置-方差分解依赖于对所有的数据集求平均, 而在实际应用中我们只有一个观测数据集。