0. 期望预测
首先定义: 在一个训练集D上的模型, 对于测试样本x的预测值为
在不同训练集D上训练出的模型, 对同一个测试样本x的预测值取期望, 即期望预测--- ![\bar{f}(x)=E_D[f(x;D)]](https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-0834494869d1c5d6e3fee706af4962b9.latex)
偏差\方差\噪声都是针对测试样本来计算的
即,将一个测试样本x输入到模型中,计算出
偏差方差和噪声都是针对于同一个样本x,不同模型的输出值 进行相应计算的

1. 偏差
模型的期望预测与真实值的偏离程度

2. 方差:
使用不同训练集训练出的k个模型, 对于测试样本x产生的k个预测值, 方差为
![var(x)=E_D[(f(x;D)-\bar{f}(x))^2]](https://private.codecogs.com/gif.latex?var%28x%29%3DE_D%5B%28f%28x%3BD%29-%5Cbar%7Bf%7D%28x%29%29%5E2%5D)
其中 有k个(不同训练集训练出的模型, 结构相同参数不同)
3. 噪声
真实标记与数据集中的实际标记之间的偏差:
![\varepsilon^2=E_D[(y_D-y)^2]](https://private.codecogs.com/gif.latex?%5Cvarepsilon%5E2%3DE_D%5B%28y_D-y%29%5E2%5D)
4. 泛化误差
泛化误差就是偏差的期望
![Err(X)=E[(y-f(x;D))^2]](https://private.codecogs.com/gif.latex?Err%28X%29%3DE%5B%28y-f%28x%3BD%29%29%5E2%5D)
5. 偏差-方差分解
对算法的泛化误差进行分解:

泛化误差可以分解为方差\偏差\噪声之和
偏差-方差分解说明,泛化性能是由学习算法的能力,数据的充分性以及学习任务本身的难度所共同决定
给定学习任务,为了能够取得好的泛化性能,需要使1)偏差较小,即能够充分的拟合数据;3)方差较小,即使得数据的扰动产生的影响小。
6. 偏差、方差和噪声分别刻画了什么?
偏差:度量了模型的期望预测和真实结果的偏差, 刻画了模型本身的拟合能力
方差:度量了同样大小的训练集的变动所导致的学习性能的变化, 刻画了数据扰动所造成的影响
噪声:表达了当前任务上任何模型所能达到的期望泛化误差的下界, 刻画了学习问题本身的难度
7. 偏差、方差与过拟合、欠拟合之间的关系---训练的充分程度
- 模型训练不足时,拟合能力不够强,训练数据的扰动(不同训练集之间的差异)不足以使学习器产生显著变化,此时偏差主导泛化误差---欠拟合;
- 模型训练程度加深,拟合能力增强,训练数据发生的扰动渐渐能被学习器学到,方差逐渐主导泛化误差;
- 当训练充足,模型拟合能力非常强,训练数据的轻微不同就能导致学习器的差距很大,若训练数据自身的、非全局的特性被学习器学到了,就会发生过拟合;
如何解决过拟合、欠拟合?
8. 模型复杂度与偏差、方差之间的关系
偏差-方差窘境问题
随着模型复杂度的提升,偏差逐渐减小,方差逐渐增大,最佳的模型复杂度是在total error最小的时候,该点的导数为0
因为泛化误差: ,令 ,有:


但是偏差-方差分解实用价值很有限. 偏差和方差并不能够真正的被计算,因为我们不知道数据的真实分布. 偏置-方差分解依赖于对所有的数据集求平均, 而在实际应用中我们只有一个观测数据集。
|