最小二乘与岭回归的概率论解释

最近在看《Pattern Regression and Machine Learning》，这里做一点笔记与感想。

背景：

考虑一个多项式拟合问题，如下图，绿线的方程是 $\sin (2 π x)$ ，蓝点是由绿线并加上噪音（这些噪音是默认符合正态分布的）生成。已知条件是由 $N$ 个点构成的训练集 $x = (x_{1}, . . . x_{N})^{T}$ ，以及这些点对应的目标值 $t = (t_{1}, . . . t_{N})^{T}$ 。现在的目标是：根据蓝点来拟合一条曲线，而绿线就是我们要最终拟合的效果。
背景：多项式拟合

问题：

假设我们最终要拟合的曲线是下面这个 $M$ 阶方程，方程如下：

y (x, w) = w_{0} + w_{1} x + w_{2} x^{2} + . . . + w_{M} x^{M} = \sum_{j = 0}^{M} w_{j} x^{j} （ 方 程 1 ）

其中 $w$ 是该方程的系数，也是我们最终要求的对象；
通常我们会使用最小二乘法来做误差函数（error function，其是一种狭义的损失函数loss function），其公式如下：

E (w) = \frac{1}{2} \sum_{i = 1}^{N} {y (x_{n}, w) t_{n}}^{2} （ 方 程 2 ）

其中 $t_{n}$ 是这些点真实的数值，即上图中的蓝点，我们的目标就是求得一组 $w$ 使 $E (w)$ 的值最小；

这似乎是一个天经地义的事情，但它是否是正确的？为什么正确？为什么不能直接将残差累加或是残差的绝对值来作为损失函数，如下式？

E (w) = \frac{1}{2} \sum_{i = 1}^{N} | y (x_{n}, w) t_{n} |

在使用最小二乘作为误差函数的时候，我们缺乏一个对公式的解释，下面本文就从概率论的角度来解释最小二乘背后的原因。

概率论解释最小二乘法：

这里有个假设：一个点的观测值符合以其真实值为均值，方差为 $β^{- 1}$ ( $β^{- 1} = σ^{2}$ )的高斯分布；即是默认我们的误差是属于高斯分布的，写成数学表达式即：

p (t | x, w, β) = N (t | y (x, w), β^{1}) （ 方 程 3 ）

如果每个 $x$ 都是独立同分布的，那么对于观测值 $t$ 的最大似然函数，即：

p (t | x, w, β) = \prod_{n = 1}^{N} N (t_{n} | y (x_{n}, w), β^{1}) （ 方 程 4 ）

取对数似然函数，即：

\ln p (t | x, w, β) = \sum_{n = 1}^{N} \ln N (t_{n} | y (x_{n}, w), β^{1})

即：

\ln p (t | x, w, β) = \frac{β}{2} \sum_{n = 1}^{N} {y (x_{n}, w) t_{n}}^{2} + \frac{N}{2} \ln β \frac{N}{2} \ln (2 π) （ 方 程 5 ）

目标是求方程5的最大值，因为最终要求的是 $w$ ，因此最终就成了求公式6的最小值，即：

\sum_{n = 1}^{N} {y (x_{n}, w) t_{n}}^{2} （ 公 式 6 ）

这个竟然就是一开始的最小二乘法！

总结1：

利用最小二乘法求解本质上是求解似然函数的最大值，并且默认残差属于高斯分布。

概率论解释岭回归：

我们在上面的基础上增加一个先验概率：拟合函数的参数 $w$ 属于一个均值为0的多元高斯分布，本质是在限制 $w$ 中的各项相差不能太大，即：

p (w | α) = N (w | 0, α^{1} I) = (\frac{α}{2 π})^{(M + 1) / 2} e x p {\frac{α}{2} w^{T} w} （ 公 式 7 ）

对公式7求对数，即：

l n p (w | α) = \frac{M + 1}{2} l n \frac{α}{2 π} \frac{α}{2} W^{T} W （ 公 式 8 ）

由于（这是贝叶斯函数的另一种表达方式）：

后 验 概 率 = 先 验 概 率 似 然 函 数 （ 公 式 9 ）

因此：

p (w | x, t, α, β) 正 比 于 p (t | x, w, β) p (w | α) （ 公 式 10 ）

现在我们可以通过已知条件，通过后验概率来求出最有可能的 $w$ ，即求公式10的最大值。取公式10左式的负对数，并将公式5和公式8带入，求公式10的最大值可等价于求下式的最小值，即：

\frac{β}{2} \sum_{n = 1}^{N} {y (x_{n}, w) t_{n}}^{2} + \frac{α}{2} w^{T} w

总结2：

岭回归本质上是求解后验概率的最大值，并且添加的先验条件是参数 $w$ 符合多元高斯分布。

极大似然估计(MLE)和极大后验估计(MAP)：

在用概率论解释最小二乘法的时候，我们使用的是MLE，即求出似然函数的最大值；在用概率论解释岭回归时，我们使用的是MAP，即求出后验概率的最大值。