Hessian 矩阵的特征值有什么含义?

论坛 期权论坛 期权     
匿名用户1024   2021-5-31 13:51   268382   5
分享到 :
0 人收藏

5 个回复

倒序浏览
2#
有关回应  16级独孤 | 2021-5-31 13:51:19
函数图象每一点上各个主曲率的大小。
3#
有关回应  16级独孤 | 2021-5-31 13:51:20
我们先思考梯度下降(GD)这种一阶方法:

这里一个问题是步长
控制问题。

这时牛顿法这些二阶方法出现了:
将函数
在局部极值点
附近进行二阶Taylor展开近似可得:

其中,
为梯度向量,
为Hessian矩阵。
对上式求导并置0,以求在二阶近似原函数的情况下快速求出函数极值点,可解得:


结合两个更新公式可知,Hessian矩阵起到了控制步长
的作用。简单粗暴点的说,Hessian矩阵的特征值控制了更新步长。

详细的,我们知道对实对称矩阵而言:

其中,
是单位特征向量矩阵,
是对应特征值对角矩阵。故:

可以看出,这里控制(每个特征方向)步长的,有两个东西:原来的一阶梯度和对应的Hessian矩阵特征值。

所以很多用gradient descend算法进行分析时,经常会说Hessian矩阵特征值这东西,极端的
则表示
这种,若特征值间差异巨大,则有些方向学习缓慢,有些不断波动,(二维情况就是你经常看到的那种蛇形曲线...)这些现象也侧面说明了步长这东西。
4#
有关回应  16级独孤 | 2021-5-31 13:51:21
在波恩奥本海默近似的框架下,在平衡点附近分子势能对坐标展开的hessian矩阵(其实就是二阶导数)的特征值是有物理意义的,对应在谐振子近似下分子振动的频率,可以和分子的红外光谱峰对应。
5#
有关回应  16级独孤 | 2021-5-31 13:51:22
貌似没有什么特别好的答案,谈谈我的理解。
Hessian矩阵的特征值就是形容其在该点附近特征向量方向的凹凸性,特征值越大,凸性越强。你可以把函数想想成一个小山坡,陡的那面是特征值大的方向,平缓的是特征值小的方向。而凸性和优化方法的收敛速度有关,比如梯度下降。如果正定Hessian矩阵的特征值都差不多,那么梯度下降的收敛速度越快,反之如果其特征值相差很大,那么收敛速度越慢。
6#
有关回应  16级独孤 | 2021-5-31 13:51:23
补充一个稍微形象的理解吧,也忘了是在哪本书里看到的了。
@Aewil Zheng 的回答里已经讲了Hessian和二阶Taylor展开的联系,以及特征值和梯度的联系。基于这个理解,比如考虑二维情况的一个极值点,在该点足够小的邻域内,函数的等高线可以用纯正的椭圆近似。在网上随便找了个图(来源)加了两个箭头示意一下:

对于这个椭圆,特征向量就是椭圆的长短轴所指的方向,特征值大的对应短轴(红色箭头),小的对应长轴(蓝色箭头)。对于不在极值的点,这个理解也不难脑补,特征向量互相正交,对应着正交的二阶近似的方向。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:136515
帖子:27303
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP