调参，注意神经网络处于哪种相态

<div id="js_content">
<img src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-bb1b1a215d27ab42625b644484820612.gif">
PaperWeekly 原创 · 作者｜张耀宇、许志钦 
单位｜上海交通大学
研究方向｜机器学习的基础研究
作者按：神经网络的现象错综复杂，理解其本质的一个基础工作是研究神经网络的训练动力学过程有哪几类不同的状态并揭示它们与超参数的依赖关系，即进行相图分析。本文介绍的工作第一次给两层无限宽网络画出完整的相图，该工作已经被 Journal of Machine Learning Research 接收。
<img src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-aada14554a949dd7edb580020c5952b9.png">
论文标题： 
Phase diagram for two-layer ReLU neural networks at infinite-width limit
论文链接：
https://arxiv.org/abs/2007.07497
神经网络的初始化参数对其训练动力学过程和泛化性能有显著的影响。现在的理论分析通常是在一个具体的参数初始化下进行的，比如这两年研究很多的神经正切核理论（NTK）和平均场理论（mean-field），它们研究的训练行为是基于两种不同尺度的参数初始化。
前者的训练动力学近似线性，而后者则有显著非线性。同时，也有很多其它工作研究了其它初始化下神经网络训练动力学的行为。一个直接的问题便是，哪些参数初始化有类似的动力学行为，哪些有本质的不同？研究这个问题可以直接帮助我们预测任意初始化下神经网络的动力学行为特征，进而指导我们调整初始化的超参数来提升神经网络的预测性能。
神经网络的参数一般很多。研究这么多参数的演化问题，我们可以借鉴我们熟悉的水。一杯水含有远超一亿亿个分子，我们不可能通过追踪每个水分子的微观运动来推测水的状态。幸运的是，这样的复杂高维动力系统通常呈现出高度规律的宏观特征，可以通过测量温度、压强这样的宏观统计量来准确推测它处于液态，还是会结冰或者汽化。
理论上，在分子数目趋于无穷的热力学极限下，水的固液气三相泾渭分明，不同相的转变经历相变。这些信息都可以精确地呈现在一张以温度和压强为坐标的相图中，指导我们的实践。
<img src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-b19ef330ed101559c9edfd416728afd7.png">
▲ 来自http://chemed.chem.purdue.edu/genchem/topicreview/bp/ch14/phase.php 
类似地，我们针对两层神经网络众多的参数找到了合适的宏观统计量，并在隐藏层神经元数目趋于无穷的极限下建立了清晰的相图，划分了不同的动力学态。具体来说，我们考虑以下两层神经网络：
<img src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-5ff936e9d3a1e4497dcc87928b54ee3f.png">
其中
<svg style="vertical-align: -0.025ex;width: 1.292ex;height: 1ex;" viewbox="0 -431 571 442">
 <g fill="currentColor" stroke="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)">
 <g>
 <g>
 <path d="M184 -11Q116 -11 74 34T31 147Q31 247 104 333T274 430Q275 431 414 431H552Q553 430 555 429T559 427T562 425T565 422T567 420T569 416T570 412T571 407T572 401Q572 357 507 357Q500 357 490 357T476 358H416L421 348Q439 310 439 263Q439 153 359 71T184 -11ZM361 278Q361 358 276 358Q152 358 115 184Q114 180 114 178Q106 141 106 117Q106 67 131 47T188 26Q242 26 287 73Q316 103 334 153T356 233T361 278Z"></path>
 </g>
 </g>
 </g>
</svg> 为 ReLU 函数，参数初始化服从： 
<img src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-fe6c8f4c28205dc36de1d1696f88d59a.png">
这个模型有三个自由的超参数
<svg style="vertical-align: -0.439ex;width: 7.847ex;height: 2.034ex;" viewbox="0 -705 3468.4 899">
 <g fill="currentColor" stroke="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)">
 <g>
 <g>
 <path d="M34 156Q34 270 120 356T309 442Q379 442 421 402T478 304Q484 275 485 237V208Q534 282 560 374Q564 388 566 390T582 393Q603 393 603 385Q603 376 594 346T558 261T497 161L486 147L487 123Q489 67 495 47T514 26Q528 28 540 37T557 60Q559 67 562 68T577 70Q597 70 597 62Q597 56 591 43Q579 19 556 5T512 -10H505Q438 -10 414 62L411 69L400 61Q390 53 370 41T325 18T267 -2T203 -11Q124 -11 79 39T34 156ZM208 26Q257 26 306 47T379 90L403 112Q401 255 396 290Q382 405 304 405Q235 405 183 332Q156 292 139 224T121 120Q121 71 146 49T208 26Z"></path>
 </g>
 <g transform="translate(640, 0)">
 <path d="M78 35T78 60T94 103T137 121Q16

调参，注意神经网络处于哪种相态

浏览过的版块