关于深度学习中超参数优化方法中的随机搜索和网格搜索的解释？

如题，请大家讲解一下随机搜索和网格搜索算法的原理，能够讲得通俗一点更好了。另外，在深度神经网络中，都有一些什么好的方法来搜索网络的超参数呢？多谢。

有关回应 · 2021-5-30 10:17:22

网格搜索建议去看Libsvm的文档，grid search部分，随机搜索建议看Yoshua Bengio的论文。论文上只讲了原理，但参数的搜索范围，还是要你自己定的。

搜超参数就像老中医，别想一劳永逸，搜超参数的技术，修行在个人啊，哈哈。简单点的数据集如果参数猜几次都不中，那么就不合格。说明你用网格搜索，连搜索范围你都不知，那还调什么参。

有关回应 · 2021-5-30 10:17:21

泻药。在沙堆上淘金，闭上眼睛每次随便选个方向走，每次再随便选个步数，走到这步数就停下来淘一把，这是随机搜索。把沙堆按比例分成格子，淘了一格再去淘下一格，这是网格搜索。

有关回应 · 2021-5-30 10:17:20

感谢邀答
网格搜索其实可以理解成暴力搜索，一般当超参数的数目稍小的时候，才会用网格搜索；随机搜索一般会根据超参数的边缘分布采样。建议题主参看论文http://www.jmlr.org/papers/volume13/bergstra12a/bergstra12a.pdf

有关回应 · 2021-5-30 10:17:19

最直观的随机搜索和网格搜索解释可以看scikit-learn的User Guide（含实现代码）：3.2. Tuning the hyper-parameters of an estimator ，这里结合Bengio的Deep Learning再啰嗦一下：
网格搜索适用于三四个（或者更少）的超参数（当超参数的数量增长时，网格搜索的计算复杂度会呈现指数增长，这时要换用随机搜索），用户列出一个较小的超参数值域，这些超参数值域的笛卡尔集（排列组合）为一组组超参数。网格搜索算法使用每组超参数训练模型并挑选验证集误差最小的超参数组合。
以SVM为例，挑选SVM的超参数C值、kernel类型和gamma值。下面的配置表示我们要搜索两种网格：一种是linear kernel和不同C值；一种是RBF kernel以及不同的C和gamma值。Grid Search会挑选最适合的超参数值。

param_grid = [ {'C': [1, 10, 100, 1000], 'kernel': ['linear']}, {'C': [1, 10, 100, 1000], 'gamma': [0.001, 0.0001], 'kernel': ['rbf']}, ]

复制代码

同时，Grid Search适合重复的、迭代的进行。以上面的数据为例，如果在linear kernel的情况下，最合适的C值显示为1，那么说明我们高估了C值的范围，我们应该降低C值的搜索区域，开始第二次搜索：

param_grid = [ {'C': [0.1, 0.5，0.8，1], 'kernel': ['linear']} ]

复制代码

而随机搜索提供了一种更高效的解决方法（特别是参数数量多的情况下），Randomized Search为每个参数定义了一个分布函数并在该空间中采样（sampling）。上文对SVM的网格搜索在此处可以表示为：

param_grid = [ {'C': scipy.stats.expon(scale=100), 'gamma': scipy.stats.expon(scale=.1), 'kernel': ['rbf'], 'class_weight':['balanced', None]}]

复制代码

Randomized Search指数级高效于Grid Search，因为Grid Search将大量的计算浪费在了指数级的对结果无影响的参数中，而Randomized Search几乎每次都搜索了对结果有影响的参数的值。

参考资料：
Bergstra, J. and Bengio, Y., Random search for hyper-parameter optimization, The Journal of Machine Learning Research (2012)
3.2. Tuning the hyper-parameters of an estimatorLecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553):436-444.

关于深度学习中超参数优化方法中的随机搜索和网格搜索的解释？

4 个回复

浏览过的版块