常州声谷信息科技有限公司-β2 单词优化= 1/1 + C2

β2 单词优化= 1/1 + C2

日期：2020-04-26

　　授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里，不积小流无以成江海，程序人生的精彩需要坚持不懈地积累！

　　授予每个自然周发布9篇以上（包括9篇）原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。

　　【ICCV2019】probabilistic face embeddings 概率人脸嵌入，对监控模糊低分辨人脸更具有适应性

　　xiaoxiaoxuejie：别听他比比千万别卸载卸载了就下载不了了总是出错等着后悔去吧

　　自动调参的Adam方法已经非常给力了，不过这主要流行于工程界，在大多数科学实验室中，模型调参依然使用了传统的SGD方法，在SGD基础上增加各类学习率的主动控制，以达到对复杂模型的精细调参，以达到刷出的分数。

　　以前的文章：优化方法之GD、SGD；优化之回归/拟合方法总结优化方法之SGD、Adams；

　　再看算法：其实就是Momentum+RMSProp的结合，然后再修正其偏差。

　　其中，SGD没有用到二阶动量，因此学习率是恒定的（实际使用过程中会采用学习率衰减策略，因此学习率递减）。AdaGrad的二阶动量不断累积，单调递增，因此学习率是单调递减的。因此，这两类算法会使得学习率不断递减，终收敛到0，模型也得以收敛。

　　但AdaDelta和Adam则不然。二阶动量是固定时间窗口内的累积，随着时间窗口的变化，遇到的数据可能发生巨变，使得可能会时大时小，不是单调变化。这就可能在训练后期引起学习率的震荡，导致模型无法收敛。

　　吐槽Adam狠的The Marginal Value of Adaptive Gradient Methods in Machine Learning。文中说到，同样的一个优化问题，不同的优化算法可能会找到不同的答案，但自适应学习率的算法往往找到非常差的答案。他们通过一个特定的数据例子说明，自适应学习率算法可能会对前期出现的特征过拟合，后期才出现的特征很难纠正前期的拟合效果。

　　使用指数移动平均值的RMSProp公式有缺陷，，基本表现了“自适应学习率”优化算法的学习率的倒数相对于时间的变化。对于SGD和ADAGRAD而言，当t ∈ [T]时，Γt始终大于等于0。这是它们的基本梯度更新规则，所以它们的学习率始终是单调递减的。但是基于指数移动平均值的RMSProp和Adam却没法保证这一点，当t ∈ [T]时，它们的Γt可能大于等于0，也可能小于0。这种现象会导致学习率反复震荡，继而使模型无法收敛。

　　以F = [−1, 1]的简单分段线性函数为例：。当C 2，在这个函数中，我们很轻松就能看出它应收敛于x = −1。但如果用Adam，它的二阶动量超参数分别是β1 = 0，β2 = 1/(1 + C2)，算法会收敛在x = +1这个点。我们直观推理下：该算法每3步计算一次梯度和，如果其中两步得出的结论是x = -1，而一次得出的结论是C，那么计算指数移动平均值后，算法就会偏离正确收敛方向。因为对于给定的超参数β2，大梯度C没法控制自己带来的不良影响。

　　自适应优化算法训练出来的结果通常都不如SGD，尽管这些自适应优化算法在训练时表现的看起来更好。使用者应当慎重使用自适应优化算法。自适应算法类似于过学习的效果，生成的模型面对整体分布时是过拟合的。

　　RMSProp和Adam算法下的Γt可能是负的，所以文章探讨了一种替代方法，通过把超参数β1、β2设置为随着t变化而变化，从而保证Γt始终是个非负数。

　　通过添加额外的约束，使学习率始终为正值，当然代价是在大多数时候，AMSGrad算法的学习率是小于Adams和Rmsprop的。它们的主要区别在于AMSGrad记录的是迄今为止所有梯度值vt中的值，并用它来更新学习率，而Adam用的是平均值。因此当t ∈ [T]时，AMSGrad的Γt也能做到始终大于等于0。

　　论文Improving Generalization Performance by Switching from Adam to SGD，进行了实验验证。他们CIFAR-10数据集上进行测试，Adam的收敛速度比SGD要快，但终收敛的结果并没有SGD好。他们进一步实验发现，主要是后期Adam的学习率太低，影响了有效的收敛。他们试着对Adam的学习率的下界进行控制，发现效果好了很多。

　　于是他们提出了一个用来改进Adam的方法：前期用Adam，享受Adam快速收敛的优势；后期切换到SGD，慢慢寻找优解。这一方法以前也被研究者们用到，不过主要是根据经验来选择切换的时机和切换后的学习率。这篇文章把这一切换过程傻瓜化，给出了切换SGD的时机选择方法，以及学习率的计算方法，效果看起来也不错。

　　时机很重要，把自适应变化为分析数据后，固定优化函数手动切换，理论上能取得更好的效果。又或者，修改Adams算法，以应对Novel情况，保证它的收敛性。
以上信息由常州声谷信息科技有限公司整理编辑，了解更多网站优化,网站优化代理,单词优化,网站优化哪家好,单词优化代理,正规网站优化代理信息请访问http://www.shengguxinxi.com

新闻资讯

β2 单词优化= 1/1 + C2

常州声谷信息科技有限公司