在日常学习中,我们经常在机器学习与深度学习中,主要应用于梯度下降。
传统的优化器主要结合数据集,通过变化单次循环所采用的数据量的大小对梯度下降进行控制;
非传统的优化器则进一步集合数据集的特点和模型的训练时间,以不同的形式变化梯度下降的学习率。
梯度下降的原理:
其中, θ为学习率,为更新前的参数,
为更新后的参数,
为当前参数的导数。
通过优化算法更新可训练参数W和b值,从而是代价函数J的值最小化
在有限的视距内寻找最快路径下山,每走一步,参考当前位置最陡的方向(即梯度)进而迈出下一步
下山前掌握附近的地势,选择总体平均梯度最小的方向下山
每次权值调整发生在批量样本输入之后,而不是每输入一个样本就更新一次模型参数
盲人下山,不是每一步都算下降,但过程扭扭曲曲
在梯度下降法的基础山改变,具有加速度下降的作用
动量的随机梯度下降法
当前权值的改变会受到上一次权值改变的影响,类似于小球向下滚动的时候带上了惯性。这样可以加快小球向下滚动的速度
Momentum动量算法的变种
加入一个校正因子,提前知道下一个位置的梯度,使得小球在往前滚动的时候,知道自己去哪。
针对机器学习模型的学习率
适用于数据稀疏或者分布不平衡的
修改了AdaGrad的梯度积累为指数****加权的移动平均,使得非凸设定下效果更好,避免了学习率越来越低的问题,自适应地调节学习率
经常用的优化方法
AdaGrad算法和RMSProp算法都需要指定全局学习率,AdaDelta算法结合两种算法每次参数的更新步长。
Adam中动量直接并入了梯度一阶矩(指数加权)的估计
对超参数的选择相当鲁棒,鲁棒性好
在一个曲面上,6种优化器的运动轨迹表现:
一个存在鞍点的曲面,比较6中优化器的性能表现:
比较了6种优化器收敛到目标点(五角星)的运行过程:
以上是我个人在学习过程中的记录所学,希望对正在一起学习的小伙伴有所帮助!!!
参考资料:
机器学习:各种优化器Optimizer的总结与比较
深度学习梯度更新各类优化器详细介绍
NLP面试题总结(包含8种优化器简介).03
某某自来水业务系统,是一套适合各种规模自来水公司的网络版自来水多种类业务管理软件。根据各大自来水公司存在的问题和需求自主...
某某自来水业务系统,是一套适合各种规模自来水公司的网络版自来水多种类业务管理软件。根据各大自来水公司存在的问题和需求自主...
某某自来水业务系统,是一套适合各种规模自来水公司的网络版自来水多种类业务管理软件。根据各大自来水公司存在的问题和需求自主...
某某自来水业务系统,是一套适合各种规模自来水公司的网络版自来水多种类业务管理软件。根据各大自来水公司存在的问题和需求自主...