当前位置:新励学网 > 秒知问答 > 为什么随机梯度下降方法能够收敛

为什么随机梯度下降方法能够收敛

发表时间:2024-07-12 06:30:12 来源:网友投稿

梯度下降法是一个一阶最优化算法,通常也称为最速下降法。要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。

梯度下降法的优化思想

是用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是最速下降法,最速下降法越接近目标值,步长越小(cost函数是凸函数,比如x^2梯度就是越来越小),前进越慢。

梯度下降法的缺点

靠近极小值时速度减慢。

直线搜索可能会产生一些问题。

可能会“之字型”地下降。

梯度下降收敛速度慢的原因:

梯度下降中x=φ(x)=x-f'(x),φ'(x)=1-f''(x)!=0极值领域一般应该不会满足为0。则根据高阶收敛定理2.6可以梯度下降在根*x附近一般一阶收敛。

梯度下降方法中,负梯度方向从局来看是二次函数的最快下降方向,但是从整体来看却并非最好。

梯度下降最优解

梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下其解不保证是全局最优解,梯度下降法的速度也未必是最快的。

Mini-batchgradient它还是采用了batch的思路,也就是所有样本一起更新。和batch不同的是mini,在求解方向的时候选择了一部分样本一起更新,这样就减少了计算量,同时它又不像SGD那样极端只使用一个样本,所以保证了方向的精确性。

免责声明:本站发布的教育资讯(图片、视频和文字)以本站原创、转载和分享为主,文章观点不代表本网站立场。

如果本文侵犯了您的权益,请联系底部站长邮箱进行举报反馈,一经查实,我们将在第一时间处理,感谢您对本站的关注!