您当前的位置：首页 > IT编程 > TensorFlow
\| C语言 \| Java \| VB \| VC \| python \| Android \| TensorFlow \| C++ \| oracle \| 学术与代码 \| cnn卷积神经网络 \| gnn \| 图像修复 \| Keras \| 数据集 \| Neo4j \| 自然语言处理 \| 深度学习 \| 医学CAD \| 医学影像 \| 超参数 \| pointnet \| pytorch \| 异常检测 \| Transformers \| 情感分类 \| 知识图谱 \|

自学教程：Nesterov加速和Momentum动量方法

51自学网 2020-01-11 23:13:52

TensorFlow

这篇教程Nesterov加速和Momentum动量方法写得很实用，希望能帮到您。

Nesterov加速和Momentum动量方法

福州大学应用数学博士在读

这篇讲下我对这两个方法的理解。

Momentum动量

首先讲动量方法，它的基本迭代通常可以表述为

$\begin{array}{l} v_t = \mu_{t-1}v_{t-1} - \epsilon_{t-1}\nabla g(\theta_{t-1}) \\ \theta_t = \theta_{t-1} + v_t \end{array}$ （1）

这里的 $\mu_{t-1}<1$ 表示衰减因子，可以理解为对以前方向的依赖程度，注意到如果 $\mu_{t-1} = 0$ ，那就变成了普通的梯度方法了。有时会看到下面这种写法：

$\begin{array}{l} v_t = \mu_{t-1}v_{t-1} - \nabla g(\theta_{t-1}) \\ \theta_t = \theta_{t-1} + \epsilon_{t-1}v_t \end{array}$

其实这是一样的。这里我想推导下另外一种等价形式。

$\begin{split} \theta_t &= \theta_{t-1} + v_t \\ & = \theta_{t-1} + \mu_{t-1}v_{t-1} - \epsilon_{t-1}\nabla g(\theta_{t-1}) \\ & = \theta_{t-1} + \mu_{t-1}(\theta_{t-1} - \theta_{t-2}) - \epsilon_{t-1}\nabla g(\theta_{t-1}) \end{split}$

然后我们引入一个中间变量 $y_{t-1}$ ，并令它满足

$y_{t-1} = \theta_{t-1} + \mu_{t-1}(\theta_{t-1} - \theta_{t-2})$

这样我们就得到了新的迭代形式

$\begin{array}{l} \theta_t = y_{t-1} - \epsilon_{t-1}\nabla g(\theta_{t-1}) \\ y_{t} = \theta_{t} + \mu_{t}(\theta_{t} - \theta_{t-1}) \end{array}$ (2)

Nesterov加速

Nesterov加速方法的基本迭代形式为

$\begin{array}{l} v_t = \mu_{t-1}v_{t-1} - \epsilon_{t-1}\nabla g(\theta_{t-1} + \mu_{t-1}v_{t-1}) \\ \theta_t = \theta_{t-1} + v_t \end{array}$ （3）

和动量方法的区别在于二者用到了不同点的梯度，动量方法采用的是上一步 $\theta_{t-1}$ 的梯度方向，而Nesterov加速方法则是从 $\theta_{t-1}$ 朝着 $v_{t-1}$ 往前一步。一种解释是，反正要朝着 $v_{t-1}$ 方向走，不如先利用了这个信息，这个叫未卜先知。接下来我来推导出第二种等价形式

$\begin{split} \theta_t &= \theta_{t-1} + v_t \\ & = \theta_{t-1} +\mu_{t-1}v_{t-1} - \epsilon_{t-1}\nabla g(\theta_{t-1} + \mu_{t-1}v_{t-1}) \\ & = \theta_{t-1} +\mu_{t-1}(\theta_{t-1} - \theta_{t-2}) - \epsilon_{t-1}\nabla g(\theta_{t-1} + \mu_{t-1}(\theta_{t-1} - \theta_{t-2})) \end{split}$

然后引入中间变量 $y_{t-1}$ ，使得它满足

$y_{t-1} = \theta_{t-1} +\mu_{t-1}(\theta_{t-1} - \theta_{t-2})$

然后得到第二种等价形式

$\begin{array}{l} \theta_t = y_{t-1} - \epsilon_{t-1}\nabla g(y_{t-1}) \\ y_{t} = \theta_{t} + \mu_{t}(\theta_{t} - \theta_{t-1}) \end{array}$ (4)

这可以理解为，先走个梯度步，然后再走个加速步。我最早了解到Nesterov加速方法就（4）这种形式，看很多优化方面的文章，都是（4）这种形式，比如在FISTA方法中。（3）这种形式是在看深度学习相关文献时了解到的，一开始看到二者的不同有点懵逼，后面才知道二者是等价的，这下就舒畅了。

常见的关于momentum的误解（上）
tf.keras.optimizers.SGD