深度学习笔记6：神经网络优化算法之从SGD到Adam

从前面的学习中，带大家一起学会了如何手动搭建神经网络，以及神经网络的正则化等实用层面的内容。这些都使得我们能够更深入的理解神经网络的机制，而并不是初次接触深度学习就上手框架，虽然对外宣称神经网络是个黑箱机制，但是作为学习者我们极度有必要搞清楚算法在每个环节到底都干了些什么。
      今天笔者需要讲的是深度学习的一个大的主题——优化算法。采用何种方式对损失函数进行迭代优化，这是机器学习的一大主题之一，当一个机器学习问题有了具体的模型和评估策略，所有的机器学习问题都可以形式化为一个最优化问题。这也是为什么我们说优化理论和凸优化算法等学科是机器学习一大支柱的原因所在。从纯数学的角度来看，所有的数学模型尽管形式不一，各有头面，但到最后几乎到可以归约为最优化问题。所以，有志于奋战在机器学习和深度学习领域的各位，学好最优化，责无旁贷啊。
      要说机器学习和深度学习的优化算法，梯度下降必然是核心所在。神经网络发展至今，优化算法层出不穷，但大底是出不了梯度下降的框框架架。这一篇笔记，笔者就和大家一起学习和回顾深度学习中常用的优化算法。在前面手动搭建神经网络的代码实践中，我们对于损失函数的优化采用了一般的梯度下降法，所以本篇总结就从梯度下降法开始。
梯度下降法 gradient descent
想必大家对于梯度下降是很熟悉了，选择负梯度方向进行参数更新算是常规操作了。话不多说，对于多层神经网络如何执行梯度下降：
def update_parameters_with_gd(parameters, grads, learning_rate):        update parameters using one step of gradient descent    arguments:    parameters -- python dictionary containing your parameters to be updated:                    parameters['w' + str(l)] = wl                    parameters['b' + str(l)] = bl    grads -- python dictionary containing your gradients to update each parameters:                    grads['dw' + str(l)] = dwl                    grads['db' + str(l)] = dbl    learning_rate -- the learning rate, scalar.    returns:    parameters -- python dictionary containing your updated parameters         l = len(parameters) // 2 # number of layers in the neural networks    # update rule for each parameter    for l in range(l):          parameters['w' + str(l+1)] = parameters['w' + str(l+1)] - learning_rate * grads['dw' + str(l+1)]        parameters['b' + str(l+1)] = parameters['b' + str(l+1)] - learning_rate * grads['db' + str(l+1)]      return parameters      在上述代码中，我们传入含有权值和偏置的字典、梯度字段和更新的学习率作为参数，按照开头的公式编写权值更新代码，一个简单的多层网络的梯度下降算法就写出来了。
小批量梯度下降法 mini-batch gradient descent      在工业数据环境下，直接对大数据执行梯度下降法训练往往处理速度缓慢，这时候将训练集分割成小一点的子集进行训练就非常重要了。这个被分割成的小的子集就叫做 mini-batch，意为小批量。对每一个小批量同时执行梯度下降会大大提高训练效率。在实际利用代码实现的时候，小批量梯度下降算法通常包括两个步骤：充分打乱数据（shuffle）和分组组合数据(partition)。如下图所示。
shuffle
partition
      具体代码实现为：
def random_mini_batches(x, y, mini_batch_size = 64, seed = 0): creates a list of random minibatches from (x, y) arguments: x -- input data, of shape (input size, number of examples) y -- true label vector (1 for blue dot / 0 for red dot), of shape (1, number of examples) mini_batch_size -- size of the mini-batches, integer returns: mini_batches -- list of synchronous (mini_batch_x, mini_batch_y) np.random.seed(seed) m = x.shape[1] mini_batches = [] # step 1: shuffle (x, y) permutation = list(np.random.permutation(m)) shuffled_x = x[:, permutation] shuffled_y = y[:, permutation].reshape((1,m)) # step 2: partition (shuffled_x, shuffled_y). minus the end case. num_complete_minibatches = math.floor(m/mini_batch_size) for k in range(0, num_complete_minibatches): mini_batch_x = shuffled_x[:, 0:mini_batch_size] mini_batch_y = shuffled_y[:, 0:mini_batch_size] mini_batch = (mini_batch_x, mini_batch_y) mini_batches.append(mini_batch) # handling the end case (last mini-batch < mini_batch_size) if m % mini_batch_size != 0: mini_batch_x = shuffled_x[:, 0: m-mini_batch_size*math.floor(m/mini_batch_size)] mini_batch_y = shuffled_y[:, 0: m-mini_batch_size*math.floor(m/mini_batch_size)] mini_batch = (mini_batch_x, mini_batch_y) mini_batches.append(mini_batch)
return mini_batches      小批量梯度下降的实现思路非常清晰，先打乱数据在分组数据，需要注意的细节在于最后一个小批量所含的训练样本数，通常而言最后一个小批量会少于前面批量所含样本数。
随机梯度下降 stochastic gradient descent 当小批量所含的训练样本数为 1 的时候，小批量梯度下降法就变成了随机梯度下降法（sgd）。sgd虽然以单个样本为训练单元训练速度会很快，但牺牲了向量化运算所带来的便利性，在较大数据集上效率并不高。
      我们可以看一下梯度下降和随机梯度下降在实现上的差异：
# gd
x = data_inputy = labelsparameters = initialize_parameters(layers_dims)
for i in range(0, num_iterations): # forward propagation a, caches = forward_propagation(x, parameters) # compute cost. cost = compute_cost(a, y) # backward propagation. grads = backward_propagation(a, caches, parameters) # update parameters. parameters = update_parameters(parameters, grads)
# sgdx = data_inputy = labelsparameters = initialize_parameters(layers_dims)
for i in range(0, num_iterations):
for j in range(0, m): # forward propagation a, caches = forward_propagation(x[:,j], parameters) # compute cost cost = compute_cost(a, y[:,j]) # backward propagation grads = backward_propagation(a, caches, parameters) # update parameters. parameters = update_parameters(parameters, grads)      所以，从本质上看，梯度下降法、小批量梯度下降法和随机梯度下降法，并没有区别。唯一的区别就在于它们执行一次训练过程所需要用到的训练样本数。梯度下降法用到的是全集训练数据，随机梯度下降则是单个样本数据，而小批量则是介于二者之间。
带动量的梯度下降法（momentum）
      正如上图中看到的一样，我们假设梯度下降的横向为参数 w 的下降方向，而偏置 b 的下降方向为纵轴，我们总是希望在纵轴上的震荡幅度小一点，学习速度慢一点，而在横轴上学习速度快一点，无论是小批量梯度下降还是随机梯度下降，好像都不能避免这个问题。为了解决这个问题，带动量的梯度下降法来了。带动量的梯度下降考虑历史梯度的加权平均值作为速率进行优化。执行公式如下：
根据上述公式编写带动量的梯度下降法实现代码：
def update_parameters_with_momentum(parameters, grads, v, beta, learning_rate):        update parameters using momentum    arguments:    parameters -- python dictionary containing your parameters:                    parameters['w' + str(l)] = wl                    parameters['b' + str(l)] = bl    grads -- python dictionary containing your gradients for each parameters:                    grads['dw' + str(l)] = dwl                    grads['db' + str(l)] = dbl    v -- python dictionary containing the current velocity:                    v['dw' + str(l)] = ...                    v['db' + str(l)] = ...    beta -- the momentum hyperparameter, scalar    learning_rate -- the learning rate, scalar    returns:    parameters -- python dictionary containing your updated parameters     v -- python dictionary containing your updated velocities        l = len(parameters) // 2 # number of layers in the neural networks    # momentum update for each parameter    for l in range(l):        # compute velocities        v['dw' + str(l+1)] = beta * v['dw' + str(l+1)] + (1-beta)* grads['dw' + str(l+1)]        v['db' + str(l+1)] = beta * v['db' + str(l+1)] + (1-beta)* grads['db' + str(l+1)]        # update parameters        parameters['w' + str(l+1)] = parameters['w' + str(l+1)] - learning_rate*v['dw' + str(l+1)]        parameters['b' + str(l+1)] = parameters['b' + str(l+1)] - learning_rate*v['db' + str(l+1)]     return parameters, v      实现带动量的梯度下降的关键点有两个：一是动量是考虑历史梯度进行梯度下降的，二是这里的需要指定的超参数变成了两个：一个是学习率 learning_rate，一个是梯度加权参数beta。
adam算法      adam 全称为 adaptive moment estimation，是在带动量的梯度下降法的基础上融合了一种称为 rmsprop（加速梯度下降）的算法而成的。相较于带动量的梯度下降法，无论是rmsprop 还是 adam，其中的改进思路都在于如何让横轴上的学习更快以及让纵轴上的学习更慢。rmsprop 和 adam 在带动量的梯度下降法的基础上，引入了平方梯度，并对速率进行了偏差纠正。具体计算公式如下：
实现代码如下：
def update_parameters_with_adam(parameters, grads, v, s, t, learning_rate = 0.01, beta1 = 0.9, beta2 = 0.999, epsilon = 1e-8): update parameters using adam arguments: parameters -- python dictionary containing your parameters: parameters['w' + str(l)] = wl parameters['b' + str(l)] = bl grads -- python dictionary containing your gradients for each parameters: grads['dw' + str(l)] = dwl grads['db' + str(l)] = dbl v -- adam variable, moving average of the first gradient, python dictionary s -- adam variable, moving average of the squared gradient, python dictionary learning_rate -- the learning rate, scalar. beta1 -- exponential decay hyperparameter for the first moment estimates beta2 -- exponential decay hyperparameter for the second moment estimates epsilon -- hyperparameter preventing division by zero in adam updates returns: parameters -- python dictionary containing your updated parameters v -- adam variable, moving average of the first gradient, python dictionary s -- adam variable, moving average of the squared gradient, python dictionary l = len(parameters) // 2 v_corrected = {} s_corrected = {} # perform adam update on all parameters for l in range(l): v[dw + str(l+1)] = beta1 * v[dw + str(l+1)] + (1 - beta1) * grads['dw'+str(l+1)] v[db + str(l+1)] = beta1 * v[db + str(l+1)] + (1 - beta1) * grads['db'+str(l+1)] # compute bias-corrected first moment estimate. inputs: v, beta1, t. output: v_corrected. v_corrected[dw + str(l+1)] = v[dw + str(l+1)] / (1 - beta1**t) v_corrected[db + str(l+1)] = v[db + str(l+1)] / (1 - beta1**t) # moving average of the squared gradients. inputs: s, grads, beta2. output: s. s[dw + str(l+1)] = beta2 * s[dw + str(l+1)] + (1 - beta2) * (grads[dw + str(l+1)])**2 s[db + str(l+1)] = beta2 * s[db + str(l+1)] + (1 - beta2) * (grads[db + str(l+1)])**2 # compute bias-corrected second raw moment estimate. inputs: s, beta2, t. output: s_corrected. s_corrected[dw + str(l+1)] = s[dw + str(l+1)] / (1 - beta2**t) s_corrected[db + str(l+1)] = s[db + str(l+1)] / (1 - beta2**t) # update parameters. inputs: parameters, learning_rate, v_corrected, s_corrected, epsilon. output: parameters. parameters[w + str(l+1)] = parameters[w + str(l+1)] - learning_rate * v_corrected[dw + str(l+1)] / (np.sqrt(s_corrected[dw + str(l+1)]) + epsilon) parameters[b + str(l+1)] = parameters[b + str(l+1)] - learning_rate * v_corrected[db + str(l+1)] / (np.sqrt(s_corrected[db + str(l+1)]) + epsilon)
return parameters, v, s      除了以上这些算法，还有一些像 adadelta 之类的算法我们没有提到，有需要了解的同学可以自行查找相关资料。最后用一个图来展示各种优化算法的效果：
本文由《自兴动脑人工智能》项目部凯文投稿。

LED驱动电源如何才能通过CE认证有什么要求
高速PCB内同步时钟系统设计
常见这种电池故障分析修复
区块链解决方案用于法律领域中的好处是什么
基于区块链中的文档验证探讨
深度学习笔记6：神经网络优化算法之从SGD到Adam
康佳获世界杯OTT直播权联通与英特尔携手发力全互联PC
一周芯闻：2020年第三季度世界半导体市场情况
qemu-riscv在scode的gdb调试步骤
FPGA上如何求32个输入的最大值和次大值：分治
iPhone8上市时间、价格确定：9月12日正式发布配置性能升级，价格超8000？还是等华为Mate10吧
比特币交易平台系统开发搭建公司
ROG游戏手机2宣布将于7月23日发布与腾讯联手重新定义游戏手机
微型电机行业正在加速朝着高效性、智能化生产方向发展
透明手机外壳的注塑为何要采用注塑压缩呢？
告别虚标！水芯真22.5W 移动电源 SOC——M12218/9
雄安首座500千伏变电站开工建设，将率先全面应用北斗系统
全球12寸晶圆产能持续扩增 18寸技术障碍未克服
华为MateStation B515商用台式机正式发布
技术普及篇|解析网线的环保标准及阻燃等级