吴恩达斯坦福大学cs230《深度学习》课程内容归纳总结放出,全文干货。对于不方便正式上课的同学们来说,相信这份核心内容总结一定会对你有所帮助。
作为全球计算机四大名校之一,斯坦福大学的cs230《深度学习》课程一直受到全球计算机学子和从业人员的热烈欢迎。
cs230授课人为全球著名计算机科学家吴恩达和他的助教kian katanforoosh。
日前,mit的afshine amidi和斯坦福大学的shervine amidi在博客上整理了一份cs230课程知识点的归纳总结,在reddit上引发热议。
评论网友纷纷表示喜大普奔,对于没有条件上课或者没赶上授课时间的人来说,看看这份总结贴也能获益颇丰。
这份总结提要基本遵循cs230的授课思路和流程,分三大方面由浅入深地介绍了深度学习的基本概念、网络模型、研究和实验操作方法等。三部分内容分别为:卷积神经网络、递归神经网络、提示与技巧。
本文主要介绍这份总结的第一部分,即cnn部分的内容,后两部分rnn、窍门与技巧部分,读者可自行参看github上放出的资源:
卷积神经网络(cnn)
https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-convolutional-neural-networks
递归神经网络(rnn)
https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-recurrent-neural-networks
技巧与窍门
https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-deep-learning-tips-and-tricks
囊括全部内容的“超级vip”pdf下载
https://github.com/afshinea/stanford-cs-230-deep-learning/blob/master/super-cheatsheet-deep-learning.pdf
卷积神经网络结构:卷积层、池化层、全连接层
传统的卷积神经网络由输入图像、卷积层、池化层和全连接层构成。
卷积层(conv):使用过滤器执行卷积操作,扫描输入大小。它的超参数包括滤波器的size和stride。结果输出o称为特征映射或激活映射。
池化层(pool)是一种下采样操作,通常在卷积层之下使用,该卷积层执行一些空间不变性。其中最大池化和平均池化属于特殊操作,分别采用最大值和平均值。
全连接层(fc)在平坦输入上运行,每个输入都连接到所有神经元。如果全连接层存在,通常位于网络体系结构的末尾,可用于优化诸如分类评分等目标。
过滤器超参数
过滤器维度:大小为f×f的过滤器应用在cchannel上维度为f×f×c。
stride:对于卷积和池化操作而言,stride表示每次操作后窗口移动的像素数量。
zero-padding表示对输入边界的每一端加入p个零的过程。这个值可以通过下图中所示的三个方式手动指定,也可以自动设置。
超参数的调整
卷积层中的超参数兼容性:记输入量长度为i,过滤器长度为f,补零数量为p,stride量为s,则该维度下特征映射的输出大小o可用下式表示:
理解模型的复杂度:为了获取模型复杂度,常常可以通过相应架构下的参数数量来达到这一目标。在给定的卷积神经网络层中,该过程如下图所示:
感受野:层k上的感受野区域记为rk×rk,即第k次激活映射可以“看见”的每个输入像素。若层j上的过滤器大小为fj,层i上的stride值为si,且s0=1,则层k上的感受野可以由下式计算出:
常用激活函数
整流线性单元:整流线性单元层(relu)是激活函数g,作用于所有元素。它旨在为网络引入非线性特征,其变量总结在下图中:
softmax:可以视作一个作用于网络架构末端通用逻辑函数,输入为分数向量,输出为概率向量。其定义如下:
物体检测
模型的类型:
有三类主要的物体识别算法,其预测的性质是不同的。如下表的描述:
三类物体识别算法
检测(detection):
在对象检测的上下文中,根据我们是仅想要定位对象还是想要在图像中检测更复杂的形状,可以使用不同的方法。下面总结了两个主要的方法:
边界框检测和特征点检测
intersection over union:
intersection over union(交并比),也称为iou,是一种量化预测边界框在实际边界框上的正确定位的函数。它的定义是:
备注:iou∈[0,1]。按照惯例,如果iou(bp,ba)⩾0.5,预测边界框bp被认为是合理的。
anchor boxes:
anchor boxing是一种用于预测重叠边界框的技术。在实际应用中,网络可以同时预测多个box,其中每个box的预测被约束具有给定的一组几何特性。例如,第一个预测可能是给定形状的矩形框,而第二个预测可能是另一个形状不同的矩形框。
non-max suppression:
non-max suppression技术旨在通过选择最具代表性的对象来删除同一对象的重叠边界框。在删除了概率预测低于0.6的所有框之后,在剩余框中重复以下步骤:
对于一个给定的类,
步骤1:选择具有最大预测概率的框。
步骤2:删除任何与前一个框的iou⩾0.5的框。
yolo - you only look once,这是一种对象检测算法,它执行以下步骤:
步骤1:将输入图像分割成g×g的网格。
步骤2:对于每个网格单元,运行一个cnn网络,预测下面公式中的y:
其中是检测对象的概率,是检测到的边界框的属性,是检测到的p类的one-hot representation,k是anchor boxes的数量。
步骤3:运行 non-max suppression 算法,删除任何可能的重复重叠边界框。
r-cnn
region with convolutional neural networks (r-cnn) 是一种对象检测算法,它首先对图像进行分割以找到潜在的相关边界框,然后运行检测算法,在那些边界框中找到最可能的对象。
备注:虽然原始算法计算成本高且速度慢,但新的架构能让算法运行得更快,例如fast r-cnn和faster r-cnn。
面部验证和识别
模型类型:下面总结了两种主要类型的模型:
one shot learning
one shot learning是一种面部验证算法,它使用有限的训练集来学习相似函数,该函数量化两个给定图像的差异。应用于两个图像的相似度函数通常被标注为d(image 1,image 2).。
siamese network
siamese networks的目的是学习如何编码图像,然后量化不同的两个图像。对于给定的输入图像,编码输出通常记为
triplet loss
triplet loss ℓ是在图像a(anchor),p(positive) 和n(negative)这三个图像的嵌入表示上计算的损失函数。 anchor和positive示例属于同一个类,negative示例属于另一个类。通过调用margin参数,该损失定义如下:
神经风格迁移
动机:
神经风格转移(neural style transfer)的目标是基于给定内容c和给定风格s,生成图像g。
激活:
在给定层l中,激活被标记为,并且具有维度
内容成本函数(content cost function)
内容成本函数用于确定生成的图像g与原始内容图像c的不同之处。它的定义如下:
风格矩阵(style matrix)
style matrix是一个gram矩阵,其中每个元素量化了通道k和k'的相关性。它是根据激活
风格成本函数(style cost function)
风格成本函数用于确定生成的图像g与风格s的不同之处。它的定义如下:
总成本函数(overall cost function)
总成本函数的定义是内容和风格成本函数的组合,由参数α, β加权,如下所示:
使用计算技巧的架构
生成对抗网络(generative adversarial network)
生成对抗网络,也称为gan,由生成模型和判别模型组成,其中生成模型旨在生成最真实的输出,这些输出将被用于区分生成图像和真实图像。
resnet(residual network)
残差网络架构(也称为resnet),使用具有大量层的residual blocks来减少训练误差。 residual blocks 具有以下特征:
inception network
该架构使用 inception modules,目的是尝试不同的卷积,以通过特征的多样化来提高其性能。具体来说,它使用1×1卷积技巧来限制计算负担。
人工智能与大数据分析以及区别的详细中文资料概述
怎么使用蓄电池良好办法
摩尔定律未来还能不能继续下去
北京联通携手华为成功部署和验证了5G承载专享通道解决方案
桌面式三工位弹簧压力试验机:精密测试的新标杆
一份CS230课程知识点的归纳总结,在Reddit上引发热议
创新解决方案--Freescale 让智能手表颠覆现实
为什么HANA在家庭视频网络中选择1394技术,而不是以太网
看懂参数表!激光位移传感器选型必备干货
VTN系列多通道振弦、温度、模拟传感信号系列数据采集仪
【安科瑞节能学院】电压互感器的基础知识原理及注意事项
8月国内动力电池市场主要呈现的特点分析
高通微软联手 PC版骁龙835能否动摇Intel神坛的地位?
什么是EAX/A3D(Aureal 3D)?
俄罗斯通过面部识别技术识别疲劳驾驶者
SAP数据集成软件——SNP Glue概述 SNP Glue有什么优势?
区块链和加密货币的新突破口是DeFi吗
美国层层禁令给华为带来了什么?
首尔半导体Q2净利润增长6% 汽车照明业务表现突出
电路中的自举电容分析