神经网络常用卷积总结

资源ID：266136666 资源大小：2.96MB 全文页数：14页
资源格式： DOCX 下载积分：15金贝

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金贝

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

1、金锄头文库是“C2C”交易模式，即卖家上传的文档直接由买家下载，本站只是中间服务平台，本站所有文档下载所得的收益全部归上传人（卖家）所有，作为网络服务商，若您的权利被侵害请及时联系右侧客服；
2、如你看到网页展示的文档有jinchutou.com水印，是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有jinchutou.com水印标识，下载后原文更清晰；
3、所有的PPT和DOC文档都被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；下载前须认真查看，确认无误后再购买；
4、文档大部份都是可以预览的，金锄头文库作为内容存储提供商，无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证，请慎重购买；
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据；
6、如果您还有什么不清楚的或需要我们协助，可以点击右侧栏的客服。

下载须知 | 常见问题汇总

1、会员注册 2、如何支付与充值 3、个人资料信息修改 4、我的收藏和“收藏文件夹” 5、我的读者群和加入读者群 6、我的书签 7、金锄头文库批量上传工具（绿色版）V1.0 8、下载文档（资源）相关问题整理 9、解决下载文档时，自动弹出迅雷的问题 10、下载时为什么支付不成功？

神经网络常用卷积总结

神经网络常用卷积总结【摘要】卷积操作是卷积神经网络提取特征的主要手段之一，当前各种卷积操作层出不穷，根据场景各有优势。本文将对常见的几种卷积操作的特性进行简要对比。进行卷积的目的是从输入中提取有用的特征。在图像处理中，可以选择各种各样的filters。每种类型的filter都有助于从输入图像中提取不同的特征，例如水平/垂直/对角线边缘等特征。在卷积神经网络中，通过使用filters提取不同的特征，这些filters的权重是在训练期间自动学习的，然后将所有这些提取的特征“组合”以做出决策。§ 目录：1. 2D卷积2. 3D卷积3. 1*1卷积4. 空间可分离卷积5. 深度可分离卷积6. 分组卷据7. 扩展卷积8. 反卷积9. Involution2D卷积单通道：在深度学习中，卷积本质上是对信号按元素相乘累加得到卷积值。对于具有1个通道的图像，下图演示了卷积的运算形式：这里的filter是一个3 x 3的矩阵，元素为0，1，2，2，2，0，0，1，2。filter在输入数据中滑动。在每个位置，它都在进行逐元素的乘法和加法。每个滑动位置以一个数字结尾，最终输出为3 x 3矩阵。多通道：由于图像一般具有RGB3个通道，所以卷积一般多用于多通道输入的场景。下图演示了多通道输入场景的运算形式：这里输入层是一个5 x 5 x 3矩阵，有3个通道，filters是3 x 3 x 3矩阵。首先，filters中的每个kernels分别应用于输入层中的三个通道，执行三次卷积，产生3个尺寸为3×3的通道：然后将这三个通道相加（逐个元素相加）以形成一个单个通道（3 x 3 x 1），该通道是使用filters（3 x 3 x 3矩阵）对输入层（5 x 5 x 3矩阵）进行卷积的结果：3D卷积在上一个插图中，可以看出，这实际上是在完成3D-卷积。但通常意义上，仍然称之为深度学习的2D-卷积。因为filters的深度和输入层的深度相同，3D-filters仅在2个维度上移动（图像的高度和宽度），得到的结果为单通道。通过将2D-卷积的推广，在3D-卷积定义为filters的深度小于输入层的深度（即卷积核的个数小于输入层通道数），故3D-filters需要在三个维度上滑动（输入层的长、宽、高）。在filters上滑动的每个位置执行一次卷积操作，得到一个数值。当filters滑过整个3D空间，输出的结构也是3D的。2D-卷积和3D-卷积的主要区别为filters滑动的空间维度，3D-卷积的优势在于描述3D空间中的对象关系。3D关系在某一些应用中十分重要，如3D-对象的分割以及医学图像的重构等。1*1卷积对于1*1卷积而言，表面上好像只是feature maps中的每个值乘了一个数，但实际上不仅仅如此，首先由于会经过激活层，所以实际上是进行了非线性映射，其次就是可以改变feature maps的channel数目。上图中描述了：在一个维度为 H x W x D 的输入层上的操作方式。经过大小为 1 x 1 x D 的filters的 1 x 1 卷积，输出通道的维度为 H x W x 1。如果我们执行 N 次这样的 1 x 1 卷积，然后将这些结果结合起来，我们能得到一个维度为 H x W x N 的输出层。空间可分离卷积在一个可分离卷积中，我们可以将内核操作拆分成多个步骤。我们用y = conv（x，k）表示卷积，其中y是输出图像，x是输入图像，k是内核。这一步很简单。接下来，我们假设k可以由下面这个等式计算得出：k = k1.dot（k2）。这将使它成为一个可分离的卷积，因为我们可以通过对k1和k2做2个一维卷积来取得相同的结果，而不是用k做二维卷积。以通常用于图像处理的Sobel内核为例。你可以通过乘以向量1,0,-1和1,2,1 .T获得相同的内核。在执行相同的操作时，你只需要6个而不是9个参数。深度可分离卷积空间可分离卷积（上一小节），而在深度学习中，深度可分离卷积将执行一个空间卷积，同时保持通道独立，然后进行深度卷积操作。假设我们在一个16输入通道和32输出通道上有一个3x3的卷积层。那么将要发生的就是16个通道中的每一个都由32个3x3的内核进行遍历，从而产生512（16x32）的特征映射。接下来，我们通过将每个输入通道中的特征映射相加从而合成一个大的特征映射。由于我们可以进行此操作32次，因此我们得到了期望的32个输出通道。那么，针对同一个示例，深度可分离卷积的表现又是怎样的呢？我们遍历16个通道，每一个都有一个3x3的内核，可以给出16个特征映射。现在，在做任何合并操作之前，我们将遍历这16个特征映射，每个都含有32个1x1的卷积，然后才逐此开始添加。这导致与上述4608（16x32x3x3）个参数相反的656（16x3x3 + 16x32x1x1）个参数。下面再进行详细说明。前面部分所提到的 2D 卷积核 1x1 卷积。让我们先快速过一下标准的 2D 卷积。举一个具体的案例，假设输入层的大小为 7 x 7 x 3（高 x 宽 x 通道），过滤器大小为 3 x 3 x 3，经过一个过滤器的 2D 卷积后，输出层的大小为 5 x 5 x 1（仅有 1 个通道）。如下图所示：一般来说，两个神经网络层间应用了多个过滤器，现在假设过滤器个数为 128。128 次 2D 卷积得到了 128 个 5 x 5 x 1 的输出映射。然后将这些映射堆叠为一个大小为 5 x 5 x 128 的单个层。空间维度如高和宽缩小了，而深度则扩大了。如下图所示：接下来看看使用深度可分离卷积如何实现同样的转换。首先，我们在输入层上应用深度卷积。我们在 2D 卷积中分别使用 3 个卷积核（每个过滤器的大小为 3 x 3 x 1），而不使用大小为 3 x 3 x 3 的单个过滤器。每个卷积核仅对输入层的 1 个通道做卷积，这样的卷积每次都得出大小为 5 x 5 x 1 的映射，之后再将这些映射堆叠在一起创建一个 5 x 5 x 3 的图像，最终得出一个大小为 5 x 5 x 3 的输出图像。这样的话，图像的深度保持与原来的一样。深度可分离卷积第一步：在 2D 卷积中分别使用 3 个卷积核（每个过滤器的大小为 3 x 3 x 1），而不使用大小为 3 x 3 x 3 的单个过滤器。每个卷积核仅对输入层的 1 个通道做卷积，这样的卷积每次都得出大小为 5 x 5 x 1 的映射，之后再将这些映射堆叠在一起创建一个 5 x 5 x 3 的图像，最终得出一个大小为 5 x 5 x 3 的输出图像。深度可分离卷积的第二步是扩大深度，我们用大小为 1x1x3 的卷积核做 1x1 卷积。每个 1x1x3 卷积核对 5 x 5 x 3 输入图像做卷积后都得出一个大小为 5 x 5 x1 的映射。这样的话，做 128 次 1x1 卷积后，就可以得出一个大小为 5 x 5 x 128 的层。分组卷积 Group convolution 分组卷积，最早在AlexNet中出现，由于当时的硬件资源有限，训练AlexNet时卷积操作不能全部放在同一个GPU处理，因此作者把feature maps分给多个GPU分别进行处理，最后把多个GPU的结果进行融合。下面描述分组卷积是如何实现的。首先，传统的 2D 卷积步骤如下图所示。在这个案例中，通过应用 128 个过滤器（每个过滤器的大小为 3 x 3 x 3），大小为 7 x 7 x 3 的输入层被转换为大小为 5 x 5 x 128 的输出层。针对通用情况，可概括为：通过应用 Dout 个卷积核（每个卷积核的大小为 h x w x Din），可将大小为 Hin x Win x Din 的输入层转换为大小为 Hout x Wout x Dout 的输出层。在分组卷积中，过滤器被拆分为不同的组，每一个组都负责具有一定深度的传统 2D 卷积的工作。下图的案例表示得更清晰一些。扩张卷积扩张卷积引入另一个卷积层的参数被称为扩张率。这定义了内核中值之间的间距。扩张速率为2的3x3内核将具有与5x5内核相同的视野，而只使用9个参数。想象一下，使用5x5内核并删除每个间隔的行和列。（如下图所示）系统能以相同的计算成本，提供更大的感受野。扩张卷积在实时分割领域特别受欢迎。在需要更大的观察范围，且无法承受多个卷积或更大的内核，可以才用它。直观上，空洞卷积通过在卷积核部分之间插入空间让卷积核膨胀。这个增加的参数 l（空洞率）表明了我们想要将卷积核放宽到多大。下图显示了当 l=1,2,4 时的卷积核大小。（当l=1时，空洞卷积就变成了一个标准的卷积）。反卷积这里提到的反卷积跟1维信号处理的反卷积计算是很不一样的，FCN作者称为backwards convolution，有人称Deconvolution layer is a very unfortunate name and should rather be called a transposed convolutional layer. 我们可以知道，在CNN中有con layer与pool layer，con layer进行对图像卷积提取特征，pool layer对图像缩小一半筛选重要特征，对于经典的图像识别CNN网络，如IMAGENET，最后输出结果是1X1X1000，1000是类别种类，1x1得到的是。FCN作者，或者后来对end to end研究的人员，就是对最终1x1的结果使用反卷积（事实上FCN作者最后的输出不是1X1，是图片大小的32分之一，但不影响反卷积的使用）。这里图像的反卷积与图6的full卷积原理是一样的，使用了这一种反卷积手段使得图像可以变大，FCN作者使用的方法是这里所说反卷积的一种变体，这样就可以获得相应的像素值，图像可以实现end to end。目前使用得最多的deconvolution有2种：方法1：full卷积，完整的卷积可以使得原来的定义域变大方法2：记录pooling index，然后扩大空间，再用卷积填充。图像的deconvolution过程如下：输入：2x2，卷积核：4x4，滑动步长：3，输出：7x7 即输入为2x2的图片经过4x4的卷积核进行步长为3的反卷积的过程 1.输入图片每个像素进行一次full卷积，根据full卷积大小计算可以知道每个像素的卷积后大小为 1+4-1=4，即4x4大小的特征图，输入有4个像素所以4个4x4的特征图 2.将4个特征图进行步长为3的fusion（即相加）；例如红色的特征图仍然是在原来输入位置（左上角），绿色还是在原来的位置（右上角），步长为3是指每隔3个像素进行fusion，重叠部分进行相加，即输出的第1行第4列是由红色特阵图的第一行第四列与绿色特征图的第一行第一列相加得到，其他如此类推。可以看出反卷积的大小是由卷积核大小与滑动步长决定， in是输入大小， k是卷积核大小， s是滑动步长， out是输出大小得到 out = (in - 1) * s + k 上图过程就是， (2 -

注意事项

本文（神经网络常用卷积总结）为本站会员（Baige****0346）主动上传，金锄头文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】，按提示上传提交保证函及证明材料，经审查核实后我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。