resnet50参数量 resnet50参数量计算
2025-01-23 19:34 - 立有生活网
ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks 笔记
其中GAP是全局平均池化,把一个特征图求平均值,从一个 变成这是发在 CVPR 2020 上的文章。
resnet50参数量 resnet50参数量计算
resnet50参数量 resnet50参数量计算
(1)直接累加就挺好
最近,通道注意力机制被证明在提高深度s表现上具有很高的前景。但是,大多数现有方法都致力于开发 更复杂的注意力模块 以实现更好的性能,这不可避免地会 增加模型的复杂性。
为了平衡表现性和复杂性,这篇文章提出了一个有效的通道注意力模型(Efficient Channel Attention,ECA),它仅涉及少数几个参数,同时带来明显的性能提升。通过剖析SENet中的通道注意模块,我们从经验上表明 避免降维 对于学习通道注意很重要,并且 适当的跨通道交互 可以在保持性能的同时显着降低模型的复杂性。
因此,提出了一个 没有降维的局部的跨通道交互策略 ,其可以通过1D卷积有效的实施。此外,开发了一种方法来 自适应选择一维卷积的核大小 ,确定局部跨通道交互的覆盖范围。
在SENet设置挤压(即特征聚合)和激励(即特征重新校准)之后,一些研究者通过捕获更复杂的成对依赖的通道或者是联合空间注意力来增强SE块。尽管这些方法获得了更高的准确率, 但是他们往往带来了更复杂的模型,并且带来了更重的计算负担。
为了回答这个问题,首先重新访问SENet中的通道关注模块。具体来说,给定输入功能,SE块首先为每个通道依赖采用全局平均池,然后是两个具有非线性的全连接(FC)层,然后是Sigmoid函数用于生成通道权重。这两个FC层被设计捕获非线性跨通道交互,其中涉及降维以控制模型复杂性。尽管这个策略被广泛使用,作者的经验研究认为降维为通道注意力带来了负面影响,并且它对捕获所以通道的依赖性来说不是有效也不是必要的。
因此,这篇文章提出了ECA,旨在以一个有效的方式来捕获跨通道交互并且避免降维。
如图2所示,没有降维,在对通道对进行全局平均池化之后,文章的ECA通过考虑每一个通道和其 邻居来捕获一个局部跨通道交互。
注意到ECA能够通过核为 的快速1D卷积有效实现,其中 表示这个局部交叉跨通道交互的范围,即,多少邻居参与一个通道的注意力预测。为了避免通过交叉验证手动调整 ,作者开发了一种自适应确定 的方法,其中 交互作用的覆盖范围(即内核大小 )与通道成比例。
如图1和表3所示,相对对于骨干模型,带有我们的ECA模块(称为ECA-Net)的深层引入了很少的附加参数和可忽略的计算,同时带来了显着的性能提升。
例如,对于ResNet-50,24.37M参数和3.86 GFLOP,ECA-Net50的附加参数和计算分别为80和4.7e-4GFLOP;同时,在Top-1准确性方面,ECA-Net50优于ResNet-50 2.28%。
表1总结了现有的关注模块,包括渠道降维(DR),跨渠道互动和轻量级模型方面,可以看到,ECA模块通过避免渠道降维而捕获了有效的渠道关注,同时以极轻量的方式捕获了跨渠道互动方式。
这篇文章的贡献:
注意力机制被证明是提高深度s的一个方法。SENet首次提出了一种有效的机制来学习通道注意力并获得有希望的性能。
注意力机制能够被分为两个方向:
是一个卷积块的输出。
在SE块中,通道的权重计算方式是:
其中, 是通道对的全局平均池化(GAP)并且 是 Sigmoid 函数。
为了避免高的模型复杂性, 的大小分别是 , 。我们能够看见 包含了所有参数。而等式(2)中的降维可以减少模型的复杂性,它破坏了通道与其权重之间的直接对应关系。
为了验证以上的分析,比较了原始SE具有三个变体(即SE-Var1,SE-Var2和SEVar3)的块,它们都不执行降维。
让这个增强的特征 没有降维,通道特征能够被学习为:
特别地,对于 以及 ,
这个主要不同在于,SE-Var3考虑道路跨通道交互,而SE-Var2没有,因此,SE-Var3的效果好。
这个结果说明了跨通道交互对于学习通道注意力有利。
然而SE-Var3要求的参数多,导致了高的复杂度。
SE-Var2和SE-Var3之间可能的折衷方案是将 扩展到块对角矩阵,即把通道数变成 个图,每一个图包含 个通道数。
包含了 个参数。
SE-Var2,SE-Var3,公式5分别属于深度可分离卷积,FC,块卷积(group convolutions)。
然而,过多的快卷积会增加内存,访问成本,从而降低了计算效率。
在本文中,探索了另一种捕获本地跨渠道交互的方法,旨在保证效率和有效性。
具体来说,我们采用波段矩阵 来学习通道关注度,并且 为
至于式(6),仅通过考虑 与它的 个邻居之间的相互作用来计算 的权重,即
其中,Ωki表示yi的k个相邻通道的。
一个更有效的方法是让所有通道分享权重,
其中,C1D 指的是1D卷积。该方法只有 个参数。
通过交叉验证需要花费大量的计算资源。
块卷积已成功地用于改善架构,在给定固定组数的情况下,高维(低维)通道涉及长距离(短程)卷积。
共享相似的原理,交互作用的覆盖范围(即一维卷积的内核大小k)与通道维C成正比是合理的。换句话说,存在一个在 和 之间的映射 :
最简单的映射是线性函数,也就是 。但是线性函数有很多限制。另一方面,众所周知,信道尺寸C(即滤波器的数量)通常被设置为2的幂。因此:
其中, 表示与 最近的奇数。
在这篇文章中, 为2, 为1。
ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks
resnet18和resnet50区别
与前面提到的以更高的模型复杂度为代价来实现更好的性能的方法不同,本文重点关注的问题是: 是否可以以一种更有效的方式来学习有效的渠道注意力?1、resnet18使用的3x3的卷积核,18模型没有使用这种先1x1卷积缩减通道数的方式。
后续给出了ResNet-v2,这个作者确实是用力了,把之前没讨论的形式基本都讨论了一遍,比如为啥 这一部分的系数是1而不是0.5:2、resnet50使用的是1x1卷积核先对图像进行通道数的缩减,从256到64,然后再在64个通道数的特征图上做3x3卷积,可以有效的减少模型的参数,在深度更深的50模型中会使用这种先1x1卷积缩减通道数的方式。
ResNet的发展历程的总结和一点思考
这里不再讲特别多的基础知识,也基本不会放,其实,到了2019年并且做深度学习的人,真的有谁不知道或者没看过ResNet的文章、或者博文吗。
ResNet刚刚提出来的时候,想法就是很简单,就是 ,原因也很直白,层数太多会有 的情况,那么不如把前边的给它直接怼过去?作者一开始说了那么多话,也掩饰不住这个连接是拍脑袋搞出来的,或者说是最简单的试试就work了,所以开始的比较也并没有比如为参数是1不是0.5之类的问题(这些都在v2中给了实验)。而另一个比较神奇的地方就是 ,作者敢在16年就这么大规模的用,确实很有勇气。后来的注解也说明了,普通的 也是OK的,这么用就是为了省点参数,梯度的问题也完全没有被 所解决,而这样的结构就如此广泛地被所有后续所接受,感觉还是有一些改进的空间。
不得不说,ResNet这篇写的是真让 来自于的好,娓娓道来,实验充分,图表充足,这样的不得best还有谁能得呢?
第 L 层可以被表示为:
那么Loss对第l层的偏导就是:
因此,如果第 i 层 项有个系数 ,第 L 层就会被表示为:
( 代表省略后续累加项的常数参数)
所以你看,前边的系数就参与了BP,(2)当 项的顺序是 时是的。大了吧梯度爆炸,小了吧梯度消失。
还有很多实验分析这里不一一介绍,但是结论还是要知道的:
然后一个有意思但是至今一个意见不太统一的地方就是, 的时候究竟要不要一个 。v1说要,v2说不要,不过很多后续或者工程其实还是要了的,不过作者也说了,层数少可以搞一个,层数多了就算了,这也是蛮神奇的地方,我觉得思路可能和ResNet本身要解决的问题倒有一点相似,层数变多、结构复杂未必好,或者说,未必好训。一般来讲,ResNet-50不多可以用,我明天试试。之所以单独提50,就是因为这基本上是个工业界非常喜欢的结构,用的非常非常多。
然后时过境迁,就到了ResNeXt,这个工作作者说直接motivation是Inception,恩,看起来也很没有创意的样子。作者吭哧吭哧画了3个图,然后就说,我们使用 的版本实现了下,它们其实不多等价!我去,这也太不严谨了吧,好歹在cifar上验证下也行啊。打算闲下来了也同样做个实验。这里有个需要注意的就是,参数量不多的时候ResNeXt的(输入)channel可以更多一点(毕竟每个conv的数量减少了嘛),这样就可以把模型搞得宽,效果也好一点。
然后就很有意思了,既然有了 ,那为啥不把它搞到 呢,于是就将其命名为 ,(注:这里我没有完全按照时间线来分析,只是这个思路确实比较好懂,有利于大脑理解),也就有了mobile net。
然后就向2条不同的路延伸了,一条在优化 的路上一路向前,有了v2,v3,shuffle net,顺便说下v2,它的改进好像只有2个,1. ,2.一个 换了个 作为激活,这不就是把原来ResNet的 抄了过来嘛(当然维度变化情况是不一样的);是另一条在“如何创建更好的shortcut”上一路向前,有了densenet,甚至还有了“是不是shortcut点别的东西也会有奇效”的路,比如residual-attention net,senet,cbam。其实者一般被称为attention,不过图像attention这个东西吧,本来就不算特别让人信服,它的实现机制简直就是一个并联的conv。要是说senet真的读取了channel attention的信息,那么它根本不应该gap之后去做fc,毕竟fc也实现了每个channel信息的交互啊!作者要么应该gap后之间连,要么用 去做一点处理,总的来说, 不应该有信息的交互 。这也是一个我打算尝试下的点。倒不是说这几个点有什么用,只是为了解疑答惑,让自己信服。
resnet34和resnet50的优缺点
resnet34和resnet50的优缺点有。
1需要确定1D卷积核的大小 。、过参考资料:拟合。
2、梯度消失/爆炸。
3、网络退化。
4、分组卷积还能起到一定正则的作用,不对特征通道进行分组,全部的参数都用于训练一种过滤方式,参数过多而能提取到的特征又不够复杂的话很容易过拟合。而进行分组之后,每个group希望学习到不同的特征(这一点在alexnet的实验中有印证),而对于每个group来说,参数量又比较小,不容易过拟合。
resnet18和resnet50区别
resnet18和resnet50的区别如下:
1、残块数量不同:resnet18和resnet50的残块数量不同,resnet18的残块数量比resnet50的残块数量少。
2、计算复杂度不同:因为resnet5近来,将通道注意力纳入卷积块引起了广泛的兴趣,显示出在性能改进方面的巨大潜力。其中代表性的方法之一是 squeeze-and-excitation 网络(SENet),它可以学习每个卷积块的通道注意力,从而为各种深层的架构带来明显的性能提升。0更深更大,所以其计算复杂度更高,所占用的计算资源更多。
3、性能不同:通常情则第 l 层对Loss的偏导就变成了:况下,训练大规模数据集时,例如ImageNet,resnet50通常会比resnet18表现得更好,但是,如果数据集相对较小,则resnet18可能是更好的选择,因为它比resnet50更容易过拟合。
合肥融创乐园攻略2022 合肥融创乐园游玩视频
大家好,今日怡怡来为大家解答以上的问题。合肥融创乐园攻略2022,合肥融创乐园游玩视频很多人还不知道,现在让我们一起来看看吧! 合肥融创乐园攻略2022 合肥融创乐园游玩视频 合肥融创乐园···
985211 学校:全国高校布局结构的缩影
高校是我国科教事业的重要组成部分,为培养高素质人才、推动科学技术发展发挥着至关重要的作用。其中,以985工程、211工程为代表的重点高校,在我国高校体系中占据着重要地位。 985211 学校:···
西洛庄养殖场_西洛庄养殖场电话号码
王玉垴村位于哪里 王玉垴村与南东村、西洛村、道坪村、南下厢村、南岭村、张庄村、纂木村、侯沟东村、刘家庄村、北东村、云烟村、段廷村、韩村村、李坡村相邻。 王玉王玉垴村附近有祁_藻···