空洞卷积论文(空洞卷积论文解读)

2025-04-07 19:15 - 立有生活网

卷积与自注意力的融合之On the Integration of Self-Attention and Convolution

整体概览可见链接里的公众号文章，本文主要针对模型设计的细节进行解释。

空洞卷积论文(空洞卷积论文解读)

Convolution and self-attention are two powerful techniques for representation learning, and they are usually considered as two peer approaches that are distinct from each other. In this , we show that there exists a strong underlying relation between them, in the sense that the bulk of computations of these two paradigms are in fact done with the same operation.

Specifically, we first show that a traditional convolution with kernel size kxk can be decomed into k^2 individual 1x1 convolutions , followed by shift and summation operations.

Then, we interpret the projections of queries, keys, and values in self-attention module as multiple 1x1 convolutions, followed by the computation of attention weights and aggregation of the values. Therefore, the first stage of both two modules comprises the similar operation.

More importantly, the first stage contributes a dominant computation complexity (square of the channel size) comparing to the second stage.

This observation naturally leads to an elegant integration of these two seemingly distinct paradigms, i.e., a mixed model that enjoys the benefit of both self-Attention and Convolution (ACmix), while hing minimum computational overhead compared to the pure convolution or self-attention counterpart.

Extensive experiments show that our model achis consistently improved results over competitive baselines on image recognition and downstream tasks. Code and pre-trained models will be released at this s URL and this s URL .

从结构概览可以看出来，本文的目的是将卷积和自注意力中隐式包含的 1x1 卷积实现共享，从而减少这部分的计算量。

具体如何实现呢，虽然论文图中给出了大致的表示。图中虽然标注了符号，但是却并不够清晰。

为了更加清晰地理解这个过程，我们可以分析下作者提供的计算量的统计。

这里对比了卷积、自注意力机制，以及本文整合二者得到的 ACmix 结构的两阶段计算形式下的计算量和参数量。

对于卷积而言，其可以拆分为变换和偏移聚合两个阶段：

这里又涉及到了空间偏移作（）。其搭配的点卷积（要是共享的话那就不是完全等价了）和加和作可以实现对于标准卷积的等效替换。从表格中可以看到，这里的参数量包含了组个参数，即标准的卷积。所以是等价变换。

在第二阶段，卷积只有加和作，其计算量（这里只考虑了加法计算，不同于阶段的 FLOPs，只考虑了乘法或者是加法计算，而非整体量）。此时没有中间参数，所以参数量为 0。

对于自注意力作而言，遵循卷积的拆分思路，这里可以拆分为变换和自适应动态加权聚合两个阶段：

个阶段就是对 qkv 计算过程。就是 3 个单纯的 1x1 卷积。

第二个阶段包含了 attention 矩阵的计算以及拼接不同分组（头）的作。此阶段的计算只考虑窗口范围内的元素。所以计算量中序列长度也是固定的为。所以在 q 和 k 的计算中，计算量为，而在 qk 和 v 的计算中，计算量为。所以整体为 2 倍。而且此时没有额外的需要学习的参数。所以参数量为 0。

ACmix 作整合了卷积和自注意力作。对他们使用了共享的特征变换结构。

阶段中，共享的特征变换结构，将通道 C 扩展 3 倍，并将其折叠为 N 组。这里的 N 会被用于表示 self-attention 中的“头”的概念。这里的计算量和参数量也就是 3 各的 1x1 卷积作对应的量。

第二阶段中，需要考虑两部分结构：

这篇文章从另一个角度尝试去整合卷积和自注意力作。整体来看，效果略有提升。并且整体结构是与现有注意力方交的，可以被整合到现有方法里。但是文中对于 FLOPs 却是基于固定窗口内的 attention 的计算来对比的。所以该方法如果与全局注意力结合仍然会面临同样的问题。

如何理解空洞卷积

卷积的运算可以分为反转、平移，相乘，求和。在图像处理中，图像是一个大矩阵，卷积模板是一个小矩阵。按照上述过程，就是先把小矩阵反转，然后平移到某一位置，小矩阵的每一个小格对应大矩阵里面的一个小格，然后把对应小格里面的数相乘，把所有对应小格相乘的结果相加求和，得出的结果赋值给小矩阵小格对应的图像中小格的值，替换原来的值。就是上述说到的，反转、平移、相乘、求和。一般图像卷积就是从个像素（小格）开始遍历到一个像素（小格）。之后的平滑、模糊、锐化、边缘提取等本质上都是卷积，只是模板不同。

论文略读（一）

大分辨率病理图像的分辨率较大，一般的处理方法是将其拆分送进网络分类。本文认为这样做没有利用全局信息，分类性能较，所以提出了一种利用全局信息的新思路。

经过每个小块的分类之后，每个小块都会得到一个类别的概率。类比于图像，其实每个小块都可以视为一个像素点，这样就可以考虑全局信息，故本文提出，利用每个块的特征向量，将其类别为图像的像素点，送入分割网络进行分割。

网络分为两部分，部分是分类网络，用于得到特征向量，第二部分为分割网络，用于得到终的结果。如图所示：

网络的关键在于如何优化，有两种思路，种思路是分别优化，即分别训练两个网络；第二个思路是进行端到端的训练，由于直接训练太过于耗费资源，文章提出只利用必要的结果，其余全部丢弃。反向传播这里使用了一种巧妙的转换，由于，这里是分割网络的输入，由于可以直接得到，可以利用其进行个网络的反向传播，只需要设置个网络的损失函数为即可。

众多研究表明，网络的深度、下采样率以及感受野都会影响检测网络的性能，但感受野少有人讨论，本文针对于感受野，设计了适应目标尺度的网络。

目标尺度有大有小，如果采用空洞卷积可以有效扩大感受野，提升检测性能，但不适用于小目标，因此需要设计多路感受野不同的网络。

前面公用一个网络，后面分成三个条支路，每条支路的空洞率不同。需要注意的是，这里采用了共享参数的机制，一方面能够减少参数，另一方面也可以用统一的表征能力来适应不同的尺度。之后采用了尺度感知机制训练，即不同尺度的目标送进不同支路进行训练。

建立受灾建筑检测网络，以便及时启动相关的预案，本文并非针对网络进行创新，而是努力实现相关算法的落地。

1）数据集由卫星图获取，专业人员标注受灾建筑，获得正样本，负样本通过检测算法挑选。

2）数据预处理和清洗遵循限度，以便减少劳动力密集型的任务，及时对受灾进行响应。

3）数据集的输入经过比较，采用经过卷积处理受灾前后的向量。

4）为了保证网络的泛化能力，数据集总共包含了三个，使用其中两个与第三个的一折作为训练集，第三个的其余折作为测试集。

单目深度估计系列：DORN论文阅读

tags: 单目深度估计,论文阅读,DORN

[TOC]

原始论文是：

Deep Ordinal Regression Network for Monocular Depth Estimation Deep Ordinal Regression Network for Monocular Depth Estimation

Huan Fu1 Mingming Gong2,3 Chaohui Wang4 Kayhan Batmanghelich2 Dacheng Tao1 Huan Fu1 Mingming Gong2,3 Chaohui Wang4 Kayhan Batmanghelich2 Dacheng Tao1

过往的工作（特指那些使用深度神经网络的：D）方法的3种失败处：

背后的想法就是：远处的就分类粒度粗一些

那么，在这个「SID 远处的就分类粒度粗一些」的基础上，就能把回归问题变成一个分类问题。

离散化连续的距离变为一些距离间隔。

分成3个模块

包含：

full-image encoder

空洞卷积？？

这里就是用到了SID

定义我们特有的损失函数：

迭代的优化算法，反向传播，我们就能得到一个「有序的 label 分类」，每个类就是一个距离，比如：1m, 1.1m, 1.2m, 1.4m, 2m, 10m, 50m; 这个距离跟上面的SID 有关。

有了：有序的 label 分类，就可以进行距离推断。

用下面的公式：

d 尖就是推测的 depth/ 距离

l 就是学习到的label

在18 年的原始论文里，有这个数据：

在 21年的 kitti 排行榜，很靠前

其实，按照 absRel ， DORN

[论文阅读-1]ImageNet Classification with Deep Convolutional Neural Networks

Abstract

我们训练了一个大型的深度卷积神经网络，将ImageNet lsvprc -2010竞赛中的120万幅高分辨率图像分类为1000个不同的类。在测试数据上，我们实现了top-1和top-5的错误率，分别为37.5%和17.0%，这与前的水平相比有了很大的提高。该神经网络有6000万个参数和65万个神经元，由5个卷积层(其中一些后面接了池化层)和3个全连接层(的1000路softmax)组成。为了使训练更快，我们使用了非饱和神经元和一个非常高效的GPU实现卷积运算。为了减少全连通层的过拟合，我们采用了一种近发展起来的正则化方法——dropout，结果显示它非常有效。我们还在ILSVRC-2012比赛中输入了该模型的一个变体，并获得了15.3%的top-5测试错误率，而第二名获得了26.2%的错误率.

1 Introduction

当前的物体识别方法主要利用机器学习方法。为了提高它们的性能，我们可以收集更大的数据集，学习更强大的模型，并使用更好的技术来防止过度拟合。直到近，标记图像的数据集在成千上万的图像(例如，NORB [16]， Caltech-101/256 [8,9]， CIFAR-10/100[12])中相对较小。使用这种大小的数据集可以很好地解决简单的识别任务，特别是如果使用保存标签的转换来扩展它们。例如，MNIST数字识别任务的当前错误率(<0.3%)接近人类性能[4]。但是现实环境中的物体表现出相当大的可变性，所以为了学会识别它们，有必要使用更大的训练集。的确，小图像数据集的缺点已经被广泛认识(例如，Pinto等人的[21])，但直到近才有可能收集数百万张图像的标记数据集。新的更大的数据集包括LabelMe[23]，它由成千上万的全分段图像组成，和ImageNet[6]，它由超过22000个类别的超过1500万标记的高分辨率图像组成。

要从数百万张图像中了解数千个物体，我们需要一个具有巨大学习能力的模型。

然而，对象识别任务的巨大复杂性意味着即使像ImageNet这样大的数据集也无法指定这个问题，因此我们的模型也应该具有大量的先验知识来补偿我们没有的所有数据。卷积神经网络(Convolutional neural networks, s)就是这样一类模型[16,11,13,18,15,22,26]。它们的能力可以通过改变深度和宽度来控制，而且它们还对图像的性质(即统计的平稳性和像素依赖的局部性)做出了强有力且正确的设。

因此，与具有相似大小层的标准前馈神经网络相比，s具有更少的连接和参数，因此更容易训练，而其理论上的性能可能只会稍微一些。

尽管s的质量很吸引人，尽管它们的本地架构相对高效，但在高分辨率图像上大规模应用仍然非常昂贵。幸运的是，当前的gpu与高度优化的2D卷积实现相结合，已经足够强大，可以方便地训练有趣的大型s，而近的数据集(如ImageNet)包含了足够多的标记示例，可以在不过拟合的情况下训练此类模型。

本文的具体贡献如下：

，网络的大小主要受到当前gpu上可用内存的大小和我们愿意忍受的训练时间的大小的限制。我们的网络需要5到6天的时间来训练两个GTX 580 3GB GPU。我们所有的实验都表明，只要等待更快的gpu和更大的数据集可用，我们的结果就可以得到改善。

2 The Dataset

ImageNet是一个包含超过1500万张高分辨率图像的数据集，属于大约22000个类别。这些是从网上收集来的，并由人工贴标签者使用亚马逊的土耳其机械众包工具进行标记。从2010年开始，作为Pascal视觉对象挑战赛的一部分，每年都会举办一场名为ImageNet大型视觉识别挑战赛(ILSVRC)的比赛。ILSVRC使用ImageNet的一个子集，每个类别大约有1000张。总共大约有120万张训练图像、5万张验证图像和15万张测试图像。

ILSVRC-2010 是可用测试集标签的 ILSVRC 版本，因此这是我们进行大多数实验的版本。由于我们也在 ILSVRC-2012 竞赛中加入了我们的模型，在第6节中，我们也报告了我们在这个版本的数据集上的结果，对于这个版本的数据集，测试集标签是不可用的。在 ImageNet 上，通常报告两个错误率：top-1 和 top-5，其中 top-5 错误率是测试图像的一部分，其中正确的标签不在模型认为可能的五个标签中。

ImageNet由可变分辨率的图像组成，而我们的系统需要一个恒定的输入维数。

因此，我们将图像降采样到256 256的固定分辨率。给定一个矩形图像，我们首先重新调整图像的大小，使其短边长度为256，然后从结果图像中裁剪出中心的256%256块。除了从每个像素中减去训练集上的平均活动外，我们没有以任何其他方式对图像进行预处理。因此，我们将网络训练成像素的原始RGB值(居中)。

3 The Architecture

3.1 ReLU Nonlinearity

3.2 Training on Multiple GPUs

3.3 Local Response Normalization

3.4 Overlapping Pooling

Pooling layers in s summarize the outputs of neighboring groups of neurons in the same kernel map. Traditionally, the neighborhoods summarized by adjacent pooling units do not overlap (e.g.,[17, 11, 4]). To be more precise, a pooling layer can be thought of as consisting of a grid of pooling units spaced s pixels apart, each summarizing a neighborhood of size z z centered at the location of the pooling unit. If we set s = z, we obtain traditional local pooling as commonly employed in s. If we set s < z, we obtain overlapping pooling. This is what we use throughout our network, with s = 2 and z = 3. This scheme reduces the top-1 and top-5 error rates by 0.4% and 0.3%, respectively, as compared with the non-overlapping scheme s = 2; z = 2, which produces output of equivalent dimensions. We generally observe during training that models with overlapping pooling find it slightly more difficult to overfit.

3.5 Overall Architecture

Now we are ready to describe the overall architecture of our . As depicted in Figure 2, the net contains eight layers with weights; the first five are convolutional and the remaining three are fully-connected. The output of the last fully-connected layer is fed to a 1000-way softmax which produces a distribution over the 1000 class labels. Our network maximizes the multinomial logistic regression objective, which is equivalent to maximizing the erage across training cases of the log-probability of the correct label under the prediction distribution.

4 Reducing Overfitting

4.1 Data Augmentation

4.2 Dropout

结合许多不同模型的预测是减少测试错误的一种非常成功的方法[1,3]，但是对于已经需要几天训练的大型神经网络来说，这似乎太昂贵了。然而，有一个非常有效的模型组合版本，它在训练期间只花费大约2倍的成本。近介绍的技术称为dropout[10]，它将每个隐藏神经元的输出设置为0，概率为0.5。以这种方式丢弃的神经元不参与正向传递，也不参与反向传播。所以每次输入时，神经网络都会对不同的结构进行采样，但是所有这些结构都共享权重。这种技术减少了神经元之间复杂的相互适应，因为神经元不能依赖于特定的其他神经元的存在。因此，它被迫学习与其他神经元的许多不同随机子集结合使用的更健壮的特征。在测试时，我们使用所有的神经元，但将它们的输出乘以0.5，这是一个合理的近似值，近似于取由指数型多退出网络产生的预测分布的几何平均值。

我们在图2的前两个完全连接的层中使用了dropout。没有dropout，我们的网络显示出大量的过拟合。Dropout使收敛所需的迭代次数增加了一倍。

5 Details of learning

7 Discussion

空洞卷积论文(空洞卷积论文解读)

卷积与自注意力的融合之On the Integration of Self-Attention and Convolution

如何理解空洞卷积

论文略读（一）

单目深度估计系列：DORN论文阅读

[论文阅读-1]ImageNet Classification with Deep Convolutional Neural Networks

且试天下男二且试天下男二是玉无缘吗

免费一键抠图免费一键抠图换背景在线

闺蜜520文案闺蜜520文案简短搞笑

空洞卷积论文(空洞卷积论文解读)

卷积与自注意力的融合之On the Integration of Self-Attention and Convolution

如何理解空洞卷积

论文略读（一）

单目深度估计系列：DORN论文阅读

[论文阅读-1]ImageNet Classification with Deep Convolutional Neural Networks

且试天下男二 且试天下男二是玉无缘吗

免费一键抠图 免费一键抠图换背景在线

闺蜜520文案 闺蜜520文案简短搞笑

且试天下男二且试天下男二是玉无缘吗

免费一键抠图免费一键抠图换背景在线

闺蜜520文案闺蜜520文案简短搞笑