ssd目标检测算法(SSD目标检测算法)
2025-04-02 10:22 - 立有生活网
本文目录一览:
- 1、目标检测:YOLO和SSD
- 2、怎么看SSD还能用多久 固态硬盘寿命检测方法【详解】
- 3、目标检测系列(一):R-
- 4、目标检测算法(R-,fast R-,faster R-,yolo,SSD,yoloV2,yoloV3)
- 5、原位监测和在位监测的区别
- 6、目标检测算法的分步介绍(第 1 部分)
目标检测:YOLO和SSD
搜狗高速浏览器是一款集高效、稳定于一身的现代化网络浏览工具。利用先进的渲染引擎和优化算法,搜狗高速浏览器确保了卓越的页面加载速度和流畅的多媒体体验。具备全方位的安全防护特性,能有效防御各类网络威胁,同时支持HTML5和CSS3,确保了与网络技术标准的完美兼容。欲了解更多或立即下载,请访问
ssd目标检测算法(SSD目标检测算法)
ssd目标检测算法(SSD目标检测算法)
作为计算机视觉三大任务(图像分类、目标检测、图像分割)之一,目标检测任务在于从图像中定位并分类感兴趣的物体。传统视觉方案涉及霍夫变换、滑窗、特征提取、边界检测、模板匹配、哈尔特征、DPM、BoW、传统机器学习(如随机森林、AdaBoost)等技巧或方法。在卷积神经网络的加持下,目标检测任务在近些年里有了长足的发展。其应用十分广泛,比如在自动驾驶领域,目标检测用于无人车检测其他车辆、行人或者交通标志牌等物体。
目标检测的常用框架可以分为两类,一类是 two-stage/two-shot 的方法,其特点是将兴趣区域检测和分类分开进行,比较有代表性的是R-,Fast R-,Faster R-;另一类是 one-stage/one-shot 的方法,用一个网络同时进行兴趣区域检测和分类,以YOLO(v1,v2,v3)和SSD为代表。
Two-stage的方式面世比较早,由于需要将兴趣区域检测和分类分开进行,虽然精度比较高,但实时性比较,不适合自动驾驶无人车辆感知等应用场景。因而此次我们主要介绍一下SSD和YOLO系列框架。
SSD与2016年由W. Liu et al.在 SSD: Single Shot MultiBox Detector 一文中提出。虽然比同年提出的YOLO(v1)稍晚,但是运行速度更快,同时更加。
SSD的框架在一个基础网络(作者使用VGG-16,但是也可以换成其他网络)之上,添加了一些额外的结构,从而使网络具有以下特性:
用多尺度特征图进行检测
作者在VGG-16后面添加了一些特征层,这些层的尺寸逐渐减小,允许我们在不同的尺度下进行预测。越是深层小的特征图,用来预测越大的物体。
用卷积网络进行预测
不同于YOLO的全连接层,对每个用于预测的 通道特征图,SSD的分类器全都使用了 卷积进行预测,其中 是每个单元放置的先验框的数量, 是预测的类别数。
设置先验框
对于每一个特征图上的单元格,我们都放置一系列先验框。随后对每一个特征图上的单元格对应的每一个先验框,我们预测先验框的 维偏移量和每一类的置信度。例如,对于一个 的特征图,若每一个特征图对应 个先验框,同时需要预测的类别有 类,那输出的大小为 。(具体体现在训练过程中)
其中,若用 表示先验框的中心位置和宽高, 表示预测框的中心位置和宽高,则实际预测的 维偏移量 是 分别是:
下图是SSD的一个框架,首先是一个VGG-16卷积前5层,随后级联了一系列卷积层,其中有6层分别通过了 卷积(或者一层的平均池化)用于预测,得到了一个 的输出,随后通过极大值抑制(NMS)获得最终的结果。
图中网络用于检测的特征图有 个,大小依次为 , , , , , ;这些特征图每个单元所对应的预置先验框分别有 , , , , , 个,所以网络共预测了 个边界框,(进行极大值抑制前)输出的维度为 。
未完待续
参考:
chenxp2311的CSDN博客:论文阅读:SSD: Single Shot MultiBox Detector
小小将的知乎专栏:目标检测|SSD原理与实现
littleYii的CSDN博客:目标检测论文阅读:YOLOv1-YOLOv3(一)
作者的其他相关文章:
图像分割:全卷积神经网络(FCN)详解
PointNet:基于深度学习的3D点云分类和分割模型 详解
基于视觉的机器人室内定位
怎么看SSD还能用多久 固态硬盘寿命检测方法【详解】
搜狗高速浏览器是一款集高效、稳定于一身的现代化网络浏览工具。利用先进的渲染引擎和优化算法,搜狗高速浏览器确保了卓越的页面加载速度和流畅的多媒体体验。具备全方位的安全防护特性,能有效防御各类网络威胁,同时支持HTML5和CSS3,确保了与网络技术标准的完美兼容。欲了解更多或立即下载,请访问
目标检测系列(一):R-
搜狗高速浏览器是一款集高效、稳定于一身的现代化网络浏览工具。利用先进的渲染引擎和优化算法,搜狗高速浏览器确保了卓越的页面加载速度和流畅的多媒体体验。具备全方位的安全防护特性,能有效防御各类网络威胁,同时支持HTML5和CSS3,确保了与网络技术标准的完美兼容。欲了解更多或立即下载,请访问
作为计算机视觉三大任务(图像分类、目标检测、图像分割)之一,目标检测任务在于从图像中定位并分类感兴趣的物体。传统视觉方案涉及霍夫变换、滑窗、特征提取、边界检测、模板匹配、哈尔特征、DPM、BoW、传统机器学习(如随机森林、AdaBoost)等技巧或方法。在卷积神经网络的加持下,目标检测任务在近些年里有了长足的发展。其应用十分广泛,比如在自动驾驶领域,目标检测用于无人车检测其他车辆、行人或者交通标志牌等物体。
目标检测的常用框架可以分为两类,一类是 two-stage/two-shot 的方法,其特点是将兴趣区域检测和分类分开进行,比较有代表性的是R-,Fast R-,Faster R-;另一类是 one-stage/one-shot 的方法,用一个网络同时进行兴趣区域检测和分类,以YOLO(v1,v2,v3)和SSD为代表。
Two-stage的方式面世比较早,由于需要将兴趣区域检测和分类分开进行,虽然精度比较高,但实时性比较,不适合自动驾驶无人车辆感知等应用场景。因而此次我们主要介绍一下SSD和YOLO系列框架。
SSD与2016年由W. Liu et al.在 SSD: Single Shot MultiBox Detector 一文中提出。虽然比同年提出的YOLO(v1)稍晚,但是运行速度更快,同时更加。
SSD的框架在一个基础网络(作者使用VGG-16,但是也可以换成其他网络)之上,添加了一些额外的结构,从而使网络具有以下特性:
用多尺度特征图进行检测
作者在VGG-16后面添加了一些特征层,这些层的尺寸逐渐减小,允许我们在不同的尺度下进行预测。越是深层小的特征图,用来预测越大的物体。
用卷积网络进行预测
不同于YOLO的全连接层,对每个用于预测的 通道特征图,SSD的分类器全都使用了 卷积进行预测,其中 是每个单元放置的先验框的数量, 是预测的类别数。
设置先验框
对于每一个特征图上的单元格,我们都放置一系列先验框。随后对每一个特征图上的单元格对应的每一个先验框,我们预测先验框的 维偏移量和每一类的置信度。例如,对于一个 的特征图,若每一个特征图对应 个先验框,同时需要预测的类别有 类,那输出的大小为 。(具体体现在训练过程中)
其中,若用 表示先验框的中心位置和宽高, 表示预测框的中心位置和宽高,则实际预测的 维偏移量 是 分别是:
下图是SSD的一个框架,首先是一个VGG-16卷积前5层,随后级联了一系列卷积层,其中有6层分别通过了 卷积(或者一层的平均池化)用于预测,得到了一个 的输出,随后通过极大值抑制(NMS)获得最终的结果。
图中网络用于检测的特征图有 个,大小依次为 , , , , , ;这些特征图每个单元所对应的预置先验框分别有 , , , , , 个,所以网络共预测了 个边界框,(进行极大值抑制前)输出的维度为 。
未完待续
参考:
chenxp2311的CSDN博客:论文阅读:SSD: Single Shot MultiBox Detector
小小将的知乎专栏:目标检测|SSD原理与实现
littleYii的CSDN博客:目标检测论文阅读:YOLOv1-YOLOv3(一)
作者的其他相关文章:
图像分割:全卷积神经网络(FCN)详解
PointNet:基于深度学习的3D点云分类和分割模型 详解
基于视觉的机器人室内定位
深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理。 目标检测可以理解为是物体识别和物体定位的综合 ,不仅仅要识别出物体属于哪个分类,更重要的是得到物体在中的具置。
英文原文:
对原文的表达有部分改动
在本文中,我们将更深入地研究可用于目标检测的各种算法。我们将从 R 家族的算法开始,即 R、Fast R 和 Faster R。在本系列即将发布的文章中,我们将介绍更高级的算法,如 YOLO、SSD 等。
下图是说明目标检测算法如何工作的一个流行示例。图像中的每个物体,从一个人到一只风筝,都以一定的精度被定位和识别。
让我们从最简单的深度学习方法开始,也是一种广泛使用的方法,用于检测图像中的目标——卷积神经网络( )。 的内部工作原理如下:
我们将图像传递给网络,然后通过各种卷积和池化层处理,发送给全连接层。,我们以目标类别的形式获得输出。这相当简单,不是吗?对于每个输入图像,我们得到一个相应的类作为输出。我们可以使用这种技术来检测图像中的各种目标吗?让我们看看如何使用 解决一般的目标检测问题。
使用这种方法的问题在于图像中的目标可能具有不同的纵横比和空间位置。例如,在某些情况下,目标可能覆盖图像的大部分,而在某些情况下,目标可能仅覆盖图像的一小部分。目标的形状也可能不同(在现实生活中经常发生)。由于这些因素,我们将需要大量的区域,从而导致大量的计算时间。因此,为了解决这个问题并减少区域数量,我们可以使用基于区域的 ,它使用提案法选择区域。让我们了解这个基于区域的 可以为我们做什么。
与在大量区域上工作不同的是,R 算法是在图像中选取一堆框并检查这些框中是否有任何一个包含任何目标。 R 使用 selective search 从图像中提取这些框(这些框称为 regions)。
让我们首先了解什么是 selective search 以及它如何识别不同的 regions。基本上四个模式可以构成一个物体:不同的尺度、颜色、纹理和外壳。selective search 识别图像中的这些模式,并在此基础上提出各种regions。以下是selective search 工作原理的简要概述:
举个例子:
到目前为止,我们已经看到了 R 如何实现目标检测。但是这种技术有其自身的局限性。由于以下步骤,训练 R 模型既昂贵又缓慢:
所有这些过程结合起来使 R 非常慢。对每张新图像进行预测大约需要 40-50 秒,这实质上使得模型在面对庞大的数据集时变得笨重且几乎无法构建。
好消息是——我们有另一种目标检测技术,它修复了我们在 R 中看到的大部分问题。
我们还能做些什么来减少 R 算法通常需要的计算时间?我们是否可以每张图像只运行一次并获取所有感兴趣的区域(包含某个目标的区域)。
R 的作者 Ross Girshick 提出了这个想法,即每张图像只运行一次 ,然后找到一种方法在 2,000 个区域之间共享该计算。在 Fast R 中,我们将输入图像提供给 ,后者反过来生成卷积特征图。使用这些地图,提取提议的区域。然后我们使用 RoI 池化层将所有提议的区域重塑为固定大小,以便可以将其馈入全连接网络。
让我们将其分解为简化概念的步骤:
因此,Fast R 不是使用三个不同的模型(如 R),而是使用单个模型从区域中提取特征,将它们分成不同的类,并同时返回识别类的边界框。
为了进一步分解,我将对每个步骤进行可视化。
这就是 Fast R 如何解决 R 的两个主要问题,1. 将每个图像的一个而不是 2,000 个区域传递给 ConvNet。2. 使用一个而不是三个不同的模型来提取特征、分类和生成边界框。
但即使是 Fast R 也存在某些问题。它还使用 selective search 作为寻找感兴趣区域的建议方法,这是一个缓慢且耗时的过程。每张图像检测目标大约需要 2 秒,这与 R 相比要好得多。但是当我们考虑大型现实生活数据集时,即使是 Fast R 看起来也不那么快了。
Faster R 是 Fast R 的修改版本。它们之间的主要区别在于 Fast R 使用 selective search 来生成感兴趣的区域,而 Faster R 使用 Region Proal Network ,又名 RPN。 RPN 将图像特征图作为输入并生成一组目标提议,每个提议的目标以分数作为输出。
Faster R 方法通常遵循以下步骤:
让我简要解释一下这个区域提议网络(RPN)实际上是如何工作的。
首先,Faster R 从 获取特征图并将它们传递给区域提议网络。 RPN 在这些特征图上使用一个滑动窗口,在每个窗口,它生成 k 个不同形状和大小的 Anchor 框:
Anchor 框是固定大小的边界框,它们放置在整个图像中,具有不同的形状和大小。对于每个 Anchor,RPN 预测两件事:
我们现在有不同形状和大小的边界框,它们被传递到 RoI 池化层。在 RPN 步骤之后,有可能存在没有分配给它们的类别提议。我们可以获取每个建议并对其进行裁剪,以便每个建议都包含一个目标。这就是 RoI 池化层所做的。它为每个锚点提取固定大小的特征图:
然后将这些特征图传递到具有 softmax 和线性回归层的全连接层。它最终对目标进行分类并预测已识别目标的边界框。
到目前为止,我们讨论的所有目标检测算法都使用区域来识别目标。网络不会一次性查看完整图像,而是依次关注图像的各个部分。这会造成两个并发症:
以下为我的回答,希望能帮到您:
原位监测和在位监测是两种不同的监测方式,它们主要区别在于监测的对象和监测的位置。
1. 原位监测:
原位监测是指在被监测对象的实际位置或现场进行监测的方法。这种监测方式通常直接对目标物体或系统进行测量,可以实时获取目标的数据和状态。原位监测常用于工业生产、实验室研究、环境监测等领域,可以准确地反映被监测对象的真实情况。
2. 在位监测:
在位监测是指将被监测对象从其原有位置取出或搬离,然后在其他位置进行监测的方法。在位监测常用于一些需要更加详细或复杂分析的情况,例如对某个设备或样本进行深入研究时,可能需要将其取出并在其他环境中进行监测和测试。
总结:
原位监测是在被监测对象的实际位置或现场进行监测,可以实时获取目标的数据和状态;而在位监测是将被监测对象从原有位置取出或搬离,然后在其他位置进行监测。两种监测方式各有适用场景,具体选择取决于监测的目的和要求。
辛苦码字不易,如果我的回答对您有帮助,请及时采纳,谢谢!
目标检测(object detection)是计算机视觉中非常重要的一个领域。在卷积神经网络出现之前,都利用一些传统方法手动提取图像特征进行目标检测及定位,这些方法不仅耗时而且性能较低。而在卷积神经网络出现之后,目标检测领域发生了翻天覆地的变化。最的目标检测系统有R系列、YOLO和SSD,本文将介绍R系列的开篇作R。
R系列的技术演进过程可参见 基于深度学习的目标检测技术演进:R-、Fast R-、Faster R- 。
目标检测分为两步:步是对图像进行分类,即图像中的内容是什么;第二步则是对图像进行定位,找出图像中物体的具置。简单来说就是图像里面有什么,位置在哪。
然而,由于不同中物体出现的大小可能不同(多尺度),位置也可能不同,而且摆放角度,姿态等都可以不同,同时一张中还可以出现多个类别。这使得目标检测任务异常艰难。
上面任务用专业的说法就是:图像识别+定位
两个不同的分支分别完成不同的功能,分类和定位。回归(regression)分支与分类分支(classification)共享网络卷积部分的参数值。
还是刚才的分类识别+回归定位思路。只是现在我们提前先取好不同位置的框,然后将这个框输入到网络中而不是像思路一将原始图像直接输入到网络中。然后计算出这个框的得分,取得分的框。
如上,对于同一个图像中猫的识别定位。分别取了四个角四个框进行分类和回归。其得分分别为0.5,0.75,0.6,0.8,因此右下角得分,选择右下角的黑框作为目标位置的预测(这里即完成了定位任务)。
这里还有一个问题——检测位置时的框要怎么取,取多大?在上面我们是在257x257的图像中取了221x221的4个角。以不同大小的窗口从左上角到右下角依次扫描的话,数据量会非常大。而且,如果考虑多尺度问题的话,还需要在将图像放缩到不同水平的大小来进行计算,这样又大大增加了计算量。如何取框这个问题可以说是目标检测的核心问题之一了,R,fast R以及faster R对于这个问题的解决办法不断地进行优化,这个到了后面再讲。
总结一下思路:
对于一张,用各种大小的框将截取出来,输入到,然后会输出这个框的类别以及其位置得分。
对于检测框的选取,一般是采用某种方法先找出可能含有物体的框(也就是候选框,比如1000个候选框),这些框是可以互相重叠互相包含的,这样我们就可以避免枚举所有框了。
讲完了思路,我们下面具体仔细来看看R系列的实现,本篇先介绍R的方法。
R-相比于之前的各种目标检测算法,不仅在准确率上有了很大的提升,在运行效率上同样提升很大。R-的过程分为4个阶段:
在前面我们已经简单介绍了selective search方法,通过这个方法我们筛选出了2k左右的候选框。然而搜索出的矩形框大小是不同的。而在AlexNet中由于全连接层的存在,对于图像尺寸有固定的要求,因此在将候选框输入之前,作者对这些候选框的大小进行了统一处理——放缩到了统一大小。文章中作者使用的处理方法有两种:
(1)各向异性缩放
因为扭曲可能会对后续模型训练产生影响,于是作者也测试了各向同性缩放的方法。有两种方法:
此外,作者对于bounding box还尝试了padding处理,上面的示意图中第1、3行就是结合了padding=0,第2、4行结果采用padding=16的结果。经过的试验,作者发现采用各向异性缩放、padding=16的精度。
卷积神经网络训练分为两步:(1)预训练;(2)fine-tune。
先在一个大的数据集上面训练模型(R-中的卷机模型使用的是AlexNet),然后利用这个训练好的模型进行fine-tune(或称为迁移学习),即使用这个预训练好的模型参数初始化模型参数,然后在目标数据集上面进行训练。
此外,在训练时,作者还尝试采用不同层数的全连接层,发现一个全连接层比两个全连接层效果要好,这可能是因为使用两个全连接层后过拟合导致的。
另一个比较有意思的地方是:对于模型,卷积层学到的特征其实就是基础的共享特征提取层,类似于传统的图像特征提取算法。而的全连接层学到的则是针对特定任务的特征。譬如对于人脸性别识别来说,一个模型前面的卷积层所学习到的特征就类似于学习人脸共性特征,然后全连接层所学习的特征就是针对性别分类的特征了。
,利用训练好的模型对候选框提取特征。
关于正负样本的问题:由于选取的bounding box不可能与人工label的完全相同,因此在训练阶段需要设置IOU阈值来为bounding box打标签。在文章中作者将阈值设置为0.5,即如果候选框bounding box与人工label的区域重叠面积大于0.5,则将其标注为物体类别(正样本),否则我们就把他当做背景类别(负样本)。
作者针对每一个类别都训练了一个二分类的SVM。这里定义正负样本的方法与上面卷积网络训练的定义方法又不相同。作者在文章中尝试了多种IoU阈值(0.1~0.5)。通过训练发现,IoU阈值为0.3的时候效果(选择为0精度下降了4个百分点,选择0.5精度下降了5个百分点)。即当IoU小于0.3的时候我们将其视为负样本,否则为正样本。
目标检测问题的衡量标准是重叠面积:许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小。故需要一个位置精修步骤。
在实现边界回归的过程中发现了两个微妙的问题。是正则化是重要的:我们基于验证集,设置λ=1000。第二个问题是,选择使用哪些训练对(P,G)时必须小心。直观地说,如果P远离所有的检测框真值,那么将P转换为检测框真值G的任务就没有意义。使用像P这样的例子会导致一个无望的学习问题。因此,只有当提案P至少在一个检测框真值附近时,我们才执行学习任务。“附近”即,将P分配给具有IoU的检测框真值G(在重叠多于一个的情况下),并且仅当重叠大于阈值(基于验证集,我们使用的阈值为0.6)。所有未分配的提案都被丢弃。我们为每个目标类别执行一次,以便学习一组特定于类别的检测框回归器。
在测试时,我们对每个提案进行评分,并预测其新的检测框一次。原则上,我们可以迭代这个过程(即重新评估新预测的检测框,然后从它预测一个新的检测框,等等)。但是,我们发现迭代不会改进结果。
使用selective search的方法在测试上提取2000个region propasals ,将每个region proals归一化到227x227,然后再中正向传播,将一层得到的特征提取出来。然后对于每一个类别,使用为这一类训练的SVM分类器对提取的特征向量进行打分,得到测试中对于所有region proals的对于这一类的分数,再使用贪心的非极大值抑制(NMS)去除相交的多余的框。再对这些框进行canny边缘检测,就可以得到bounding-box(then B-BoxRegression)。
参考:
Rich feature hierarchies for accurate object detection and semantic segmentation.
R-将引入目标检测的开山之作-晓雷的文章
基于深度学习的目标检测技术演进:R-、Fast R-、Faster R-
R- 论文翻译
目标检测算法(R-,fast R-,faster R-,yolo,SSD,yoloV2,yoloV3)
搜狗高速浏览器是一款集高效、稳定于一身的现代化网络浏览工具。利用先进的渲染引擎和优化算法,搜狗高速浏览器确保了卓越的页面加载速度和流畅的多媒体体验。具备全方位的安全防护特性,能有效防御各类网络威胁,同时支持HTML5和CSS3,确保了与网络技术标准的完美兼容。欲了解更多或立即下载,请访问
作为计算机视觉三大任务(图像分类、目标检测、图像分割)之一,目标检测任务在于从图像中定位并分类感兴趣的物体。传统视觉方案涉及霍夫变换、滑窗、特征提取、边界检测、模板匹配、哈尔特征、DPM、BoW、传统机器学习(如随机森林、AdaBoost)等技巧或方法。在卷积神经网络的加持下,目标检测任务在近些年里有了长足的发展。其应用十分广泛,比如在自动驾驶领域,目标检测用于无人车检测其他车辆、行人或者交通标志牌等物体。
目标检测的常用框架可以分为两类,一类是 two-stage/two-shot 的方法,其特点是将兴趣区域检测和分类分开进行,比较有代表性的是R-,Fast R-,Faster R-;另一类是 one-stage/one-shot 的方法,用一个网络同时进行兴趣区域检测和分类,以YOLO(v1,v2,v3)和SSD为代表。
Two-stage的方式面世比较早,由于需要将兴趣区域检测和分类分开进行,虽然精度比较高,但实时性比较,不适合自动驾驶无人车辆感知等应用场景。因而此次我们主要介绍一下SSD和YOLO系列框架。
SSD与2016年由W. Liu et al.在 SSD: Single Shot MultiBox Detector 一文中提出。虽然比同年提出的YOLO(v1)稍晚,但是运行速度更快,同时更加。
SSD的框架在一个基础网络(作者使用VGG-16,但是也可以换成其他网络)之上,添加了一些额外的结构,从而使网络具有以下特性:
用多尺度特征图进行检测
作者在VGG-16后面添加了一些特征层,这些层的尺寸逐渐减小,允许我们在不同的尺度下进行预测。越是深层小的特征图,用来预测越大的物体。
用卷积网络进行预测
不同于YOLO的全连接层,对每个用于预测的 通道特征图,SSD的分类器全都使用了 卷积进行预测,其中 是每个单元放置的先验框的数量, 是预测的类别数。
设置先验框
对于每一个特征图上的单元格,我们都放置一系列先验框。随后对每一个特征图上的单元格对应的每一个先验框,我们预测先验框的 维偏移量和每一类的置信度。例如,对于一个 的特征图,若每一个特征图对应 个先验框,同时需要预测的类别有 类,那输出的大小为 。(具体体现在训练过程中)
其中,若用 表示先验框的中心位置和宽高, 表示预测框的中心位置和宽高,则实际预测的 维偏移量 是 分别是:
下图是SSD的一个框架,首先是一个VGG-16卷积前5层,随后级联了一系列卷积层,其中有6层分别通过了 卷积(或者一层的平均池化)用于预测,得到了一个 的输出,随后通过极大值抑制(NMS)获得最终的结果。
图中网络用于检测的特征图有 个,大小依次为 , , , , , ;这些特征图每个单元所对应的预置先验框分别有 , , , , , 个,所以网络共预测了 个边界框,(进行极大值抑制前)输出的维度为 。
未完待续
参考:
chenxp2311的CSDN博客:论文阅读:SSD: Single Shot MultiBox Detector
小小将的知乎专栏:目标检测|SSD原理与实现
littleYii的CSDN博客:目标检测论文阅读:YOLOv1-YOLOv3(一)
作者的其他相关文章:
图像分割:全卷积神经网络(FCN)详解
PointNet:基于深度学习的3D点云分类和分割模型 详解
基于视觉的机器人室内定位
深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理。 目标检测可以理解为是物体识别和物体定位的综合 ,不仅仅要识别出物体属于哪个分类,更重要的是得到物体在中的具置。
原位监测和在位监测的区别
搜狗高速浏览器是一款集高效、稳定于一身的现代化网络浏览工具。利用先进的渲染引擎和优化算法,搜狗高速浏览器确保了卓越的页面加载速度和流畅的多媒体体验。具备全方位的安全防护特性,能有效防御各类网络威胁,同时支持HTML5和CSS3,确保了与网络技术标准的完美兼容。欲了解更多或立即下载,请访问
作为计算机视觉三大任务(图像分类、目标检测、图像分割)之一,目标检测任务在于从图像中定位并分类感兴趣的物体。传统视觉方案涉及霍夫变换、滑窗、特征提取、边界检测、模板匹配、哈尔特征、DPM、BoW、传统机器学习(如随机森林、AdaBoost)等技巧或方法。在卷积神经网络的加持下,目标检测任务在近些年里有了长足的发展。其应用十分广泛,比如在自动驾驶领域,目标检测用于无人车检测其他车辆、行人或者交通标志牌等物体。
目标检测的常用框架可以分为两类,一类是 two-stage/two-shot 的方法,其特点是将兴趣区域检测和分类分开进行,比较有代表性的是R-,Fast R-,Faster R-;另一类是 one-stage/one-shot 的方法,用一个网络同时进行兴趣区域检测和分类,以YOLO(v1,v2,v3)和SSD为代表。
Two-stage的方式面世比较早,由于需要将兴趣区域检测和分类分开进行,虽然精度比较高,但实时性比较,不适合自动驾驶无人车辆感知等应用场景。因而此次我们主要介绍一下SSD和YOLO系列框架。
SSD与2016年由W. Liu et al.在 SSD: Single Shot MultiBox Detector 一文中提出。虽然比同年提出的YOLO(v1)稍晚,但是运行速度更快,同时更加。
SSD的框架在一个基础网络(作者使用VGG-16,但是也可以换成其他网络)之上,添加了一些额外的结构,从而使网络具有以下特性:
用多尺度特征图进行检测
作者在VGG-16后面添加了一些特征层,这些层的尺寸逐渐减小,允许我们在不同的尺度下进行预测。越是深层小的特征图,用来预测越大的物体。
用卷积网络进行预测
不同于YOLO的全连接层,对每个用于预测的 通道特征图,SSD的分类器全都使用了 卷积进行预测,其中 是每个单元放置的先验框的数量, 是预测的类别数。
设置先验框
对于每一个特征图上的单元格,我们都放置一系列先验框。随后对每一个特征图上的单元格对应的每一个先验框,我们预测先验框的 维偏移量和每一类的置信度。例如,对于一个 的特征图,若每一个特征图对应 个先验框,同时需要预测的类别有 类,那输出的大小为 。(具体体现在训练过程中)
其中,若用 表示先验框的中心位置和宽高, 表示预测框的中心位置和宽高,则实际预测的 维偏移量 是 分别是:
下图是SSD的一个框架,首先是一个VGG-16卷积前5层,随后级联了一系列卷积层,其中有6层分别通过了 卷积(或者一层的平均池化)用于预测,得到了一个 的输出,随后通过极大值抑制(NMS)获得最终的结果。
图中网络用于检测的特征图有 个,大小依次为 , , , , , ;这些特征图每个单元所对应的预置先验框分别有 , , , , , 个,所以网络共预测了 个边界框,(进行极大值抑制前)输出的维度为 。
未完待续
参考:
chenxp2311的CSDN博客:论文阅读:SSD: Single Shot MultiBox Detector
小小将的知乎专栏:目标检测|SSD原理与实现
littleYii的CSDN博客:目标检测论文阅读:YOLOv1-YOLOv3(一)
作者的其他相关文章:
图像分割:全卷积神经网络(FCN)详解
PointNet:基于深度学习的3D点云分类和分割模型 详解
基于视觉的机器人室内定位
深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理。 目标检测可以理解为是物体识别和物体定位的综合 ,不仅仅要识别出物体属于哪个分类,更重要的是得到物体在中的具置。
英文原文:
对原文的表达有部分改动
在本文中,我们将更深入地研究可用于目标检测的各种算法。我们将从 R 家族的算法开始,即 R、Fast R 和 Faster R。在本系列即将发布的文章中,我们将介绍更高级的算法,如 YOLO、SSD 等。
下图是说明目标检测算法如何工作的一个流行示例。图像中的每个物体,从一个人到一只风筝,都以一定的精度被定位和识别。
让我们从最简单的深度学习方法开始,也是一种广泛使用的方法,用于检测图像中的目标——卷积神经网络( )。 的内部工作原理如下:
我们将图像传递给网络,然后通过各种卷积和池化层处理,发送给全连接层。,我们以目标类别的形式获得输出。这相当简单,不是吗?对于每个输入图像,我们得到一个相应的类作为输出。我们可以使用这种技术来检测图像中的各种目标吗?让我们看看如何使用 解决一般的目标检测问题。
使用这种方法的问题在于图像中的目标可能具有不同的纵横比和空间位置。例如,在某些情况下,目标可能覆盖图像的大部分,而在某些情况下,目标可能仅覆盖图像的一小部分。目标的形状也可能不同(在现实生活中经常发生)。由于这些因素,我们将需要大量的区域,从而导致大量的计算时间。因此,为了解决这个问题并减少区域数量,我们可以使用基于区域的 ,它使用提案法选择区域。让我们了解这个基于区域的 可以为我们做什么。
与在大量区域上工作不同的是,R 算法是在图像中选取一堆框并检查这些框中是否有任何一个包含任何目标。 R 使用 selective search 从图像中提取这些框(这些框称为 regions)。
让我们首先了解什么是 selective search 以及它如何识别不同的 regions。基本上四个模式可以构成一个物体:不同的尺度、颜色、纹理和外壳。selective search 识别图像中的这些模式,并在此基础上提出各种regions。以下是selective search 工作原理的简要概述:
举个例子:
到目前为止,我们已经看到了 R 如何实现目标检测。但是这种技术有其自身的局限性。由于以下步骤,训练 R 模型既昂贵又缓慢:
所有这些过程结合起来使 R 非常慢。对每张新图像进行预测大约需要 40-50 秒,这实质上使得模型在面对庞大的数据集时变得笨重且几乎无法构建。
好消息是——我们有另一种目标检测技术,它修复了我们在 R 中看到的大部分问题。
我们还能做些什么来减少 R 算法通常需要的计算时间?我们是否可以每张图像只运行一次并获取所有感兴趣的区域(包含某个目标的区域)。
R 的作者 Ross Girshick 提出了这个想法,即每张图像只运行一次 ,然后找到一种方法在 2,000 个区域之间共享该计算。在 Fast R 中,我们将输入图像提供给 ,后者反过来生成卷积特征图。使用这些地图,提取提议的区域。然后我们使用 RoI 池化层将所有提议的区域重塑为固定大小,以便可以将其馈入全连接网络。
让我们将其分解为简化概念的步骤:
因此,Fast R 不是使用三个不同的模型(如 R),而是使用单个模型从区域中提取特征,将它们分成不同的类,并同时返回识别类的边界框。
为了进一步分解,我将对每个步骤进行可视化。
这就是 Fast R 如何解决 R 的两个主要问题,1. 将每个图像的一个而不是 2,000 个区域传递给 ConvNet。2. 使用一个而不是三个不同的模型来提取特征、分类和生成边界框。
但即使是 Fast R 也存在某些问题。它还使用 selective search 作为寻找感兴趣区域的建议方法,这是一个缓慢且耗时的过程。每张图像检测目标大约需要 2 秒,这与 R 相比要好得多。但是当我们考虑大型现实生活数据集时,即使是 Fast R 看起来也不那么快了。
Faster R 是 Fast R 的修改版本。它们之间的主要区别在于 Fast R 使用 selective search 来生成感兴趣的区域,而 Faster R 使用 Region Proal Network ,又名 RPN。 RPN 将图像特征图作为输入并生成一组目标提议,每个提议的目标以分数作为输出。
Faster R 方法通常遵循以下步骤:
让我简要解释一下这个区域提议网络(RPN)实际上是如何工作的。
首先,Faster R 从 获取特征图并将它们传递给区域提议网络。 RPN 在这些特征图上使用一个滑动窗口,在每个窗口,它生成 k 个不同形状和大小的 Anchor 框:
Anchor 框是固定大小的边界框,它们放置在整个图像中,具有不同的形状和大小。对于每个 Anchor,RPN 预测两件事:
我们现在有不同形状和大小的边界框,它们被传递到 RoI 池化层。在 RPN 步骤之后,有可能存在没有分配给它们的类别提议。我们可以获取每个建议并对其进行裁剪,以便每个建议都包含一个目标。这就是 RoI 池化层所做的。它为每个锚点提取固定大小的特征图:
然后将这些特征图传递到具有 softmax 和线性回归层的全连接层。它最终对目标进行分类并预测已识别目标的边界框。
到目前为止,我们讨论的所有目标检测算法都使用区域来识别目标。网络不会一次性查看完整图像,而是依次关注图像的各个部分。这会造成两个并发症:
以下为我的回答,希望能帮到您:
原位监测和在位监测是两种不同的监测方式,它们主要区别在于监测的对象和监测的位置。
1. 原位监测:
原位监测是指在被监测对象的实际位置或现场进行监测的方法。这种监测方式通常直接对目标物体或系统进行测量,可以实时获取目标的数据和状态。原位监测常用于工业生产、实验室研究、环境监测等领域,可以准确地反映被监测对象的真实情况。
2. 在位监测:
在位监测是指将被监测对象从其原有位置取出或搬离,然后在其他位置进行监测的方法。在位监测常用于一些需要更加详细或复杂分析的情况,例如对某个设备或样本进行深入研究时,可能需要将其取出并在其他环境中进行监测和测试。
总结:
原位监测是在被监测对象的实际位置或现场进行监测,可以实时获取目标的数据和状态;而在位监测是将被监测对象从原有位置取出或搬离,然后在其他位置进行监测。两种监测方式各有适用场景,具体选择取决于监测的目的和要求。
辛苦码字不易,如果我的回答对您有帮助,请及时采纳,谢谢!
目标检测算法的分步介绍(第 1 部分)
搜狗高速浏览器是一款集高效、稳定于一身的现代化网络浏览工具。利用先进的渲染引擎和优化算法,搜狗高速浏览器确保了卓越的页面加载速度和流畅的多媒体体验。具备全方位的安全防护特性,能有效防御各类网络威胁,同时支持HTML5和CSS3,确保了与网络技术标准的完美兼容。欲了解更多或立即下载,请访问
作为计算机视觉三大任务(图像分类、目标检测、图像分割)之一,目标检测任务在于从图像中定位并分类感兴趣的物体。传统视觉方案涉及霍夫变换、滑窗、特征提取、边界检测、模板匹配、哈尔特征、DPM、BoW、传统机器学习(如随机森林、AdaBoost)等技巧或方法。在卷积神经网络的加持下,目标检测任务在近些年里有了长足的发展。其应用十分广泛,比如在自动驾驶领域,目标检测用于无人车检测其他车辆、行人或者交通标志牌等物体。
目标检测的常用框架可以分为两类,一类是 two-stage/two-shot 的方法,其特点是将兴趣区域检测和分类分开进行,比较有代表性的是R-,Fast R-,Faster R-;另一类是 one-stage/one-shot 的方法,用一个网络同时进行兴趣区域检测和分类,以YOLO(v1,v2,v3)和SSD为代表。
Two-stage的方式面世比较早,由于需要将兴趣区域检测和分类分开进行,虽然精度比较高,但实时性比较,不适合自动驾驶无人车辆感知等应用场景。因而此次我们主要介绍一下SSD和YOLO系列框架。
SSD与2016年由W. Liu et al.在 SSD: Single Shot MultiBox Detector 一文中提出。虽然比同年提出的YOLO(v1)稍晚,但是运行速度更快,同时更加。
SSD的框架在一个基础网络(作者使用VGG-16,但是也可以换成其他网络)之上,添加了一些额外的结构,从而使网络具有以下特性:
用多尺度特征图进行检测
作者在VGG-16后面添加了一些特征层,这些层的尺寸逐渐减小,允许我们在不同的尺度下进行预测。越是深层小的特征图,用来预测越大的物体。
用卷积网络进行预测
不同于YOLO的全连接层,对每个用于预测的 通道特征图,SSD的分类器全都使用了 卷积进行预测,其中 是每个单元放置的先验框的数量, 是预测的类别数。
设置先验框
对于每一个特征图上的单元格,我们都放置一系列先验框。随后对每一个特征图上的单元格对应的每一个先验框,我们预测先验框的 维偏移量和每一类的置信度。例如,对于一个 的特征图,若每一个特征图对应 个先验框,同时需要预测的类别有 类,那输出的大小为 。(具体体现在训练过程中)
其中,若用 表示先验框的中心位置和宽高, 表示预测框的中心位置和宽高,则实际预测的 维偏移量 是 分别是:
下图是SSD的一个框架,首先是一个VGG-16卷积前5层,随后级联了一系列卷积层,其中有6层分别通过了 卷积(或者一层的平均池化)用于预测,得到了一个 的输出,随后通过极大值抑制(NMS)获得最终的结果。
图中网络用于检测的特征图有 个,大小依次为 , , , , , ;这些特征图每个单元所对应的预置先验框分别有 , , , , , 个,所以网络共预测了 个边界框,(进行极大值抑制前)输出的维度为 。
未完待续
参考:
chenxp2311的CSDN博客:论文阅读:SSD: Single Shot MultiBox Detector
小小将的知乎专栏:目标检测|SSD原理与实现
littleYii的CSDN博客:目标检测论文阅读:YOLOv1-YOLOv3(一)
作者的其他相关文章:
图像分割:全卷积神经网络(FCN)详解
PointNet:基于深度学习的3D点云分类和分割模型 详解
基于视觉的机器人室内定位
深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理。 目标检测可以理解为是物体识别和物体定位的综合 ,不仅仅要识别出物体属于哪个分类,更重要的是得到物体在中的具置。
英文原文:
对原文的表达有部分改动
在本文中,我们将更深入地研究可用于目标检测的各种算法。我们将从 R 家族的算法开始,即 R、Fast R 和 Faster R。在本系列即将发布的文章中,我们将介绍更高级的算法,如 YOLO、SSD 等。
下图是说明目标检测算法如何工作的一个流行示例。图像中的每个物体,从一个人到一只风筝,都以一定的精度被定位和识别。
让我们从最简单的深度学习方法开始,也是一种广泛使用的方法,用于检测图像中的目标——卷积神经网络( )。 的内部工作原理如下:
我们将图像传递给网络,然后通过各种卷积和池化层处理,发送给全连接层。,我们以目标类别的形式获得输出。这相当简单,不是吗?对于每个输入图像,我们得到一个相应的类作为输出。我们可以使用这种技术来检测图像中的各种目标吗?让我们看看如何使用 解决一般的目标检测问题。
使用这种方法的问题在于图像中的目标可能具有不同的纵横比和空间位置。例如,在某些情况下,目标可能覆盖图像的大部分,而在某些情况下,目标可能仅覆盖图像的一小部分。目标的形状也可能不同(在现实生活中经常发生)。由于这些因素,我们将需要大量的区域,从而导致大量的计算时间。因此,为了解决这个问题并减少区域数量,我们可以使用基于区域的 ,它使用提案法选择区域。让我们了解这个基于区域的 可以为我们做什么。
与在大量区域上工作不同的是,R 算法是在图像中选取一堆框并检查这些框中是否有任何一个包含任何目标。 R 使用 selective search 从图像中提取这些框(这些框称为 regions)。
让我们首先了解什么是 selective search 以及它如何识别不同的 regions。基本上四个模式可以构成一个物体:不同的尺度、颜色、纹理和外壳。selective search 识别图像中的这些模式,并在此基础上提出各种regions。以下是selective search 工作原理的简要概述:
举个例子:
到目前为止,我们已经看到了 R 如何实现目标检测。但是这种技术有其自身的局限性。由于以下步骤,训练 R 模型既昂贵又缓慢:
所有这些过程结合起来使 R 非常慢。对每张新图像进行预测大约需要 40-50 秒,这实质上使得模型在面对庞大的数据集时变得笨重且几乎无法构建。
好消息是——我们有另一种目标检测技术,它修复了我们在 R 中看到的大部分问题。
我们还能做些什么来减少 R 算法通常需要的计算时间?我们是否可以每张图像只运行一次并获取所有感兴趣的区域(包含某个目标的区域)。
R 的作者 Ross Girshick 提出了这个想法,即每张图像只运行一次 ,然后找到一种方法在 2,000 个区域之间共享该计算。在 Fast R 中,我们将输入图像提供给 ,后者反过来生成卷积特征图。使用这些地图,提取提议的区域。然后我们使用 RoI 池化层将所有提议的区域重塑为固定大小,以便可以将其馈入全连接网络。
让我们将其分解为简化概念的步骤:
因此,Fast R 不是使用三个不同的模型(如 R),而是使用单个模型从区域中提取特征,将它们分成不同的类,并同时返回识别类的边界框。
为了进一步分解,我将对每个步骤进行可视化。
这就是 Fast R 如何解决 R 的两个主要问题,1. 将每个图像的一个而不是 2,000 个区域传递给 ConvNet。2. 使用一个而不是三个不同的模型来提取特征、分类和生成边界框。
但即使是 Fast R 也存在某些问题。它还使用 selective search 作为寻找感兴趣区域的建议方法,这是一个缓慢且耗时的过程。每张图像检测目标大约需要 2 秒,这与 R 相比要好得多。但是当我们考虑大型现实生活数据集时,即使是 Fast R 看起来也不那么快了。
Faster R 是 Fast R 的修改版本。它们之间的主要区别在于 Fast R 使用 selective search 来生成感兴趣的区域,而 Faster R 使用 Region Proal Network ,又名 RPN。 RPN 将图像特征图作为输入并生成一组目标提议,每个提议的目标以分数作为输出。
Faster R 方法通常遵循以下步骤:
让我简要解释一下这个区域提议网络(RPN)实际上是如何工作的。
首先,Faster R 从 获取特征图并将它们传递给区域提议网络。 RPN 在这些特征图上使用一个滑动窗口,在每个窗口,它生成 k 个不同形状和大小的 Anchor 框:
Anchor 框是固定大小的边界框,它们放置在整个图像中,具有不同的形状和大小。对于每个 Anchor,RPN 预测两件事:
我们现在有不同形状和大小的边界框,它们被传递到 RoI 池化层。在 RPN 步骤之后,有可能存在没有分配给它们的类别提议。我们可以获取每个建议并对其进行裁剪,以便每个建议都包含一个目标。这就是 RoI 池化层所做的。它为每个锚点提取固定大小的特征图:
然后将这些特征图传递到具有 softmax 和线性回归层的全连接层。它最终对目标进行分类并预测已识别目标的边界框。
到目前为止,我们讨论的所有目标检测算法都使用区域来识别目标。网络不会一次性查看完整图像,而是依次关注图像的各个部分。这会造成两个并发症:
番茄畅听免费歌曲_番茄畅听免费歌曲经典老歌

番茄畅听免费歌曲怎么听 番茄畅听免费歌曲听歌步骤: 番茄畅听免费歌曲_番茄畅听免费歌曲经典老歌 番茄畅听免费歌曲_番茄畅听免费歌曲经典老歌 番茄畅听免费歌曲_番茄畅听免费歌曲经典老歌···
在线ocr识别 ocr识别网站

哪些可以识别电脑屏幕截图文字的方法值得分享? 获取电脑屏幕截图中的文字,可以把截图发保存并运行该捷径送给聊天工具,使用“提取中文字”的方法,把文字提取出来。 在线ocr识别 ocr识别···
华为p20发售价格 华为p20发行时间和降价时间

华为p20现在卖多少钱? 华为P20现在京东上售价2557 元 : 华为P20采用麒麟970处理器,八核心,10nm工艺,Mali-G72 MP12显示核心,5.8英寸液晶屏,22441080像素,6GB内存,128GB存储,不支持TF卡,因此大存储还···