您所在位置：网站首页 > 办公文档 > 解决方案 > 近20年目标检测的发展综述

近20年目标检测的发展综述.docx

12页

卖家[上传人]：ji****81

文档编号：191169026

上传时间：2021-08-13

文档格式：DOCX

文档大小：79.90KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15金贝

下载

/ 12 举报版权申诉马上下载

文本预览

下载提示

常见问题

近20年目标检测的发展综述摘要：近年来，目标检测作为计算机视觉领域最基础和最具挑战性的任务，受到了广泛的关注在最近20年的历史中，目标检测的发展标志着计算机视觉领域的发展本文根据技术发展的顺序回顾了20世纪90年代年到2019年间的多篇论文，包含了历史上目标检测的里程碑式的算法、数据集、评估指标、和近年来最有效的目标检测算法关键词：目标检测、计算机视觉、深度学习、卷积神经网络1.背景介绍目标检测作为计算机视觉领域的一项重要任务，主要负责在数字图像中检测视觉目标的实体并作出分类客观上，目标检测是要提出一种计算模型和技术，以供给计算机视觉应用所需的基本信息：什么目标？在什么位置？目标检测作为计算机视觉最基础的问题之一，是许多其他计算机视觉任务的技术基础，例如实例分割[1-4]、图像捕捉[5-7]、目标追踪等[8]目标检测在应用方面可以分为两种研究方向，即广义上的目标检测和目标检测应用，前者旨在基于统一的框架探寻识别不同目标的方法，以更好的模拟人类的视觉和认知；后者是指特定场景下的目标检测应用，例如行人检测、面部识别、文本识别等近年来，快速发展的深度学习技术给目标检测注入了新的血液[9]，带来了质的飞跃，基于深度学习的目标检测成为了研究热点。

目标检测现已广泛应用于自动驾驶、机器人视觉、视频监视等现实应用中2.过去20年中的目标检测2.1 目标检测发展史目标检测在过去的20年中已经逐渐走过了两个重要的历史阶段：一是传统的目标检测阶段（2014年之前），二是基于深度学习的目标检测阶段（2014年之后）2.1.1 里程碑：传统检测器早期的目标检测算法中的相关特征大部分都基于人工提取这段时间内，因缺少有效的图像表达方式，只能选择设计复杂的特征表达方式，一系列加速技术的使用耗尽了有限的计算资源 VJ检测器18年前，P. Viola和M. Jones第一次实现了实时的不受肤色等因素限制的人脸识别检测器[10,11]在700MHz的Pentium III CPU上运行的结果表明，该检测器在速度上远超同时代的算法，同时在精度上也不落下风为了纪念这重大的突破，该算法以提出者命名，简称VJ检测器VJ检测器使用了非常直接的检测方法，即滑窗方法：用滑窗扫描图像中所有的位置，检测滑窗中是否含有人脸虽然该方法看起来是一个简单的过程，但是其背后的计算量远超当时的计算机的算力在检测速度方面，VJ检测器使用了三种加速技术，分别是积分图像、特征选择、和检测级联，因此在检测速度上有很大的提升。

1）积分图像：积分图像是一种用来加速盒滤波和卷积过程的计算方法就像当时的目标检测算法一样，VJ检测器使用了Harr小波算法作为图像的特征表达方式积分图像可以使VJ检测器中的每个滑窗的计算复杂度独立于滑窗的大小2）特征选择：作者使用Adaboost算法从包含大量随机特征的特征池中选取对面部识别最有效的特征，而不是用一系列人工选择的Harr基础滤波器3）检测级联：多步检测的方式，也被称为检测级联，其通过将更多的算力集中于面部目标而不是背景窗口减少VJ检测器的计算开销 HOG检测器N. Dalal 和 B.Triggs于2005年提出梯度直方图（Histogram of Oriented Gradient，HOG）[12]HOG在当时被认为是在特征变换的缩放不变性和外形上有重大的提升为了平衡特征不变性（包括变形、缩放、光照等）和非线性（为区分不同的目标种类），HOG被设计在相同大小的密集网格上进行计算，并使用重叠的局部对比度归一化来提升精确度虽然HOG检测器可以用来检测多种类别的目标，但最初是被用于行人检测为了检测不同大小的目标，HOG检测器在检测窗口的大小不变的条件下，对输入图像进行多次重新缩放。

HOG检测器在很长一段时间内是许多目标检测器的重要基础，并在之后的多年里衍生出大量的计算机视觉方面的应用可变形组件模型（DPM）DPM是VOC-07、08和09挑战的优胜者，是传统目标检测方法的巅峰DPM最初由P. Felzenszwalb于2008年在HOG检测器的基础上提出[13]，然后经由R. Girshick作出了大量的工作提升其性能[14-17]DPM所遵循的检测原则是分割并识别，训练过程可被简单看作学习一种合适的分解目标的方法，而判别可被看作是对目标的不同部分进行检测的合集一个典型的DPM检测器包含一个根滤波器和一定数量的组件滤波器组件滤波器使用了一种弱监督的学习策略，使得组件滤波器可以自动学习到滤波器的构造（例如大小和位置等），而不是用人工的手段确认之后R. Girshick将这种特殊的过程制定为一种多实例学习的特殊情况，然后将其他一些重要的技术例如难负例挖掘、边界框回归、上下文启动等应用于DPM之中用以提升其精度为加速检测过程，Girshick提出了一种运用级联结构的检测模型，在不失精度的基础上能加速10余倍2.1.2里程碑：基于CNN的两步检测器用人工提取的特征进行目标检测于2010年达到饱和。

2012年卷积神经网络(Convolutional Neural Networks, CNN)重新焕发光彩后[18]，R. Girshick在2014年提出了用于目标检测的RCNN网络[19]，自此之后，目标检测以前所未有的速度发展在深度学习领域，目标检测可以归为两类：一步检测和两步检测，前者是指在一步范围内完成检测，而后者是指将检测分为两步 RCNNRCNN的思想很简单，由提取一系列候选目标建议框开始，这些目标建议框由选择性搜索（selective search）[20]方法提取得到；随后所有的建议框重新缩放到合适的大小，输入到CNN网络中提取特征；最后，使用线性SVM分类器预测每个区域内存在的目标，并对目标类别进行识别RCNN在VOC07上展现出了优异的性能，在均值平均精度（mAP）上从DPM-v5[21]的33.7%提升到了58.5%虽然RCNN取得了极大的进步，但其缺点也很明显：大量的重叠特征建议框造成的大量冗余特征计算，导致检测速度大大减慢随后SPPNet[22]的提出解决了这个问题 SPPNet在2014年，K. He等人提出了空间金字塔池网络（Spatial Pyramid Pooling Networks, SPPNet）。

之前的CNN网络要求输入合适大小的图像，例如AlexNet要求输入224224大小的图像SPPNet最大的贡献在于引入了空间金字塔池化层，无论图像或者区域的大小是否统一，可以使CNN网络输出合适长度的表达式，而无需调整图像或者区域的大小在目标检测中使用SPPNet时，整张图像的特征图只需计算一次，然后输出任意区域的合适长度的表达式用于训练检测器，这样可以避免卷积特征的重复计算SPPNet在检测速度上是RCNN的20多倍，并且在精度上没有损失虽然SPPNet有效的提升了检测速度，但仍有一些缺陷：第一，训练过程依然分为多步进行；第二， SPPNet仅微调其网络中全连接层，而忽略所有先前的层在随后的一年里，Fast RCNN的提出解决了这些问题[23] Fast RCNN2015年，R. Girshick在R-CNN和SPPNet的基础上提出了Fast RCNN检测器Fast RCNN可以在同一网络结构下同时训练检测器和边界框回归器在VOC07数据集上，Fast RCNN的mAP相比R-CNN的58.5%提升到了70.0%，同时速度上比RCNN快了200多倍虽然Fast RCNN成功的结合了RCNN和SPPNet的优点，但其检测速度仍受建议框检测所限。

之后出现的Faster RCNN解决了这一问题[24] Faster RCNN2015年，S. Ren等人在Fast RCNN出现后不久提出了Faster RCNN检测器Faster RCNN是第一个端到端，而且是第一个接近实时检测的深度学习检测器Faster RCNN最大的贡献在于提出了区域建议网络（Region Proposal Network，RPN），可以接近无偿的提供区域建议从RCNN到Faster RCNN，目标检测里大部分独立的模块，例如建议框检测、特征提取、边界框回归等，逐渐整合于一个统一的、端到端的学习框架下虽然Faster RCNN打破了Fast RCNN在速度上的瓶颈，但其在后续检测阶段仍存在计算冗余随后出现了一系列的提升方法，包括RFCN[25]和Light head RCNN[26]等特征金字塔网络2017年，T.-Y. Lin等人在RCNN的基础上提出了特征金字塔网络（Feature Pyramid Networks，FPN）[27]在FPN出现之前，大部分基于深度学习的检测器只在网络的顶层运行，虽然CNN的更深层特征是目标检测的基础，但是它不利于对象的本地化。

为此，在FPN中提出了具有横向连接的自上而下的体系结构，用于构建各种规模的高级语义由于CNN通过其向前传播自然形成一个特征金字塔，因此FPN在检测各种尺度的目标方面显示出了巨大的进步在基本的Faster RCNN结构中使用FPN，在MSCOCO数据集上可以实现最好的单一模型检测结果现在FPN是许多检测器的基本构成模块2.1.3里程碑：基于CNN的一步检测器 YOLOYOLO检测器由R. Joseph等人于2015年提出，是深度学习领域的第一个一步检测器[28]YOLO检测速度非常快：帧率155fps同时在VOC07上的mAP值为52.7%，其增强版本在VOC07上在45fps的帧率时mAP的值为3.4%，在VOC12上mAP值为57.9%YOLO完全抛弃了以前的“建议区检测+验证”的检测方式，实际上遵循的是完全不同的检测方式：在一张完整图像上应用单个神经网络，该网络把图像分割成数个不同的部分，并同时预测边界框和各个区域的概率R. Joseph随后在YOLO上做了一系列的改进并推出了YOLO的V2和V3版本，在保证高检测速度的同时提高了其精度YOLO尽管在检测速度上有很大的提升，但是和传统的两步检测方法相比，其检测精度远低于两步检测的算法，尤其在针对小型目标的检测精度上有明显缺陷。

YOLO的后继者SSD[29]在该问题上做了大量工作 SSDSSD由W. Liu等人于2015年提出，是深度学习领域的第二款一步检测器SSD的主要贡献在于引入了多分辨率和多参数的检测技术，这些技术显著提升了一步检测器的检测精度，尤其是对小型目标的检测SSD在检测精度和速度上都具有优势，帧率59fps时，在VOC07上mAP值为76.8%，在VOC12上mAP值为74.9%与之前检测器相比， SSD可以在网络的不同层上检测不同大小的目标，而其他检测器只在网络顶层检测目标 RetinaNet一步检测器尽管拥有简洁的网络结构和更快的检测速度，但是在检测精度上落后于两步检测器T.-Y. Lin等人指出一步检测器的检测精度较差的主要原因是在密集检测器的训练过程中存在极端的前景-背景类别失衡现象，并于2017年提出了RetinaNet[30]RetinaNet中提出了一种新的损失函数“focal loss”，通过改写标准的交叉熵损失函数，使检测器在训练过程中将更多的注意力放在较难、分类错误较多的示例上Focal Loss的使用使得一步检测器在保持较高检测速度的同时，其检测精度可媲美两步检测器,其结果显示在COCO数据集上的mAP@.5为59.1%，mAP@[.5, .95]为39.1%。

点击阅读更多内容