好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

行人检测综述报告.docx

14页
  • 卖家[上传人]:hs****ma
  • 文档编号:392338082
  • 上传时间:2023-06-02
  • 文档格式:DOCX
  • 文档大小:60.65KB
  • / 14 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 基于深度神经网络的行人检测综述摘要:行人检测是汽车自动驾驶的基础技术之一基于深度神经网络模型的行人检测方法取得的效果已经远超于使用传统特征经行识别得到的效果仿生物视觉系统的卷积神经网络作为深度学习的重要组成、在图像、语音等领域得到了成功应用其局部感受野、权值共享和降采样三个特点使之成为智能机器视觉领域的研究热点通过增加网络层数所构造的深层神经网络使机器能够获得抽象概念能力,在诸多领域都取得了巨大的成功,又掀起了神经网络研究的一个新高潮本文回顾了神经网络的发展历程,综述了其当前研究进展以及存在的问题,展望了未来神经网络的发展方向关键词:行人检测;卷积神经网络;深度学习Survey of Pedestrian detection based on Deep Neural NetworkYin Guangchuan,Zhangshuai,Qi ShuaihuiAbstract:Pedestrian detection is one of the basic technologies of unmanned vehicles. The pedestrian detection method based on the deep neural network model has achieved much more effect than the traditional one. Convolutional neural network which imitates the biological vision system has made great success on image and audio, which is the important component of deep learning. Local receptive field, sharing weights and down sampling are three important characteristics of CNN which lead it to be the hotspot in the field of intelligent machine vision.With the increasing number of layers, deep neural network entitles machines the capability to capture “abstract concepts” and it has achieved great success in various fields, leading a new and advanced trend in neural network research. This paper recalls the development of neural network, summarizes the latest progress and existing problems considering neural network and points out its possible future directions. Keywords: pedestrian detection; convolutional neural network; deep learning1 引言行人兼具刚性和柔性物体的特性,外观易受穿着、尺度、遮挡、姿态和视角等影响,使得行人检测成为计算机视觉的研究难点与热点。

      行人检测技术由于应用的广泛性使其在计算机视觉领域成为一个重要分支,对视频监控、车辆辅助驾驶、智能机器人等多个领域提供了重要的技术支持近几年来,深度学习在大规模图像分类方面取得的了重大突破,表明深度学习可以从多媒体内容中提取具有很强表达能力的特征卷积神经网络 ( Convolutional NeuralNetwork,CNN)[1]提供了一种端到端的学习模型,模型中的参数可以通过传统的梯度下降方法进行训练,经过训练的卷积神经网络能够学习到图像中的特征,并且完成对图像特征的提取和分类作为神经网络领域的一个重要研究分支,卷积神经网络的特点在于其每一层的特征都由上一层的局部区域通过共享权值的卷积核激励得到这一特点使得卷积神经网络相比于其他神经网络方法更适合应用于图像特征的学习与表达CNN 把特征提取归入模型学习,把特征学习和分类学习有机结合起来, 更有效地实现对图像的识别.特别是近两年,卷积神经网络受到了更为广泛地关注.CNN 可能是机器学习领域近十年最成功的研究方向,因此本文拟对 CNN 的发展和其在行人检测上的研究成果进行了介绍,并对其预期研究方向进行展望2 卷积神经网络的研究历史20 世纪60年代,Hubel等[2]的生物学研究表明,视觉信息从视网膜传递到大脑中是通过多个层次的感受野 ( Receptive Field ) 激发完成的;1980 年,Fukushima[3]第一次提出了一个基于感受野理论模型Neocognitron。

      Neocognitron 是一个自组织的多层神经网络模型,每一层的响应都由上一层的局部感受野激发得到,对于模式的识别不受位置、较小形状变化以及尺度大小的影响Neocognitron 采用的无监督学习也是卷积神经网络早期研究中占据主导地位的学习方式1998 年,Lecun 等提出的 LeNet- 5[1]采用了基于梯度的反向传播算法对网络进行有监督的训练经过训练的网络通过交替连接的卷积层和下采样层将原始图像转换成一系列的特征图,最后,通过全连接的神经网络针对图像的特征表达进行分类卷积层的卷积核完成了感受野的功能,可以将低层的局部区域信息通过卷积核激发到更高的层次LeNet- 5在手写字符识别领域的成功应用引起了学术界对于卷积神经网络的关注同一时期,卷积神经网络在语音识别[4]、物体检测[5]、人脸识别[6]等方面的研究也逐渐开展起来2006年,机器学习领域的泰斗 Hinton[7]指出多层的神经网络结构能够学习到更深刻更本质的特征,并通过“逐层初始化”的训练办法克服了传统神经网络训练瓶颈问题,引领了深度学习的发展方向从此,深度学习受到了各国学者的广泛关注,谷歌、微软、IBM、百度等拥有大数据的高科技公司相继投入大量资源进行 深度学习理论研究。

      2011年以来,微软研究院和谷歌的语音识别人员采用深度神经网络( deep neural network, DNN) 技术,使语音识别有了突破性进展,识别误差可降低20% ~ 30%2012 年, Krizhevsky 等[8]提出的AlexNet在大型图像数据库ImageNet[9]的图像分类竞赛中以准确度超越第二名11%的巨大优势夺得了冠军,使得卷积神经网络成为了学术界的焦点2014 年的大型视觉辨识挑战赛( ImageNet Large Scale Visual Recognition Challenge,ILSVRC) 中,几乎所有的参赛队伍都采用了卷积神经网络及其变形方法2015 年国际机器学习大会上来自工业界和学术界的各位专家对深度学习 展开激烈讨论,指出深度学习在人类擅长的领域已经取得了令人振奋的成功, 未来的探索方向是人类并不擅长的任务、 数据集2015 年国际计算机视觉与模式识别会议上关于 DL 和 CNN 的研究成果较往年有大幅的提升2015 年 9 月, 微软亚洲研究院的“深 层 残 差 网 络”( deep residual networks ) 在ILSVRC 中获得图像分类、 定位以及检测全部项目的冠军,如分类方面将错误率降低至 4.94%, 比人眼辨识( 错误率 5.1%) 更精确[10] 。

      在大数据时代, 各领域争先占领 DL 的技术制高点,希望找出更强大的模型来揭示海量数据所承载的丰富信息,对未知事件更精准地预测3 卷积神经网络结构与改进3.1 卷积神经网络结构Lecun 等[1]提出的LeNet-5模型采用了交替连接的卷积层和下采样层对输入图像进行前向传导,并且最终通过全连接层输出概率分布的结构是当前普遍采用的卷积神经网络结构的原型卷积神经网络是一种多层的监督学习网络,有输入层、隐含层(包括卷积层和下采样层)和输出层,通过误差反传算法优化网络结构,求解未知参数,其网络结构如图1 所示图1 卷积神经网络框架在卷积层,特征图(Feature Map)的每一个神经元与前一层的局部感受野相连,经过卷积操作提取局部特征A卷积层中有多个Feature Map,每个Feature Map 提取一种特征,在提取特征时,同一个Feature Map 的神经元共享一组权值(即卷积核),不同的Feature Map 权值不同,从而提取不同的特征,在训练过程中不断地调整权值参数,使特征提取朝着有利于分类的方向进行,卷积操作示意图如图2 所示,一般卷积的公式如公式1所示 (1) 其中,l 代表层数,k 代表卷积核,输入层的感受野,b 代表偏置。

      图2 卷积操作示意图在下采样层中,输入的Feature Map 经过池化(Pooling)后其个数不变,大小变为原来的1/n(假设池化尺寸为n)池化操作的主要作用是减小特征图的分辨率,降低特征维数,同时在一定程度上增加网络对位移、缩放、扭曲的鲁棒性池化分为最大池化和平均池化下采样层的形式如公式2所示: (2)其中down(•) 为池化函数,β为权重系数LeNet- 5虽然在手写字符识别领域取得了成功,但是其存在的缺点也比较明显,包括难以寻找到合适的大型训练集对网络进行训练以适应更为复杂的应用需求; 过拟合问题使得 LeNet- 5 的泛化能力较弱;网络的训练开销非常大,硬件性能支持的不足使得网络结构的研究非常困难以上三大制约卷积神经网络发展的重要因素在近期的研究中取得了突破性的进展是卷积神经网络成为一个新的研究热点的重要原因并且,近期针对卷积神经网络的深度和结构优化方面的研究进一步提升了网络的数据拟合能力3 .2 卷积神经网络模型的改进3.2.1 CNN卷积层的改进在增加模型深度可以有效增加网络性能的理论基础上,Krizhevsky 等[11]把 CNN的卷积层数加至5层,构成了深度卷积神经网络( deep convolutionalneural network, DCNN);zegedy等组成GoogLeNet小组构建了22层深度网络[12],该网络比 2012 ILSVRC获胜者的网络参数少了12倍,却能更精确的分类和检测,在2014 年的ILSVRC一举夺冠。

      如何构建更深网络一直是CNN的研究热点,2015 ILSVRC的152层“深层残差网络”[13]采用了一个全新的“残差学习”原则指导学习,并重新定向了深层 CNN中的信息流,高效地解决了深层神经网络准确度与层数之间的矛盾王冠皓[14]提出了多级金字塔卷积神经网( multi-level pyramid CNN),CNN每层先使用稀疏自编码器预训练,再使用金字塔卷积神经网络对整个网络训练,将低层的滤波权值共享到高层,保证训练时的卷积滤波只在小尺寸图像上进行,大尺度图像只进行一次向前传播,加快训练速度此外,Zhang在ImageNet上训练具有7层的快速非线性卷积神经网络[15],对每层加速以达到对整个网络加速的目的,速度可达到与“AlexNet”[16]一致的同时,分类精度也提高了4. 7% 3.2.2 CNN 降采样层的改进常规 DCNN 只能对尺度固定的图像进行处理,对尺度不同的输入图像需人工裁剪或拉伸之后才输入网络,会造成图像失真而影响分类的准确率DCNN的卷积层尾端引入空间金字塔。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.