您所在位置：网站首页 > 建筑/环境 > 施工组织 > 基于深度学习的人脸识别技术综述

基于深度学习的人脸识别技术综述.doc

18页

卖家[上传人]：博****1

文档编号：494156003

上传时间：2023-08-19

文档格式：DOC

文档大小：2.31MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15金贝

下载

/ 18 举报版权申诉马上下载

文本预览

下载提示

常见问题

基于深度学习的人脸识别技术综述简介：人脸识别是计算机视觉研究领域的一个热点，同时人脸识别的研究领域非常广泛因此，本技术综述限定于：一，在LFW数据集上〔Labeled Faces in the Wild〕获得优秀结果的方法; 二，是采用深度学习的方法前言LFW数据集〔Labeled Faces in the Wild〕是目前用得最多的人脸图像数据库该数据库共13，233幅图像，其中5749个人，其中1680人有两幅及以上的图像，4069人只有一幅图像图像为250*250大小的JPEG格式绝大多数为彩色图，少数为灰度图该数据库采集的是自然条件下人脸图片，目的是提高自然条件下人脸识别的精度该数据集有6中评价标准：一，Unsupervised；二，Image-restricted with no outside data；三，Unrestricted with no outside data；四，Image-restricted with label-free outside data；五，Unrestricted with label-free outside data；六，Unrestricted with labeled outside data。

目前，人工在该数据集上的准确率在0.9427~0.9920在该数据集的第六种评价标准下〔无限制，可以使用外部标注的数据〕，许多方法已经赶上〔超过〕人工识别精度，比方face++,DeepID3，FaceNet等图一/表一：人类在LFW数据集上的识别精度表二：第六种标准下，局部模型的识别准确率〔详情参见lfw结果〕续上表本文综述的人脸识别方法包括以下几个筛选标准：一，在上表中识别精度超过0.95〔超过人类的识别准确度〕；二，公布了方法〔局部结果为商业公司提交，方法并未公布，比方Tencent-BestImage〕；三，使用深度学习方法；三，近两年的结果本文综述的方法包括：1，face++〔0.9950 〕；2，DeepFace〔0.9735 〕；3,FR+F〔0.9645 〕；4，DeepID〔0.9745 〕；5，FaceNet〔0.9963 〕；6， baidu的方法〔0.9977 〕；7,pose+shape+e*pression augmentation〔0.9807〕；8，N-3DMM estimation(0.9235 ，准确率没则高，但是值得参考)人脸识别方法1，face++(0.9950)参考文献：Naive-Deep face Recognition: Touching the Limit of LFW Benchmark or Not?face++从网络上搜集了5million人脸图片用于训练深度卷积神经网络模型，在LFW数据集上准确率非常高。

该篇文章的网路模型很常规〔常规深度卷积神经网络模型〕，但是提出的问题是值得参考的问题一：他们的Megvii Face Recognition System经过训练后，在LFW数据集上到达了0.995的准确率在真实场景测试中〔Chinese ID 〔CHID〕〕，该系统的假阳性率〔FP=10-5〕非常低但是，真阳性率仅为0.66，没有到达真实场景应用要求其中，年龄差异〔包括intra-variation：同一个人，不同年龄照片；以及inter-variation：不同人，不同年龄照片〕是影响模型准确率原因之一而在该测试标准(CHID)下，人类表现的准确率大于0.90图1-1：在CHID中出错的样本问题二：数据采集偏差基于网络采集的人脸数据集存在偏差这些偏差表现在：1，个体之间照片数量差异很大；2，大局部采集的照片都是：微笑，化装，年轻，漂亮的图片这些和真实场景中差异较大因此，尽管系统在LFW数据集上有高准确率，在现实场景中准确率很低问题三：模型测试假阳性率假阳性率，英语名称：false positive rate，FPR. 通俗名称：误诊率或第Ⅰ类错误的解释：即实际无病或阴性，但被判为有病或阳性的百分比。

非常低，但是现实应用中，人们更关注真阳性率真阳性率(true positive rate，TPR)，又称敏感度(sensitivity，SEN)，即实际有病而按该筛检试验的标准被正确地判为有病的百分比它反映筛检试验发现病人的能力问题四：人脸图片的角度，光线，闭合〔开口、闭口〕和年龄等差异相互的作用，导致人脸识别系统现实应用准确率很低因此，该文章提出未来进一步研究的方向方向一：从视频中提取训练数据视频中人脸画面接近于现实应用场景〔变化的角度，光照，表情等〕；方向二：通过人脸合成方法增加训练数据因为单个个体不同的照片很困难〔比方，难以搜集大量的单个个体不同年龄段的照片，可以采用人脸合成的方法〔比方3D人脸重建〕生成单个个体不同年龄段的照片〕该文章提出的方向在后续方法介绍中均有表达2，DeepFace〔0.9735 〕参考文献：Deepface: Closing the gap to humal-level performance in face verification2.1 简介常规人脸识别流程是：人脸检测-对齐-表达-分类本文中，我们通过额外的3d模型改进了人脸对齐的方法然后，通过基于4million人脸图像〔4000个个体〕训练的一个9层的人工神经网络来进展人脸特征表达。

我们的模型在LFW数据集上取得了0.9735的准确率该文章的亮点有以下几点：一，基于3d模型的人脸对齐方法；二，大数据训练的人工神经网络2.2 人脸对齐方法文中使用的人脸对齐方法包括以下几步：1，通过6个特征点检测人脸；2，剪切；3，建立Delaunay triangulation；4，参考标准3d模型；5，将3d模型比对到图片上；6，进展仿射变形；7，最终生成正面图像图2-1 人脸对齐的流程2.3 深度神经网络图2-2：深度神经网络2.4 结果该模型在LFW数据集上取得了0.9735准确率，在其它数据集比方Social Face Classification (SFC) dataset和YouTube Faces (YTF) dataset也取得了好结果，详情请参见原文3，FR+F〔0.9645 〕参考文献：Recover Canonical-View Faces in the Wild with Deep Neural Networks3.1 简介自然条件下，因为角度，光线，occlusions〔咬合/口闭口〕，低分辨率等原因，使人脸图像在个体之间有很大的差异，影响到人脸识别的广泛应用。

本文提出了一种新的深度学习模型，可以学习人脸图像看不见的一面因此，模型可以在保持个体之间的差异的同时，极大的减少单个个体人脸图像〔同一人，不同图片〕之间的差异与当前使用2d环境或者3d信息来进展人脸重建的方法不同，该方法直接从人脸图像之中学习到图像中的规则观察体〔canonical view，标准正面人脸图像〕作者开发了一种从个体照片中自动选择/合成canonical-view的方法在应用方面，该人脸恢复方法已经应用于人脸核实同时，该方法在LFW数据集上获得了当前最好成绩该文章的亮点在于：一，新的检测/选择canonical-view的方法；二，训练深度神经网络来重建人脸正面标准图片〔canonical-view〕3.2 canonical view选择方法我们设计了基于矩阵排序和对称性的人脸正面图像检测方法如图3-1所示，我们按照以下三个标准来采集个体人脸图片：一，人脸对称性〔左右脸的差异〕进展升序排列；二，图像锐度进展降序排列；三，一和二的组合图3-1 正面人脸图像检测方法3.3 人脸重建如图3-2所示，深度神经网络包含三层前两层后接上了ma* pooling；最后一层接上了全连接层。

于传统卷积神经网络不同，我们的filters不共享权重〔我们认为人脸的不同区域存在不同类型的特征〕第l层卷积层可以表示为：图3-2 深度神经网络最终，经过训练的深度神经网络生成的canonical view人脸图像如图3-3所示图3-3 canonical view人脸图像4，DeepID〔0.9745 〕参考文献：DeepID3: Face Recognition with Very Deep Neural Networks4.1 简介深度学习在人脸识别领域的应用提高了人脸识别准确率本文中，我们使用了两种深度神经网络框架〔VGG net 和GoogleLeNet〕来进展人脸识别两种框架ensemble结果在LFW数据集上可以到达0.9745的准确率文章获得高准确率主要归功于大量的训练数据，文章的亮点仅在于测试了两种深度卷积神经网络框架4.2 深度神经网络框架图4-1 两种深度卷积神经网络框架5，FaceNet(0.9963)参考文献：FaceNet: A Unified Embedding for Face Recognition and Clustering5.1 简介作者开发了一个新的人脸识别系统：FaceNet，可以直接将人脸图像映射到欧几里得空间，空间的距离代表了人脸图像的相似性。

只要该映射空间生成，人脸识别，验证和聚类等任务就可以轻松完成该方法是基于深度卷积神经网络，在LFW数据集上，准确率为0.9963，在YouTube Faces DB数据集上，准确率为0.9512FaceNet的核心是百万级的训练数据以及 triplet loss5.2 triplet loss图5-1 triplet loss示意图5.3 深度卷积神经网络采用adagrad优化器，使用随机梯度下降法训练N模型在cpu集群上训练了1000-2000小时边界值α设定为0.2总共实验了两类模型，参数如表5-1和表5-2所示表5-1 N模型1表5-2 N模型26，baidu的方法参考文献：Targeting Ultimate Accuracy : Face Recognition via Deep Embedding6.1 简介本文中，作者提出了一种两步学习方法，结合mutil-patch deep N和deep metric learning，实现脸部特征提取和识别通过1.2million〔18000个个体〕的训练集训练，该方法在LFW数据集上取得了0.9977的成绩6.2 multi-patch deep N人脸不同区域通过深度卷积神经网络分别进展特征提取。

如图6-1所示图6-1 multi-patch示意图6.3 deep metric learning深度卷积神经网络提取的特征再经过metric learning将维度降低到128维度，如图7-2所示图6-2 metric learning示意图7,pose+shape+e*pression augmentation〔0.9807〕参考文章：Do We Really Need to Collect Millions of Faces for Effective Face Recognition7.1 简介该文章的主要思路是对数据集进展扩增〔data augmentation〕N深度学习模型，比方face++，DeepID，FaceNet等需要基于百万级人脸图像的训练才能到达高精度而搜集百万级人脸数据所消耗的人力，物力，财力是很大的，所以商业公司使用的图像数据库是不公开的本文中，采用了新的人脸数据扩增方法对现有公共数据库人脸图像，从pose，shape和e*pression三个方面合成新的人脸图像，极大的扩。

点击阅读更多内容