
基于BP神经网络的手写数字识别.pptx
24页单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2016/4/13,#,基于,BP,神经网络的手写数字识别,汇报人 :李烽,文献来源:,Y.Le Cun,B.Boser,J.S.Denker,R.E.Howard,W.Habbard,L.D.Jackel,and D.,Henderson.,Handwritten digit recognition with a back-propagation network,.,In Advances in neural information processing systems 2,1989,本文使用,BP,网络进行手写数字识别,与以往将特征向量作为输入不同,该网络直接将图像作为输入,说明,BP,网络具有处理大量低级信息(,low level information,)的能力,.,早前对简单数字图像的工作说明网络结构极大地影响了,网络泛化能力,良好的泛化能力可通过在网络设计过程中引入先验知识得到一个基本设计原则是,减少自由参数,(,free parameters,),而不用过度减少网络的计算能力另一方面,要在网络结构中涉及,合适的约束条件,。
INTRODUCTION,ZIPCODE RECOGNITION,选择,手写数字识别作为研究对象是因为这是一个相对简单的机器视觉任务:,1.,将黑白像素点作为输入;,2.,数字能够很好地与背景分离开;,3.,输出只有,10,个类别;,存在的问题:,1.,一般要得到较好的训练效果,隐层数目不能太少,当图片大的时候,需要的权值会非常多!,2.,对平移、尺度变化敏感(比如数字偏左上角,右下角时即识别失败),3.,图片在相邻区域是相关的,而这种网络只是一股脑把所有像素扔进去,没有考虑图片相关性用最简单的神经网络进行识别,28,*,28,像素的图片,ZIPCODE RECOGNITION,选用的数据集来自纽约邮局真实的数据,包括各式各样的手写数字作为补充,还加入了,35,种字体的打印数字训练集:,7291,条手写数字,,2549,条打印数字,测试,集:,2007,条手写数字,,700,条打印数字,训练集与测试集中的打印数字的字体不同,训练集与测试集中包含歧义的、未分类、无分类的数据,PREPROCESSING,在,字符识别的过程中,识别算法不需要关心图像的彩色信息因此,需要将彩色图像转化为灰度图像。
经过灰度化处理后的图像中还包含有背景信息因此,我们还得进一步处理,将背景噪声屏蔽掉,突显出字符轮廓信息二值化处理就能够将其中的字符显现出来,并将背景去除掉THE NETWORK,预,处理之后,多层神经网络进行识别网络中的所有连接都是自适应的输入:归一化图像,输出:,10,个类,如数字,2,的结果如下,:,-1-1,1,-1-1-1,-1,-1,-1,-,1,全,连接的网络由于有太多的自由参数而不能进行,良好,的泛化:全局、局部,局部感受野、权,值,共享、,feature map,每种滤波器的参数不一样,表示它提出输入图像的不同特征,例如不同的边缘这样每种滤波器去卷积图像就得到对图像的不同特征的放映,我们称之为,Feature,Map,一个,feature map,中的所有神经元使用相同过滤器,不同层的,feature map,使用不同的过滤器,卷积神经网络结构,一般,地,,C,层为特征提取层,,每个神经元的输入与前一层的,局部感受野,相连,并提取该局部的特征,一旦该局部特征被提取后,它与其他特征间的位置关系也随之确定下来;,S,层是特征映射层,,网络的每个计算层由多个特征映射组成,每个,特征,映射为,一个,平面,平面上所有神经元的权值相等。
特征映射结构采用影响函数核小的,sigmoid,函数作为卷积网络的激活函数,使得,特征映射具有位移不变性,最终,,这些像素值被,光栅化,,并连接成一个向量输入到传统的神经网络,得到输出卷积神经网络中的每一个特征提取层(,C-,层)都紧跟着一个用来求局部平均与二次提取的计算层(,S-,层,),这种,特有的两次特征提取结构减小了,特征分辨率,卷积和子采样过程,用一个可训练的滤波器,fx,去卷积一个输入的图像(第一阶段是输入的图像,后面的阶段就是,卷积的,feature map,),,然后加一个偏置,bx,,得到卷积层,Cx,卷积层的输出,=Sigmoid(Sum(,卷积,)+,偏移量,),子采样(,subsampling,)过程,包括:每邻域四个像素求和变为一个像素,然后通过标量,Wx+1,加权,再增加偏置,bx+1,,然后通过一个,sigmoid,激活函数,产生一个大概缩小四倍,的,feature map Sx+1,输出,=Sigmoid(,采样*权重,+,偏移量,),6,个,5X5,模板,LeNet-5,手写识别系统,LeNet-5,共有,7,层,不包含输入,每层都包含可训练参数(连接权重)。
输入图像为,32*32,大小这要比,Mnist,数据库(一个公认的手写数据库)中最大的字母还大这样做的原因是希望潜在的明显特征如笔画断电或角点能够出现在最高层特征监测子感受野的,中心,输入图像是,32x32,的大小,局部滑动,窗(,卷积核,)的,大小是,5x5,的,由于不考虑对图像的边界进行拓展,则滑动窗将有,28x28,个不同的位置,也就是,C1,层的大小是,28x28,这里设定有,6,个不同的,C1,层,每一个,C1,层内的权值是相同,的C1,层是一个卷积层(为什么是卷积?卷积运算一个重要的特点就是,通过卷积运算,可以使原信号特征增强,并且降低噪音),每个层有多个,Feature Map,,每个,Feature Map,通过一种卷积滤波器提取输入的一种特征,(,每种特征都不一样,),,然后每个,Feature Map,有多个神经元下一页,卷积的过程,S2,层是一个下采样层,(,利用,图像局部相关性的原理,对图像进行子抽样,,减小图像规模同时,保留有用信息,),有,6,个,14*14,的特征图特征图中的每个单元与,C1,中相对应特征图的,2*2,邻域相,连接,局部感受野互不覆盖S2,层每个单元的,4,个输入相加,乘以一个可训练参数,再加上一个可训练偏置。
结果通过,sigmoid,函数计算,每个,单元的,2*2,感受野并不重叠,因此,S2,中每个特征图的大小是,C1,中特征图大小的,1/4,(行和列各,1/2,),LeNet-5,文字识别,C3,层也是一个卷积层,它同样通过,5x5,的卷积核去卷积层,S2,,然后得到,的,feature map,就只有,10 x10,个神经元,但是它有,16,种不同的卷积核,所以就存在,16,个,feature,map,了这里需要注意的一点是:,C3,中的,每个,feature,map,是连接到,S2,中的所有,6,个或者几,个,feature,map,的,表示本层,的,feature,map,是上一层提取到的特征,map,的不同组合,LeNet-5,LeNet-5,文字识别,S4,层是一个下采样层,由,16,个,5*5,大小的特征图构成特征图中的每个单元与,C3,中相应特征图的,2*2,邻域相连接,跟,C1,和,S2,之间的连接一样LeNet-5,LeNet-5,文字识别,C5,层是一个卷积层,有,120,个特征图每个单元与,S4,层的全部,16,个单元的,5*5,邻域相连由于,S4,层特征图的大小也为,5*5,(同滤波器一样),故,C5,特征图的大小为,1*1,:这构成了,S4,和,C5,之间的全连接。
之所以仍将,C5,标示为卷积层而非全相联层,是因为如果,LeNet-5,的输入变大,而其他的保持不变,那么此时特征图的维数就会比,1*1,大,LeNet-5,LeNet-5,文字识别,F6,层有,84,个单元(之所以选这个数字的原因来自于输出层的设计),与,C5,层全相连,F6,层计算输入向量和权重向量之间的点积,再加上一个偏置然后将其传递给,sigmoid,函数产生单元,i,的一个状态,由于,经典的,BP,网络是一个一维节点分布排列,而卷积神经网络是二维网络结构所以,要把卷积神经网络的每一层,按照一定的顺序和规则映射为一维节点分布,然后,按照这个分布创建一个多层反向传播算法的网络结构,就可以按照一般的,BP,训练算法去学习网络,参数,输出一般组织为“,one-of-c,”的形式,也就是只有该输入对应的类的输出节点输出为正,其他类的位或者节点,为,-1,LeNet-5,LeNet-5,文字识别,第一阶段,向前传播阶段:,a,)从样本集中取一个样本,(X,Yp),,,X,是输入向量,,Yp,是理想输出向量,将,X,输入网络;,b,)计算相应的实际输出,Op,在此阶段,信息从输入层经过逐级的变换,传送到输出层。
这个过程也是网络在完成训练后正常运行时执行的过程在此过程中,网络执行的是计算(实际上就是输入与每层的权值矩阵相点乘,得到最后的输出结果):,Op=Fn,(,(,F2,(,F1,(,XpW,(,1,),W,(,2,),),W,(,n,),第二阶段,向后传播阶段,a,)算实际输出,Op,与相应的理想输出,Yp,的差;,b,)按极小化误差的方法反向传播调整权矩阵BP,训练过程,RESULTS,在,SUN SPARC,上花了,3,天时间模拟训练了,30,次,30,次训练之后,训练集(,7291,条手写数字和,2549,个打印数字)上的错误率为,1.1%,,均方差为,0.017,在测试集(,2007,条手写数字加上,700,条打印数字)上,错误率为,3.4%,,均方差为,0.024,CONCLUSION,卷积神经网络(,CNNs,)是第一个真正成功训练多层网络结构的学习算法它利用空间关系,减少需要学习的参数数目,以提高一般前向,BP,算法的训练性能CNNs,作为一个深度学习架构提出是为了,最小化数据的预处理要求,在,CNN,中,图像的一小部分(局部感受野)作为层级结构的最低层的输入,信息再依次传输到不同的层,每层通过一个数字滤波器去获得观测数据的最显著的特征。
卷积,神经网络每一个隐藏层的神经元提取图像局部特征,将其映射成一个平面,特征映射函数采用,sigmoid,函数作为卷积网络的激活函数,使得特征映射具有位移不变性CONCLUSION,每个,神经元与前一层的,局部,感受野,(local receptive field),相连,注意,,不是局部连接的神经元权值相同,而是同一平面层的神经元权值相同,有相同程度的位移、旋转,不变性,,所以网络能够,并行学习,其,局部权值共享,的特殊结构布局更接近于实际的生物神经网络,权值共享,降低了网络的复杂性,,特别是多维输入向量的图像可以直接输入网络这一特点降低了特征提取和分类过程中数据重建的复杂,度每个,特征提取后都紧跟着一个用来求局部平均与二次提取的,子采样层,这种特有的两次特征提取结构使得网络对输入样本有较高的畸变容忍能力,综上,卷积,神经网络通过局部感受野、共享权值,和子取样(池化)来,保证图像对位移、缩放、扭曲的鲁棒性,THANKS,。












