
一种基于分类器集成的手写维文字符识别方法.docx
4页一种基于分类器集成的手写维文字符识别方法专利名称:一种基于分类器集成的手写维文字符识别方法技术领域:本发明属于模式识别中的文字识别技术领域,主要涉及手写体识别领域,特别是涉及手写维文字符识别领域,具体是一种基于分类器集成的手写维文字符识别方法,用于在移动平台即上实现维文字符的手写输入背景技术:维吾尔文是新疆维吾尔民族交际和工作的主要文字之一,属阿尔泰语系突厥语族,是一种粘连的拼音文字现行的维吾尔文共有32个字母,其中有8个元音字母,24个辅音字母,根据在单词中的位置不同,每个字母有前连式、后连式、双连式、单立式等2 8种书写形式,总共有128个字符从形体上看,维吾尔文字符采用自右向左、自上向下的手写方式,沿着一条水平线即基线书写的部分称为主体部分,在维文识别过程中用主体部分来辨别字符的主要形态,除基线以外的符号、点等称为附加部分,附加部分是区分相似字符的依据维吾尔文由维吾尔单词组成,每个单词由几个到十几个维吾尔字符组成,字符沿着基线相连书写研究维吾尔文字符的处理和识别有助于提升新疆少数民族地区的文化交流、信息交流和科技经济的发展在市场上,维吾尔文印刷体文字识别系统已经广泛的应用于维吾尔文信息处理的各个领域,如办公自动化、出版印刷业等多种方面。
但是,维吾尔文手写技术的研究还处于初步探索阶段目前,手写维文识别方面的研究和成果均较少,在中国申请的专利也较少,中国专利申请号2010102041177. 5的发明申请是西安电子科技大学卢朝阳等提出的一种手写体维吾尔文字符识别方法,该申请提出了 128类的手写体维文字符识别的方法,其首先提出了一种识别手写维文字符的方法,奠定了手写维文字符识别的基础,该方法针对128类维文字符先建立维文字符部件库和部件字典,是维文字符特征提取和识别的基础,然后对单个部件提取时分方向特征,最后以加权距离融合函数综合各部件特征,用以识别整个字符该发明申请首先完整的建立了一种手写维文字符识别的方法,开创了手写维文字符识别的领域,但其手写维文字符识别算法的最高识别率为84. 23%,识别率不高目前,128类的维文单字符识别的研究还较少,识别率普遍较低如何将维吾尔文字符特定的书写规则与分类识别算法有效结合起来,以及将不同分类器集成,是手写体维文识别一个亟待解决的问题发明内容本发明的目的是克服现有技术存在的识别率较低的技术问题,提供一种识别率较高和识别时间较短的基于分类器集成的手写维文字符识别方法,该方法采用不同的分类器进行分类,并对不同的分类器进行集成,与使用单分类器的方法相比,其平均识别率有了显著的提高。
为实现发明目的,本发明采用的技术方案说明如下本发明是一种基于分类器集成的手写维文字符识别方法对手写维文字符的识别过程包括步骤I对采集到的手写维文字符进行预处理,去除采集维文字符过程中附加的噪声,得到规范化的维文字符;步骤2提取维文字符的特征向量,将规范化的维文字符从对象空间映射到特征空间,得到维文字符的方向线素,即维文字符的特征向量;步骤3分别使用 MQDF (Modif ied Quadratic Discriminant Function,修正的二次分类函数)分类器和BP(Back Propagation,后向传播)神经网络分类器对维文字符特征向量分类识别,得到分类识别结果,MQDF分类器的分类结果是置信值集I和BP神经网络分类器的分类结果是置信值集2 ;步骤4对两种分类识别的结果置信值集I和置信值集2进行集成,计算128个维文字符中每个候选字符的两个置信值的加权和,确定最大的加权和值,得到最终的分类识别结果本发明采用一种统计的方法,首先对维文字符进行预处理,去除由于手写所带来的噪声,接着提取维文字符的特征向量,并将特征向量分别输入MQDF分类器和BP神经网络分类器进行分类,最后对分类识别的结果集成,得到最终的识别结果并给出候选集。
本发明的实现还在于手写维文字符预处理过程包括I. I裁剪手写维文字符图像,去除维文字符图像中不包含文字轨迹点的区域,留下包含文字轨迹点的区域;1. 2对裁剪后的维文字符进行归一化处理,将大小不同的维文字符图像归一化为大小相同的图像;1. 3对归一化后的维文字符图像进行轨迹点重采样,每隔几个点进行采样,若原图像中存在象素点比较紧密而归一化处理后象素点比较稀疏的地方则补象素点;1. 4对重采样后的维文字符图像进行滤波,得到规范化的维文字符本发明首先对维文字符图像进行裁剪,以图像中的文字为边界,将其中不包括文字信息的部分去除,只保留包含文字的矩形区域接着将裁剪后的图像进行归一化处理,将裁剪后大小不一样的维文字符图像转换为大小一样的维文字符图像然后将归一化后的图像进行轨迹点重采样,减少由于归一化带来的字符拉伸、延展的畸变最后将重采样后的维文图像进行滤波,降低图像的噪声本发明的实现还在于维文字符特征向量提取的过程包括2. I使用弹性网格对规范化的维文字符图像进行划分;2. 2计算每个网格内的象素点的方向线素,并计算出每个网格的方向象素;2. 3将维文字符的网格降维,并计算出降维后的维文字符每个网格的方向象素;2. 4对所有网格的方向线素进行合并,用合并后的方向线素表示维文字符的方向线素,即维文字符的特征向量。
本发明特征提取过程中首先使用弹性网格分割维文图像又计算网格内的每个象素的方向线素,并计算每个网格的方向线素将所有网格的方向线素合并,得到维文字符的方向线素本发明的实现还在于使用MQDF分类器和BP神经网络分类器进行分类的过程包括3. I对115套的128类维文字符库进行划分,将其中的60套作为训练样本库,剩余的55套作为识别样本库,115套128类手写维文字符库是基于移动终端即平台采集的由维吾尔族人手写的字符库;3. 2使用MQDF分类器对60套训练样本库训练,得到128类维文字符的平均MQDF确信度;3. 3将待识别维文字符的特征向量应用于MQDF分类器,得到对应的候选字符集I,候选字符集I有128个候选字符;3. 4对待识别维文字符的MQDF候选字符集I进行概率处理,转化为候选字符集I对应的后验概率,就是候选的置信值集1,置信值集I有128个置信值;3. 5使用BP神经网络分类器对115套的128类维文字符库进行划分,对其中的60套训练样本库训练,得到神经网络分类器的系数;3. 6将待识别维文字的特征向量应用于BP神经网络分类器,得到对应的候选字符集2,候选字符集2有128个候选字符;3. 7对待识别维文字符的BP神经网络候选字符集2进行概率处理,转化为候选集对应的后验概率,就是候选的置信值集2,置信值集2有128个置信值。
本发明采用了不同的分类器分别对手写维文字符的特征向量进行分类,采用的MQDF分类器和BP神经网络分类器复杂度低,易于实现分类过程能充分考虑特征向量在特征空间中分布的特点,具有较好的鲁棒性和较高的识别率本发明的实现还在于对分类识别结果集成的过程包括4. I通过实验确定128个维文字符中每个候选字符的两个置信值(即MQDF的置信值和BP神经网络的置信值)的加权和的权重系数Y k ;4. 2根据得到的加权和的权重系数Y k,计算128个维文字符中每个候选字符的两个置信值(MQDF的置信值和BP神经网络的置信值)的加权和8“1) = Y (wjx) + Y 2p2 (Wi/x),得到每个字符最终的置信值,128个维文字符的置信值形成最终的置信值集,式中Pi (WiA)表示MQDF分类器对特征向量X所属类别Wi的概率估计,p2 (WiZx)表示BP神经网络对特征向量X所属类别Wi的概率估计;4. 3根据最终置信值集中128个置信值大小,选定最大的置信值对应的字符,确定为待识别字符的识别结果本发明采用的分类器集成方法复杂度低,易于实现相对于独立分类器,分类器的集成可以充分利用各个独立分类器的优点,能有效提高维文字符的识别率。
与现有技术相比,本发明具有如下的优点(I)本发明复杂度低,实现较简单,具有较好的鲁棒性2)本发明有效利用了不同分类器的优点,对不同分类器的集成就是集合不同分类器的优点,提高了手写维文字符识别的平均识别率3)本发明平均识别时间较短,达到了实用价值图I为本发明的算法示意图2为BP神经网络的结构示意图;图3为128个维文字符示意图;图4为手写维文字符的部分样本;图5为权值矩阵米样过程不意图;图6为三种算法的平均识别率曲线图具体实施例方式为了使本发明的技术方案更加清楚,下面结合附图对本发明作进一步的说明本发明是使用移动终端即平台采集的由维吾尔族人手写的字符库,在个人电脑上(处理器Intel酷睿2双核T6400,内存2GB,主频2GHZ)进行了维文字符识别的实验本发明手写维吾尔文字符识别方法是基于128类维文字符,128类维文字符参照图3实施例1本发明一种基于分类器集成的手写维文字符识别方法,参见图I :对手写维文字符识别过程包括步骤1对采集到的手写维文字符进行预处理,去除采集维文字符过程中附加的噪声,得到规范化的维文字符维文字符预处理过程包括I. I裁剪手写维文字符图像,去除维文字符图像中不包含文字轨迹点的区域,留下包含文字轨迹点的区域。
I. 2对裁剪后的维文字符进行归一化处理,将大小不同的维文字符图像归一化为大小相同的图像I. 3对归一化后的维文字符图像进行轨迹点重采样,每隔几个点进行采样,本例中每隔3点采样,若原图像中存在象素点比较紧密而归一化处理后象素点比较稀疏的地方则补象素点1. 4对重采样后的维文字符图像进行滤波,得到规范化的维文字符步骤2提取维文字符的特征向量,将规范化的维文字符从对象空间映射到特征空间,得到维文字符的方向线素,即维文字符的特征向量维文字符特征向量提取的过程包括2. 1使用弹性网格对规范化的维文字符图像进行划分;2. 2计算每个网格内的象素点的方向线素,并计算出每个网格的方向象素;2. 3将维文字符的网格降维,并计算出降维后的每个网格的方向象素;2. 4对所有网格的方向线素进行合并,用合并后的方向线素表示维文字符的方向线素,即维文字符的特征向量步骤3分别使用MQDF分类器和BP神经网络分类器对维文字符特征向量分类识另O,得到分类识别结果,MQDF分类器的分类结果是置信值集1,BP神经网络分类器的分类结果是置信值集2使用MQDF分类器和BP神经网络分类器进行分类的过程包括3. 1对115套的128类维文字符库进行划分,将其中的60套作为训练样本库,剩余的55套作为识别样本库,115套128类手写维文字符库是基于移动终端即平台采集的由维吾尔族人手写的字符库。
3. 2使用MQDF分类器对60套训练样本库训练,得到128类维文字符的平均MQDF确信度3. 3将待识别维文字符的特征向量应用于MQDF分类器,得到对应的候选字符集I,候选字符集I有128个候选字符3. 4对待识别维文字符的MQDF候选字符集I进行概率处理,转化为候选字符集I对应的后验概率,就是候选的置信值集1,置信值集I有128个置信值本发明采用的MQDF分类器易于实现,分类过程能充分考虑特征向量在特征空间中分布的特点 3. 5使用BP神经网络分类器对115套的128类维文字符库进行划分,对其中的60套训练样本库训练,得到神经网络分类器的系数3. 6将待识别维文字的特征向量应用于BP神经网络分类器,得到对应的候选字符集2,候选字符集2有128个候选字符3. 7对待识别维文字符的BP神经网络候选字符集2进行概率处理,转化为候选集对应的后验概率,就是候选的置信值集2,置信值集2有128个置信值本发明采用的BP神经网络分类器结构简单,具有较好的鲁棒性和较高的识别率步骤4对两种分类识别的结果置信值集I和置信值集2进行集成,计算128个维文字符中每个候选字符的两个置信值的加权和,选择最大的加权和值作为最终的分类识别结果。
对分类识别结果集成的过程包括4. I通过实验确定128个维文字符中每个候选字符的两个置信值(即MQ。












