
基于模糊笔画方向特征的脱机手写体汉字识别系统.pdf
57页天津师范大学硕士学位论文基于模糊笔画方向特征的脱机手写体汉字识别系统姓名:高雅静申请学位级别:硕士专业:计算机应用技术指导教师:孙华志20100301天津师范大学硕士学位论文捅斐汉字识别是用计算机自动辨识印刷在纸上或人写在纸上的汉字,它属于模式识别和人工智能的范畴汉字识别涉及到模式识别、图像处理、人工智能、形式语言与自动机、模糊数学、组合数学、信息论、中文信息处理等学科,也涉及到语言文字学、心理学、仿生学等,是一门综合性技术本文首先对汉字图像的预处理技术进行了分析,包括对样本图像的二值化、归一化、平滑去噪、字符切分、汉字细化处理等模糊数学为解决计算机的精确运算与人脑思维具有模糊性这一矛盾提供了强有力的工具在特征提取方面,本文引入了模糊数学的思想,提出一种基于模糊笔画方向特征的提取方法,解决了因手写体笔画随意性而使得提取的子笔画不稳定的问题;并通过对字符点阵图像的模糊划分,克服笔画的位置对特征提取的影响计算字符边缘点“横’’、“竖’’、“撇”、“捺“ 的模糊笔画属性特征,并将其 ,‘ 与模糊网格相结合,生成模糊笔画统计特征:在分类器设计中,研究了人工神经网络的特征及在手写体汉字识别中的应用及人工神经网络的B P 神经网络的结构设计、神经元数目选取、B P 算法参数确定等问题。
探讨了B P 神经网络在M A T L 钮环境下的实现,并给出了B P 神经网络分类器建立、训练和仿真的实现方法本文采集了十一个常用大写汉字“零、壹、贰、叁、肆、伍、陆、柒、捌、玖、拾”作为样本,并对样本进行了实验,实验证明模糊笔画特征提取方法解决了在抽取子笔画时的不稳定性问题关键词:汉字识别特征提取模糊笔画分类器B P 神经网络天津师范大学硕士学位论文A b s t r a c tC m n e s ec h a r a c t e rr c c o g n i t i o ni sa u t o m a t i c a l l yr e c o g l l i z i n gC I l i n e s ec h a r a c t e r sp r m 锄0 r 、砌t t 肌0 np a p e r 、历mt l l eh e l po fc 0 叫) u t 瓯I ti sp 叭a i nt 0p a n e mr e C o 鲥t i o na n da I t i f i c i a li n t e l l i g e n c e .nd e a l sw i 吐lp a t t e m托c o g n i t i o l l ,i n l a g ep r o c e s s 妞舀a n i j c i d a li I l t e l l i 目。
I l c c ,f .0 n n a ll 硒g u a g e 觚d 锄l t o m a t a ,如z z ym a t h 既n a :t i C s ,c o m p 0 岫d i n gm a m e I I l a t i c s ,i I l f .o n I l a t i c s ,C l l i n e s ei n f o m a t i o np r o c c s s i n g ,裙w e l l 弱l i n g u i s t i c s ,p s y c h o l o g y ,b i o I l i c s .I ti sau I l i V e r s a l t e c h n o l o g y .I l l 蚰sa n i c l e ,丘s r t ,W e 咖d i e dt h ep r e l ,r o e e s s i n go ft 1 1 eh 锄d 州t t e nr e c o 印i t i o n ,i n c l u d i l l gs 切n d a r d i z a t i o n ,s 印a r a t i o n ,e r a s i n gm er 削a I l c yi n f .o m a t i o na n dn l i 五l l i n 酣.Af 1 1 z z ys 灯o k ee x 仃a c t i o nm e m o di sp r o p o s e dt or 髂o l V em eu n s t e a d i n e s sb e c a u s eo ft l l eu n C o n s 仃a i n e dw T i t t e nf 瓠h i o n .F i r S tc a l c u l a t i I l gm e 砌b 1 J t i o nf e a t u r co f ,b o u n d a r yp o i n tr c l a t e dt 0t 1 1 ef o u rf h z z ys 们k 韶—- h o r i z o n t a l 、V e r t i c a l 、l e Rd i a g o n a l柚dr i g h td i a g o n a l ,m e I lc 彻1 b i n g 缸∞rm e s hw i 廿l 舵z ys u b - s 仃o k ea 牡曲1 】:t i o nf I e a n 鹏o fb 咖l d a r yp o i n t st 0o b t 豳t l l e 如z z ys u I b - s t r o k eS t a t i s t i c a lf e a t u r eo faC l l i 饿;s ec :h a r a c t e r .I I lm ed e s i g l l i n go fr e C o g n i t i o nc 1 嬲s i f i c r ,w ed i s c u s s e dm es 伽l C t e rr e C o 嘶t i o n柚dt h en u m b e rc h i c eo fn e Ⅳec e l l sa n dn l ep 猢e n t e r sot l l ei m p r o V e dB Pn e t u r a ln c t 、7 I r o k ,e t c .W bd i s c u s s e d Ⅱl er e a l i z a t i o no fB Pn 咖a ln e t 、Ⅳo r k0 nM A T L A B ,锄dp r e s 既t e dm ef o u n d a t i o n ,仃a i m n ga 1 1 ds i I n u l a t i n go ft h ei m p r 0 V e dB Pn e t I m ln e 研o r k .I n Ⅱl i s 枷c l e ,w ec o l l e c tt h ec a p i t a lh a l l d 、柑t t e nC 1 l i n e s ec h a r a c t e r s ‘‘零、壹、贰、叁、肆、伍、陆、柒、捌、玖、拾”a st h es t y l e b o o k ,a n dm e ya r eu s e df o rt l l es i m l l l a t i o ne x p e 曲e n t s ,.T l l ee x p 嘶m e I l t m 瞅l s u l t ss h o wm a tr e S o l V et l l eI u l s t e a d i n e s sb e c a u s eo ft h eu n C o n s t r a j n e dw r i t t e nf .a s h i o n .K e y w o r d s :C l l i n e s eC h a r a e t e rR e c o 弘i t i o n ,f e a n l r ee x t r a c t i o n ,F u z z ys 仃o k e ,d a s s i f i e r IB Pn 饥I 仃a 1n e t w o r k独创性声明本人声明所呈交的论支是我个人在导师指导下进行的研究工作及取得的研究成果。
尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得丞洼娅范太堂或其它教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意签名:缴日期:礁俎学位论文版权使用授权书本人完全了解天津师范大学有关保留、使用学位论文的规定,即:学校有权将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅同意学校向国家有关部门或机构送交论文的复印件和磁盘 保密的论文在解密后应遵守此规定)签名:电蟊靶导师签名:天津师范大学硕士学位论文第一章绪论1 .1 研究手写体识别的意义及研究背景以前人们之间的交流都是通过语言和文字进行的,现在人们已经进入信息时代随着计算机的普遍使用和计算机科学技术的发展,人们已不在紧紧用语言获得这些信息交流和用手记录在纸上,而是将语言及文字快速自动的输入计算机,用计算机来代替,用计算机对它们进行整理和编辑,保存在硬盘其他介质上,可随时以打印机输出、通过视频进行通讯、通过显示器输出到荧光屏等的方式来满足人们的不同需要,因此研究计算机识别文字的最终目的就是来解决文字信息高速、自动输入计算机的问题,使计算机能方便的进行信息加工处理。
汉字识别技术应用在以下几个领域,有广泛的用途:( 1 ) 汉字识别是智能计算机的重要组成部分.智能计算机能使计算机自己看懂输入的文字,并能阅读文字,理解文章,因而随着资料、文献的增加,对汉字识别的需求越来越大 2 ) 可以很大的提高计算机的利用率,克服人的速度快而机器速度快的矛盾随着计算机应用的的发展,计算机进行信息处理的速度越来越快,输出设备速度也是越来越快但是,计算机的输入却还是很慢,必须由人用手指敲键盘来输入各种信息,使计算机在大部分时间里处于闲置状态计算机的性能越好,与机器的矛盾就越突出因此输入的低速度已经成为计算机系统提高使用效率的瓶颈,解决这一问题的出路就在于计算机自动识别文字 3 ) 汉字自动识别是办公室自动化、新闻出版、机器翻译中最为理想的输入方法字符识别一般可以分为两类:一类是联机手写体汉字识别,是计算机通过与其相连的手写输入设备获得输入字符的即获得笔画的顺序,笔画的方向以及字符的形状因此,联机手写体汉字识别能从物理上获得更多的信息,比较容易识别一些但是联机字符识别要求输入者必须在指定的设备上书写,这是一个严重的不足,因为在现实生活中这一要求不好满足,例如开具发票等第二类是脱机手写体的汉字识别,它不要求在固定设备上书写,应用更为广泛。
它利用各种输入天津师范大学硕七学位论文设别例如扫描仪,数字相机等通过设备,将书写好的文字作为图像输入到计算机中,然后由计算机去识别1 .2 手写体识别的发展概况【1 6 】脱机手写汉字是汉字识别中最困难的问题之一,如果对书写过程限制较多.,则不实用;限制较少,则识别率较低现在研究的重点有多特征融合、字形整形变换、多分类器集成以及用于文本后处理的语言模型等而且,有些人开始研究汉语词语的识别,试图绕开手写汉字单字识别的难点,但目前看来只是一种探索脱机手写识别研究的一个趋势是转向应用研究,应用于特定场合的脱机手写体汉字识别系统开始被研究开发,如银行票据识别、邮政地址识别等但到目前为止,还没有一个抗干扰能力强、性能稳定、适应各种书写体情况的高效实用系统,因此对于手写体汉字识别还有许多工作要做目前存在的主要问题有:手写体汉字的行、列切分正确率仍有待于提高:在特征提取阶段,目前尚未找到一组适用于各种字体、笔迹的特征向量由于汉字的特征向量维数较高,将待识别汉字的特征向量同样本库中的海量模板匹配会占用很多识别时间,因此如何提高识别速度也是一。












