
基于一健一字的汉字特征定位编码复合输入方法.docx
8页基于一健一字的汉字特征定位编码复合输入方法专利名称:基于一健一字的汉字特征定位编码复合输入方法技术领域:本发明属于计算机信息处理技术的汉字编码键盘输入方法,特别是以PC通用键盘的26个拉丁字母键通过对汉字编码输入中文信息的方法一、技术背景自从计算机在汉语言区域应用以来,汉字编码输入技术就是实现计算机中文信息处理的关键之一由于汉字数量繁多、结构复杂,对其编码有一个相互矛盾的两难问题首先是汉字特征与编码符号之间对应的唯一性,即重码问题;其次是编码符号与汉字特征之间相互关联的可接受性,即编码符号的有理化问题新的编码方案只有在这两个相互矛盾的问题同时得到解决时,才能成为一种既好学又好用、理想的汉字编码方案现有的汉字编码输入技术为解决重码问题而大量地扩充码元和字元,使编码元素达到二、三百个甚至四百个之多,由于不能进行合理归类,且人为地将汉字部件拆分并强行安置到键盘的各个键位上这种无理编码方式,表面上看似有规律,其实是走入了汉字编码的误区,为记忆这些码元和汉字的拆分规则而大量耗费使用人员脑力的结果,更加大了汉字输入的劳动强度,这是人们普遍认为汉字输入技术难以掌握的主要原因本发明的目的,旨在解决计算机中文信息处理中上述汉字编码技术的两难问题,即降低汉字编码的重码率和编码符号与汉字编码相对应的有理化难题;通过科学地选取声、形码元构建一个适用于国家GB2312-80和GB18030-2000繁体、简体大字符集汉字的编码体系,从而为人们提供一种既规范,又简易便捷、能即学即用、理想的汉字编码输入方法。
二发明内容现有的汉字音形编码输入方式,其固有的缺限与拼音输入方式一样,对读音不准或不认识的汉字难以输入,更难以对汉字部件和各种标点符号进行编码此外,它和字形编码输入方式一样,也需要大量设置字形编码元素,至使每个键位的汉字部件多达十余个,编码元素愈多,记忆码元和对汉字进行的拆分就愈难尽管如此,其重码率之高,仍难以令人满意为此,本发明采用了由多种汉字编码方式组成的复合输入方案和一些优化编码的措施,以此满足各种不同工作、不同文化层次的人员进行汉字输入的需要1、编码思想本发明是基于一键一字的汉字特征定音定位取码的音形编码方案其编码思想是以汉字的读音及汉字三个角的笔形特征进行编码,通过通用的拉丁字母键盘输入汉字本发明的汉字编码方法是这样实现的以PC通用键盘的26个拉丁字母为基本码元,一个汉字取四键作为编码,即汉字编码的最大码长为4汉字的编码由声码和形码两部分组成,声码部分取汉字汉语拼音的首字母为声码,汉字的声码与PC通用键盘上的拉丁字母一一相对应;形码部分取汉字的首形码、尾形码、补形码作为汉字的字形编码本发明对汉字字形定位编码的约定意义是以汉字左上角起笔的笔形特征为首形码以汉字右下角末笔的笔形特征为尾形码;以汉字右上角最高的笔形特征为补形码。
汉字形码部分的字形编码元素分为26类,它们分别与键盘上的26个拉丁字母按笔形特征的形似关系相对应E-一 单笔画横,如天、王、石;I-丨亅 单笔画竖、竖左钩,如旧、山、临、丁、到;J-丿 单笔画撇,如千、禾、看、行、顺、形;U-丶 单笔画点,如宝、识、问、军、去、杰;R-_ 单笔画捺,如良、衣、衷、襄;C-乚 单笔画横向上钩、斜右钩,如见、化、风、几、兄;S-单笔画折弯钩,如与、鸟、鸡、夸;A-亠 头笔,点与横的组合,如京、应、广、防;X-乂ナ 斜叉,两笔斜交叉,如文、右、肴、及、狗;H-十 正叉,两笔垂直正交叉,如土、壳、填、付;N-艹卄 草头,草字头和草字头的变形,如英、其、期、燕、革;W-扌 斜插,一笔斜向穿过两笔或两笔以上的笔画,如打、戈、春;M-丰 正插,一笔垂直穿过两笔或两笔以上的笔画,如青、手、本、慧;T-_ 金旁头,撇与横的组合,如铁、午、缶;K-乛_ 斜角笔形,一笔向下斜向转折或两笔笔头斜向相接组成的斜角笔形,如买、乃、反、兵;L-_ 直角笔形,一笔向下垂直转折或两笔笔头垂直相接组成的直角形,如习、厂、扫、雪、阿;Y-亻 单人旁,如仃、仁、凭;G-氵冫 三点水、两点水,如河、流、冰、冷;O-口 空小方框,小框内无笔画,如另、扣、杏、器;Q-日 实小方框,小框内有笔画,如是、旺、盼、备、苗、想;D-口 独立的大方框,大方框外无附加笔画,如回、因、国、团;P-月 月和月字形的变形,如股、青、望;F-木 木和木字形的变形,如标、未、米、抹、来;V-小_忄 小和小字形的变形,如孙、示、尖、觉、肖、情;B-八丷 八和八字形的变形,如全、天、兴、央、羊;Z-王 王和王字形的变形,如琴、玲、全、璧;以上字母键位所对应的汉字编码元素是一个“类”的概念,即以汉字笔画的走向和部件的形态特征进行归类,从具有共同特征的一类汉字部件和笔画中归纳出一个有代表性的部件作为汉字编码的字元。
如两笔交叉的部件虽有乂、十、ナ等几种,但按其特征进行分类只有斜交叉和垂直交叉两种,可分别用X和H作为其码元代码,从而使汉字编码元素的集合大为简化这些具有代表性的汉字部件按象形、会意、形声的造字方法与键盘上相应的拉丁字母建立的自然关联,形成键位字母与笔形的映射关系,解决了编码码元与汉字笔画、部件之间相互对应的有理性问题,从而极大地降低了记忆编码码元和汉字字元的难度,有利于取码和操作本发明的声码采用汉语拼音声母、韵母的首字母23个,基本字形编码元素26个,它们分别与键盘上的26个拉丁字母按笔形特征的形似关系相对应此外,另增加10个与字形基本码元形态相似的扩展码元,它们与相似的字形基本码元同属一类而归于同一键位这些声、形码元的集合涵盖了对国家GB2312-80和GB18030-2000《信息交换汉字编码字符集》中繁体、简体大字符集汉字编码所需的全部编码元素,从而可以完成对汉字大字符集中近2.8万汉字及其笔画、部件、偏旁和中、英文标点符号的编码2、编码规则本发明是一种复合的汉字编码输入方案为了适用于各文化层次不同的使用人员,它同时兼容了声形输入和形声输入两种汉字编码输入方式,从而解决了现有的音形输入方式对不认识汉字的输入问题。
汉字的声形输入方式汉字编码的声形输入方式,是本发明主要的一种汉字输入方式其码元顺序首先取汉字的声码,即取汉字汉语拼音的首字母,然后取该汉字左上角的首形码,其次取该汉字右下角的尾形码,最后再取该汉字右上角的补形码,最多四键,所需要的汉字就会出现在屏幕提示行上,这时按空格键或者选字键便可输入该汉字汉字编码的码元顺序也可作如下表示声码+首形码+尾形码+补形码汉字声码的编码规则汉字的声码就是汉字汉语拼音的首字母通常情况下,就是汉字读音的声母,对于双声母和零声母的汉字,则只取其首位字母除去U、I、V三个字母外,所有作为声码的拼音字母共有23个,它们分别与PC通用键盘的23个拉丁字母一一对应汉字字形的编码规则(1)对汉字取形码,在既可以取单笔画又可以取多笔画字元部件时,应优先按多笔画字元取码,这是编码时“取大部件优先”的规则例如“谅”字的编码,“谅”字左上角的首形码是单笔画点(、),应取U;“凉”字右下角亦是点,但它与另外的两个笔画组成了多笔画部件“小”,尾形码应按取大优先的规则取V,而不能按单笔画取U;“谅”字右上角的点与其下的横组成了多笔画部件头笔(亠),补形码也应按取大优先的规则取A因此“谅”字的形码为UVA。
如果要将“谅”字输入计算机,应先键入“谅”字的声母L,然后再键入形码,即输入其编码LUVA,“谅”字便可自动上屏输入2)一个笔形或部件,前角已用过,后角仍可以重复取码例如“看”字的编码是KJQJ,(补形码重复取首形码的撇J)音”字的编码是YAQA,(补形码重复取首形码的点横A)青”字的编码是QMPM,(补形码重复取首形码的插笔M)“时”字的编码是SQHH,(补形码重复取尾形码的两笔交叉H)“木”字的编码是MFFF(尾形码、补形码重复取首形码的“木”F)(3)一个笔形或部件可以分角取码例如“买”字的编码是MEBK,(“买”字的首笔画在左上角的笔形是横,首形码取E,右上角的补形码取横折K)“习”字的编码是XEIL,(“习”字的首笔画横折钩分别由首形码取横E,尾形码取竖钩I,补形码取折角L)“风”字的编码是FLCL,(“风”字的横折钩分别由首形码取直角L,尾形码取斜右钩C,补形码取直角L)(4)一笔的上下两段与其它笔画构成两种不同的笔形或部件的,应分角取码例如“大”字的编码是DXBX,首笔画撇的上半段与首笔画横两笔斜交叉,首形码为X,撇的下半段与末笔画捺构成字元部件“八”,尾形码为B,则“大”的编码为DXBX。
未”字竖笔画的上半段直插两个横笔画,首形码为M,竖笔画的下半段与横、撇和捺构成多笔画字元部件“木”,尾形码为F,补形码重复取首形码相同的码元M,则“未”字的编码为WMFM吸”字右上角的补形码是折笔,其下半段在右下角与末笔画撇两笔斜交叉,分角取码则尾形码为X,补形码为K,“吸”字的编码为XOXK5)凡缺角的汉字取形码时,缺角部分无笔画的形码一律取A,这是编码时“缺角取A”的规则有少数汉字存在“缺角”的情况,如“厂、尹、广、矿、”等汉字,右下角的尾形码均无笔画,这时应取A作尾形码例如“厂”字的编码是CLAE; “广”字的编码是GAAA;“尹”字的编码是YEAL; “矿”字的编码是KEAA6)对于字首是头笔画(亠)、草字头(艹)或属草字头变形的汉字,在取其右上角的补形码时,不直接取其右上角,应移除(亠)和(艹)后再取右上角的笔画作补形码例如“京”字的编码是JAVO; “疗”字的编码是LAIK;“庆”字的编码是QABX; “芳”字的编码是FNIA;“其”字的编码是QNBE; “革”字的编码是GNME7)对于外围是“口、门”两类的汉字,在取其右下角的尾形码时,不直接取其右下角,而改取其框内右下角的笔画作尾形码。
但在“口、门”的上、下、左、右有附加笔画的两类汉字不在此例,仍同一般汉字取右下角的笔画作尾形码如“国、因、问、闻、”应取内框右下角的笔画作为尾形码国”字的编码是GDED; “因”字的编码是YDBD;“问”字的编码是WUOL; “闻”字的编码是WUXL而“苗、旧、们、简”等字框外均有附加笔画,仍按一般汉字取右下角的笔画作为尾形码苗”字的编码是MN; “旧”字的编码是JI;“们”字的编码是MYIL; “简”字的编码是JTIT汉字的形声输入方式本发明为适应文化层次不同的使用人员,允许对那些读音不准或不认识的汉字采用下述形声方式输入汉字对于不具备汉语拼音基础知识的人和不认识的字,难以确定汉字声母的编码,也可以采用形声编码方式输入,即先按声形输入方式下的形码输入规则,依序输入该字的首形码,尾形码、补形码,第四键取组成该汉字的字首成字偏旁或字末成字偏旁读音的首字母为声码形声输入方式下汉字的编码是等长的4位编码,键入四键,所需要的汉字就会出现在屏幕提示行上,这时按空格键或者选字键便可输入该汉字汉字形声编码输入方式下码元的键入顺序也可作如下表示首形码+尾形码+补形码+成字偏旁声码在这里需要注意的是无论是字首成字偏旁或是字末成字偏旁,均须取最大成字偏旁的声母编码。
其具体规定如下(1)本发明所指的“成字偏旁”是指组成该字的偏旁有明确的读音、而且不需要修正笔形即可独立使用的汉字例如虫、石、贝、牛、又、皮、俞、扁等均为有读音、可独立成字的偏旁;而纟、亻、钅、_、扌、宀等则不作成字偏旁处理2)本发明所指的“字首成字偏旁”是由汉字首笔与其后续笔画组成的最大成字偏旁例如“彰”有字首成字偏旁“章”,而无字末成字偏旁郇”有字首成字偏旁“旬”,而无字末成字偏旁3)本发明所指的“字末成字偏旁”是由汉字末笔与其前续笔画组成的最大成字偏旁例如“读”有字末成字偏旁“卖”,而无字首成字偏旁卖”有字。
