
基于通用音节结构的藏文字符排序装置和方法.docx
2页基于通用音节结构的藏文字符排序装置和方法专利名称:基于通用音节结构的藏文字符排序装置和方法技术领域:本发明涉及语言文字信息处理技术,特别涉及藏语言文字信息处理技术,具体是 一种基于通用音节结构的藏文字符排序装置和方法虽然,本发明使用于广泛的应用范围, 它尤其使用于信息处理装置对基于藏文字符集国际标准的藏文音节和梵音藏文组合字符 的排序背景技术:排序是计算机系统的一个重要函数一组字符串呈现给用户时,用户希望这组字 符串是按照一定规律排序的,从而能很容易且很可靠地找到其中的某个特定字符串排序 对数据库来说也是至关重要的,不仅是为了记录的排序更是为了在给定域范围时能够选择 符合条件的记录藏文字符的计算机排序也是藏文分词、语料库建设、拼写检查、文本检索 以及操作系统藏化等问题的基础,可以说,藏文字符的计算机排序是藏文信息处理的基础藏文字符的计算机排序要符合以下几方面的要求①藏文字符的计算机排序结果要符合传统字典中音节的排序规律经过1300多 年的发展,藏文传统字典中音节的排序规律已被广大藏文使用者完全接受和遵循因此,传 统藏文字典中音节的排序规律是检验藏文字符计算机排序结果是否准确的主要标准②藏文字符的编码要符合字符集国际标准。
1997年,193个基本藏文字符被收录 到ISO的基本多文种平面(Basic Multilingual Plane,简写为BMP)的OF行,从而使藏文 成为我国第一个拥有国际标准的少数民族文字2004年后,MS Wind0WS、LinUX等主流操作 系统开始全面支持藏文字符集的国际标准从此以后,包括字符排序在内的所有藏文信息 处理都应完全基于字符集国际标准,否则,无法得到主流操作系统的支持③藏文字符的排序技术要符合相关国际标准Unicode和ISO在充分研究古今 中外各种文字排序特点的基础上,发布了 IS0/IEC 14651、IS0/IEC 14652以及Unicode Technical Standard #10等技术标准,这些标准给出了编码字符计算机排序的通用规则, 并给出了所有编码字符的排序元素(Collation elements)只有完全符合这些标准的藏文 字符排序技术才符合标准化要求,才能得到操作系统、应用软件的全面支持④要研究全部藏文的合理排序从排序的角度出发,藏文字符串可以分为八种类 型本地藏文音节(例如喝T )、梵音藏文组合字符(例如§或#)、非音节藏文字母串(特 指不构成本地藏文音节和梵音藏文组合字符的字母串,例如Τ〒)、藏文数字串(例如例 )、藏文标点符号串(例如_)、其它文字字符串(例如aBc)、藏文图形符号串以及混合字 符串。
藏文字符计算机排序的重点是本地藏文音节和梵音藏文组合字符的正确排序,但也 要兼顾其余六类字符串的合理排序总之,藏文字符的计算机排序要从字符集的国际标准出发,排序技术要符合ISO 以及Unicode的相关标准,重点解决本地藏文音节和梵音藏文组合字符的排序问题,排序 结果要符合传统藏文字典的排序规律发明内容为了解决现有技术中存在的上述问题,本发明提出一种基于通用音节结构的藏文 字符排序装置和方法,具体技术方案如下一种用于对本地藏文音节和梵音藏文组合字符排序的基于通用音节结构的藏文 字符排序装置装置,包括预处理子装置,对以具体实施例方式下面结合附图与具体实施方式对本发明作进一步说明 图1是本发明的藏文音节通用结构藏文是一种音节文字,有30个辅音和5个元 音30 个辅音为=Y5T^lt5^q'"!c3FkH WT1I y,,5 个元音为沢§^叙砰这些字母按照正字规律相互组合而形成藏文音节,例如—1τ这样形成的音节称为本地藏文 音节本地藏文音节中,有一个是基本辅音,其他辅音根据它们相对于基本辅音的位置而 分别称为前加辅音、上加辅音、下加辅音、后加辅音以及又后加辅音例如音节中,叩是 基本辅音A是前加辅音…是上加辅音、3是下加辅音、字母°1和9分别是后加辅音和又后加辅 音。
此处,一个藏文音节中基本辅音的确定对本领域的专业人员而言是显然的为了书写6美观,上加辅音和下加辅音可能会变形,例如字母\为上加辅音时变形为τ,而字母^、^和 作下加辅音时分别变形为S、3和%每个本地藏文音节都有元音,如果元音是权利要求一种基于通用音节结构的藏文字符排序装置,其特征是包括预处理子装置,对以和为后缀的藏文音节和不符合藏文音节通用结构的梵音藏文组合字符进行分解,得到一个音节序列,该音节序列中的每个音节都符合藏文音节通用结构;音节展开子装置,将符合藏文音节通用结构的音节按照特定顺序展成一维字母串;排序元素调用子装置,调用一维字母串中每个字母包括特殊字符的排序元素,然后,按照一维字母串中所有字母包括特殊字符的第一级权重、第二级权重、第三级权重的顺序排列,得到原音节的排序元素串;排序元素串压缩子装置,对音节的排序元素串进行压缩FSA00000252016700011.tif,FSA00000252016700012.tif2.根据权利要求1所述的基于通用音节结构的藏文字符排序装置,其特征是所述预处 理子装置所述的藏文音节通用结构由基本辅音、前加辅音、上加辅音、第一下加辅音、第二 下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音组成。
3.根据权利要求1所述的基于通用音节结构的藏文字符排序装置,其特征是所述预处 理子装置对以全文摘要一种藏文字符排序的装置和方法,该装置由预处理子装置、音节展开子装置、排序元素调用子装置和排序元素串压缩子装置组成其中,预处理子装置对不符合通用音节结构的藏文音节和梵音藏文组合字符进行适当分解,得到一个音节序列,使得序列中的每个音节都符合通用结构;音节展开子装置对符合通用音节结构的音节按照特定顺序展开,得到与原音节序性等价的字母串;排序元素调用子装置调用展开式中每个字母的排序元素,得到排序元素串;排序元素串压缩子装置对排序元素串进行合理压缩本发明对全部藏文音节和梵音藏文组合字符的排序结果符合传统藏文字典的排序规律。