
基于西夏古籍文字样本数据库设计与实现.doc
20页基于西夏古籍文字样本数据库设计与实现 孟一飞 杨文慧 谢堂健 戴雪瑞 宁夏大学物理与电子电气工程学院 北京交通大学电子信息工程学院 摘 要: 随着计算机技术的发展和在文字处理方面的应用, 逐渐开展西夏文数字化的研究, 西夏文的图像分割和识别对开展文物研究以及文献翻译具有非常重要的价值, 但制约西夏文识别的关键技术在于西夏文数据库的建立文章针对西夏文字的特点, 设计了针对字符提取和样本数据库建立的具体流程, 并讨论了数据库检索的组织和方法依据连通域标识算法和边缘检测的原理进行字符提取, 再将所提取的字符信息储存在我们指定的文本中最终将所提取到的西夏文字与汉字进行匹配, 保存后即完成一个包括西夏文字、汉字、以及它们多对应的序号等信息的样本数据库的创建, 数据库的建立对西夏文字的识别提供了测试标准关键词: 西夏文字; 古籍文献; 图像分割; 样本数据库; 作者简介:孟一飞 (1973-) , 男, 河北邯郸人, 副教授, 硕士生导师, 主要研究方向:人工智能, 图像处理, why20112882@;作者简介:杨文慧 (1992-) , 女, 山东济宁人, 在读硕士研究生, 主要研究方向:图像处理。
作者简介:谢堂健 (1993-) , 男, 在读硕士研究生:主要研究方向:模式识别基金:国家自然科学基金 (项目编号:61162020) Desgination and Implementation of sample databases based on Tangut scriptMENG Yi-fei YANG Wen-hui XIE Tang-jian DAI Xue-rui School of Physics and Electronic-Electrical Engineering, NingXia University; School of Electronic and information Engineering, Beijing Jiaotong University; Abstract: With the development of computer technology and the application of word processing, the digital research of Tangut script is gradually carried out. the image segmentation and recognition of Tangut script has very important value for carrying out cultural relics research and literature translation. but the key technology that restricts the recognition of Tangut script is the establishment of database. According to the feature of the Tangut script. designed a specific progress of character extraction and sample database establishment. the organization and method of retrieval of database were discussed in this paper. The Tangut script image based on the principle of connection domain tagging algorithm and edge detection for character extraction. After the character mark is completed, then let the information of extracted character stored in our specified text. Finally, the extracted Tangut script characters are matched to the Chinese characters, after the preservation of the completion of a Tangut script text, Chinese characters, as well as their multi-corresponding serial number and other information on the establishment of the sample database. The establishment of the database provides a test standard for the identification of the Tangut script.Keyword: Tangut script; ancient script texts; image segmentation; sample databases; 西夏是中国历史上由党项族在中国西部建立的一个政权[1], 西夏虽不足 200 年的历史, 但西夏人却创造出了异常璀璨的文化。
西夏文共五千余字, 文字构造采用类似于汉字六书构造, 形体方整, 但笔画繁冗, 不便书写曾在西夏王朝所统辖的今宁夏、甘肃、陕西北部、内蒙古南部等广阔地理带中, 盛行了约两个世纪[2]古籍文献是古代东方各民族共同的智慧结晶西夏古籍文献是当前人们了解西夏社会、西夏民族以及西夏语文的重要窗口[3], 并因其是当前保留下来的研究西夏文的最主要渠道而更显得弥足珍贵但是由于年代久远, 留存于世的西夏古籍少之又少, 而且存在纸张损坏, 文字不清等现象, 这无形中制约了西夏文的发展另外, 现今可以掌握西夏文语言流畅性的西夏文研究者相当少, 大量西夏古籍文献需要整理、保存和翻译因此如何通过高效的古籍文字图像分割识别技术将西夏文字录入计算机进行数字化, 以文本的方式存储下来极为重要1 数据库应用前景和数据来源1.1 数据库的应用价值和前景在考虑到以往都没有发表关于西夏文字符识别的数据库, 本文介绍了一个突破性的工作, 创建了西夏文的样本数据库, 对于文字识别测试提供了相关的保障本文研究从广泛收集的西夏文古籍资料中提取文字图像信息, 组织整理为西夏文文本样本数据库和西夏文单字样本数据库, 如图 1 所示文本数据库以Excel 表格的脚本图像文件的形式组织, 通过阅读 excel 表中的信息, 用户可以方便地查询文字的分割和字符的位置。
单字符数据库以字符频率的顺序组织, 单字符图像文件严格按照规定进行命名, 以确保用户可以方便地查询字符被采样的信息以及如何注释该项研究, 为智能识别算法的评价和比较提供测试数据源和统一标准, 同时为古籍数字化文献信息检索在方式和内容提供有力支持, 将大大促进西夏文研究学者在进行古文献整理, 字符提取和进行翻译对比等西夏文研究方面的工作图 1 西夏古籍文字数据库创建流程 下载原图1.2 数据库的数据来源分析如今西夏文字不再广泛使用, 西夏文字识别的价值是通过研究古文字所呈现[4]为此, 在过去几十年中被发现和整理的文献被选为西夏文样本数据库的数据源佛教经文是数据库主要材料来源的合理选择因为佛经在古籍文献中的比例比较大, 几乎所有的西夏佛教经文都有对应的汉字版本本项研究将大般若波罗蜜经、大方广佛华严经、金刚经作为西夏古籍文献首选的数据源扫描所有西夏佛经并保存为根据图像的页编号命名的图像文件, 并且根据卷号和佛经的名字命名文件夹例如华严经卷 40 的图像文件存储在名为 Huayan_40/image 的文件夹中, 如图 2 所示图 2 保存的西夏文图像文件 下载原图2 西夏文字符提取本节将介绍对古籍文献中的字符进行检测和提取。
由于年代久远和保存环境条件较差等原因, 存在纸张缺损和版面污染等现象增加了字符提取的难度, 在字符提取过程中必须采用手动修改本文中使用了基于连通域单元和边缘点检测的两种不同的字符分割算法2.1 西夏文预处理西夏文预处理的作用就是快速提取出古籍中的文字, 为进一步识别做准备, 主要步骤如图 3 所示:图 3 西夏文字预处理过程 下载原图版面的提取即为西夏文古籍的扫描存储, 选取合适的西夏文古籍图片是我们进行预处理[5]的第一步如图 4 所示为西夏文华严经的一幅图像资料图 4《大方广佛华严经》残片 下载原图进行版面灰度化的主要作用是将彩色图像三个图层映射为一个图层便于计算机进行处理[6]本文采用了平均值法来进行灰度化, 计算出彩色图像 R、G、B 三个通道分量的平均值, 然后将该平均值作为图像的灰度值即可 (r, g, b) 为颜色的空间坐标向量, 则灰度值 D 的计算公式 (1) 如下所示:灰度化后再进行滤波, 滤波的主要作用是对图像进行降噪处理[7]本文中采用的主要是均值滤波, 能够很好的滤除图像中的加性噪声均值滤波采用的主要方法是邻域平均法, 原理是用均值来替代图像中的像素值, 即对待处理的像素点 f (x, y) 选择一个模板, 该模板由与像素点邻近的若干像素组成, 求模板所有像素的均值, 以此作为处理后图像在该点的灰度值 g (x, y) , 即公式 (2) 。
m 为该模板中包含当前像素点在内的像素总个数为了进一步简化图像的处理难度, 需要将图像进行二值化[8]本文为了实现阈值的自动化, 计算得到最佳阈值的上下限, 利用改进后的大津算法得到最佳阈值1979 年, 日本研究人员大津首次提出了大津算法 (OTSU 法) [9]该方法将图形的前景和背景进行了划分, 把两个背景的灰度作对比, 具体算法如下:设图片为 f (x, y) , t 是字符和背景的分割阈值, 字符的总像素数在整个图片中的份值是 w0, 平均灰度是 u0;背景的总像素数在整个图片中的份值是 w1, 平均灰度是 u1同时取 f (i, j) 的变化区间是[0, m-1], 则图像的平均灰度为:根据推理可以得到大津算法的最佳阈值 g 的公式为:由上述公式 (4) 可知, 阈值 t 得到的字符和底层实际上是完整图像的两部分, 此时类间方差达到极值时, 字符和背景的差异达到最高, 阈值化效率最优2.2 基于连通域标识算法的字符提取经过预处理之后的图像, 要对每一个字符进行分割, 即对字符进行提取[10], 具体流程如图 5 所示:图 5 字符标记流程 下载原图二值化后的图像, 经过像素点扫描后, 得到字符的连通域。
在提取结果中发现存在噪声边框、字符分离不彻底、同一字符的不同区域分离等缺陷, 这是由于噪声处理不彻底;部分字符本身与相邻的其他字符存在交集或者重叠, 在使用连通域提取字符的过程中无法彻底分离针对上述问题, 进一步完善算法, 优化提取结果2.2.1 基于连通域算法特性的去噪边框算法根据连通域标记字符后, 得到字符的位置信息, 根据连通域特性去噪要滤除过大或过小的标记位置的坐标信息, 连通域的几何特性包括宽度、高度、面积、周长等, 对不满足相关特性的连通域予以去除1) 宽度和高度连通域内的宽度和高度被定义为像素坐标的最大值, 假设提取到的连通域为 f (x, y) , 则其高度和宽度分别为:(2) 连通分量的面积该面积定义为界限周围元素的个数假设二值图像 f (x, y) 的连通分量 φ (x, y) 的大小数目为 M×N:则区域的面积为:在字符标识之后, 得到区域量是 k 个, 那么字符域的面积则是 k 个区域量的总和, 即为:经过分析以后可以得到,。
