好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

浅析汉字识别技术在档案管理工作中的应用(1).docx

7页
  • 卖家[上传人]:bin****86
  • 文档编号:60507103
  • 上传时间:2018-11-16
  • 文档格式:DOCX
  • 文档大小:21.67KB
  • / 7 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果浅析汉字识别技术在档案管理工作中的应用(1)汉字识别技术(简称OCR)可以理解为是让 计算 机认字的技术它通过光电信号转换,即文本数据 一、汉字识别技术的 应用 价值 汉字识别技术的应用价值主要体现在两个方面:  一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供 丰富的数据源 首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的 重要 历史 ,对我国 现代 化事业的 发展 ,对精神文明和物质文明的建设都有着非常重要的利用 价值但这部分档案的 内容 都没有文本数据,或者说都只是固定在纸质载体上的死信息既 使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代 社会 对档案 信息的多种利用需求其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相 当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等汉字识别技术的应用价值 就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数 据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

       另一方面,提供了一种新的档 案目录数据的录入方式 应用计算机以来,汉字录入只有一种方式,即健盘录入虽然 目前 汉字键盘录入的 方法 有许 多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需 要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领这对于在档案部门占有相当 比例的中老年同志来说,掌握起来确有难度因此,键盘录入方式仍然是 影响 一些档案部门 建立档案目录信息数据库的因素之一OCR软件为我们提供了一条新的途径它通过“拖拉 ”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相 应字段中去,简单易学,一看就会遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或 调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径而且 ,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像 和文本等,效果就此较理想了 二、汉字识别后生成的文本数据的属性 问题  原始性是档案的基本属性汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸 质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品, 因此不具有档案的原始性。

       知识性是档案的又一个属性汉字识别后生成的文本数据如果不计算人工校对后仍然可能存 在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性 汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上, 比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢 失等属性因此具有更强的信息性  汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果 但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性 :当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案 编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等 为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原 始性的基本属性,因为它们是印刷品或出版物的本源信息  由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息 三、汉字识别技术的应用方式  汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷 汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。

      主要的应 用方式有:  (一)利用者阅读纸质档案的 内容 之后,对其所需要的内容进行扫描和汉字识别,或打印出统 一格式的利用摘录,或直接提供文本拷贝 这种利用方式的优点主要有: 1方便用户,可减少信息利用过程中的重复劳动; 2不给档 案人员增加建库的工作负担; 3节省建库所需的经费开支其缺点主要有: 1不能为全文 检索提供数据,实现深层次开发档案信息资源的目的; 2存在对同一档案内容重复进行扫 描和汉字识别的可能性  (二)输入档案目录这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高  (三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务  这种方式必须在已有文件目录的前提下使用其优点主要有:1具有提供原件和提高信息 利用效率的双重优势;2档案人员不承担汉字识别后生成的文本数据的维护工作其缺点 主要有:1同第一种利用方式的缺点2汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的、3倍,那么,所需的存储成本也要高得多。

      这种高代价的图像存储仅用来满足用户利用识 别的需要似乎有点得不偿失因此低分辨率的图像也能进行汉字识别,只是识别率相对较低 而已我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为%(误识3字)这对于一般用户而言无所谓的  (四)建立文本数据库这种方式也应在已有文件目录的条件下使用其优点主要有: 1节省存储空间和存储成本仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节因此,同量汉字的文本方式存储比图像方式存储成本低得多 2为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的 其缺点主要有: 1建立文本数据库的工作量较大 2不能满足用户阅读档案原件的需求 3 由于没有图像随时提供依据,不便于对文本数据的准确性进行核实  (五)输入目录并保存图像  (六)输入目录、建立文本数据库  (七)保存图像、建立文本件数据  (八)输入目录、保存图像并建立文本数据库。

       这是充分发挥OCR软件功能,深层次开发利用档案信息资源的 应用 方式但工程量较大,人力、资金需求较多,建库周期较长  随着汉字识别技术水平的提高和应用的普及,可能还会产生新的应 用方式,但无论使用哪一 种方式,都必须符合本单位档案管理工作的实际,统筹考虑档案状况、人员配备、经费能力、办公自动化水平、档案 现代 化建设 发展 规划等方面的因素,以切实提高档案信息资源开发利用能力为目的,这样才能收到事半功倍的效果 课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。

      点击阅读更多内容
      相关文档
      《公共文化体育设施条例》深度解读课件.pptx 《法律援助条例》深度解读课件.pptx 《广播电视设施保护条例》深度解读课件.pptx 社区关于2025年夏季基孔肯雅热疫情防控工作的经验总结报告材料.docx 2025关于转型实践中汲取发展思考的学习心得体会.docx 2025关于“学论述、谈体会、抓落实”活动的学习心得体会.docx 2025教育系统党徽党旗及其制品使用管理情况自查自纠报告.docx 熔铸忠诚之魂夯实平安之基 锻造政法铁军在县委政法委员会2025年第三次全体(扩大)会议上的讲话发言.docx 县委2025年新兴领域“两个覆盖”集中攻坚工作进展情况汇报材料.docx 在2025年市关于建强基层组织体系专题会议上的讲话发言.docx 在共青团县委2025年全体团员干部会议上的党课讲稿:用团结奋斗开辟美好未来.docx 在2025年片区农业产业发展专题工作会议上的讲话发言材料.docx 在市保险领域民事检察协同监督工作推进会上的讲话发言材料.docx 县自然资源局人才工作情况汇报材料.docx 在2025年县委办公室“病灶”清除行动警示教育暨作风建设深化推进会上的讲话发言.docx 在市防汛工作会议上的讲话发言材料2篇.docx 在区村(社区)“两委”换届工作调度会上的讲话发言.docx 在2025年全区年轻干部座谈会上的发言材料.docx 在全区茶产业高质量发展推进会议上的讲话发言材料.docx 在烟草专卖局(公司)系统2025年半年工作会议上的讲话发言.docx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.