好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

基于词性标注规则的马铃薯文献信息抽取方法.docx

12页
  • 卖家[上传人]:杨***
  • 文档编号:474954884
  • 上传时间:2024-05-02
  • 文档格式:DOCX
  • 文档大小:31.24KB
  • / 12 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    •     基于词性标注规则的马铃薯文献信息抽取方法    王腾阳,赵小丹,胡林(中国农业科学院,农业信息研究所,北京 100081)马铃薯是中国第四大粮食作物,除了能够兼做粮食、蔬菜和饲料,还有很多加工用途,产业链较长,有很大的潜力增产增收[1]马铃薯育种研究人员育成新品种后会以论文的形式发布研究成果,内容通常包括马铃薯新品种的选育过程、特征特性、抗病性、品质分析等[2]由于论文采用自然语言编写,缺少结构化的表述信息,积累了大量的非结构化文本数据,因此大规模的育种文献给人工整理品种数据带来了极大的挑战[3]因此,亟需利用自然语言处理等技术自动分析马铃薯育种文献文本,抽取文本中的品种名、亲本、株高株型、抗病性等属性这些信息可以用来搭建马铃薯遗传育种数据库,为马铃薯智能育种决策提供基础服务信息抽取指的是从自然语言文本中抽取指定类型的实体、属性等信息,并形成结构化数据的文本处理技术[4]张萌等[5]对城市轨道交通安全事件案例的自由文本制定知识元属性、构建词库,并对文本进行分词,利用正则表达式抽取事件信息,但因其抽取规则制定不完善,部分知识元抽取效果不理想谭永滨等[6]研究提取交通微博文本信息的方法,提出基于线性参照方法构建位置表达模式库,并将模式库表达为Trie树,利用有限状态机匹配微博文本中位置表达模式,识别并提取微博文本中的位置信息,其错误结果主要来自未登录地名与模式不确定性。

      刘时翔[7]研究半结构化金融文本信息抽取,用正则表达式抽取号码等简单项信息,利用行文格式、分隔符号等特点,用隐含马尔柯夫模型(hidden Markov model,HMM)模型抽取复杂项信息,造成抽取结果错误的因素有文本块的边界难以划分,大量过渡数据使文本块数据连续性较差,合同结构随意性较大等Feng等[8]提出基于主题识别和命名实体识别的信息抽取方法,提取新冠疫情通报文本信息的风险区域和疫情轨迹信息Martin[9]研究使用深度学习的方法识别企业发票的结构化文本,为企业节约人工提取成本虽然马铃薯育种文献文本描述形式多样,但论文作者对马铃薯特征特性的描述有规律可循,如“株高50 cm左右”“干物质含量15.4%”“皮色淡黄”“肉色白色”等,目标词可以归类为某一具体词性,并且相对于实体间的关系,任务更专注于提取实体的属性值,所以可使用自然语言处理的方法,将待处理文本进行分词,对分词结果进行词性标注,根据语句中的词性获取目标词因此,现面向马铃薯种质资源领域,基于文本处理的分词和词性标注结果,编写规则库,根据规则对符合词性的目标词实现快速匹配,据此提出基于词性标注和规则库的马铃薯育种文献信息抽取模型,以期实现马铃薯育种文献中的种质资源信息结构化。

      1 文献信息抽取1.1 实验环境本实验编程语言使用Python 3.8自然语言处理技术使用HanLP[10],包括中文分词、词性标注等具体实验流程如下文所述1.2 数据预处理PDF文档分为两类,一类是文字内容可以完整读取的正常文档;另一类是文字读取与预期不符的文档文字读取与预期不符的情况包括但不限于数字被符号代替、段落的行顺序错乱等虽然光学字符识别(optical character recognition,OCR)可以实现该类文档的文本化,但由于期刊论文正文存在左右排版方式,使用OCR自上而下地识别会造成文字顺序混乱因此需要先分割文档图像的各个文本块,将分割出的图片按阅读顺序排序,通过OCR获取图片内的文字并进行汇总首先将待处理的PDF文档页面转化为文字为白色、背景为黑色的反二值图像,使用游程平滑算法将文字连通,形成连通图游程平滑算法[11]可以应用于文档图像分割处理,该算法对一行(列)上的两个黑色像素点间的距离进行判断,如果两个相邻黑色像素点间空白像素的个数小于设定的阈值时,就将这两点之间的空白像素点全部填黑当算法的水平阈值Thor=3、垂直阈值Tver=3时,运行效果如图1所示图1 游程平滑算法示意图通过开源计算机视觉库(OpenCV)中的相关方法,检测经过游程平滑算法处理后的图像中各个连通图的矩形边框,获得其边缘坐标。

      根据得到的坐标,截取源PDF文档页面图像中的对应位置,按照从左到右、从上到下的顺序,依次命名保存文字图像,作为OCR文字识别的输入源处理流程如图2所示,最终得到的文本块分割结果,用矩形边框标注图2 处理文献过程图由于直接提取PDF文档或通过OCR文字识别提取文档均存在全角字符、语句中存在多余换行符以及文字间存在多余空格等问题,因此需要先将文本内容按顺序进行如下处理:①全角字符转化为半角字符;②去除文字之间多余空格;③删除文字内换行符1.3 基于词性标注和规则库的信息抽取方法设计规则库使用Json格式保存在文件每一对键值对中,键表示抽取项的名称,值表示抽取项的规则规则的设计包含下面五类:①Key;②按照词性标注的抽取规则;③目标词中的屏蔽词;④抽取Key所在关键句中不允许出现的词;⑤提供预设词进行匹配(以键值对表示,键表示匹配原始文本中的词,值表示抽取结果中展示的词)使用Key结合正则表达式,获取目标抽取项所在语句,在获取的所有语句列表中,删除包含不允许出现的词的语句,随后对语句进行分词、词性标注,通过抽取规则定位Key位置和目标抽取项位置对于一些表述不规律、不能使用分词和词性标注方法获取的,例如,抗病性只有抗、不抗、高抗等几种表述,但由于其表述时有多种疾病混在一起,很难通过分词的方法来获取,这种情况使用匹配预设词并结合判断目标项与预设词的距离之间的距离的方法获取目标项。

      信息抽取流程图如图3所示图3 信息抽取流程图1.3.1 Key规则设计Key用于在待抽取文本中提取目标项所在语句,根据Key的位置,在语句中使用基于词性标注规则和预设词的方法实现抽取目标项用户建立Key库,需要根据提取项,在待提取文本中找到相关表述用户在人工校对提取结果时若发现抽取项的新Key,可以将其添加至Key库,从而优化提取效果使用正则表达式获取Key所在语句,具体方法为从Key开始向前(后)直到达到20个文字或者遇到标点符号为止本文使用Key定位抽取项所在文本句,对于Key规则的设计,考虑如下几种情况:①Key之间是“或”的关系;②Key之间是“与”的关系;③Key之间是互斥的关系;④Key之间是上述几种关系结合的关系Key规则如“A(BC,D,^E)/F/G”,表示提取的文本句需要符合包含A或F或G;在包含A的情况下,需要满足同时包含B或C,以及包含D,但不能包含E目标提取项所在句可能涉及多个不同的Key,在上述示例规则中,A、F、G称为主Key,每一个主Key后面允许加括号,括号内的词称为次Key,与主Key的关系和“逻辑与”相同,表示提取语句需要同时包含主Key和所有的次Key。

      主Key之间以 “/”分割,次Key之间以 “”分割,与“逻辑或”相同用“^”符号表示不允许提取语句中包含的Key1.3.2 分词与词性标注分词与词性标注使用HanLP自然语言处理工具包首先将提取的Key语句进行分词在进行词性标注前,对分词结果进行预处理有利于后续的信息抽取过程对分词结果的预处理主要为合并部分分词内容例如,中国马铃薯品种的命名方式大多为“X薯X号”,在分词时通常会将品种名中的“X薯”和“X号”分开,在进行信息抽取前将其合并会提高抽取的准确率同理,对单引号、双引号等内部无需分词的内容统一进行合并,可以有效改善抽取效果另外,需要添加Key到自定义词典,防止Key被分词影响后续抽取过程词性标注使用CTB(chinese treebank)标注集(表1)[12],结合自定义词库对分词结果进行词性标注表1 部分CTB词性标注集1.3.3 基于词性标注的规则库设计规则基于分词和词性标注结果制定,在规则中,每一个匹配项使用CTB词性标注集中的标签代替每一条规则都要包含作为提取依据的Key和需要提取的目标词Key使用“KEYWORD”代替,目标词使用“TARGET”代替,用“ANY”代替两个标签间任意数量、任意词性的标签。

      抽取规则允许在同一位置有多种词性标签,标签间用“/”分割,因为目标词有可能被分词,采用的解决方法是在规则中使用多个“TARGET”标签,在抽取完成后将抽取的多个“TARGET”进行合并得到抽取结果TARGET”标签设计为可以指定特定的词性标签或不允许为某个特定词性标签语法同Key的设计类似,指定特定的标签间用“/”分割;在标签前加“^”符号表示不允许抽取某个特定标签抽取过程如下:①定位在规则中Key和目标词的所在位置;②定位Key在分词结果中的位置;③迭代检查词性标注结果是否符合规则;④合并、返回抽取结果设Key在分词结果的位置为Pt,在规则中的位置为Pr,以规则中包含的元素个数N作为迭代次数,用i表示,即i=0,1,2,…,N-1词性标注结果中迭代索引映射为Index=Pt-Pr+i(1)每次迭代都要判断词性标注结果是否符合规则,具体的判断依据有:①索引是否位于有效范围内;②词性标注结果是否在规则内;③索引是否为特殊情况(例如:索引为Key位置时,不要求②成立)当不满足上述条件时,跳出迭代并返回空字符串抽取数据文本样式如图4所示(Key以加粗斜体表示)部分抽取语句示例如表2所示,在“原语句”列中,Key为加粗字体。

      1.3.4 基于预设词的抽取规则设计在马铃薯育种文献中,对于如抗病性的表述方法比较多样,使用词性标注的抽取方法不能满足需求,但需要提取的目标词的表述较为统一例如“抗晚疫病、PVX、PVY”,单纯使用词性标注的方法虽然可以获得该品种对晚疫病的抗性结果,但对PVX和PVY的抗性难以制定规则获得相关表述;又如“植株抗晚疫病、感轻花叶和重花叶病毒病”和“晚疫病:高抗”两种表述中,若只根据第二种表述制定规则“Key(KEYWORD),标点符号(PU),目标词(TARGET)”,则在第一句明显会匹配错误的结果,对于此类使用词性标注规则方法难以提取,且需要提取的目标词表述较为统一的语句,使用基于预设词的抽取方法预设词使用键值对保存,键用于保存Key语句中的匹配词,值用于保存给用户输出结果的词抽取过程如下:①获取Key、预设词在句中位置;②在语句中所有的预设词里,寻找距离Key最近的一个,添加进结果集1.3.5 抽取结果的汇总与清洗完成通过基于词性标注和基于预设词的两种抽取方法后,将两种抽取结果添加进一个集合中进行汇总通过词性标注的抽取方法可能将不相关的词也统计入抽取结果,因此需要将汇总后的抽取结果匹配规则库中的违禁词进行筛选,从而得到更加准确的抽取结果。

      2 实验结果及分析2.1 数据来源与评价标准测试集为马铃薯育种文献115篇,文献为PDF格式,通过人工标注抽取项和正确的抽取结果,针对每篇文献内容包含的马铃薯品种名称、亲本、株型株高、皮色肉色、抗病性等共20个数据项进行信息抽取实验由于部分文献中不包含全部抽取项,因此抽取项数目总计1 490项由于文献来自不同的年代,作者对马铃薯性状描述的侧重点不同,大部分文献不包含全部的20个抽取项测试集文献的抽取项数目分布如图5所示图5 测试集抽取项数目分布文本信息抽取总共分为四种情况:TP表示文本中有数据,并且成功抽取到数据;FP表示文本中缺失数据,但抽取到了数据;TN表示文本中缺失数据,也没有抽取到数据;FN表示文本中有数据,但没有抽取到数据以精确率P、召回率R和F作为性能评价标准,计算公式[13]为(2)(3)(4)2.2 方法结果对比为了进一步验证本文方法的有效性,使用了传统信息抽取方法作为对比作为对比的基于普通规则的传统信息抽取方法与本文基于词性标注和预设词信息抽取方法的文本预处理、Key。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.