电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

基于概念扩展的中文问答系统模型研究

61页
  • 卖家[上传人]:E****
  • 文档编号:118199913
  • 上传时间:2019-12-11
  • 文档格式:PDF
  • 文档大小:1.39MB
  • / 61 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、华中科技大学 硕士学位论文 基于概念扩展的中文问答系统模型研究 姓名:杨付全 申请学位级别:硕士 专业:计算机应用技术 指导教师:张茂元 20090522 I 华 中 科 技 大 学 硕 士 学 位 论 文 摘 要 进入 21 世纪,互联网的发展和应用为越来越多的人所关注。由于互联网的开放 性特点,使得网络信息不断丰富。一方面,为用户获取信息提供了很大的便利,另 一方面,由于信息量的飞速增长使得用户在查找所需信息更加困难。近年来搜索技 术得到迅速的发展。但目前是采用基于关键词的搜索技术,已经不能满足人们获取 信息的需要,出现信息迷向、信息过载,使得查准率、查全率不高。因此,人们开 始研究自然语言理解检索技术,其中,问答系统的研究成为当前该领域中最具活力 的方向之一,倍备受学者关注。 在对目前问答检索技术进行分析研究,并描述了常问问题问答系统关键技术句 子匹配算法的思想。给出了一种基于概念扩展的问答系统模型,并介绍了关于常问 问题问答系统的试验评测方法。 针对目前常问问题问答系统是基于关键词数匹配来提取候选问题集。给出一种 基于概念索引的候选问题集提取策略,对关键字进行概念扩展后建索引。

      2、将索引机 制融入到候选问题集提取,来提高提取速度。 针对目前常问问题问答系统还未从概念层次来理解用户检索问句,句子的匹配 率还有待提高。给出了一种基于概念扩展的中文句子问句匹配方法,从概念层面同 义扩展检索问句,并结合词形、词序、句长三方面计算句子间的相似度,从候选问 题集中匹配准确答案。 实现了原型系统,并通过试验与常用的方法进行对比,结果表明,在查准率、 查全率均得到提高。并进行试验结果分析,验证了此方法在常问问题问答系统中的 有效性。 关键词:自然语言理解,概念扩展,常问问题问答系统,相似度 II 华 中 科 技 大 学 硕 士 学 位 论 文 Abstract The development and application of the Internet are more concerned in the 21st century. The openness of Internet makes the network information richer and richer. For one thing,it provides the users great convenie

      3、nce to get access to information; For another, the rapid growth in the amount of information brings the users more difficulties to find the required information. Search technology is developing rapidly in recent years.However, the existing search technology based on keywords can t meet the needs of people, leading to information lost and information overload,low rate of entirety and precision.Therefore, people began to study natural language understand search technology. The Question answering S

      4、ystem, which is one of the most dynamic areas, was concerned greatly by scholars. The writer analyzed and researched the current Q index1m+1;index1+) Arrayindex1,0= index1 ; for(index2=1;index2=1; Array index1, index2 = min Array index1- 1,index2 +1; /删除操作 Array index1 ,index2- 1 +0.1;/插入操作 Array +Dist( 221index1 ,S index S) (3)输出 S1,S2的编辑距离。 2.2.3 基于依存分析的相似度计算方法 句法分析( p a r s i n g ) 是指在给定文法下来分析自然语言的层次结构,它是自然语 言处理中的核心问题之一,并在自动问答、机器翻译、信息检索、信息抽取等领域 中有重要的应用。目前,基于依存文法的句法分析越来越受到关注。依存文法是由 法国语言学家 L .

      5、T e s i n i e r e在 1 9 5 9年提出来的,该文法认为句子中述语动词是支 配其它成分的中心,而它本身却不受其它任何成分的支配,所有的受支配成分都以 某种依存关系从属于其支配者。 15 华 中 科 技 大 学 硕 士 学 位 论 文 利用依存结构计算句子间的相似度, 分析句子各成分间的依存关系。哈工大计算 机学院研制了依存句法分析器。目前该分析器对依存弧的标记准确率能达到8 6 % 以 上 4 0 。示例:“华中科技大学今年的硕士论文答辩将在什么时候开始”的句法分析 的结果如图2 . 1 所示。 图 2.1 “ 华中科技大学今年的硕士论文答辩将在什么时候开始” 句法分析的结果 如果两个词之间有弧相连,表示两者之间存在依存关系,弧发起的词(依存词) 依存于弧指向的词(核心词) 。 依存结构进行相似度计算时,只考虑有效搭配对之间的相似度。有效词指动词、 名词、代词及形容词 2 9 ,其相似度的计算公式为: 21 1 21 , ),( PairCountPairCountMax W SSSimilarity n i i = = (2.5) 其中,S1, S2为两个句子, =

      6、 n i i W 1 为 S1, S2有效搭配对匹配的总权重,P a i r C o u n t1, P a i r C o u n t2分别为 S1, S2的有效搭配对数。 基于依存分析的汉语句子相似度算法充分考虑了句子的语法结构。分析实词在 句子中的搭配关系组成句子结构,是句子理解研究领域的一大进步。但是,目前句 法分析研究尚未成熟。当一个句子比较长,特别是当句中动词比较多的时候,依存 分析难度加大,结果准确率就降到很低。 2.2.4 基于多重信息融合的相似度计算方法 目前研究句子相似度的方法总结为三类,即前面介绍的三种:基于词特征的计算 方法,基于词义特征的计算方法以及基于句法分析特征的计算方法。 16 华 中 科 技 大 学 硕 士 学 位 论 文 多重信息融合的方法,综合考虑到三种特征在表达句子信息时的不同体现。涉 及到不同特征信息的最佳权重分配问题,通常建立相应的数学模型,通过参数试验 进行求解,使参数取值在一定范围内达到最优 4 1 。句子多重信息融合相似度计算公 式: SYSEKW SimilaritySimilaritySimilaritySSSimilarity+=

      7、),( 21 (2.6) 其中, SimilarityKW, SimilaritySE, SimilaritySY分别代表基于词特征的句子相似度、 基于词义特征的句子相似度和基于句法特征的句子相似度。、分别代表三 种相似度所占的权重系数,满足 0 , 1 且+ + = 1 。 基于多特征融合的句子相似度计算方法通过对句子的深入分析,将句子的特征 概括为: 词特征、词义特征及句法特征。采取融合的方法,以取得更好的计算精度, 但该方法建立在其他方法(如:句法分析,目前,还不太成熟)的基础之上,而影 响最终的结果。 2.3 本章小结 本章对问答系统技术做了系统的介绍。首先,介绍了常问问题问答系统的一般 流程。包括:中文分词、词性标注、关键词抽取、候选问题集提取、中文句子相似 度计算和 FAQ 库更新。重点介绍了四种常用的中文句子相似度计算方法,分别是基 于向量空间模型的相似度计算方法、基于编辑距离的相似度计算方法、基于依存分 析的相似度计算方法和基于多重信息融合的相似度计算方法。分别介绍了方法的由 来、思想及相应的计算公式。为后面的研究工作打下基础。 17 华 中 科 技 大 学 硕 士 学

      8、 位 论 文 3 基于概念扩展的问答系统模型 目前 F A Q问答系统还未从概念层次来理解用户检索问句,因而句子的匹配率还 有待提高。本章给出了一种基于概念的问答系统模型,该模型给出一种基于概念索 引的候选问题集提取策略,将概念索引融入到候选问题集的提取,来提高提取速度。 该模型还给出了一种基于概念的中文问句匹配方法,从概念层面理解检索问句,并 结合词形、词序、句长三方面计算问句间的相似度,从候选问题集中选出准确答案。 3.1 系统目标 3.1.1 系统目标描述 本系统模型能从概念层次上理解用户输入的中文问句。对问句中的关键词进行 同义概念扩展,来支持自然语言描述的问句的检索,提高了问答系统的查准率和查 全率。并且,系统综合考虑问句的词形、词序、及词长三方面对句子的影响因素, 提高了问句检索的查准率。同时,该系统模型采用高效检索技术从问题库中快速提 取出候选问题集,计算问题集与用户输入的问句之间相似度,并基于相似度值对问 题集快速排序,将排好序的问题及其答案返回给用户。通过以上方法,保证了能够 快速地返回一个简洁、准确的答案。此系统模型针对精确性和实时性的要求,分别以 查准率、检索效率

      9、、查全率等方面为主要指标,进行开发,实现。实验结果表明, 达到了预期的效果。具体分析,系统设计目标: (1)查准率高:该系统模型依据自然语言处理技术,从概念层次对检索问句中 的关键词进行处理,利用了同义词在句子中表达同一概念的性质,对检索问句的关 键词串进行同义概念扩展,来计算词形相似度,再结合词序,词长相似度,来得出 问句的相似度,实现了对检索问句与候选问题库问题的高度准确匹配。最终,快速 地检索出精准结果,达到用户的检索需求。 (2)检索效率高:本系统模型采用了高效的信息检索技术,并引入概念索引。 18 华 中 科 技 大 学 硕 士 学 位 论 文 实现快速、准确提取候选问题集。具有较高的执行效率。利用快速的检索技术,将 检索问句的关键词串及其概念扩展词串作为索引词,建立容量较小的索引库;索引 的构建采用倒排表结构,大大提供了检索效率。因此,检索模块能快速地提取候选 问题集。提高了系统的效率。 (3)查全率高:系统能从概念层次上理解用户输入的中文问句,对问句中的关 键词进行同义概念扩展,理解用户提交的检索问句的语义层面的信息。来支持自然 语言描述的问句的检索,使候选问题集更为准确。提高了选问题集的查全率。进而 提高了问答系统的查全率。保证用户得到全面正确的结果。 3.2 模型的框架 本章给出基于概念的问答系统模型,为进一步研究做好铺垫。本节给出系统模 型的框架结构,分别给出总体设计和核心模块的实现。 3.2.1 模型设计 基于概念的问答系统模型主要包括三部分:基于概念的问题预处理、基于概念索 引的候选问题集提取、基于概念的中文问句匹配。 基于概念的问题预处理,包括用户检索问句输入、对检索问句进行中文分词、词 性标准和关键词抽取。 基于概念索引的候选问题集提取, 包括问题库 (数据库表中的数据) 导入到 XML 文件和对 XML文件建立索引库(关键词同义概念扩展词串作为索引词) 。 基于概念的中文问句匹配,包括基于概念的词的

      《基于概念扩展的中文问答系统模型研究》由会员E****分享,可在线阅读,更多相关《基于概念扩展的中文问答系统模型研究》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结 2022年家长会心得体会集合15篇
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.