好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据驱动依存句法研究方法探究.doc

8页
  • 卖家[上传人]:gg****m
  • 文档编号:211065760
  • 上传时间:2021-11-16
  • 文档格式:DOC
  • 文档大小:68KB
  • / 8 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 数据驱动依存句法研究方法探究1依存句法分析的定义句法分析任务是对文本进行分析,将输入句子从序列形 式变为树状结构,从而刻画句子内部词语之间的组合或修饰 关系这是自然语言处理领域的核心研究课题,已经广泛应 用到其它自然语言处理任务中,如机器翻译、自动问答、信 息抽取等和其他句法分析形式如短语结构句法分析相比, 依存句法分析具有形式简单、易于标注、便于学习、分析效 率更高等优点[1, 2]另外,依存句法描述词和词之间的关 系,因此更适合于表达非连续的、远距离的结构,这对于一 些语序相对自由的西方语言非常重要依存语法历史悠久, 最早可能追溯到公元前几世纪Panini提出的梵文语法依 存语法存在一个共同的基本假设:句法结构本质上包含词和 词之间的关系这种关系称为依存关系(Dependency Relations ) o 一个依存关系连接两个词,分别是核心词 (Head)和修饰词(Dependent)o依存关系可以细分为不同 的类型,表示两个词之间的句法关系(Dependency Relation Types)o目前,依存语法标注体系已经为自然语言处理领域 的许多专家和学者所采用,并应用于不同语言中,且对其不 断地发展和完善。

      研究者们提出并实现了多种不同的依存分 析方法,达到了较好的准确率近年来,依存句法分析多已 广泛用于统计机器翻译[3]、自动问答[4]和信息抽取[5]等 任务,并取得了良好的效果依存句法分析任务的输入是一个已完成分词的自然语 言句子形式化地,输入句子可以表示为:x二W0W2…Wi…Wn, 其中,wi表示输入句子的第i个词;W0表示一个伪词,指 向整个句子的核心词,也就是根节点(ROOT)图1表示输 入句子"刚满19岁的欧文现在效力利物浦队的依存树[JZ][HT5”H]图 1 依存树示例 [ST5” HZ][WT5” HZ][JZ]Fig. 1[ST5” BZ] Example of a dependency parse最一般地,一个依存句法树由多个依存弧构成,表示为: d={ (h, m, 1): OWhWn,0 2. 2基于转移的依存句法分析方法基于转移的依存分析模型将依存树的搜索过程建模为 一个动作序列,将依存分析问题转化为寻找最优动作序列的 问题模型通过贪心搜索或者柱搜索的方式找到近似最优的 依存树其优点在于可以充分利用已形成的子树信息,从而 形成丰富的特征,以指导模型决策下一个动作。

      相关的研究 工作主要包括:(1) 模型定义基于转移的依存句法分析方法提出早 期,研究者们使用局部分类器(如最大炳分类器)决定下一 个动作,选择概率最大的动作[17, 18]o这样,一个依存树 的概率由其对应的动作序列中每一个动作的概率累乘得到 近年来,研究者们采用线性全局模型来决定下一个动作,一 个依存树的分值为对应动作序列中每一个动作的分值的累 加[19-21]2) 特征表示基于转移的依存句法分析方法的优势 在于可以充分使用已构成的子树信息Zhang和Nivre (2011)在前人工作的基础上,提出了丰富的特征集合,如 三阶子树特征,词的配价信息等[21]3) 训练算法早期,研究者们在训练语料上训练出 一个局部分类器,在解码过程中重复使用,决定下一个动作 通常采用的分类器有基于记忆的分类器、支持向量机等近 年研究发现采用全局线性模型可以提高句法分析的准确率, 通常采用平均感知器训练算法4) 解码算法其任务是找到一个概率或分值最大的 动作序列早期采用贪心解码算法,即每一步都根据当前状 态,选择并执行概率最大的动作,进入到下一个状态如此 反复直至达到接收状态,形成一棵合法的依存树[17, 18] o 进而,研究者们提出使用柱搜索的解码方式扩大搜索空间, 即同时保留多个分值最高的状态,直到搜索结束时选择最优 的动作路径[22, 19] o Huang和Sagae (2010)提出在柱搜 索中加入动态规划,通过合并等价状态进一步扩大搜索空间 [20]。

      随着搜索空间的增大,依存句法分析的准确率有显著2. 3模型融合的方法基于图的方法和基于转移的方法从不同的角度解决问 题,各有优势基于图的模型进行全局搜索但只能利用有限 的子树特征,而基于转移的模型搜索空间有限但可以充分利 用已构成的子树信息构成丰富的特征McDonald和Nivre (2011)通过详细比较发现,这两种方法存在不同的错误分 布因此,研究者们使用不同的方法融合两种模型的优势, 常见的方法有:stacked learning [2, 23];对多个模型的 结果加权后重新解码[24, 25];从训练语料中多次抽样训练 多个模型(Bagging) [26, 27]2. 4词性标注和依存句法分析联合模型依存句法分析模型中,词性是非常重要且有效的特征 如果只使用词语特征,会导致严重的数据稀疏问题自然语 言处理中,词性标注和依存句法分析这两个问题通常被当成 两个独立的任务,以级联的方式实现即对于一个输入句子, 假定其分词结果已知,先对句子进行词性标注,然后在词性 标注结果的基础上进行依存句法分析这种级联的方法会导 致错误蔓延也就是说,词性标注的错误会严重影响依存分 析的准确率由于汉语缺乏词形变化信息(如英语中的词后 缀变化如-ing, -ed, -es, Ty等),因此汉语的词性标注比 其他语言如英语更具挑战性。

      近年来,研究者们通过建立词 性标注和依存句法分析联合模型,在同一个模型中解决这两 个紧密相关的任务,允许词性信息和句法结构互相影响和帮 助,取得了不错的效果一方面,联合模型中,句法信息可 以用来指导词性标注,从而帮助解决一部分需要句法结构才 能够消解的词性歧义另一方面,更准确的词性标注,也可 以反过来帮助依存分析Li等通过扩展基于图的依存句法分 析模型,首次提出汉语词性标注和依存句法分析联合模型 [28],并且提出了适用于联合模型的训练算法[29],显著提 高了词性标注和依存句法分析的准确率进而,一些研究者 们提出基于转移的词性标注和依存句法分析联合模型[30, 31]o Ma等(2012)尝试了基于Easy-first的汉语词性标注 和依存句法分析联合模型[32] o2. 5基于多树库融合的方法对于统计的数据驱动的分析模型而言,标注数据的规模 很大程度上影响着分析结果的准确率依存句法分析是一种 结构化分类问题,比二元分类和序列标注问题更具挑战性, 因此依存句法分析更容易受到数据稀疏问题的影响,树库规 模对依存句法分析的准确率影响很大然而,标注树库是一 件艰巨的任务,通常需要耗费很大的人力和物力。

      目前的研 究结果表明在一个树库上训练出的句法分析的模型似乎很 难进一步提高句法分析的准确率然而,汉语存在多个树库 这些树库由不同的组织或机构标注,遵循不同的标注规范, 面向不同的应用尽管各个树库遵循不同的标注规范,但却 都是根据人们对汉语语法的理解而标注,因此包含很多共性 的标注结构同时,不一致的标注结果应该也是有规律可循 的所以,一些研究者们尝试同时利用多个树库,帮助句法 分析的准确率李正华等(2008)曾尝试统计和规则相结合 的方法,将短语结构的源树库CTB转化为符合CDT标注规范 的依存结构,然后将转化后的树库和CDT合并,提高训练数 据的规模,以提高依存句法分析准确率[33] o Niu等(2009) 提出一种基于统计的树库转化方法,将依存结构的CDT树库 转化为满足CTB标注规范的短语结构树库,进而使用语料加 权的方式增大训练树库的规模,提高了短语结构句法分析的 性能[34]Li等(2012)提出一种基于准同步文法的多树库 融合方法,不是直接将转化后的树库作为额外的训练数据, 而是使用准同步文法特征增强依存句法分析模型,从而柔和 地学习标注规范中规律性的不一致,提高依存句法分析的准 确率[35]。

      3依存句法分析面临的挑战自从2006年开始,CoNLL国际评测一直关注依存句法分 析,不但提供了多语言、高质量的树库,并通过对各种方法 的比较分析,让研究者们对依存分析问题的理解更加清晰, 极大地促进了依存句法分析的发展依存分析已经成为自然 语言处理的一个热点问题,方法也越来越成熟,并且在许多 领域得到了应用然而,目前依存句法分析还存在很多挑战, 这些挑战也可能是未来依存分析发展的趋势具体分析如 下:(1) 提高依存分析准确率目前主流的两种依存分析 方法都存在一定的缺陷基于图的方法很难融入全局特征 而基于转移的方法虽然原理上可以利用丰富的特征,但是实 际使用的特征还是属于局部特征,另外也还存在错误级联的 问题(柱搜索只能缓解这个问题)融合不同依存分析模型 的方法可以提高分析性能,但是提高幅度比较有限研究可 知,只有从新的角度理解这个问题本身,提出新的建模方法, 或者应用新的机器学习方法,才有望大幅度提高依存分析性 能一些学者提出的利用未标注数据帮助依存分析模型是一 个很好的思路,值得深入研究2) 提高依存分析效率基于图的依存分析方法融入 高阶特征可以提高性能,但是效率很低,无法适应实际应用 的需求。

      在不明显降低分析性能的前提下,如何提高依存分 析效率也是一个很有实际价值的问题3) 领域移植问题研究发现,当训练数据领域与测 试数据领域不相同时,即使差距不大,也会导致句法分析性 能下降很大以英语为例,从华尔街日报树库移植到Brown 语料时,句法分析性能下降近8%目前依存树库所覆盖的领 域、规模都很有限,而标注树库的代价很大因此解决领域 移植问题,对于依存分析的实际应用至关重要4) 语言相关的依存分析目前最主流的两种依存分 析方法都是语言无关的,纯粹依靠机器学习方法从数据中学 习,加入人类知识只能限于特征选择然而,每种语言都有 其特点因此语言相关的依存分析研究,如针对每种语言的 特点设计更有效的模型和算法,利用一些语言特有的资源 等,也是很有必要的近年来,国内学者已经在汉语依存句 法分析上做出了很多成绩,然而如何利用汉语的特点,提高 汉语句法分析的准确率和效率,仍然是一个开放的问题4结束语本文对数据驱动的依存句法分析方法进行深入调研和 总结主流的依存句法分析方法大致可以分为两类一类是 基于图的方法,另一类为基于转移的方法两种方法从不同 的角度解决依存句法分析问题,都取得了较好的效果进而, 研究者们提出各种融合方法,尝试使得两类方法扬长补短, 各取优势。

      另外,本文还探讨了依存句法分析和底层词性标 注任务联合求解,以及利用多个树库提高依存句法分析准确 率的相关工作最后,本文展望了依存句法分析的未来研究 方向和可能的挑战。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.