【大学课件】面向综合语言知识库建设的汉语词义消歧与标注语言模型研究.ppt
102页面向综合语言知识库建设的汉语词义消歧与标注语言模型研究 内容提要n一、 绪 论n二、 国内外研究现状分析n三、 词语义项的表征及其可计算性n四、 基于多知识源的知识提取与融合n五、 面向汉语词义排歧与标注的语言模型n六、 标注语料的一致性保证与正确性评价n七、 面向真实文本的汉语词义标注实验系统的设计与实现n八、 结 束 语一、国内外研究现状Ø基于规则的词义消歧方法Ø基于词典知识的词义消歧方法Ø有指导的统计词义消歧方法Ø无指导的统计词义消歧方法v现有研究存在的问题与改进策略ü伪词法---可解决训练语料不足的问题ü少数几个词---只适于对消歧算法的研究二、我们的目标、优势及对策Ø 研究的目标与内容ü目标:建设高质量的大规模汉语综合语言知识库ü内容:汉语语料库建设过程中汉语词义消歧与标注的基本方法和关键技术 Ø所具有的优势ü人员优势:文理交叉;ü资源优势:世界上最大的标注语料库,语法信息词典等二、我们的目标、优势及对策Ø 拟解决的问题ü知识源的选择;ü基于多知识源的知识提取与融合;ü基于知识的词义消歧模型与算法;ü模型的评价与一致性检验方法Ø 研究方法与技术路线ü开发试验平台用于模型与算法的实验研究;ü采用同形标注与义项标注两步走战略;内容提要n一、 绪 论n二、 国内外研究现状分析n三、 词语义项的表征及其可计算性n四、 基于多知识源的知识提取与融合n五、 面向汉语词义排歧与标注的语言模型n六、 标注语料的一致性保证与正确性评价n七、 面向真实文本的汉语词义标注实验系统的设计与实现n八、 结 束 语Ø题引Ø意义训释表征方式及其可计算性Ø义原表征方式及其可计算性Ø概念依存关系表征方式及其可计算性Ø由可计算性看表征方式对词义消歧的作用Ø结论三、词义的表征及其可计算性三、词义的表征及其可计算性 三、词义的表征及其可计算性三、词义的表征及其可计算性—— 3.1 题引 W-i S1 … S2 W-1 … W Sk W+1 … … Sn W+i语料消歧S1S2Sk……Sn W词典描述Ø自然语言处理中的多义词问题自然语言处理中的多义词问题 多义词在信息检索、机器翻译、文本校对等领域都会引起歧义,它的表征方法直接关系到词义消歧的可计算性和可实现性。
Ø多义词:多义词:同一个词形(word form)表达了多个不同的意义 知识表示是机器学习的关键,如何表征和获取词义消歧知识,是自然语言处理研究的任务之一Ø 如何在词典中实现词语的多个义项的表征如何在词典中实现词语的多个义项的表征??ü传统辞书的释义方式——意义训释ü语义原语+描述语言——义原表征ü概念依存关系——概念依存关系表征 它们的可计算性如何? 三、词义的表征及其可计算性三、词义的表征及其可计算性—— 3.1题引Ø题引Ø意义训释表征方式及其可计算性Ø义原表征方式及其可计算性Ø概念依存关系表征方式及其可计算性Ø由可计算性看表征方式对词义消歧的作用Ø结论三、词义的表征及其可计算性三、词义的表征及其可计算性 三、词义的表征及其可计算性三、词义的表征及其可计算性—— 3.2意义训释表征方式及其可计算性3.2.1 3.2.1 表征形式表征形式Ø以自然语言形式定义和解释词语意义【仪表】① 人的外表 ② 测定温度、气压、电量、血压等的仪器Ø问题问题: 自然语言本身的模糊性、歧义性,造成多义词解释的递归性。
引发歧义膨胀三、词义的表征及其可计算性三、词义的表征及其可计算性—— 3.2意义训释表征方式及其可计算性3.2.2 3.2.2 可计算性及其应用可计算性及其应用Ø在词义消歧中的应用:在词义消歧中的应用:ü20世纪80年代是一种流行知识资源 ü词义消歧:Lesk(1986)应用《Oxford Advanced learner’s Dictionary》释义辞典进行词义消歧Ø可计算性:可计算性:比较弱ü所采用的方法各个义项的释义部分与其所在上下文词语间的覆盖度,确定它在该上下文中的适当意义ü但释义部分简明时,与上下文的覆盖度为0; ü通过同义词扩充增大上下文的窗口,增大覆盖度但仅应用这种释义词典不好进行同义词的计算三、词义的表征及其可计算性三、词义的表征及其可计算性—— 意义训释表征方式及其可计算性Ø题引Ø意义训释表征方式及其可计算性Ø义原表征方式及其可计算性Ø概念依存关系表征方式及其可计算性Ø由可计算性看表征方式对词义消歧的作用Ø结论三、词义的表征及其可计算性三、词义的表征及其可计算性 3.3.1 3.3.1 表征方式表征方式Ø知网采用义原来表示概念ü义原:最基本的、不易于再分割的、意义最小的语义单位。
ü空间变换:将数量非常大(6万多个概念)的概念空间,映射到维数有限的义原空间从而使文本内容的计算可实现化多义词的表示示例如下:三、词义的表征及其可计算性三、词义的表征及其可计算性—— 3.3义原表征方式及其可计算性【仪表】 NO.=096060 W_C=仪表 G_C= E_C= W_E=bearing G_E=N E_E= DEF=attribute|属性,bearing|仪态,&human|人 NO.=096061 W_C=仪表 G_C=N E_C= W_E=meter G_E=N E_E= DEF=tool|用具,*measure|测量三、词义的表征及其可计算性三、词义的表征及其可计算性—— 义原表征方式及其可计算性Ø采用知识词典描述语言(KDML)对概念进行定义ü描述公式: “义原+顺序+特殊符号+分隔符”ü包括1500个左右的“义原”,符号(*,%,$,@,#,&…)和标点(=,,,{})。
Ø特点ü概念定义形式化,描述复杂度低,一致性好ü便于计算ü是一个能描述概念及概念属性之间关系的语义网络ü便于推理 三、词义的表征及其可计算性三、词义的表征及其可计算性—— 义原表征方式及其可计算性3.3.2 3.3.2 可计算性及其实现可计算性及其实现Ø义原空间+概念描述的公式化=很强的可计算性Ø面向不同的应用其可计算性的实现方法不同ü机器翻译:词语相似度的计算ü信息检索:词语相似度的计算ü句法结构消歧:词语间的关联度计算 ü词义消歧:词语间的关联度计算 ü自动问答系统:语义推理计算 三、词义的表征及其可计算性三、词义的表征及其可计算性—— 义原表征方式及其可计算性Ø相似度、相关度等的计算ü在知网中,对描述概念的义原表达式的不同理解和运用,会形成不同的相似度、关联度或推理求解的计算方法Ø词语相似度的计算 语义表达式分解成四个部分: (1)第一基本义原描述式; (2)辅助基本义原描述式; (3)关系义原描述式; (4)符号义原描述式三、词义的表征及其可计算性三、词义的表征及其可计算性—— 义原表征方式及其可计算性计算以上四部分的相似度,并分别记为:sim1(C1,C2), sim2(C1,C2), sim3(C1,C2) ,sim4(C1,C2) 则词C1和C2的总体相似度可计算如下:其中,αi(1≤i≤4)是可调节的参数,且有:α1+α2+α3+α4=1,α1≥α2≥α3≥α4。
反映了Sim1到Sim4对于总体相似度所起到的作用依次递减 三、词义的表征及其可计算性三、词义的表征及其可计算性—— 义原表征方式及其可计算性由于义原根据上下位关系可以构成一个树状的义原层次结构,所以,可采用语义距离相似度的计算办法,近似计算两个基本义原的相似度sim1(C1,C2) : 式中,p1和p2分别表示两个概念的第一基本义原,d为两个义原在树状义原层次结构中的路径距离,为一个可调节的参数,表示两个义原的相似度为0.5时,其在义原层次结构树中的路径距离,是为计算参数d而做的标定和补充三、词义的表征及其可计算性三、词义的表征及其可计算性—— 义原表征方式及其可计算性Ø词语相关度的计算 反映的是两个词语互相关联的程度,可以用这两个词语在同一个语境中共现的可能性来衡量 一般情况下,两个词语的相似度高,其相关度也较高,但两个词的相关度高,其相似度却未必高 知网中的义原分为6大类,每一类都是树状结构,各类之间又通过解释义原相互联系,义原树中的上下位关系构成了义原的相似度,义原与解释义原的关系形成了义原的关联度。
三、词义的表征及其可计算性三、词义的表征及其可计算性—— 义原表征方式及其可计算性Ø两个义原的关联度可按下式计算: 式中,pi和pj分别表示两个概念的第一基本义原;D为横向关联影响深度,即某一义原向上第几层的解释义原对其特征的影响,D取一个合适的值,如果超过这个深度,则认为其没有影响d(pi,pj)为义原pi出现在义原pj的解释义原中出现的向上数的层数 三、词义的表征及其可计算性三、词义的表征及其可计算性—— 义原表征方式及其可计算性许云等经过考虑实例影响因素,同时考虑词语义项的相似度和相关度,给出了下面计算词汇相关度的计算公式: 式中η1+η2+η3=1第一部分考虑了两个概念的相似度,第二部分考虑了两个概念的相关度,第三部分则是实例影响因素,它是通过知网中的概念(词语义项)描述实例中的信息进一步提高语义相关计算的合理性,计算公式如下: 三、词义的表征及其可计算性三、词义的表征及其可计算性—— 义原表征方式及其可计算性Examp(C1,C2)=max Sim(Cei,Cj) (1≤i,j≤2,i≠j) Ø利用义原同现实现词义消歧 在词义消歧中,直接通过计算多义词所在语句的义原同现概率,并经过互信息的选择来确定多义词的词义,这种思路比上面的计算相似度的方法要简单。
这里,Cei为第i个义项的实例单词集合中的任一个词的义项三、词义的表征及其可计算性三、词义的表征及其可计算性—— 义原表征方式及其可计算性Ø题引Ø意义训释表征方式及其可计算性Ø义原表征方式及其可计算性Ø概念依存关系表征方式及其可计算性Ø由可计算性看表征方式对词义消歧的作用Ø结论三、词义的表征及其可计算性三、词义的表征及其可计算性 3.4.1 3.4.1 表征方式表征方式Ø人脑对词语的组织与普通词典不同上下位关系动物飞禽走兽……天鹅鸡山鸡 家鸡人脑:按词义信息来组织词语,可建立起各种概念间的依存关系,便于推理 普通词典:按照字母顺序来 组织词语 三、词义的表征及其可计算性三、词义的表征及其可计算性—— 3.4 概念依存关系表征方式及其可计算性 概念之间的依存关系(或语义关系)可以有很多种,是对现实世界中各种事物间关系的反映:ü同义关系ü反义关系ü上下位关系ü部分/整体关系ü时间关系ü位置关系ü相近关系ü………三、词义的表征及其可计算性三、词义的表征及其可计算性—— 概念依存关系表征方式及其可计算性 希望将词语按人脑的形式组织成机读词典,便于自然语言处理的应用,便于推理、计算。
WordNet ---- Princeton大学 FrameNet ----California大学Berkeley分校 MindNet -----Microsoft CCD ----------北京大学 ………三、词义的表征及其可计算性三、词义的表征及其可计算性—— 概念依存关系表征方式及其可计算性Ø目标: 概念形式化、具体化,通过词汇意义对其进行计算和操作,建立起概念之间的多种语义联系和推理,增强机器可计算性,实现自动语义推理 三、词义的表征及其可计算性三、词义的表征及其可计算性—— 概念依存关系表征方式及其可计算性3.4.2 3.4.2 可计算性及其实现可计算性及其实现Ø可计算性的体现可计算性的体现üWordnet或CCD被组织成一种树形图可计算性的实现主要通过概念间的层次关系树来实现ü树中的每个节点代表一个概念,两个节点之间的路径长度可被用来表示两个概念的语义距离通过语义距离实现词语相似度的计算ü不同的应用需求其可计算性的体现方法不一样三、词义的表征及其可计算性三、词义的表征及其可计算性—— 概念依存关系表征方式及其可计算性Ø词语相似度的计算方法ü根据WordNet中词节点间上下位关系构成的最短路径实现计算 ü根据两个词的公共祖先节点的最大信息量来衡量两个词的语义相似度; ü除了利用WordNet节点间的路径长度外,还考虑概念层次树的深度 ü利用WordNet节点间的路径长度和节点所在的区域密度,考虑了WordNet中概念描述粗细程度不均匀的因素ü利用wordnet的同义词集、属类词和意义解释三个集合中抽取出候选同义词的词汇语义特征,两概念的相似度可通过计算其在三个不同意义特征空间中的距离来得到。
三、词义的表征及其可计算性三、词义的表征及其可计算性—— 概念依存关系表征方式及其可计算性Ø一种利用语义距离计算词语相似度的方法 设s1,s2为词语w1和w2在wordnet中对应的词义,考虑wordnet中概念结点间的路径长度以及各概念在树中的深度,则词语w1和w2间的语义距离SD可按下式计算式中,ca表示词语w1和w2之义项s1,s2在wordnet中的共同祖先概念节点,Dis函数表示两个概念在wordnet中位置之间的路径长度 三、词义的表征及其可计算性三、词义的表征及其可计算性—— 概念依存关系表征方式及其可计算性根据词义间的距离可计算两个词语的相似度如下 可以看出,两词语的语义距离愈大,其相似度愈小当两个词语的语义距离为0时,其相似度为1,这时两个词为绝对相似 三、词义的表征及其可计算性三、词义的表征及其可计算性—— 概念依存关系表征方式及其可计算性Ø题引Ø意义训释表征方式及其可计算性Ø义原表征方式及其可计算性Ø概念依存关系表征方式及其可计算性Ø结构性词典Ø由可计算性看表征方式对词义消歧的作用Ø结论三、词义的表征及其可计算性三、词义的表征及其可计算性 三、词义的表征及其可计算性三、词义的表征及其可计算性—— 结构性词典结构性词典n语法信息词典、语义词典是一种结构性词典。
n结构性词典中蕴含了丰富的语法和语义信息,便于采用数据挖掘算法实现n易于采集的知识,使其应用词义消其具有很好的作用Ø题引Ø意义训释表征方式及其可计算性Ø义原表征方式及其可计算性Ø概念依存关系表征方式及其可计算性Ø结构性词典Ø由可计算性看表征方式对词义消歧的作用Ø结论三、词义的表征及其可计算性三、词义的表征及其可计算性 人是依据上下文语境知识来消解词语的歧义人是依据上下文语境知识来消解词语的歧义1) 他因病毒感染而发烧2)这台机器由于感染病毒而瘫痪1)生活是生命的现在进行式,把握当下,因为现在 就是未来!2)紧紧把握方向盘三、词义的表征及其可计算性三、词义的表征及其可计算性—— 3.5由可计算性看词义表征方式在词义消歧中的作用计算机是怎样消解歧义的?计算机是怎样消解歧义的? 设词语 W 有 N 个词义,在特定的上下文环境C 中只有 S’是正确的词义,每个词义 Sk 和上下文 C 存在关系 R(Sk|C),词义消歧就是寻求同C关系最强的词义S’:计算机是依据上下文知识来消歧的计算机是依据上下文知识来消歧的。
三、词义的表征及其可计算性三、词义的表征及其可计算性—— 由可计算性看词义表征方式在词义消歧中的作用Ø就词义消歧来讲,仅应用普通的释义辞典,采用lesk的方法效果是不会很好的 Ø余晓峰利用知网中的语义原语,通过词语相似度计算实现词义消歧试验ü取多义词上下文前后各一个实词计算相似度时,词义消歧正确率为37.3%;ü取句中除多义词以外的所有实词参与相似度计算时,词义消歧正确率为42.06%Ø张国清利用知网的义原表达式,计算多义词各义项的义原与其上下文中其它词的义原同现概率,再利用互信息来实现多义词歧义消解,取得了71%的消歧正确率 三、词义的表征及其可计算性三、词义的表征及其可计算性—— 由可计算性看词义表征方式在词义消歧中的作用Ø基于wordnet的词义消歧计算的文章不是很多,朱靖波等在词义消歧研究中,应用wordnet进行词语相似度计算,对词义消歧模型进行数据平滑,以提高词义消歧的正确率 ==============================Ø我们做什么?Ø统计方法的缺点:没有充分利用语句中的词义信息;数据稀疏问题 Ø我们的研究:将统计语言模型和语法信息词典、语义词典、Hotnet等资源相结合,建立基于多种知识资源的词义消歧与标注模型 三、词义的表征及其可计算性三、词义的表征及其可计算性—— 由可计算性看词义表征方式在词义消歧中的作用Ø题引Ø意义训释表征方式及其可计算性Ø义原表征方式及其可计算性Ø概念依存关系表征方式及其可计算性Ø由可计算性看表征方式对词义消歧的作用Ø小结三、词义的表征及其可计算性三、词义的表征及其可计算性 n普通释义辞典可计算性弱nWordnet,CCD通过树形层次结构使词典有了较强的可计算性。
它可应用于推理、相似度计算等nHontnet由于将概念空间映射到有限的义原空间,并使用义原表达式表示概念,使得其可计算性大大增强,其在机器翻译、词义消歧、信息检索等领域都可得到应用也可应用于推理计算等n结构性词典:如语法信息词典、语义词典其中包括了易于通过数据挖掘技术实现的知识,具有较强的可计算性,在词义消歧中会有很好的作用三、词义的表征及其可计算性三、词义的表征及其可计算性—— 3.6小结内容提要n一、 绪 论n二、 国内外研究现状分析n三、 词语义项的表征及其可计算性n四、 基于多知识源的知识提取与融合n五、 面向汉语词义排歧与标注的语言模型n六、 标注语料的一致性保证与正确性评价n七、 面向真实文本的汉语词义标注实验系统的设计与实现n八、 结 束 语四、基于多知识源的知识提取与融合4.1 知识源的选择ü资源种类:词典与语料库ü选择原则:可计算性ü训练语料,语法信息词典,语义词典,知网4.2 训练语料的加工和处理ü语料粗加工ü利用“同形”辅助校对软件在大规模的语料中进行标注的校对,ü问题:•校对效率低:语料规模很大,校对时就像大海捞针,效率不高;•标注的一致性得不到保证。
ü基于义项聚类的对齐校对工具四、基于多知识源的知识提取与融合4.3 基于大规模语料的统计词义消歧知识提取Ø训练语料中的词义消歧知识 (1)什么是上下文(2)面向词义消歧的上下文选择:局部上下文、话题上下文和领域上下文 本文:以句号(逗号(,)、问号(?)、感叹号(!)、冒号(:)、分号(;)作为分界符号 (3)上下文中的特征信息: 显性信息 半显性信息 隐性信息 四、基于多知识源的知识提取与融合Ø上下文中特征信息的提取 ü显性特征信息的提取:词袋方法;特征模板的方法ü半显性特征信息的提取:相邻共现和距离共现信息 特征模板方法ü隐性特征信息:句法特征、语义特征采用人工辅助方法(1)(1)统计特征模板的设计统计特征模板的设计四、基于多知识源的知识提取与融合特征模板的数量可以不止一个,因此应用特征模板选择特征是一个二重循环(2)(2)特征的提取与选择特征的提取与选择 (a)将候选特征集中的所有特征都作为建模特征;(b)从候选特征集中选择那些在训练语料中出现一定频次的特征;(c)从候选特征集中选择满足一定互信息要求的特征;(d)利用增量式特征选择法从候选特征集中选择特征。
四、基于多知识源的知识提取与融合4.4基于基于《《汉语语法信息词典汉语语法信息词典》》的消歧知识提取的消歧知识提取 Ø《现代汉语语法信息词典》中的词义消歧知识 ü词法信息 ü句法信息 ü语义信息 ü照应信息 Ø语法信息词典中的词义消歧知识提取 ü多义词属性信息的提取与筛选 ü从属性信息中获取消歧规则 四、基于多知识源的知识提取与融合4.54.5基于基于《《现代汉语语义词典现代汉语语义词典》》的消歧知识提取的消歧知识提取 Ø《现代汉语语义词典》中词义消歧知识 《现代汉语语义词典》的语义分类是在词的语法分类基础上进行的,并且只对名词、动词、形容词等实词进行语义分类描述为动词、名词、形容词等词类设置的属性字段能够反映词语不同义项之间的区别性特征,这些特征为计算机词义消歧提供了必要的知识资源Ø词义消歧知识在语义词典中的体现方式: (1)“语义类”给出了词语所属的语义类别,是词义区分的重要属性 (2)“兼类”为词语的同形异类提供了消歧知识 四、基于多知识源的知识提取与融合(3)“word、Ecat”字段给出了词语对应的英语译词或短语,多意词往往对应着多个译词,这些不同的译词可以提供词义消歧知识。
4)“配价数”是动词、名词库中的属性字段,指明了动词能够支配的名词性成分的个数,名词库中,配价数则指明了支配性名词要求语义上受其支配的从属名词与之共现数量,配价数不同,则动词或名词的义项就不同 (5)“主体、客体、与事”是动词库中的三个属性字段,描述了动词对论元的语义选择限制,对论元的不同选择限制可区别出动词的不同义项 Ø 语义词典中的知识提取 ü语义属性的提取与筛选 ü从属性信息中获取消歧规则 四、基于多知识源的知识提取与融合4.6《《知网知网》》中的词义消歧知识提取中的词义消歧知识提取 Ø知网的组成①中英双语知识词典;②义原分类源文件;③知网管理工具;④相似度和相关度计算工具;⑤知网说明文件 Ø知网中的语义知识表述(中英双语知识词典)下面是关于“材料”的一个义项的表达信息:No.=009406 W_C=材料 G_C=N E_C=唱歌的~,上大学的~W_E=makings G_E=N E_E= DEF=attribute|属性,quality|质量,&human|人四、基于多知识源的知识提取与融合 DEF是对词语的一个概念的定义,以语义表达式的形式给出,是知网的核心 Ø概念特征的提取 ü编写一个接口函数,从知网英汉双语知识词典中的DEF 字段中,将定义每个概念的主要特征、次要特征等抽取出来,并进行适当的筛选。
ü相似度和相关度计算程序应用接口,通过计算多义词所在上下文中的词与训练语料多义词实例的上下文中词的距离,将与待标注多义词所在上下文最相近的训练语料实例中的词语义项作为标注义项,多目标多义词进行标注四、基于多知识源的知识提取与融合4.74.7多源知识的融合多源知识的融合Ø基于隐最大熵模型的知识融合ü局部词汇信息建模ü语法结构建模 ü语义信息建模ü应用最大熵原理将各种模型进行叠加 Ø基于人工辅助的规则融合 将来各异构知识资源的知识,采用简单的加权规则方法进行融合,并用于词义消歧试验,解决了数据稀疏等影响语言建模质量的问题,取得了一些较好的试验结果内容提要n一、 绪 论n二、 国内外研究现状分析n三、 词语义项的表征及其可计算性n四、 基于多知识源的知识提取与融合n五、 面向汉语词义排歧与标注的语言模型n六、 标注语料的一致性保证与正确性评价n七、 面向真实文本的汉语词义标注实验系统的设计与实现n八、 结 束 语五、面向汉语词义排歧与标注的语言模型五、面向汉语词义排歧与标注的语言模型5.1 基于统计与规则相结合的词义排歧模型基于统计与规则相结合的词义排歧模型 1.利用统计方法获取上下文特征 v上下文特征的提取范围 距离越近,词之间联系越紧密 ? 以逗号隔开的整句为多义词提取窗口,不要求多义词左右窗口宽 度相等,再辅助以特征词在窗口中出现的频次,就可以将可区分的关键特征提取出来。
逗号隔开的句子隔开的句子足以包含词义消歧的信息,若窗口的选取太小,所包含的信息不够充分,若以句号为单位,又显得过大,跨越逗号后的句子中的词语与多义词的联系相对较弱,且会造成多义词上下文候选特征的大量增加,给有效特征的筛选增加了很大的难度五、面向汉语词义排歧与标注的语言模型五、面向汉语词义排歧与标注的语言模型v 特征筛选算法 For j=1 to q do 1. 求取与词Wsj的同现实词集合Asj; 2. 求取Asj(j=1……q)的可区分性特征,即把q个不同义项中的相同特征删除; 3. 统计各义项中每个特征出现频次; 4. 计算多义词每个义项与各特征互信息或共现概率; 5.设置两个阈值,一个是特征出现在多义词Wsj的上下文中的总次数的阈值λ1,一个是互信息的选择特征的阈值λ2; 6. 将满足条件的多义词的每个义项的特征取出; end for 针对那些义项分布不均的多义词,主要针对分布比较少的义项编制规则 五、面向汉语词义排歧与标注的语言模型五、面向汉语词义排歧与标注的语言模型2. 数据稀疏的处理 从统计语料中获得了400多个词的同形消歧特征,还有300多个词是人民日报同形标注语料中没有出现的,对于这部分多义词,我们从语法信息词典中的语法属性字段来获取。
对于备注字段所提供的示例,将其中的多义词上下文抽取出来,作为手工编写规则的知识源 工具:语法信息词典属性字段提取程序例【是】 ④ 有"凡是"意思 B3 B3:是有利于群众的事情他都干/是北大学生他都感到亲切我们顺着这些例子做适当扩展,对B3这个义项可以得到这样的搭配: ……是……都……; ……是……就……;……是……总……; ……是……毒;五、面向汉语词义排歧与标注的语言模型五、面向汉语词义排歧与标注的语言模型3. 利用上下文特征人工编制词义消歧规则 v利用词形信息编制规则 v利用词性信息编制规则 v利用词形+词性信息编制规则v利用语义信息编制规则 4.实验结果 利用已标注好的人民日报2000年3个月已标注“同形”的人民日报语料为训练语料,我们进行了多义词上下文特征的提取,并经过人工筛选获得有用的消歧特征,编写了大量的同形标注规则,经封闭测试,正确率达到99.3% 五、面向汉语词义排歧与标注的语言模型五、面向汉语词义排歧与标注的语言模型5.2 基于最大熵方法的词义标注语言模型基于最大熵方法的词义标注语言模型1.1.最大熵模型最大熵模型 假设a 是某个事件,b 是事件a 发生的环境(或称上下文),我们想知道a 和b 的联合概率,记为p(a ,b)。
更一般地,设所有可能发生的事件组成的集合为A,所有环境组成的集合是B,我们想知道,对于任意给定的a∈A , b∈B, 概率p(a , b)是多少就是需要建立联合最大熵模型若要计算在 b 的条件下,事件 a 发生的概率,即概率p(a | b),则是需要建立条件最大熵模型 建立条件最大熵模型,p需要满足两个条件: (1) 语言模型语言模型p概率分布应与训练样本中的统计概率分布相吻合概率分布应与训练样本中的统计概率分布相吻合 (2) p应为使得条件熵最大的应为使得条件熵最大的p*,因这时模型为分布最均匀的模型;,因这时模型为分布最均匀的模型; 五、面向汉语词义排歧与标注的语言模型五、面向汉语词义排歧与标注的语言模型 条件1条件2五、面向汉语词义排歧与标注的语言模型五、面向汉语词义排歧与标注的语言模型可以证明,满足上述要求的解具有如下Gibbs分布形式: 五、面向汉语词义排歧与标注的语言模型五、面向汉语词义排歧与标注的语言模型2.模型参数计算及说明模型参数计算及说明 v模型参数求取算法模型参数求取算法 采用GIS算法计算参数值λj,GIS算法要求对训练集中的每个实例,对实例中的任何(a,b) ∈A×B,特征函数之和为常数,即对每个实例均满足如果这个条件不能满足,则根据训练集选择C,C为在训练集所有实例中根据上式等号左边算得的最大值。
还需要增加一个修正特征(correction feature)fl,其中l=k+1,(其中C为一常数)五、面向汉语词义排歧与标注的语言模型五、面向汉语词义排歧与标注的语言模型GIS算法:设共有n个特征函数,Ep[i]表示特征函数fi的模型期望,E[i]表示特征函数fi的样本期望1、 初始化:λ[1..n]=02、 计算特征函数的训练语料样本期望:sum=0, E [1..n]=0for each b for each afor each i such that fi(a,b)<>0 E [i] +=fi(a,b);sum+=fi(a,b);endfor endforendforfor each i E [i]= E [i]/sumendfor3、 计算特征函数的模型期望:Ep[1..n]=0for each b z=0五、面向汉语词义排歧与标注的语言模型五、面向汉语词义排歧与标注的语言模型 for each asum[a]=0for each i such that fi(a,b)<>0 sum[a]+= λ[i]* fi(a,b)endforz+=exp(sum[a]) endfor for each afor each i such that fi(a,b)<>0 Ep[i]+= fi(a,b)* (b)*exp(sum[a])/zendfor endforendfor4、 修正λ:for each i λ[i]+=1/C*ln(Ep[i]/E[i])endfor5、 若满足终止,则结束,否则执行第3步终止条件为:达到确定的循环次数(如100次),或者对数似然(L(p))的变化小到可以忽略时。
五、面向汉语词义排歧与标注的语言模型五、面向汉语词义排歧与标注的语言模型v 模型参数说明模型参数说明 有关模型参数的意义及说明,参见报告全文3.3.程序实现程序实现程序用Delphi7编写,最大熵词义标注软件实现流程图如下:机器学习部分是生成模型参数文件,包括特征提取和训练参数训练参数时调用了修改过的OpenNLP MaxEnt项目提供的原java程序特征提取:根据特征模板进行特征提取,生成用于训练参数的文件.训练参数:根据特征模板进行参数训练,生成参数λi的值存文件中词义标注部分根据选定的特征模板,读取参数λi的值,对特定的上下文b,计算属于各类a的概率p(a|b),选择概率最大的类,用相应的标记进行词义标注 五、面向汉语词义排歧与标注的语言模型五、面向汉语词义排歧与标注的语言模型新标注好的语料结果评测训练语料(已标注)可供训练参数的文件特征提取模型参数文件训练参数特征提取上下文特征词义标注机器辅助人工校对评测结果特征筛选选特征模板选特征模板测试语料(未标注)测试语料(已标注)机器学习词义标注五、面向汉语词义排歧与标注的语言模型五、面向汉语词义排歧与标注的语言模型4. 4. 实验结果实验结果Ø 封闭测试 对2000年1月份的《人民日报》词义标注语料去除义项标注后,进行了义项标注的测试,对几种特征模板及特征筛选方法的最大熵模型算法和基于统计与规则相结合的词义消歧模型与算法的实验结果与分析如下:五、面向汉语词义排歧与标注的语言模型五、面向汉语词义排歧与标注的语言模型表5-1 词义标注封闭测试评测表实验序号所用模型是否对特征筛选及方法特征模板标注结果特征类型窗口大小是否考虑位置不正确总标注数正确率1最大熵不筛选词形整句否275615390.99552最大熵不筛选词形3否5477615390.91103最大熵不筛选词形2否5620615390.90874最大熵筛选频率>=2词形整句否1740615390.97175最大熵筛选频率>=2词形3否8161615390.86746最大熵筛选互信息>0.6词形3否7844615390.87257规纳学习筛选人工词形整句否8888615380.8556五、面向汉语词义排歧与标注的语言模型五、面向汉语词义排歧与标注的语言模型ü词义标注封闭测试评测结果分析:1.实验1的正确率是最高的,选用了最大熵模型,对特征不进行 筛选,特征类型为词形,窗口大小为整句,没有考虑位置特征。
2.实验1、2、3除窗口大小不同外实验条件均是相同的,得出的正确率随窗口大小的减小而减小这说明了随着特征选取的减少,标注结果的正确率就降低实验4、5也说明了这一点3.实验4除对特征按频率做了一定的筛选外,与实验1的条件均相同,从正确率来看,对特征的筛选并没有提高标注的正确率,这说明特征筛选方法还不是很好实验2、5也说明了这一点五、面向汉语词义排歧与标注的语言模型五、面向汉语词义排歧与标注的语言模型ü词义标注封闭测试评测结果分析:4.实验2、5、6除是否对特征筛选及方法外实验条件均相同,实验2对特征未做筛选,实验5按频率,实验6按互信息对做特征做了一定的筛选,从实验正确率看,两种特征筛选方法没有提高标注的正确率,也说明特征筛选方法还不是很好5. 实验7是按统计和规则相结合的方法进行词义标注的,由于在人工选一些特征时有一定的主观性,对在语料中的特征不一定考虑得很周全,正确率也不是很高五、面向汉语词义排歧与标注的语言模型五、面向汉语词义排歧与标注的语言模型Ø开放测试 目前,开放测试语料准备不全,有待进一步测试5. 小结小结我们的目的:我们的目的:建立面向大规模文本标注的词义标注系统。
统统计计与与规规则则相相结结合合的的模模型型::自动特征提取与统计程序与人的智能相结合,从多种知识源中提取知识,词义消歧的效果是比较好的.最最大大熵熵词词义义消消歧歧模模型型::采用三种特征选择策略构造24种模板,对词义标注的最大熵模型进行了仔细的剖析,对模型的参数意义及应用方法作了实践性试验与探索,并对语法信息词典中的800多个多义词进行模型参数的计算,可用于大规模语料的标注内容提要n一、 绪 论n二、 国内外研究现状分析n三、 词语义项的表征及其可计算性n四、 基于多知识源的知识提取与融合n五、 面向汉语词义排歧与标注的语言模型n六、 标注语料的一致性保证与正确性评价n七、 面向真实文本的汉语词义标注实验系统的设计与实现n八、 结 束 语六、标注语料的一致性保证与正确性评价六、标注语料的一致性保证与正确性评价6.1 标注正确性与一致性的关系标注正确性与一致性的关系 ü正确性:指对于某个多义词其所标注的义项与其上下文适应的程度ü一致性:指同一个多义词在相同或相似的上下文环境中,其标注的义项标记是否一致 Ø大规模训练语料中获取多义词出现的全部上下文,并利用这些上下文与当前待标注的多义词所在的上下文进行相似性比较,将语料中与当前多义词有相似上下文的义项标给当前多义词。
六、标注语料的一致性保证与正确性评价六、标注语料的一致性保证与正确性评价6.1 标注正确性与一致性的关系标注正确性与一致性的关系 Ø一致性的实现则是在对多义词的义项进行选择时,保证当前语句的上下文和前文中已经为多义词标注了相应义项的语句上下文相同或相似 因此,从统计方法角度看,不管是正确性还是一致性,都要求计算上下文的相似性,只是比较的对象不同罢了,只要有语句相似性计算的好办法,利用训练语料建立的语言模型,如果在标注语料时具有较高的正确性,则自然会对具有相似上下文的两个语句中的多义词标注出相同的义项,一致性会自然提高,因此从这个角度看,保证词义标注的正确性会更重要六、标注语料的一致性保证与正确性评价六、标注语料的一致性保证与正确性评价Ø6.2 语料库建设中的词义标注一致性校对工具语料库建设中的词义标注一致性校对工具 ü原有标注校对工具 ü对原有标注校对工具的补充 思思想想::将同一个多义词在语料中的所有语句抽取出来,并通过聚类算法将“同形”或“义项”标注相同的语句排列在一起,并将相同的义项对齐,这样,在对词义标注语料库进行校对时,就只需对汉语多义词的语句进行比对,看标注相同的多义词所在的上下文是否相同或相似,如果发现有异同或差异较大,就要对多义词所标注的义项进行修改,以保证它的正确性和一致性。
六、标注语料的一致性保证与正确性评价六、标注语料的一致性保证与正确性评价六、标注语料的一致性保证与正确性评价六、标注语料的一致性保证与正确性评价六、标注语料的一致性保证与正确性评价六、标注语料的一致性保证与正确性评价六、标注语料的一致性保证与正确性评价六、标注语料的一致性保证与正确性评价6.3 词义标注模型与算法的评价方法词义标注模型与算法的评价方法 Ø语言模型测试标注语料的建立Ø评价性能方法与指标六、标注语料的一致性保证与正确性评价六、标注语料的一致性保证与正确性评价Ø6.4面向面向SENSEVAL-2007SENSEVAL-2007的评测语料格式转换的评测语料格式转换 今年北大计算语言技术研究所接受了为SENSEVAL-2007准备中英双语词义消歧评测语料的任务,需要将语料格式从TXT文本格式转换成XML格式语料目前完成了一个将人民日报语料转换为XML格式的软件工具,该软件具有如下功能: 1.对文本格式语料中的日期格式一致性的进行检查 2. 对组织机构名帮定括号的检查六、标注语料的一致性保证与正确性评价六、标注语料的一致性保证与正确性评价六、标注语料的一致性保证与正确性评价六、标注语料的一致性保证与正确性评价内容提要n一、 绪 论n二、 国内外研究现状分析n三、 词语义项的表征及其可计算性n四、 基于多知识源的知识提取与融合n五、 面向汉语词义排歧与标注的语言模型n六、 标注语料的一致性保证与正确性评价n七、 面向真实文本的汉语词义标注实验系统的设计与实现n八、 结 束 语七、汉语词义自动标注研究实验软件平台七、汉语词义自动标注研究实验软件平台 7.1 系统原理与结构设计系统原理与结构设计 词义排歧实验系统主要由知识获取模块、词义排歧与标注模块和模型与算法评价模块等构成。
各模块之间相互关联,便于建立和实验各种词义排歧与标注的语言模型与算法一旦模型与算法确定,该系统即是一个汉语词义自动标注与排歧系统 该系统的结构如下图所示 七、汉语词义自动标注研究实验软件平台七、汉语词义自动标注研究实验软件平台 7.2 7.2 知识获取模块知识获取模块 Ø知识源:人民日报标注语料、《现代汉语语法信息词典》、《现代汉语语义词典》、《知网》Ø实例抽取单元ü按词抽取实例语句单元ü自动聚类按词之义项抽取实例语句单元Ø特征模板设计单元ü特征模板的主要功能是定义上下文中某些特定位置的语言成分或信息对当前词的出现概率是否有影响特征模板一般包括词语的位置参数和语法属性信息参数七、汉语词义自动标注研究实验软件平台七、汉语词义自动标注研究实验软件平台 Ø特征提取与选择单元v特征提取单元 按照特征模板的要求,在训练语料中的多义词上下文中选择特征, 并将其提取出来,本模块的输入参数来自特征设计模块,目前我们的特征提取参数主要包括两类:七、汉语词义自动标注研究实验软件平台七、汉语词义自动标注研究实验软件平台 特征的种类:包括词形、词性、词形+词性; 上下文窗口的大小:包括多义词左右各取1个词、2个词、3个词和整句。
是否考虑位置信息:是、否 模板数量: 3×4×2=24种v特征选择单元(1)将候选特征集中的所有特征都作为建模特征;(2)从候选特征集中选择那些在训练语料中出现一定频次的特征;(3)利用互信息从候选特征及中选择特征(4)利用增量式特征选择法从候选特征集中选择特征七、汉语词义自动标注研究实验软件平台七、汉语词义自动标注研究实验软件平台 本模块得到的结果 (1) 多义词上下文特征(带位置信息\特征数量\在各位置上的频次) (2) 多义词的词袋特征(不带位置信息\在词袋中出现的总频次)七、汉语词义自动标注研究实验软件平台七、汉语词义自动标注研究实验软件平台 7.37.3词义排歧与标注语言模型构建模块词义排歧与标注语言模型构建模块 利用已获得的多义词上下文特征知识建立语言模型,主要是如何应用知识获取所得到的上下文特征信息Ø 本模块由两单元构成:词义标注;多义词词义排歧ü词义标注单元策略:对于单义词,可直接查语义词典进行标注,对于多义词,如果不同义项之间的词性标注不同,也可以该词的词性来对其进行义项标注对于那些不易区分的同形同类词,则要调用多义词词义排歧模块。
七、汉语词义自动标注研究实验软件平台七、汉语词义自动标注研究实验软件平台 算法:1. 打开待标注文件rfile,并初始化文件指针(resetfile);2. if eof(rfile) then goto 9;3. 读下一个切分单位到segunit;4. if 遇见回车换行符 then 将当前标注过的语句数组sentarr写入输出文件wfile;5. 析取segunit中的汉字到currword与词性标记到curpos;6. if currword中的汉字是单义词 then 查汉语语义词典,并对segunit进行词义标注 else 调 用 多 义 词 词 义 排 歧 子 程 序cypqbz_subroutine对segunit进行词义标注;7. 将标注过词义的segunit写入语句数组sentarr;8. if 未到句末 then goto 3; else将当前标注过的语句数组sentarr写入输出文件wfile;9. close(rfile);10. close(wfile);11 end.七、汉语词义自动标注研究实验软件平台七、汉语词义自动标注研究实验软件平台 ü多义词词义排歧单元 该单元是留给用户进行修改替换的部分,对多义词排歧语言模型的实验只需修改这一部分,其它的实现接口、模块和显示都不需修改,就为多义词的排歧模型与算法实验提供了一个平台。
ü 已采用的语言建模方法 1.统计与人工相结合的方法 2.最大熵原理 (a) 最大熵方法需要统计多义词各义项与其上下文同现的概率,可以利用知识库中的特征出现频次来实现; (b) 利用最大熵模型,计算多义词各义项在当前上下文中的概率; (c) 选择概率最大的义项作为该多义词词义七、汉语词义自动标注研究实验软件平台七、汉语词义自动标注研究实验软件平台 ü拟采用的语言建模方法1. 距离计算法 (a) 提取待标注的多义词之上下文特征; (b) 距离计算该上下文特征与训练语料中该多义词各义项的上下文特征之间的距离; (c) 选距离最小者为该多义词词义 2. 特征匹配法 (a) 提取待标注的多义词之上下文特征; (b) 模糊匹配该上下文特征与训练语料中该多义词各义项的上下文特征进行模糊匹配; (c) 满足匹配要求的该多义词词义七、汉语词义自动标注研究实验软件平台七、汉语词义自动标注研究实验软件平台 Ø本模块的输入输出参数本模块的输入输出参数ü输入参数: 待标注的基本标注文件; 多义词表; 特征模板的选择等。
ü输出参数: 标注了词语义项的语料(文本文件)七、汉语词义自动标注研究实验软件平台七、汉语词义自动标注研究实验软件平台 7.4 模型与算法评价模块模型与算法评价模块Ø标准文件和已标注文件 封闭测试:将训练语料作为标准语料;将训练语料中多义词下的义项标注符号删除,作为待标注语料,由试验系统进行词义标注 将人工标注语料分为两部分,一部分用作训练语料,一部分用作测试语料,处理方法同上 开放测试:选择不同的语料来源,标准语料生成比较困难七、汉语词义自动标注研究实验软件平台七、汉语词义自动标注研究实验软件平台 Ø 评价性能指标与方法 在输入了以上两个文件后,系统将标注结果文件与标准文件进行比较,统计标准文件中的标注单位总数,多义词总数,标注不一致数,计算出不一致率以衡量词义标注语言模型与算法的优劣不一致率的计算方法有两种,分别以下述公式表示:七、汉语词义自动标注研究实验软件平台七、汉语词义自动标注研究实验软件平台 Ø通过对比标注结果,对标准语料做人工校对 本模块提供了显示不一致标注单元所在语句的功能,当发生不一致后,把标准文件中的相应语句和被评价文件中的相应语句显示出来,提供人机交互,这样可以提供对标准标注文件的人工校对,以防标准文件中的词义标注错误。
当然,这一功能是在系统运行时可选择的,为了提高评测速度,用户在对语言模型与算法进行评测时,可以不选择该功能七、汉语词义自动标注研究实验软件平台七、汉语词义自动标注研究实验软件平台 Ø本模块的输入输出参数ü输入参数:•评价标准文件•标注结果文件ü输出参数:•双窗口对比显示不一致标注,显示标注正确率•只显示标注正确率•帮助校对标准标注语料七、汉语词义自动标注研究实验软件平台七、汉语词义自动标注研究实验软件平台 7.5 结束语结束语Ø本本实验平台的功能:实验平台的功能: 机器学习:实例提取、特征模板设计与选择、特征提取与筛选; 语言模型构建:词义标注、多义词排歧; 语言模型评价:计算性能指标、对标准语料进行校对Ø 本实验平台的作用:本实验平台的作用: 易出成果:可加快语言建模研究速度,实验数据易得到; 及早得到实用系统:一旦排歧的模型与算法确定,本系统即是一个自动词义标注系统 七、汉语词义自动标注研究实验软件平台七、汉语词义自动标注研究实验软件平台 系统演示系统演示。





