
词义消歧研究:资源、方法与评测.doc
17页词义消歧研究:资源、方法与评测 《当代语言学》第11卷2009年第2期113-123页,北京词义消歧研究:资源、方法与评测*吴云芳 北京大学提要 词义消歧是计算语言学领域的基础性关键研究课题本文从语言资源建设、词义消歧方法和国际语义评测三个方面概要地介绍了词义消歧研究的现状:语言资源建设主要介绍了语义词典构建和词义标注语料库建设;词义消歧方法重点介绍了有指导的机器学习方法;语义评测主要介绍了国际语义竞赛SemEval以期了解词义消歧研究的前沿状态,促发从计算的角度来审视义项区分和词义描述,进而促进汉语词汇语义学的研究关键词 词义消歧 义项区分 词义标注语料库 有指导的机器学习方法 语义评测1.引言词义消歧(word sense disambiguation, WSD)是计算机根据上下文语境来自动确定词语的意义词义消歧包含两个必要的步骤: (1)在词典中描述词语的意义; (2)在语料中进行词义自动消歧例如“仪表”在词典中描述有两个不同的意义:人的外表;测定温度、气压等的仪器对于下面两个语句:(1)贵族的仪表使人对人性产生了美丽的错觉2)我国仪器仪表事业的创始人朱良漪在网络上进行信息检索时,计算机应该能自动将不同意义的“仪表”区别开来并分别显示。
在汉英机器翻译中,例(1)中“仪表”可译成appearance,而例(2)中“仪表”应译成meter词义消歧是计算语言学领域的基础性关键研究课题,作为一个“中间任务”,直接关系到信息检索、机器翻译、文本分类、语音识别等语言处理应用系统的效率和成败Weaver(1949)论及机器翻译系统中必须进行词义消歧,这一点在Chan等人(2007)的研究中得到了证明,其研究表明词义消歧可以显著提升机器翻译系统的准确率Stokoe等人(2003)证明高效的词义消歧技术可以显著提升信息检索的准确率然而,正如Ide和Veronis(1998)所指出的那样,虽然历经半个多世纪的努力,词义消歧研究并没有取得突破性进展现在10个春秋又逝去了,词义消歧依然是学人们孜孜以求攻克的难关词义消歧研究关涉到的三个主要问题是:资源、方法与评测本文拟从这三个角度出发,对当前的词义消歧研究进行概括性的评述,以期了解词义消歧研究的前沿状态,为将来的探索提供启发本文评述虽然是面向中文信息处理的,但对于汉语词汇语义学的研究也有一定的借鉴意义,从计算的角度来看待汉语词语的多义现象,或许会有一番新的景象113本刊网址: http: //www. ddyyx. com*本文得到以下基金资助:国家自然科学基金项目(60703063);国家社会科学基金项目(08CYY016);国家863高技术研究发展计划基金项目(2007AA01Z198);国家973重点基础研究发展规划基金项目(2004CB318102)。
2.资源词义消歧研究需要的资源主要是语义词典和词义标注语料库语义词典静态地描述了词语的义项区分,词义标注语料库动态地呈现了不同义项在真实文本中的使用状况Veronis(2003)研究指出,如果不建立大规模高质量的词汇语义资源,词义消歧研究将很难取得突破性进展卢志茂等(2006)在分析了国内外统计词义消歧研究进展之后指出,确定哪种算法更有效并不是词义消歧研究中最紧要的问题,而围绕词义消歧的知识源研究才是最关键最重要的问题,也是国内外相关研究的热点2. 1语义词典汉语词义消歧研究中使用的词典主要是HowNet(扬尔弘等2001),少数研究依据“同义词词林”(李涓子1999),还有少数研究使用到北京大学的“现代汉语语义词典”(Jin, et a.l2007)英语词义消歧研究中使用的词典主要是WordNet(Fellbaum 1999)指导人们学习的词典和指导机器消歧的词典在设计理念上有很大的不同,这首先表现在研究对象上从计算机处理的角度看,所谓多义词,就是书写形式上的同一个词形表达了多种不同的意义,即形成了形到义一对多的映射关系在指导人们学习的语言词典中,为了厘清词义的历史发展演变,需要辨识“同形”和“多义”的区别。
而同形和多义的区分一直是词汇语义学研究中探讨和争论的难题,这个难题涉及到了词语意义的历时演变和多义词的认知语义框架等多个研究课题对于计算机词义消歧而言,将同形异义词和词语的不同义项放在同一个平面上考察,并不会太多妨碍词义消歧的效果,从而部分避免了关于同形词和多义词的语言学争论目前词语自动切分和词性自动标注已经达到了很高的精度,词义消歧一般都是建立在词性标注语料的基础上因此计算机词义消歧的对象为:将同形异义词和词语的不同义项放在同一个平面上考察而不追求同形和多义的严格区分;一般限定为同词类的多义词而不包括跨词类的多义现象无论是指导人们学习的词典还是指导机器消歧的词典都将遇到的一个难题是:如何对词语进行义项划分? Kilgarriff(1997)批评书本型词典由于受到“传统、印张、易接受性”等多种因素的制约在义项分合上存在许多不足,这种词典并不能很好地用于词义分析Veronis(2003)曾做过一个有趣的实验: 600个词语分配给6名语言学专业的学生,由他们依据辞书中的释义对真实语料进行词义标注结果发现,不同标注者之间的一致性非常低,对于有些词语,标注的不一致性甚至和随机标注一样糟糕总体上讲,传统辞书上的义项划分对于语言信息处理过于细微了一些。
WordNet常被人诟病之处就在于义项划分太过细致现在很多研究者倾向于粗粒度(coarse-grained)的义项划分(如Agirre and Edmonds 2006),一方面粗粒度义项可以保证更高的标注一致性,另一方面基于粗粒度的义项划分计算机自动词义消歧可以达到一个相对高的准确度,从而可以应用于实际系统构建一部适合于中文信息处理(尤其是词义消歧)的语义词典,还是学人们努力的一个目标北京大学的《现代汉语语法信息词典详解》(简称《语法词典》)(俞士汶等2003)描述了词语的“同形”信息,对同形的定义和传统语言学稍有不同,区分同形主要是依据词语的语法功能,意义相近并且语法功能相同则归入一个同形,较《现代汉语词典》等传统辞书的114当代语言学义项区分要显得粗糙一些北京大学正在构建《现代汉语语义词典》(Chinese SemanticDictionary, CSD,简称《语义词典》)(Wu, et a.l 2006),在“同形”区分的基础上进一步区分了“义项”,主要依据是大规模真实文本中词语的句法配置2. 2词义标注语料库词义标注语料库是在真实文本中明确地标识出词语的不同义项词义标注语料库是词义消歧研究的重要数据资源。
词义消歧研究之所以进展缓慢,其中一个重要原因就是缺乏大规模高质量的词义标注语料库,缺少了机器学习的真实数据资源Agirre和Edmonds(2006)指出,使词义消歧技术走向实用的一个必要途径,就是以最小的代价去构造训练语料2. 2. 1词义标注语料库建设表1列举了主要的、常用的词义标注语料库的概况总词次”指语料中标注的所有多义词出现的总次数(token);“总词形”指标注的不同词语的个数(type);“标注一致性”是词义标注语料库的重要技术指标,在下文中将进一步讨论;“———”表示在文献中没有看到具 体报道语料库名称建设者词典总词次总词形标注一致性P KSemcor普林斯顿大学WordNet 1·6 234, 136所有实词——— ———DSO新加坡国立大学WordNet 1·5 192, 800 191个名词和动词0·80 0·57CSC北京大学CSD 95, 734 942个名词和动词0·848———Hinoki日本NTT Lexeed 818, 814 9, 835个词语0·787———Senseval-2英语采样词Kilgarriff WordNet 1·7 7, 95727个动词、15个形容词、29个名词———0·855Senseval-2英语所有词宾夕法尼亚大学WordNet 1·7———554个动词、1067个名词、465个形容词、301个副词——— ———Senseval-3英语采样词MihalceaWordNet 1·7WordSmyth11, 80457个名词、动词、形容词0·673 0·580Senseval-3英语所有词宾夕法尼亚大学WordNet1·7——— ——— ———0·725Senseval-3汉语采样词哈尔滨工业大学HowNet 1, 172 20个词语——— ———SemEval-2007英语采样词Pradhan WordNet 2·1 27, 13250个名词、50个动词0·90———SemEval-2007英语所有词Pradhan WordNet 2·1———所有动词及其论元中心词V: 0·72N: 0·86———SemEval-2007汉英对照采样词北京大学CSD 3, 62121个动词, 19个名词0·848———表1 词义标注语料库一览表金澎等(2008)从语料选取、词典选择、标注规模和标注质量等方面介绍了已经建成的较有影响的若干词义标注语料库,表1所列较之更为全面。
1)英语方面最有影响的是普1152009年第2期林斯顿大学依据WordNet建设的词义标注语料Semcor (Landes, et a.l 1999),大大刺激和促进了英语词义消歧的研究2)汉语方面早在1993年,清华大学就在真实文本中进行了语义自动标注的探索性研究(黄昌宁、童翔1993)台北中研院正在构建一个汉语义项标注体系,并已完成一定数目的中频词语的义项标注(Huang, et a.l 2004)北京大学计算语言学研究所正在建设一个大规模高质量的现代汉语词义标注语料库(Chinese SemanticCorpus, CSC) (Wu, et a.l 2006),是SemEval-2007任务5汉语对照采样词任务的数据来源,目前已成长为最大的现代汉语词义标注语料库此外,国际词义消歧竞赛SemEval提供的词义标注语料已然成为词义消歧研究训练和测试的基准平台2. 2. 2词义标注一致性检验标注一致性( inter annotator agreement)是衡量词义标注语料库质量的一个重要指标,一个规范的词义标注语料库通常都需要汇报标注一致性设多义词w有m个词义,在语料中共出现了n次令r是两个标注者在语料中标注一致的词次,用p表示标注一致性,一个简单的计算公式是:p=r /n但这种计算方法没能考虑到标注者之间偶然一致(chance agreement)的情况,因此引入Kappa统计量:K=P-Pe1-Pe Pe=∑mj= 1(Cj/2n)2Pe用来度量标注者之间的偶然一致性,Cj表示两个标注者标注为义项j的词次之和。
K= 0时表示纯属偶然一致,K= 1时表示完全一致,K 0·8时被认为是具有较高质量的一致性事实上, Kappa统计量广泛应用于语言信息处理的各个领域而不仅是词义消歧中词义标注语料库中词义标注的一致性与语义词典中义项的区分和描述密切相关当词典中不同词义之间区分清晰、存在明显的句法标识时,语料库中的义项标注就较容易达成一致;当词典中的词义区分太过细致或者本身描述就模棱两可时,语料库中的义项标注就很难达到高一致性吴云芳、俞士汶(2006)从词义消歧、词义标注语料库建设的角度出发,阐释了信息处理用词义区。












