
一种基于上下文语境的词的语义相关性度量方法.docx
2页一种基于上下文语境的词的语义相关性度量方法专利名称:一种基于上下文语境的词的语义相关性度量方法技术领域:本发明涉及自然语言处理、文本语义分析技术领域,具体是一种基于上下文语境度量的词的语义相关性的方法背景技术:随着信息技术的发展,人类已经步入一个高度信息化的时代,各种纷繁芜杂的信息不断涌现,充斥着人类生活的方方面面信息的急速膨胀一方面开阔了人们的视野、丰富了人们的生活、促进了文明进步,另一方面也使人们迷失在信息的汪洋大海中,难以高效地获取自己真正想要的数据为了使人们能够有效地利用各种信息,需要一套行之有效的信息组织、整理和检索技术,而词的语义相关性度量是上述技术的核心所在目前,在度量词的语义相关性方面的研究主要分为两大类,即基于词典的方法和基于统计的方法基于词典的方法主要借助结构化的词典来计算词与词之间的语义相关性结构化的词典可以来自于预先定义好的语义结构集合例如,WordNet是计算词与词之间的语义相关性时广泛采用的一种结构化词典,它是由Princeton大学的心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典,它不仅将词以字母顺序排列,而且按照词的语义组成一个“词的网络”。
在WordNet中,名词、动词、形容词和副词各自被组织成一个同义词网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也通过各种关系连接针对一些特定领域的词,也可以利用机器学习的方法,通过训练集中的已标注信息来获取结构化词典(例如在文献标引和检索中常用的词表)基于词典的方法虽然可以方便地获取词与词之间的语义相关性,但是构建一个结构合理的词典是相当费时费力的过程,并且需要丰富的专业知识和大量的标注数据,因而基于词典的方法使用代价过高此外,词的数量是极其庞大并且不断增长的,而词典的规模则是有限的,因而基于词典的方法必然无法度量任意两个词的语义相关性,这在很大程度上影响了该方法的可靠性基于统计的方法是数据驱动(data-driven)的,其主要思想是从词与词的共生关系(即两个词出现在同一文档)中挖掘词的语义相关性一般而言,具有较高共生频率的两个词具有较强的语义相关性,所以词与词的共生关系可以有效地反映两者之间的语义相关性目前,归一化谷歌距离(Normalized Google Distance,简称NGD)是利用共生关系度量词的语义相关性的一种常用方法,它借助Google搜索引擎获取两个词在网络文档中各自出现和同时出现的相关信息,并由此计算词的语义相关性。
用P(W1)表示词W1出现的概率,P (W2)表示词W2出现的概率,P (W1 k2)表示在词W2出现的条件下词W1也出现的概率, P (W2Iw1)表示在词W1出现的条件下词W2也出现的概率,因而词W1与词W2之间的NGD的最原始表示形式为NGD0 (w1 w2) =InaxuZp(W1IW2)jIZp(W2IW1)I (1)对公式(1)进行取对数操作,并进行归一化之后,NGD可以表示为权利要求1.一种基于上下文语境度量词的语义相关性的方法,包括基于统计方法度量词自身的语义相关性,该方法的特征在于还包括如下步骤度量词在上下文语境中的语义相关性;以及将词自身的语义相关性和词在上下文语境中的语义相关性进行融合,从而获得基于上下文语境的词的语义相关性度量值2.根据权利要求1所述的方法,其特征在于,度量词在上下文语境中的语义相关性进一步包括如下步骤从上下文中提取关键词,并用提取出的关键词构成的关键词集来表示该上下文语境;以及分别计算待度量的两个词与关键词集中的每个关键词之间的语义相关性3.根据权利要求2所述的方法,其特征在于,度量词在上下文语境中的语义相关性还包括如下步骤将计算出的待度量词与关键词之间的语义相关性组织成上下文直方图或上下文向量;以及通过度量上下文直方图的距离或上下文向量的距离,获取词在上下文语境中的语义相关性度量值。
4.根据权利要求3所述的方法,其特征在于,基于统计方法度量词自身的语义相关性进一步包括如下步骤用几何平均值函数代替最大值函数来获取词自身的语义相关性的度量表达式;以及将待度量的两个词作为查询词分别以及共同输入网络搜索引擎,获得返回的相应结果数,并且将返回的相应结果数输入所述度量表达式,从而计算出词自身的语义相关性5.根据权利要求4所述的方法,其特征在于,根据下列公式来度量词自身的语义相关性6.根据权利要求3至5中任一项所述的方法,其特征在于,所述上下文直方图的距离是下述距离中的至少一种欧氏距离、交集距离、二次方距离、EMD距离;并且/或者所述上下文向量的距离是下述距离中的至少一种欧氏距离、绝对距离、明氏距离、马氏距离7.根据权利要求1至5中任一项所述的方法,其特征在于,根据下列公式来融合词自身的语义相关性和词在上下文语境中的语义相关性Sim (w1 w2) = α Simword (W1, w2) + (1-α ) Simcontext (W1, w2)其中,巧、分别是待度量的两个词;Sinwd(Wl,w2)是词自身的语义相关性, Simcontext(W15W2)是词在上下文语境中的语义相关性;α是调节两种语义相关性的权重的可调参数且0 全文摘要本发明涉及自然语言处理、文本语义分析技术领域,具体是一种基于上下文语境度量的词的语义相关性的方法。
该方法旨在克服现有的语义相关性度量方法无法反映词在特定上下文语境中的含义的缺点为此,本发明的方法包括基于统计方法度量词自身的语义相关性;度量词在上下文语境中的语义相关性;以及将词自身的语义相关性和词在上下文语境中的语义相关性进行融合,从而获得基于上下文语境的词的语义相关性度量值由于将词自身的语义相关性和词在上下文语境中的语义相关性进行了有效融合,本发明的方法能够更准确、更全面地度量词在特定上下文语境中的语义相关性。
