好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

构建知网关系的网状表示.doc

7页
  • 卖家[上传人]:s9****2
  • 文档编号:448498827
  • 上传时间:2022-11-11
  • 文档格式:DOC
  • 文档大小:88.01KB
  • / 7 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 构建知网关系的网状表示* 本项研究得到国家自然科学基金资助,项目号为:69903007本项研究得到国家973基础研究基金资助,项目号为: G1998030507周强 冯松岩 智能技术与系统国家重点实验室清华大学计算机科学与技术系,北京100084zhouq@摘要:本文介绍了一个针对知网关系的网状表示结构及其实现方法通过构建三张数据表:概念表、特征表和关系表,以及建立它们的记录项之间的双向多元联系,可以方便地把知网的所有知识(概念、特征以及它们之间的各种关系)集成在一起,从而为进一步进行基于知网的信息检索和知识推理打下很好的基础关键词:知网,概念,特征,关系Build a relation network representation for How-netZhou Qiang, Feng Songyan,State Key Laboratory of Intelligent Technology and SystemsDepartment of Computer Science and TechnologyTsinghua University, Beijing 100084zhouq@ABSTRACT: In this paper, we introduce a relation network representation for how-net and its implementation method. Through the construction of three tables(concept table, feature table and relation table) and the bi-directions, multi-angles connections among them, all the information in how-net can be integrated into a relation network. It provides good foundation for the research of information retrieval and knowledge reasoning based on the knowledge in how-net.KEYWORDS: how-net, concept, feature, relation1 引言 语义分析是自然语言理解的重点和难点。

      早期的研究人员提出的一些语义理解模型,如语义网和概念依存理论,在一些小型的原型系统中取得了成功近年来,一些大规模、可计算的语义知识库,包括WordNet[1]、MindNet[2,3]、FrameNet[4]等的开发和利用,为进行大规模的真实文本的语义分析和理解提供了有利的支持1999年初,中国中文信息学会常务理事董振东先生在因特网上公布了自己的研究成果----知网(How-Net),为自然语言理解提供了一个新的研究资源目前,对知网的研究还处于初期阶段,香港科技大学利用知网信息进行了汉语语料库的语义标注研究,台湾中央研究院进行了一些基于知网的基础研究,包括:建立事件关系库、角色转换库、典型演员库和基于知网事件框架的中文动词句法[5]但实际的研究成果还不多我们在仔细、深入地分析了知网的基础上,将知网中隐含的各种语义关系全部提取出来,形成关系表,并以此为中心,建立了知网的概念与概念、概念与特征以及特征与特征之间的内在联系,形成一个网状的信息表示结构 在这个网状表示上,通过任意一个信息人口:如概念项、特征项、关系体等,都可以很方便地访问到与此相关的各种知识,从而为基于知网的信息检索和知识推理提供了很大的方便。

      2 知网简介知网是一个以英汉双语所代表的概念以及概念的特征为基础的,以揭示概念与概念之间以及概念所具有的特性之间的关系为基本内容的常识知识库知网系统的哲学是:“世界上一切事物(物质的和精神的)都在特定的时间和空间内不停地运动和变化它们通常是从一种状态变化到另一种状态, 并通常由其属性值的改变来体现因此,知网的运算和描述的基本单位是:万物,其中包括物质的和精神的两类,部件,属性,时间,空间,属性值以及事件[6]知网着力描述了概念之间和概念的属性之间的各种关系,主要包括:(1) 上下位关系, (2)同义关系,(3) 反义关系,(4) 对义关系,(5) 属性-宿主关系,(6) 部件-整体关系,(7) 材料-成品关系,(8)事件-角色关系这些关系隐含在知网的概念词典和各个特征文件描述中,主要包括:1) 词典, 2) 主要特征文件1(以下简称主特1), 3) 主要特征文件2(以下简称主特2), 4) 次要特征文件1(以下简称次特1), 5) 次要特征文件2(以下简称次特2), 6) 次要特征文件3(以下简称次特3), 7) 对义关系表, 8) 反义关系表, 9) 二级主要特征文件1—7(简称二级主特)。

      在概念词典中,概念与概念和特征的关系主要体现在每个纪录的概念定义项(DEF项)中而在各个特征文件中,这些关系则体现在特征的层次组织树、必要角色框架和共性特征描述项中所有这些,都通过知网提供的知识词典描述语言(KDML)来实现,有关的详细内容可参阅董振东先生的有关论文([6],[7])表 1 列出了目前知网(99.6从网上下载)的数据文件的基本统计数据表 1 知网的基本统计数据数据文件记录/特征数词典62364条概念记录主特1813个特征主特2143条记录次特1119条记录次特2434条记录次特388条记录二级主特1—749条记录反义关系表107对反义对义关系表110对对义3 以知网中关系为中心的网状表示3.1 基本设计思想 我们的基本设计思想,是将知网中隐含的各种语义关系全部提取出来,形成关系表,并以此为中心,建立知网的概念与概念、概念与特征以及特征与特征之间的内在联系,形成一个网状的信息表示结构 在这个网状表示上,通过任意一个信息人口:如概念项、特征项、关系体等,都可以很方便地访问到与此相关的各种知识,从而为基于知网的信息检索和知识推理提供了很大的方便具体来说,就是设计3张表:概念表、特征表和关系表, 关系表中的每个记录描述了这样一种关系:<关系左项> à <关系名称> <关系右项>,其中〈关系左项〉和〈关系右项〉分别是一个概念或特征,通过扇入和扇出指针指向概念表和特征表的相应记录位置。

      而概念表和特征表的每个记录则描述了各个概念项和特征项的基本信息,并通过扇入扇出指针表分别指向以这个概念或特征为关系右项或关系左项的关系表记录这样,通过各个表中的扇入扇出指针就将这3张表组成一个网状结构(图 1)为了便于今后添加信息,我们把关系表设计成开放的表示形式,可以根据不同的需要不断增加新的关系表事实上,在我们目前的处理中,为了便于信息的管理,就把来源于概念词典和特征文件中的关系组织成了两张关系表:概念关系表和特征关系表特征表概念表关系表图 1 知网信息的网状表示结构图3.2 关系的提取3.2.1 显性关系的提取知网的KDML中使用了一些特殊符号来表示不同的关系(表 2),对此,我们只需简单提取即可需要注意的是,其中的一个符号往往会表示不同的语义关系,需要在实际应用中加以准确区分[7]表 2 KDML语言的关系标识符号说明符号表达意义例子!表示某一属性为一种敏感的属性gas|气 à ! odor|气味,#表示与其相关SufferFrom|罹患 à # medical|医$“事件-内容(受事,对象,领有物)”关系Tool|用具àuse|利用%“部件-整体”关系room|房间 à % house|房屋*“事件-工具(施事)”关系LandVehicle|车 à * VehicleGo|驶+“隐性角色-事件”关系Document|文书 à + write|写?“材料-成品”关系tree|树 à ? material|材料(“概念-概念词”关系安大略湖 à ( US|美国=标注动态复杂概念的特殊动态角色挨 à = manner(regular|定期){动态角色的格标记按 à {AccordingTo}&表示指向安 à & electricity|电@表示空间或时间鞍 à @ sit|坐蹲3.2.2 隐性关系的提取知网中的许多关系是隐含在特征文件和概念词典描述中,通过一些特殊的结构和位置信息体现出来的,如:上下位关系通过特征文件中的缩进层次结构体现出来,而对义关系则通过对义关系表中的两两特征对体现出来。

      对于这些关系,我们首先定义了一些特殊的关系符,然后通过对不同特征文件和概念词典的特殊处理,把它们提取出来表 3 列出了这些关系的详细信息表 3 知网的隐性关系描述符号关系内涵关系表现具体实例U上下位关系特征文件中:首字缩进的特征层次树在概念词典中,概念定义项的第一个位置fruit|水果 àU plant|植物医生 àU human|人A“属性值-属性”关系次特2文件amount|多少 àA many|多D对义关系对义关系表appear|出现 àD disappear|消失F反义关系反义关系表clear|清 àF blurred|浑空格“概念/特征 – 特殊的属性值”关系概念词典的定义项特征文件的属性描述项男士 à空格 male|男decline|衰败à空格 undesired|莠3.2.3 组合关系的提取除了以上关系外,知网中还提供了一些组合符号,来表达两种以上关系的组合含义表 4 列出了我们目前提取的一些组合关系表 4 知网的组合关系说明关系符号具体实例#(车头 à #( train|火车#*回忆往事 à #* LookBack|回想$(私货 à $( smuggle|走私%(托管理事会 à %( UN|联合国*#(DEF中存在先*、后#组合的概念与事件存在很复杂的动态角色关系,需要将其提取出来)洗衣机:DEF=tool|用具,*wash|洗涤,#clothing|衣物提取出, wash|洗涤 à *# clothing|衣物*(暗娼 à *( be a prostitute|卖淫=$保外就医 à =$cause(cure|医治)=(赴京 à =( LocationFin(Beijing|北京)总之,概念和特征的关系蕴含在原始数据文件中,有些是隐式的,有些是显式的。

      我们只是从我们能利用到的角度提取了其中一部分,如果需要的话,还可以对原始文件进行更深层次的研究,并提取出很多有其他利用价值的关系 我们编写的程序就是以开放式、便于添加为原则的,有利于今后更深入的研究和分析3.3 网状数据表的生成图 2 显示了网状结构生成的基本流程图首先通过对各个特征文件的规范化处理,从中提取出不同特征的基本信息和特征之间的关系描述,分别加入特征表和特征关系表中;然后从概念词典中提取出每个概念(词语义项)的基本信息加入概念表中,从各个概念的定义项(DEF)中提取出概念与特征、概念与概念之间的关系及其组合关系,加入词典关系表中最后对这几张表进行排序,以关系表。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.