
dbpedia说明文档.doc
10页DBpedia知识库说明文档[摘要] 在现有的语义网项目架构中,基于关联数据形式的知识库项目往往处于整个语义网络的核心,如何对于这些知识库的知识内容进行组织、储存和查找就成为了决定整个语义网络运行效率的关键因素在目前的关联数据知识库项目中,DBpedia是较为典型且成熟的一个,DBpedia网站使用本体的方法来对其条目内容进行组织和存储一、DBpedia本体的类和条目属性分析根据斯坦福大学医学院发本体的构建七步法,构建本体有如下七个步骤:(1) 确定本体的专业领域与范畴(2) 考察复用现有本体的可能性(3) 列出本体中的重要术语(4) 定义类和类的等级关系(5) 定义类的属性(6) 定义属性的分面(7) 创建实例但以上所述的七步法仅适用于某一专业或学科领域本体的构建在DBpedia知识库一例中,由于所需要构建本体的是维基百科条目,因此其专业领域与范畴无法简单确定,因此在DBpedia的本体构建中,采用了类似于以叙词表为基础的自动化本体转换的方式但同样的,维基百科的词条表并非规范的叙词表,其类目划分也无法简单归于某一专业分类之下,词语的专指度不可避免的出现不足,因此,在DBpedia的本体构建中,类目划分和定义基本是人工完成,之后的条目转换才使用了自动转换的方式。
1.1 DBpedia类共有属性分析 本体的体系结构主要包括3个要素:核心元素集、元素间的交互作用以及这些元素到规范语义间的映射关系对于本体的一般构造过程,可以用以下公式进行表示:本体 = 概念(Concept) + 属性(Property) + 公理(Axiom)+ 取值(Value)+ 名义(Nominal) 从以上的一般公式中,我们还可以归纳出本体当中的基本关系类型,共有四类:(1) part-of关系,表达概念之间部分和整体的关系(2) kind-of关系,表达概念之间的集成关系(3) instance-of关系,表达概念的实例和概念之间的关系(4) attribute-of关系,表达某个概念是另一个概念的属性由于DBpedia知识库的本体从分类上属于知识本体,因此在类和条目的属性设置上需要体现以上四种关系 如图1所示,DBpedia的类除了名称这一唯一标示之外,还有如下共有属性:图 1 DBpedia类属性实例(1) Type属性,类型是类与条目的根本性区分,以图中‘Film’这个类为例,它的类型属性值是‘Class’,而该类下属的具体电影条目的属性则是‘Film’2) Istypeof属性,这一属性列出了该类下属的所有条目(3) SubclassOf属性,这一属性表明该类的上级类(4) IsSubclassOf属性,这一属性表明该类的下级类(5) Sameas属性,这一属性值指向一个URI,其中说明了所有跟该类同义的词语以上是DBpedia本体类的五个共有属性,从该属性定义中可以看出,由于条目数量多,类目归属复杂,DBpedia类的属性定义较为简单。
但仍能体现概念之间的关系此外,由于名称的复用可能存在,因此DBpedia类和条目的属性命名匹配规则都较为严苛仍以图中Film类为例,当以film为索引词查找该类时,无法直接得到反馈结果由于DBpedia的使用用户生成内容较为随意,在创建本体时为类和条目添加了Sameas属性,以反映不同名称的同一事物1.2 DBpedia条目属性分析 在DBpedia本体体系当中,条目与类是两种不同属性的概念简单的区分而言,DBpedia本体体系中的条目相当于一般本体体系中的概念、属性和取值的集合,三者共同描述某种客观事物,而类则相当于一般意义上的分类概念,并不指代某种具体事物,而是一类事物的共有概念 因此,DBpedia本体的条目属性除了表明其与类和其他概念的关系和联系之外,还根据其所属的类拥有各自独特的属性图2 DBpedia条目属性实例从实例条目中,DBpedia条目所共有的关系属性仅有一条,即:(1) Type,如类属性,在不同的本体语言下其Type定义不同在DBpedia本体语言下,条目的Type属性是其所有上级类如例所示,该条目所描述的运动员从属于“运动员”、“花样滑冰运动员”和“人”三个类,因此其Type属性在DBpedia本体语言下有三个值。
而根据其从属类的不同,DBpedia本体体系中的条目拥有独特的用以说明其概念的属性,如上例的运动员有“出生年月”、“性别”等属性1.3 DBpedia本体属性设置的评析从实例分析中,不难看出,DBpedia的本体设计和构建符合以上本体构建原则尽管由于原维基百科的条目存在重名,以及单个概念在不同领域的不同含义等问题,但在DBpedia本体的构建过程中,以名称为区分条目和类的最根本区别使用了添加后缀等命名规则来区分在原维基百科条目中重名条目同时,针对不同类或条目所涉及的不同概念,合理的添加了能够反映其概念特质的属性同时,针对不同本体语言,DBpedia还对同一属性做了不同取值,这样在使用和查询的过程中,能够用多种本体语言对DBpedia知识库的数据内容进行查找2. DBpedia本体结构分析基于DBpedia类和条目的属性,DBpedia本体的结构较为简明,规则大致如下:(1) 以“事物(Thing)”这一概念来总括描述DBpedia本体中所涉及到的所有客观事物2) 事物(Thing)类下分有不同的子类,每一个子类都可以有它自己的子类(3) 条目用以描述具体的事物,从属于某个类和它的全部上级类2.1 DBpedia本体结构表事物活动游戏 运动 解剖结构动脉 骨骼 脑 胚胎 淋巴 肌肉 神经 静脉 奖杯 化学物质化合物 颜色 货币 数据库生物数据库 装置汽车引擎 武器 疾病 药物 民族 事件协约 选举 电影节 武装冲突 音乐节 太空任务 体育项目足球赛 国际长途汽车大奖赛 武术混合项目 奥林匹克 赛跑 女子网球联合会赛事 摔跤 太空航行年份 食物饮料 假日 语言 案件美国最高法院案件 交通方式飞机 汽车 火车 火箭 轮船 太空舱 空间站 航天飞行器 音乐流派 姓名名 奥林匹克成绩 组织乐团 广播电视台广播网络公司 广播台 电视台 公司航空公司 唱片公司 教育组织学院 学校 大学 政府机构 立法机关 军事单位 非营利性组织 政党 运动联赛美式橄榄球联赛 澳式足球联赛 高速赛车联赛 篮球联赛 棒球联赛 加拿大式橄榄球联赛 板球联赛 曲棍球联赛 高尔夫球联赛 冰球联赛 手球联赛 轮滑曲棍球联赛 长曲棍球联赛 武术混合联赛 摩托赛车联赛 马球联赛 英式橄榄球联赛 足球联赛 垒球联赛 速滑联赛 机车联赛 网球联赛 电子游戏联赛 排球联赛 运动队伍美式橄榄球队 篮球队 加拿大式橄榄球队 曲棍球队 足球俱乐部 摩托车队 公会 人物大使 建筑师 艺术家演员成人演员 喜剧演员 动漫画家 音乐人 作家 宇航员 运动员澳式足球运动员 羽毛球运动员 棒球运动员 篮球运动员 拳击手 板球手 自行车手 花样滑冰运动员 一级方程式赛车手 盖尔运动员 高尔夫球手 美式橄榄球运动员美国橄榄球运动员 冰球运动员 武术家 全美汽车比赛选手 大学生运动会运动员 英式橄榄球运动员 斯诺克运动员斯诺克冠军 足球运动员 网球运动员 摔跤手 英国皇室 牧师红衣主教 基督主教 圣徒 足球教练 罪犯 虚构人物动漫人物 记者 法官 军事人员 模特 君主 官员 哲学家 《花花公子》玩伴女郎 牌手 政客大法官 国会议员 州长 市长 议会议员 总统 首相 参议员 科学家 足球经理 地点建筑结构建筑历史建筑 医院 旅店 灯塔 博物馆 餐厅 超市 体育场 剧院 基础设施机场 火箭发射台 发电厂 道路交通桥梁公交中转系统铁路公路三岔路口隧道车站 公园 历史名胜 纪念碑 自然景点水体湖泊 流动水体运河河流山洞 环形山 山 山脉 峡谷 人类居住地行政区划 大陆 国家 岛屿 定居地城市 城镇 村庄 保护区 滑雪区 产酒区 世界文化遗产保护地 星球 编程语言 计划研究计划 蛋白质 单曲 斯诺克世界排名 种群古细菌 细菌 真核生物动物两栖类 蛛型类 鸟类 甲克类 鱼类 昆虫 哺乳类 软体类 爬行类 真菌 植物石松类 针叶类 。












