
挖掘社会化标注服务语义万维网络.pdf
45页上海交通大学 硕士学位论文 挖掘社会化标注服务语义万维网络 姓名:吴贤 申请学位级别:硕士 专业:计算机应用技术 指导教师:俞勇 20070101 上海交通大学硕士学位论文 III 挖掘社会化标注服务语义万维网络 摘 要 语义搜索是目前万维网研究的热点,目标是从大量的网络资源中找 到真正语义相关而不是仅仅是关键词匹配的内容为了实现语义搜索, 必 须用机器可以理解的元数据对网络资源进行标注传统的语义搜索研究 试图首先定义好的一个统一的本体,这个本体一般使用RDF或者OWL等 标准的标记语言表示;然后使用这个本体去标注网络上的各种资源和以 及资源之间的关系这种先建立本体,后添加标注的自上而下的标注方 法已经成功的应用在生物信息学,知识管理等领域但是它具有以下缺 点:1.当前的网络上的资源非常复杂,要为这样大规模异构的网络资源 建立一个共同的本体非常困难2.现在的网络是一个动态的环境,即使 构建出了这个这种全局统一的本体,它也很难适应网络上资源的快速变 化3.这种标注需要标注者具有一定的本体工程的背景知识,这对于普 通的网络用户来说是一个很高的门槛 社会化标注是目前新兴的一种标注方法,它允许普通的网络用户自 由选择标签来标注网络资源,不需要遵循一个公共的本体或者词汇表。
这种自下而上的标注方法被称为民间分类法,它克服了传统标注方法的 缺点:标签是自由选取的,不需要建立一个统一的本体;也不要求用户 有专业的背景知识,因此普通的网络用户也可以参与标注;同时民间分 类法可以随着用户的不断标注而进化,适应动态的网络环境但是社会 化标注由于缺乏统一的本体指导标注,标签会出现一次多义和多词一义 上海交通大学硕士学位论文 IV 的问题缺乏明确的语义信息,社会化标注很难被运用到语义搜索之 中 本文采用“浮出语义”的思路,研究社会化标注数据中用户,网络资 源和标签三者之间关系,建立了一个无指导学习的统计学模型,挖掘出 社会化标注语义信息通过得到的量化语义信息,可以解决社会化标注 中一词多义和多词一义的问题,明确社会化标注的语义信息 根据这些浮出的语义信息,本文提出了一系列社会标注数据上的语 义搜索模型,包括:个性化搜索,知识发现搜索等模型本文还实现了 一个名为deegle的智能搜索系统,在美味书签网的社会化标注数据 上实现个性化搜索,知识发现等功能,初步的评估表明deegle可以找到 语义相关但是通过关键字查找技术无法找到的网络资源,实现语义搜 索 关键字: 民间分类法,社会化标注,语义万维网络,浮出语义,个性化 搜索,美味书签网 上海交通大学硕士学位论文 V Exploring Social Annotations for the Semantic Web Abstract In order to obtain a machine understandable semantics for web resources, research on the Semantic Web tries to annotate web resources with concepts and relations from explicitly defined formal ontologies. This kind of formal annotation is usually done manually or semi-automatically. Although this top-down approach has been successfully used in applications like bioinformatics and knowledge management, they also have some disadvantages. Firstly, establishing ontology as a semantic backbone for a large number of distributed web resources is not easy. Different people or applications may have different views on what exists in these web resources and this leads to the difficulty of the establishment of a commitment to a common ontology. Secondly, even if the consensus of a common ontology can be achieved, it may not be able to catch the fast pace of change of the targeted web resources or the change of user vocabularies in their applications. Thirdly, using ontology to do manual annotation requires the annotator have some skill in ontology engineering which is a quite high requirement for normal web users. In this paper, we explore a complement approach that focuses on the social annotations of the web which are annotations manually made by 上海交通大学硕士学位论文 VI normal web users without a predefined formal ontology. Compared to the formal annotations, although social annotations are coarse-grained, informal and vague, they are also more accessible to more people and better reflect the web resources meaning from the users point of views during their actual usage of the web resources. Using a social bookmark service as an example, we show how emergent semantics can be statistically derived from the social annotations. Furthermore, we implement a demo application name deegle, and apply the derived emergent semantics to discover and search shared web bookmarks. The initial evaluation on our implementation shows that our method can effectively discover semantically related web bookmarks that current social bookmark service can not discover easily. Key Words: folksonomy, social annotations, semantic web, emergent semantics, personalized search 上海交通大学硕士学位论文 VIII 图片目录 图 2-1:从邻近节点交流中浮出语义 ............................................................................................. 7 图 2-2:共同书签服务-美味书签网 ............................................................................................. 9 图 2-3:公共相册-Flickr.............................................................................................................. 10 图 2-4:从社会化标注中浮出语义 ............................................................................................... 12 图 3-1:社会化标注概念空间 ....................................................................................................... 15 图 3-2:美味书签网数据集 ........................................................................................................... 18 图 3-3:不同迭代次数和不同维度时的似然值............................................................................ 18 图 3-4:标签‘todo’在概念空间上的向量分布.............................................................................. 20 图 3-5:标签‘cooking’在概念空间上的向量分布........................................................................ 21 图 3-6:标签‘xp’在概念空间上的向量分布................................................................................. 22 图 4-1:搜索系统体系结构 ........................................................................................................... 28 图 4-2:公共书签智能搜索服务演示系统 Deegle....................................................................... 29 图 4-3:知识发现搜索评估结果 ................................................................................................... 30 上海交通大学硕士学位论文 IX 表格目录 表 3-1:概念空间每个维度上的代表标签...................................。
