好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

搜狗知识图谱方案.pptx

38页
  • 卖家[上传人]:平***
  • 文档编号:26950489
  • 上传时间:2018-01-04
  • 文档格式:PPTX
  • 文档大小:5.38MB
  • / 38 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 搜狗搜索面向知识图谱的搜索技术张坤 网页搜索的技术发展自然语言文本表示自然语言文本表示普通网页 音频 图片 视频索引自然语言自然语言查询查询排序网页结果网页结果检索 向量模型 互联网的图分析: Anchor和 Pagerank 互联网的商业价值和社会价值 排序函数的构造 (Learning to Rank)搜索结构的变化自然语言文本表示自然语言文本表示普通网页 音频 图片 视频索引自然语言自然语言查询查询排序网页结果网页结果检索自然语言文本表示自然语言文本表示普通网页 音频 图片 视频自然语言自然语言查询查询 丰富展现丰富展现查询翻译 结果翻译推理预测统计推荐复杂查询信息翻译知识库半结构化信息抽取半结构化数据结构化数据文本数据 实体对齐推理补充数据异构数据整合重要度计算实体抽取属性抽取 属性值决策 关系建立知立方数据本体生成系统索引生成检索系统实体识别本体库Pattern挖掘 标签消岐SPARQL查询语句排序推理 推荐 统计Query整体架构图展现检索系统索引生成知立方数据库构建• 本体构建– 各类型实体挖掘、属性名称挖掘– 编辑系统• 实例构建– 纯文本属性、实体抽取– 半结构化数据抽取• 异构数据整合– 实体对齐、属性值决策、关系建立• 实体重要度计算• 推理完善数据国际上流行的知识库Wolframalpha•计 算知 识 引擎,而不是搜索引擎•10万 亿 条的信息 Freebase•6800万 实 体•10亿 的关系DBpedia•Wikipedia 结 构化•364万个条目(本体)Yago•6.4亿 条 数据本体建立 —— 实体、属性抽取半 结 构化网 页属性名 计算和聚 类属性 +属性值 (候 选 )实 体 +属性查询 日志刘德 华 年 龄张 学友年 龄 ($人 ) 年 龄查询日志分析本体建立 —— 本体编辑13信息抽取系统建立14信息抽取系统建立数据管理和自 动抽 样 系 统网 页库可 视 化 UI系 统模板 库模板 监 控系 统结 构化数据抓取器文本挖掘步步惊心 新西游 记电视剧主 题 曲插曲片尾曲歌曲 歌手不同数据源的整合实体对齐实例对齐过程Step 0 Step 1 Step 2 Step 3 Step 4bdcea a bd ec d ea b c d eStep 4 Step 3 Step 2 Step 1 Step 0agglomerative(AGNES)divisive(DIANA)属性值决策与关系建立• 属性值的决策:• 关系建立与补齐出生日期 身高实体的重要性• 实体搜索李娜实体名称知立方实体库按重要度排序0.90.80.70.61,初始化:根据 实 体的属性及实 体 间 关系初始化 实 体的重要度2,迭代:重要度在 实 体关系 图中 传递Entity-rank vs Page-rank推理补充数据与验证• 从原始三元组数据,推理生成新的数据,建立更多的实体间的链接关系,增加知识图的边的密度,例如:•••莫言的作品:红高粱家族生死疲劳白棉花推理作者 =>作品• 人物关系• 配偶 +男性 =>丈夫,配偶 +女性 =>妻子;• 电影演员• 电影的主演 =>演员出演了这部电影半结构化信息抽取半结构化数据结构化数据文本数据 实体对齐推理补充数据异构数据整合重要度计算实体抽取属性抽取 属性值决策 关系建立知立方数据本体生成系统索引生成检索系统实体识别本体库Pattern挖掘 标签消岐SPARQL查询语句排序推理 推荐 统计Query整体架构图展现检索系统索引生成查询语义理解用 户输 入查询词 预处 理语义 分析查询语 句生成查询纠错 分 词基于 CFG的句法分析基于 词 典和 CRF的分 词 和 实 体 识别基于模式挖掘的属性 识别基于模版匹配的SPARQL生成基于需求重要度的SPARQL排序知识库通用词典属性模式实体别名基于规则的挖掘策略实体的识别和归一网 页对齐百科Sogou点 击日志知 识库实 体实 体别 名自然 语 言 查询基于字典的序列 标 注模型CRF实 体 标记实 体 归 一美国 罗 恩尼 女 抢 匪美国 罗 恩尼 女 抢 匪 美国 乔 阿吉姆 ·罗 恩尼侠盗魅影 属性的模式挖掘互 联 网 问题 答案 库知 识库打上 标记 后的问题 答案属性的表达模式去噪频 繁模式挖掘标记实 体和属性值1.无 间 道 谁 演的 ? 刘德 华2.谁 是无 间 道的主演 ? 刘德 华3.让 子 弹飞谁 演的 ? 葛 优无 间 道 主演 刘德 华 让 子 弹飞 主演 葛 优 主演的 Pattern1.谁 演的2.谁 是 的主演1.谁 演的 ?2.谁 是 的主演 ?3.谁 演的 ?基于 CFG的句法分析实体推荐技术LDA实体过滤半结构化信息抽取半结构化数据结构化数据文本数据 实体对齐推理补充数据异构数据整合重要度计算实体抽取属性抽取 属性值决策 关系建立知立方数据本体生成系统索引生成检索系统实体识别本体库Pattern挖掘 标签消岐SPARQL查询语句排序推理 推荐 统计Query整体架构图展现检索系统索引生成后台检索系统SPARQL解析正排索引推理展现层倒排索引SPARQL支持按属性筛选索引层 检索层 计算层推荐预测统计排序本体知立方数据图检索系统半结构化信息抽取半结构化数据结构化数据文本数据 实体对齐推理补充数据异构数据整合重要度计算实体抽取属性抽取 属性值决策 关系建立知立方数据本体生成系统索引生成检索系统实体识别本体库Pattern挖掘 标签消岐SPARQL查询语句排序推理 推荐 统计Query整体架构图展现检索系统索引生成知立方信息展现• 提供知识库信息的展示载体– 将知识库中的信息转化为用户可消费的内容• 提供更加丰富的富文本信息– 提供文本之外的图片、列表、动画等更加丰富的展现形式• 提供更友好的用户交互体验– 更多的交互元素,如图片浏览,点击试听等– 能够引导用户在更短的时间获取更多的信息单实体展现及交互重名、系列实体展现及交互问答展现样式增加筛选条件谢谢!Email: zhangkun@sogou-。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.