
中国知识图谱行业分析报告.docx
26页中国知识图谱行业分析报告 知识图谱丨分析报告全文字数:10478字精读时间:27分钟核心摘要:人工智能本质是解决生产力升级的问题,人类生产力可以归类为知识生产力和劳动生产力,人工智能走入产业后,可以分为感知智能、认知智能和行为智能,后两者更与生产力相对应,NLP和知识图谱是发展认知智能的基础原始数据通过知识抽取或数据整合的方式转换为三元组形式,然后三元组数据再经过实体对齐,加入数据模型,形成标准的知识表示,过程中如产生新的关系组合,通过知识推理形成新的知识形态,与原有知识共同经过质量评估,完成知识融合,最终形成完整形态上的知识图谱在面对数据多样、复杂,孤岛化,且单一数据价值不高的应用场景时,存在关系深度搜索、规范业务流程、规则和经验性预测等需求,使用知识图谱解决方案将带来最佳的应用价值2019年涵盖大数据分析预测、领域知识图谱及NLP应用的大数据智能市场规模约为106.6亿元,预计2023年将突破300亿元,年复合增长率为30.8%,其中2019年市场中以金融领域和公安领域应用份额占比最大随着整体市场数据基础的完善和需求唤醒,大数据智能领域规模持续走高,但在行业可落地性和理性建设的限制下,预计市场增速将呈现下降趋势,期间咨询性需求将会大量出现,从整体发展来看增速处于良性区间,对真正有价值的公司和产品有正向意义。
序言认知智能是探寻人类学习、理解、产生决策的生物能力,并将之赋予机器的技术统称,而实现机器认知,需要突破感知泛在、意识建立、低维到高维的主观概念形成、推理决策能力唤醒,以及多模态知识持续学习等能力瓶颈,其产生的价值也将使人工智能更加贴近人类的思维方式,而知识图谱作为人类意识和概念的承载体是现阶段认知智能主要的发展方向之一2019年是知识图谱相关技术飞速发展的一年,世界顶级NLP大会ACL一次性收录了超30篇高质量知识图谱类论文,其中对于关系向量和图神经网络的论述将对知识图谱中关系补全、推理决策和认知计算带来长足发展在国内建设应用方面,工信部发文明确指出,2020年将围绕工业大数据融合应用、民生大数据创新应用、大数据关键技术先导应用、大数据管理能力提升4大类7个细分方向着重发展,而知识图谱作为集大数据和人工智能于一身的综合技术,也将成为重点关注领域——艾瑞咨询研究院人工智能技术分类和趋势三种流派的融合应用,使人工智能向想象更进一步人工智能是对一类能够实现机器模拟智慧生命某些特征的技术统称,从学术上可以分为,对人类已有知识进行组织编辑的符号主义、通过数学理论公式推导聚类和预测问题的连接主义,以及利用机器模仿生物活体行为的行为主义三个流派,分别以知识工程、机器学习和仿生机器人为时代代表,而知识图谱就是新一代知识工程的具体体现。
2012年,深度学习在计算机视觉和智能语音上产生重大突破,打开了人工智能商业化的大门,使得连接主义一度成为人工智能的代名词,但随着应用落地成为主旋律,缺位行业逻辑和理论概念的连接主义,往往找不到最佳的应用场景而止步于浅层尝试,在此背景下,人工智能技术应当走向融合,符号主义需要连接主义提供强大的计算支撑,连接主义需要符号主义的逻辑指导,二者又共同作用于行为主义,充当机器人的大脑和“记忆宫殿”,在多种技术综合利用下的垂直领域智能解决方案才是当今最符合市场期待的方向人工智能技术应用本质认知智能使AI触及生产核心,知识图谱决定认知智能的起点人工智能与互联网或5G等技术本质上存在差别,后者解决的是信息的发出、传递、接收与反馈的闭环问题,而人工智能的本质是进行生产力升级,因此评判人工智能使用的是否有价值,要看其技术应用是否贴近生产核心人类生产力可以归类为知识生产力和劳动生产力,人工智能走入产业后,可以分为感知智能、认知智能和行为智能,后两者更与生产力相对应以计算机视觉、语音识别为代表的感知智能应用深度学习,在算力与数据的支撑下突破了工业红线,实现了机器对于自然界具象事物的判断与识别,但仅仅如此并没有触及核心生产环节,所以也就限制了其商业应用半径。
当人们使用机器能识别更多事物的时候,自然而然的引发了,对事物背后的事理,理解、分析和决策的深层次需求,认知智能呼之欲出认知智能核心解决的问题是对人类文明抽象概念的识别与联想,通过自然语言处理(NLP)技术对文字内容在语义上进行初步认知和自动抓取,经由知识图谱对概念间的关系属性进行联结、转换,从而对人类社会生产、生活行为进行描绘,实现业务规范梳理、生产流程可视化、人际关系挖掘等代表应用,这与注重经验、逻辑和方法论累积的知识生产力产生了直接对应,而与劳动生产力相对应的行为智能同样需要知识的指导,所以认知智能的发展才是人工智能回归本质的表征,而搭建知识图谱是认知智能可以参与生产的基础锚点知识图谱概念定义是一种描绘实体间关系的语义网络,是认知智能的必要基础知识图谱是一种描绘实体之间关系的语义网络,是人工智能重要研究领域——知识工程的主要表现形式之一知识图谱通过RDF(三元组),既“实体 x 关系 x 另一实体”或“实体 x 属性 x 属性值”集合的形式,以人类对世界认知的角度,阐述世间万物之间的关系,通过NLP技术、图计算、知识表示学习等手段,将非线性世界中的知识信息结构化,以便机器计算、存储和查询,起到赋予机器人类认知的效果,是人工智能技术走向认知的必要基础。
知识图谱发展历程三个时期五个阶段奠定了现代知识图谱的雏形知识图谱发展至今可以总结为三个时期和五个阶段1950-1977年是启蒙期,包含了基础概念阶段和专家系统阶段的开端,这一时期文献索引的符号逻辑被提出并且应用;1977-2012年是知识图谱不断演变的成长期,包含了大部分专家系统阶段和Web 1.0和2.0阶段,在此期间出现了很多如WordNet、Cyc、Hownet等大规模的人工知识库,知识工程成为了人工智能重要的研究领域,2012年,Google正式提出的知识图谱概念,开启了现代知识图谱的序章;2012年至今是知识图谱的发展期,中国企业开始入局,以BAT为代表的科技公司依托自身业务,在搜索引擎、电商、医疗等领域开始应用知识图谱技术,解决办法服务商们也从大数据赛道中脱颖而出,将知识图谱技术拓展到安防、金融、教育等更多领域,让AI跳出感知智能的商业局限,向解决各产业生产环节中的核心痛点更进一步知识图谱结构建设本体模型和实体数据库是知识图谱结构的核心知识图谱从逻辑上可以分为概念层和数据层,数据层指以三元组为表现形式的客观事实集合,而概念层是它的“上层建筑”,是经过积累沉淀的知识集合建设中以本体模型和实体数据库为核心,根据二者的建设顺序又分为先定义本体和数据规范,再抽取数据的“自顶向下型”和先抽取实体数据,再逐层构建本体的“自底向上型”两种模式,前者适用于场景较为固定,存在可量化行业逻辑的领域,如金融、医疗、法律等;后者适用于新拓展的,有大量数据积累,行业逻辑难以直接展现的领域。
总体而言,搭建知识图谱从数据源开始,经历了知识抽取、知识融合、知识加工等步骤原始的数据通过知识抽取或数据整合的方式转换为三元组形式,然后三元组数据再经过实体对齐,加入数据模型,形成标准的知识表示,过程中如产生新的关系组合,通过知识推理形成新的知识形态,与原有知识共同经过质量评估,完成知识融合,最终形成完整形态上的知识图谱多源异构的数据来源结构化和半结构化数据的抽取是搭建基础,非结构化数据抽取的发展将拓宽知识图谱的应用边际知识抽取是搭建知识图谱过程中至关重要的一环,也是目前评判知识图谱优劣性的标准之一知识抽取所处理的信息往往是明确的事实性信息,信息源通常分为已有关联数据库的结构化数据、如表格和列表类的半结构化数据,以及如TXT格式的文本类非结构化数据,前二者可以通过D2R(DRF格式转换器)、包装器(格式解析工具)等工具完成处理,而文本类非结构化数据需要通过自然语言处理的相关技术进行知识抽取,所有数据最终都要通过处理转化为标准数据供图谱使用随着生物识别和物体识别等AI技术的应用,指纹库、人脸库、车辆库等数据库逐步建立,对于非结构化数据的知识抽取将不再局限于文本,所搭建的知识图谱维度将会更丰富,应用场景更加垂直下沉。
大规模应用落地的保障——知识抽取实体和关系抽取是核心,事件抽取是知识更新的重要手段对信息源的知识抽取主要按照自然语义中的主谓宾语法进行抽取,分为实体抽取、关系抽取、属性抽取和事件抽取等实体抽取指在信息源中识别出特定的元素标签,并与实体库中的标签相链接,是信息抽取中最基础的部分;关系抽取意在找到信息源中实体间的关系,可分为全局抽取和局部抽取,全局抽取是通过语料库对信息源中的所有关系对进行抽取,而局部抽取则是判断一句话中实体的关系类型,目前可以通过特征标注的有监督学习和借助外部知识库进行标注的远程监督学习实现,后者相比前者节省人工标注成本,但准确率略低;属性抽取可以看作实体和其属性值之间的关系,属于关系抽取的一种类型;事件抽取是将信息源中指定的事件信息抽取,并结构化地表现出来,包括事件的时间、地点、人物、原因、结果等,通常使用将事件划分多个分类阶段的pipeline方法和利用神经网络的深度学习方法,事件抽取拥有时间维度,可以与时俱进地迭代学习,是知识图谱知识更新的重要手段快速工程化搭建的利器——知识融合通过本体对齐和实体对齐实现知识库联结合并,形成更加统一、稠密的新型知识图谱知识融合是指,从概念层和数据层两方面,通过知识库的对齐、关联、合并等方式,将多个知识图谱或信息源中的本体与实体进行链接,形成一个更加统一、稠密的新型知识图谱,是实现知识共享的重要方法。
概念层的知识融合主要表现为本体对齐,是指确定概念、关系、属性等本体之间映射关系的过程,一般通过机器学习算法对本体间的相似度进行计算来实现,根据自然语言类型,可分为单语言对齐和跨语言对齐,其中跨语言对齐是实现知识国际交流的重要方式数据层的知识融合主要表现为共指消解和实体对齐,前者意在将同一信息源中同一实体的不同标签统一,实现消歧的目的;后者是将不同信息源中同一实体进行统一,使信息源之间产生联结知识融合的使用能够大量应用人类已有知识储备,节省成本,是快速搭建知识图谱的必要手段,也是现代知识图谱应用中重要的研究领域由数据向知识转化的秘诀——知识加工本体构建、知识推理和质量评估使RDF数据向“知识”跃迁经过知识抽取和知识融合,实体和本体从信息源中被识别、抽取,并且消岐、统一,此时得到的关联数据是对客观事实的基本表达,但客观事实还不是知识图谱需要的知识体系,想要获得结构化的知识网络,还需要经过本体构建、知识推理和质量评估等知识加工过程本体构建是知识图谱内实体连通的语义基础,以“点线面”组成的网状结构为表现形式,“点”代表不同实体,“线”代表实体间的关系,“面”既是知识网络本体可以通过人工总结专家经验进行手动编程,也可以由机器学习驱动进行自动构建,本体构建的模型深度和广度,决定了知识图谱的应用价值;知识推理是通过对已有实体间关系的计算,找到新关联,从而丰富新知识的过程,也是知识图谱更新的重要手段;质量评估是知识加工最后的“质检”环节,确保经本体构建和知识推理得到的知识是合理,且符合知识图谱应用目的,根据所建设知识图谱的类型和具体用途,质量评估的标注有所不同。
知识图谱的载体——知识存储关系型数据库和图存储是现代知识图谱较为常见的存储方式知识存储是将知识图谱的概念层和数据层以计算机可识别的数据格式进行保存的物理形式,是知识的现实容器知识存储按照存储结构可以分为表格形式和图形式,常见的表格存储有三元组表、类型表和关系型数据库,前二者难于大规模建设,且查询、维护、删改等操作成本较高,不适用于现代知识图谱应。












