
基于本体论体系的中医药一体化语言系统中国中医研究.ppt
16页基于本体论体系的中医药一体化语言系统中国中医研究Stillwatersrundeep.流静水深流静水深,人静心深人静心深Wherethereislife,thereishope有生命必有希望有生命必有希望一、研究目的与意义一、研究目的与意义: 现状:中医药学科历经千年,产生了大量的概概念与术语念与术语,多种语义词汇差异,阻碍了中医药数字化的发展 目的与意义目的与意义: 以中医药学科体系为核心,遵循中医药学科理论体系,建立中国第一个计算机化的、可持续发展的、包含中医药及其相关学科语言的中医药学语言集成系统,形成中医药学的语言系统平台 本系统的建成将为中医药学的标准化工作、为中医药学数据的文本挖掘、为中医药学多源数据库歧义词检索及语义检索奠定基础 二、研究思路:二、研究思路:•以中医药学科的整体系统为基础;•利用本体论的方法;•借鉴(UMLS)美国一体化语言系统的思路;•根据中医药语言学特点,建立大型语料数据 库,并设计语义类型与语义关联关系•将语言学与中医药学知识体系有机的结合在一起,建立中医药一体化语言系统三、方法:从四方面入手研究三、方法:从四方面入手研究 中医药中医药一体化一体化语言语言中中医医药药一一体体化化语语言言系系统统系统系统中医药为核心中医药为核心以中医药为核心,其他学科叠加:中医药信息化以中医药为核心,其他学科叠加:中医药信息化过程中使用与利用的所有相关的学科与概念、术语过程中使用与利用的所有相关的学科与概念、术语中医药语言结构体系一体化:建立、中医药语言结构体系一体化:建立、融入融入中医药术语表达方式一体化:词条属性中医药术语表达方式一体化:词条属性中医药概念定义与释义形式一体化:回答是中医药概念定义与释义形式一体化:回答是 什什 么、关联关系是什么、学科中的位置是什么么、关联关系是什么、学科中的位置是什么相同概念词一体化:无论文字、图表、正名与相同概念词一体化:无论文字、图表、正名与 异名、正确与误用异名、正确与误用海量语言术语集成为基础:制定收词范围、顺序海量语言术语集成为基础:制定收词范围、顺序规范化网状结构解释概念的语义归类与关联:规范化网状结构解释概念的语义归类与关联:多水平控制:词汇、形态、语义、语用;多水平控制:词汇、形态、语义、语用;本体论与诠释论相结合本体论与诠释论相结合设计分层结构与网状立体结构;设计分层结构与网状立体结构;符合语言体系,限定与约定复杂度;符合语言体系,限定与约定复杂度;采用归纳定性,将同类事物合并;采用归纳定性,将同类事物合并;参照参照UMLS的整体结构,保持兼容性与包容性;的整体结构,保持兼容性与包容性;系统保持灵活性与可扩展性系统保持灵活性与可扩展性 ;;Protégé程序程序四、研究内容:四、研究内容:设计词条设计词条属性结构属性结构总体系统总体系统设计设计概念词概念词属性定义属性定义四种可控四种可控词表的词表的结构比较结构比较中医药概念的中医药概念的语义类型设计语义类型设计((105种)种)建立中医药建立中医药一级分类体系一级分类体系((13))中医药语义的中医药语义的关联关系关联关系((58种)种)事件与物质事件与物质二大类的结构二大类的结构展开展开以中医五、六版以中医五、六版教材的学科分类教材的学科分类为依据为依据立体表达关系立体表达关系等级关系等级关系相关关系(时相关关系(时间、空间、概间、空间、概念、功能、物念、功能、物理)理)完成概念词完成概念词属性设计属性设计语语料料库库((收收词词40万万))语用关系语用关系((5万)万)中中医医学学科科结结构构标准标准词典词典教材教材临床术语临床术语其他其他定义实现定义实现语义表达语义表达中医药一体化中医药一体化语言系统语言系统 中心中心中药组中药组方剂组方剂组中中医医基基础础组组疾病证候组疾病证候组项目专题组项目专题组全面管理全面管理质量审核组质量审核组办公室办公室会务会务整体设计组整体设计组诊断诊断治则治法组治则治法组上上海海中中医医药药大大学学南南京京中中医医药药大大学学陕陕西西中中医医药药研研究究 院院成成都都中中医医药药大大学学福福建建中中医医学学院院湖湖北北中中医医学学院院江江西西中中医医研研究究 院院上上海海中中医医文文献献馆馆北北京京中中医医药药大大学学河河南南中中医医药药研研究究院院 广广州州中中医医药药大大学学初初审审复复审审总总审审五、组织机构与管理五、组织机构与管理任务任务分配分配加加工工编编辑辑全国十三家大学、科研单位(全国十三家大学、科研单位(100))六、研究成果:六、研究成果:•建立了六个专题的中医药一体化语言系统(中医基础、治则治法、诊断、疾病、方剂、中药) ;•进行了本系统结构设计;•建立了实现本系统的技术标准与操作手册;•完成了三个专题的结构设计;中医基础部分已召开了专家论证会;实现结构与概念关联:中医基础成果语料库收词:61.09万条。
加工词条:50074条方剂27987条中药12610条中医基础3739条治法诊法2378条疾病2524条七、应用与推广:语言集成与规范语言集成与规范建立数据建立数据 库基础语言平台库基础语言平台检索查询应用工具检索查询应用工具数据挖掘与知识再现支撑条件数据挖掘与知识再现支撑条件小结:•( 1)首次提出中医药学一体化语言系统设计思想与原则;•(2)首次提出中医药学一体化语言系统的选词原则与词条属性定义;•(3)首次提出中医药学一体化语言系统的语义类型与语义关联设计•(4)解决了海量数据的收集与编辑加工 本项研究在国内领域属于先进技术;成果将广泛应用于中医药标准化建设、中医药数据利用等领域中,具有良好的应用前景 谢谢!中医药中医药语言语言现状现状(现代文献收词已超过60万条)多样性(同名异物)多样性(同名异物) (异物同名)(异物同名)无标准化(缺少国标)无标准化(缺少国标)无统一机读词库无统一机读词库缺少系统结构缺少系统结构借鉴美国借鉴美国UMLS((医学一体化语言系统医学一体化语言系统))•医学文献计算机化60年•1986年起步开始研制医学语言一体化。
•超级叙词表•语义网络•情报源图谱•专家词典•2002年(第13版)收录了60多个生物医学受控词表中776940个概念共210万个词本体论本体论•哲学上的概念,用于描述事物的本质•在近一、二十年来,本体论已被计算机领域所采用,用于知识表达、知识共享•本体论是一种回答:存在是什么?不同体系的融入不同体系的融入。












