
中医药学语言系统研究综述.docx
10页中医药学语言系统研究综述 于彤 贾李蓉 刘静 杨硕 董燕 朱玲摘要:中医药学语言系统(TCMLS)是由中国中医科学院中医药信息研究所联合全国13家中医药科研单位和高等院校于2002年开始研制的大型术语系统它是在统一医学语言系统(UMLS)的基础上,根据中医药领域的语言特点及学科体系特色,采用本体(ontology)的设计理念和方法研制而成经过10余年的发展,TCMLS的技术体系日趋成熟,相关研究也越来越深入和系统化通过回顾TCMLS的发展历程,对相关研究文献进行综述,分析存在的问题和未来的发展方向关键词:中医药;语言系统;中医药学语言系统;本体中医药学经过几千年的发展,在临床实践和医学研究过程中产生了大量的概念和术语朝代更迭、语言变迁、地域差异、学科融合等多种因素的综合影响,使中医药学术语体系变得极为复杂针对中医药文本中大量存在的同物异名、同名异物等现象,中医药工作者往往无法做出正确判断通过建立一个完整、准确的语言系统,能够有效处理词义模糊、一词多义、一义多词等复杂的语言现象,可以解决长期困扰中医药信息化领域的术语使用不规范、术语组织不系统、信息检索效能低下等问题为此,中国中医科学院中医药信息研究所(以下简称“信息所”)联合全国13家中医药科研单位和高等院校,从2002年开始研制中医药学语言系统(traditional Chinese medicine languagesystem,TCMLS)。
本文回顾了TCMLS的发展历程,对相关研究文献进行综述,分析存在的问题和发展方向,为中医药学语言系统的研究、编制和使用人员提供参考1概述TCMLS原名为中医药一体化语言系统它是参照统一医学语言系统(LMLS),根据中医药领域的语言特点及学科体系特色,采用本体(ontology)的设计理念和方法研制而成的大型术语系统其目的在于利用现代信息技术,逐步建立规范化的中医药术语体系,从而支持中医药信息资源的合理组织和有效检索TCMLS主要包括语义网络(semanticnetwork)和基础词库两大部分其中,语义网络定义了中医药领域最基本的语义类型(semantictype)和语义关系(semantic relation),构成TCMLS的顶层框架基础词库则以概念为单位对中医药术语进行系统梳理和准确诠释,建立科学合理的概念分类体系以及概念之间的语义关系经过10余年的研发,TCMLS的技术体系日趋完善,建立了成熟的术语采集系统;组建了由300多名专家组成的术语加工团队;收录了约12万个概念、30万个术语和127万条语义关系,涵盖了中医药学科体系及与之相关的生物、化工、哲学等学科的专业术语,在文献检索、文本挖掘、术语集成等方面得到了实际应用。
2中医药学语言系统发展历程从20世纪90年代开始,本体技术在医学领域得到广泛应用,在知识获取、知识管理和信息检索等方面发挥了积极的作用UMLS是其中的一个代表性本体,它集合了来自100多个词表中的100多万个概念,用于提高计算机“理解”医学信息的能力,促进医学信息系统之间的互操作注意到UMLS在医学领域取得的成功,中医药工作者开始考虑将本体技术引入中医药领域,以中医药学科为主导且遵循中医药发展思路,研发基于本体的大型术语系统2002年,信息所联合全国13家单位正式启动了TCMLS的建设工作TCMLS从建立之初到目前为止,大体经历了3个阶段2.1建设初始阶段(2002—2005年)在建设初期,尹爱宁等提出了建立TCMLS的方法学,制定了TCMLS的技术标准Zhou XZ等则从信息技术角度提出了TCMLS的技术方案这些研究为TCMLS的建设给出了科学合理的顶层设计和路线图,为其长期健康发展奠定了基础在此阶段,各单位加工人员采用单机版的Protege软件分别加工各自的部分,再由信息所统一汇总这一加工模式促成了多单位数百人协同共建,但所加工的数据难免有所重复和矛盾2.2迅速成长阶段(2005—2009年)从2005年开始,基于万维网(Web)的加工平台成功部署并投入使用。
各单位加工人员得以在统一的网络平台上协同共建,免去了数据汇总的环节基于网络的协作方式显著提升了加工效率,使TCMLS的规模得以迅速增长但加工人员的主观性和专业水平差异等因素造成TCMLS的数据存在很多质量问题,因此数据质量保证和数据清洗技术成为研究重点之一在系统建设的同时,学者们也针对系统设计和架构等问题进行了反复研讨,提出了一系列调整和改进方案2.3稳定发展阶段(2009—2014年)经过上一阶段的大规模数据加工,TCMLS已收集了现代中医药文献中出现的大部分概念和术语,其数据增量开始逐年放缓在2009年,信息所与维思比科技(北京)有限公司合作,在成熟的商业软件的基础上,搭建了更为稳定的网络加工平台在完成平台改造和数据清洗等工作之后,TCMLS系统的数据质量得以显著提升随着TCMLS的发展成熟,其在文献检索、文本挖掘、术语集成等诸多方面的应用研究渐趋活跃TCMLS的设计理念和成功经验,也在中医古籍语言系统、传统针灸知识体系语义网络等系统的建设中得以推广3中医药学语言系统相关研究中医药术语系统具有鲜明的语言、文化和学科特色,没有现成的解决方案可以照搬在TCMLS的建设中,从中医药特点和需求出发,开展了许多创新性的研究工作。
下面从方法学研究、标准化研究、分析与评价研究以及应用研究等方面,对相关文献进行综合分析3.1方法学研究学者们针对TCMLS的建设,开展了系统性的方法学研究尹爱宁等提出“复杂度约定与限定方法”“多学科交融与碰撞方法”以及“本体论与诠释论关联应用方法”等3种方法,为TCMLS的设计和构建提供了新思路和新方法尹爱宁等还完成了TCMLS的顶层设计,包括概念分类框架、语义类型以及语义关系等内容方青、曾召、谢琪也针对TCMLS的设计理念、设计原则、系统架构和构建方法开展了研究和讨论 学者们还针对TCMLS所涉及的信息科学方法与技术开展了研究Zhou XZ等、方青提出了TCMLS的技术方案,包括系统架构、数据存储、概念编码方式、编辑工具、查询服务等内容汤萌芽研发了基于Web的TCMLS加工平台,支持多单位大量人员的协同加工Mao YX等针对TCMLS的管理和维护开展研究,提出了基于子本体模型的本体演化方法,以支持大型本体的重用崔蒙等研究如何通过自动化方法逐步提升TCMLS的数据质量,提出了基于语义网络的数据清洗策略3.2标准化研究为协调多机构大量人员的编审工作,需要建立科学合理的技术标准早在2003年,尹爱宁等就为TCMLS制定了包括收词原则、收词标准、一级类目、语义类型、语义关系在内的技术标准。
这项标准在系统建立过程中发挥了重要作用但其适用范围仅限于TCMLS,其他中医药本体均不完全符合这套标准,由此造成本体系统之间的异构性可见,为使一套技术规范具有广泛的影响力和约束力,需要在权威的标准化组织的框架下开展工作鉴于此,信息所于2008年,代表我国向国际标准化组织(ISO)健康信息学技术委员会(TC 215)提出了技术规范“Health informatics Semanticnetworkframework of traditional Chinesemedicine language system”的项目提案,致力于在ISO框架下推进TCMLS语义网络框架的国际标准化工作该项目于2012年得到成功立项,于2013年3月形成草案并进入评审和投票环节,并于2014正式发布它在多术语系统融合、术语服务以及术语系统互操作等领域将发挥基础性作用3.3分析与评价研究学者们针对TCMLS各方面进行分析与评价研究,以期发现其中存在的问题,促进TCMLS的发展与完善例如,贾李蓉等对TCMLS中语义类型的使用情况进行分析,找出不合理的语义类型并建议删去杨阳等、贾李蓉、曹莉等针对TCMLS语义关系进行了深入的分析和探讨。
贾李蓉还建议对TCMLS语义关系进行调整,如增加“开窍于……”“与……相表里”等中医特有的语义关系李莎莎指出TCMLS分类框架存在问题,提出了分类指导原则以及改进的分类框架,使TCMLS词库分类更加合理贾李蓉等从术语的收词范围、术语完整性等方面对基础词库进行了分析,提出了改进意见2012年,贾李蓉等针对TCMLS开展了较为全面、系统的评价研究结果表明,该系统学科分类非常合理,语义分类基本合理,系统完整性较好,但语义关联的准确性较差可见,TCMLS设计合理且具有相当规模,适合开展应用研究,其数据质量问题可在实际使用中逐步完善另外,谢琪、曾召等先后对TCMLS与UMLS进行比较分析结果表明,TCMLS虽然借鉴了UMLS的设计方法,但其结构和内容均有鲜明的中医药特色,从而充分肯定了TCMLS的独特性和创造性3.4应用研究TCMLS作为中医药学规模最大的本体,在中医药信息化的发展中发挥着重要的作用如何利用如此大规模的术语资源成为现阶段研究的重点问题TCMLS在文献检索、文本语义关系发现、术语集成等方面已经取得了实际应用,初步验证了TCMLS的实用性3.4.1文献检索 TCMLS能解决中医药学中同一概念具有不同表达形式、同一种表达形式表达意思不同的问题,从而改进文献检索的效果。
贾李蓉等研发了基于TCMLS的中医药文献检索服务平台,它能提供术语检索、文献检索及互联网资源检索等服务该平台利用TCMLS的术语信息实现了同义检索、相关概念检索等高级功能,提升了检索结果的全面性和准确性3.4.2文本语义关系发现 在中医药文献中蕴含着大量的关联性知识,体现为概念之间的关联关系若能实现从文献中自动抽取语义关系的技术,则可大幅提升知识获取的效率陶金火等、张小刚、于彤等开展了基于TCMLS从文本中发现语义关系的一系列尝试挖掘出来的语义关系可与TCMLS的语义关系相结合,得到更为全面、准确的语义关系,从而扩充TCMLS的数据3.4.3术语集成 术语系统的应用实践表明,单个术语系统往往难以满足科研或临床应用的需求,多术语系统的融合已成为实现术语系统实用化的先决条件之一鉴于此,于彤等采用本体技术研发中医药术语集成系统,将TCMLS、中医古籍语言系统等多个术语系统集成在同一个平台中,通过Web提供一站式的术语信息检索与访问服务,支持语言学家对语义网络进行归纳、浏览和比较研究4中医药学语言系统发展方向TCMLS已趋于成熟并取得成功应用,但仍存在许多值得研究的问题例如,随着TCMLS系统规模的扩大,如何对本体进行有效管理?如何通过自动化方法提升TCMLS的数据质量,逐步实现数据规范化?TCMLS等中医药本体皆自成体系、互不兼容,如何实现各系统之间的关联、协调与融合?现就TCMLS加工及应用2个方面讨论其研究思路及发展方向。
4.1大规模本体工程协作TCMLS是由全国多家单位、数百名领域专家合作加工的大型本体系统,如何支持多机构的大规模协作始终是一个重要的技术问题TCMLS建设之初,使用Protege进行加工Protege是由斯坦福大学研制的一款本体编辑软件,具有开源免费、安装方便、用户界面友好等优点,因此得到了广泛使用但它是一款单机版的软件,需要各单位人员分别加工,再将数据统一汇总,这一加工方式导致数据合并时出现大量重复和不匹配的问题随着系统规模逐渐扩大,这个问题变得越来越严重2005年,浙江大学研发了基于Web的TCMLS加工工具,使各单位人员可以通过网络进行实时同步加工,从而提升了加工效率和数据的一致性此后,网络化加工工具经过多次升级,与之配套的审校机制也不断完善,形成了相对成熟的虚拟协作模式 在未来的研究中,可将单机版Protege与Web平台相结合,进一步优化大规模本体工程的协作模式未来可实现TCMLS的模块化,使用Pro。
