
基于本体论知识源模型的神经网络数据挖掘技术.pdf
5页计算机科学2 0 0 2 V 0 1 .2 9 N 9 - 8基于本体论知识源模型的神经网络数据挖掘技术N e u r a lN e t w o r kD a t aM i n i n gT e c h n i q u eB a s e do nK n o w l e d g eS o u r c eM o d e li nO n t o l o g i e s马杰刘月田胡海峰马玉书 ( 石油大学( 北京) 人工智能研究中心北京1 0 2 2 0 0 )A b s t r a c tT h i sp a p e rp r e s e n t sd e s i g na n di m p l e m e n t a t i o no fn e u r a ln e t w o r kd a t am i n i n gu s i n gk n o w l e d g es o u r c em o d e li nO n t o l o g i e s .K e y w o r d sN e u r a ln e t w o r k ,D a t am i n i n g ,O n t o l o g i e s ,K n o w l e d g es o u r c em o d e l ,O M T1 本体论与数据挖掘本体( O n t o l o g y ) 是一个哲学概念或术语,指客 观存在的一个系统的解释或说明,它关心客观世界的抽象本质。
本体论( O n t o l o g i e s ) 在哲学领域代表一种对客观世界“存在”( E x i s t e n c e ) 的系统化的描述规范或概念模型在人工智能领域,G r u b e rR 将本体定义为概念模型的规范说明或共享概念模型的形式化规范说明[ 1 ’2 ] 这里,概念模型表示针对客观世界的~些现象,可以通过某种途径抽象出相关概念而得到知识模型通常,本体可通过概念之间的关系( 如面向对象方法学中的继承机制) 来表达客观世晃是由各种领域求解问题组成的,当领域知识用描述性形式表达时,可被表达的对象集合称为本体这样,本体就表达了一个给定领域的通用观点其要点是用~种清晰的方法把领域知识分解成为一组知识元以及它们之间的相互关系,这些知识元和相互关系组合在一起就构成了该领域的本体数据挖掘是指从大型数据库、数据仓库或其他 信息系统的海量数据中提取有用的信息,找出数据之间的相互关联,发现隐藏在其中有意义的模式、规则和知识,为解决各种复杂问题提供决策支持的一 种技术数据挖掘实现领域问题求解的关键技术在于采用合理、有效的搜索算法以构造有效的数据挖掘/知识发现机制其主要方法有关联分析、聚类分析、决策树、粗集、知识处理、神经网络、遗传算法和模糊逻辑等。
由于客观世界中存在大量复杂的和不确定的因素,数据挖掘处理的对象具有数据庞大、多噪音,数据存在不确定性、不精确性、不完全性、模糊性和稀疏性等特点对这些数据不能准确地用精确的数学方法或建立数学模型来求解和处理,往往要靠专家的经验和知识来分析和解释,使数据挖掘在 算法( 挖掘规则评价) 上存在高计算复杂性实践表明,单靠一两种算法往往不能有效解决数据挖掘问题,人们寄希望于多融模型与算法的联合求解和系·】】4 ·统的综合集成[ 8 ] 同时,基于面向对象建模技术O M T ( O b j e c tM o d e l i n gT e c h n i q u e ) [ 5 3 的新一代软件工程开发规范要求对领域问题求解中的背景描述,模型的集成、重用、选择等进行统一描述与规范,而采用本体论领域问题求解方法正是解决上述问题的一种有效的途径2 .基于本体论知识源模型的神经网络数据挖 掘工具的设计思想在复杂应用中,往往会综合采用神经网络、知识处理、模糊逻辑、常规数学算法( 如关联分析) 等各种解题模型来进行问题求解因此在神经网络数据挖掘工具的建模中,我们运用本体论和面向对象方法 学O O M 中的抽象类概念将各种解题模型统一为一种知识源模型。
在此基础上,完成了包括神经网络模型和其他传统模型在内的多个模型的建模工作,并实现了系统的集成在领域问题求解中,基于本体论的问题求解方法的步骤是:①利用静态本体描述与领域相关的背 景知识;②利用O O M 实现知识源模型的同构化;⑨采用聚集方法实现知识源复合模型;④将语境、功能和性能引入知识源本体实现综合集成与综合评判;最后,⑤利用领域问题求解方法解决实际应用问题 ( 1 ) 本体描述语言 本文以本体论思想为基础,定义了一套本体描述语言,并将其作为领域问题描述规范,以构建领域问题求解系统( 2 .3 ] 这套本体描述语言包括:①静态本体描述语言定义了概念和概念间 关系的描述规范,在领域问题求解系统中用于描述实际领域的背景知识在静态本体中,增加了对值域、实例化、约束复合、本体运算集和本体关系集的定义,提高了对复杂背景知识的表达能力②任务本体描述语言为领域问题求解提供了运算框架,任务本体将所有的解题步骤统一为知识 源模型的组合过程,在形式上可以表示为知识源模型的偏序集 ⑧知识源本体是本体描述语言的核心,它规范了各种知识源模型( 领域求解算法和领域问题求解模型) 的外在形式和实现各种算法模型的同构,同 时它定义了知识源模型的组合策略与运算法则,并提供了对知识源模型的描述和评价机制。
2 ) 知识源模型及其定义原则 知识源模型K S M ( K n o w l e d g eS o u r c eM o d e l ) 是从抽象层次上对解题结构和算法的J 种描述实际上,所有的领域求懈问题都可在形式上规约为某 个K S M 的求解过程K S M 来源于人工智能领域中的黑板理论知识源还是本体论中的动态本体,它强调算法和计算过程知识源本体描述语言融合了面向对象方法学中的数据封装和抽象的概念,使动态本体在形式上具有静态特性,可解决领域问题求解中算法和模型的重用问题K S M 的定义遵循如下原则:表达能力强、合适的抽象层次、可例示类与抽象类、支持模型的复合、构件模型遵循面向对象范型( 方法) 、模型的一致性、完备性等在考察大量领域问题求解模型的基础上,我们采用( X ,Y ,R u n ,L e a r n ,A n t i R u n > 五元组来描 述所有的解题模型从O O 的角度看,X 和Y 可认 为是K S M 类的属性,分别代表问题的已知条件和 待求结果;R u n 、L e a r n 和A n t i R u n 可认为是K S M类的方法,分别代表K S M 的求解、自学习( i l l l 练) 和逆求解过程,这样就在形式上统一了各种领域求解 模型。
而K S M 类的继承( 仅限于抽象类之间) 和实 例化可采用面向对象建模技术O M T 和统一建模语言U M L 来实现[ 5 ,6 ] 5 ) 知识源模型类的描述知识源构件模型是以智能计算模型为基础进行设计的,它支持多种不同构件形态:类、抽象类、组合类类和组合类的引入为代码复用提供了两种不同粒度的支持引入抽象类构件为设计复用提供了一定的支持另外,知识源构件模型具有自包含性,即要求知识源构件组装而成的知识源构件子系统仍是可以继续进行复合的构件图1 为知识源模型类图的 U M L 描述:①此处的K S M 类都是抽象类,即只能 被继承而不能被实例化②K S M 基类;X 和Y 是两个基本的对外数据接口( 属性p u b l i c ) ,X 代表K S M的输入参数,Y 是输出参数X 、Y 的数据类型是矩 阵类型M a t r i x 通过内部定义,M a t r i x 可以表示整型、浮点数、矩阵、向量、字符申等数据这种源于M a t l a b 的数据类型支持角标存取、分解运算、合成 运算等K S M 基类中的R u n 是模型的执行部分( 方 法) ,即X —Y 的运算过程⑧学习型K S M 基类是 K S M 基类的子类。
其中,L e a r n 是模型的知识学习或知识获取部分( 方法) ,利用这种操作来获得模型R u n 执行所需的知识结构④可逆K S M 基类用四元组( X ,Y ,R u n ,A n t i R u n ) 表示,它是K S M 基类的子类A n t i R u n 是模型的知识逆处理部分,也就是Y —X 的运算过程⑤学习型可逆K S M 基类多重继 承了可逆K S M 基类和学习型K S M 基类,用五元组( X ,Y ,R u n ,L e a r n ,A n t i R u n > 表示,它同时具备了R u n 、A n t i R u n 和L e a r n 三种操作方式图1 知识源模型类图的U M L 描述( 4 ) 神经网络方法模型神经网络数据挖掘工具中的模型众多,在结构、用途及训练算法差异较大,要将它们统一在一种模型结构中,必须确定合适的抽象层次,并隐蔽神经网络的一些特性,使模型在使用接口上做到无差别[ 4 ] 依照前述知识源模型抽象类的定义,我们将一般常 用的神经网络模型进行了重新定义,并将其以U M L 方式展开凸‘6 ] 图2 表示了七种常用神经网络模型的类图结构。
按网络训练所需参数数目的不同,可将其分为两大类:B P 、E l m a n 和R B F 网的训练方 式按输入输出样本来决定网络的内部结构,即 L e a r n 过程是二目运算而S O M 、K o h o n e n 、L V Q 和H o p f i e l d 网的训练方式只根据模型的输入样本来决 定网络的内部结构即L e a r n 过程是单目运算这 样,学习型知识源模型类定义了两个子类——单目学习型知识源模型类和二目学习型知识源模型类 如图2 所示,这三个类中的R u n 和L e a r n 方法的后缀都用a b s t r a c t 和v i r t u a l 来修饰图2 神经网络知识源模型组的类图结构·1 1 5 ·( 5 ) 常规数学方法知识源模型 由于神经网络数据挖掘工具常采用前处理和后处理方法进行数据处理,相应地应将常用的数学模型也转换为知识源模型图3 是常用数学方法的知识源模型组的类图结构此处,单目学习型可逆知识源模型类是可逆知识源模型类和单目学习型知识源模型的子类,它们之间呈“n 一1 ”多重继承关系注意: 本文所论述的知识源模型中,只允许在抽象类之间有多重继承。
图3常规数学法知识源模型组的类图结构( 6 ) 知识源模型的组合——复合型知识源模型 采用知识源模型K M S 求解领域问题时,往往需要使用多个模型来组合求解,这就是建立复合模型的问题新的复合模型将同时涉及到原子模型的属性数据、操作等特征面向对象方法学中的聚集机制是解决模型组合问题的较好手段为此,我们从K S M 同构化和集成的需要出发,将模型的聚集归结为“不交聚集”、“并行聚集”、“串行聚集”三种聚集关系,并借用知识处理中的语义网表示方法,对聚集方式( 组合方式) 直观描述如下:①不交聚集其特征是参与聚集的两个K S M在形式上完全独立,参数无任何交叠,时序上完全平行如图4 所示 慕+ 文:澈图4 不交聚集③并行聚集其特征是参与聚集的两个K S M在时序上平行展开,并且两个模型的输入项或输出项有重叠当输出项有重叠时,对并行聚集中的R u n方法( 正向计算) 的合成规则有影响;当输入项有重叠时,对A n t i R u n 方法( 逆向处理) 有影响图5 为输入项有重叠的并行聚集模式·】】6 ·图5 并行聚集( 输入项有重叠)③串行聚集其特征是一个K S M 的输出( 或 输出的一部分) 是另一个K S M 的输入( 或输入的一部分) ,模型的运行在时序上有严格的先后关系。
如图6 所示图6 申行聚集图7 递归聚集④递归聚集( 图7 )由于任何递归方法理论上都可以等价地转化为迭代方式,故可转化为不交、并行、串行聚集的组合;当。












