
粒度神经网络对数字语言的数据融合.doc
16页文档供参考,可复制、编制,期待您的好评与关注! 计算机科学Zoozvol·29塑·12粒度神经网络对数字语言的数据融合‘DataFusionofNumerieal一LinguistieBasedonGranularNeuralNetworks行小帅‘,2焦李成‘(西安电子科技大学雷达信号处理国家重点实验室西安710071)’(山西师范大学物理系临汾041004)“AbstractThispaperpresentsaneuralnetworksbasedknowledgediseoveryanddatamining(KDDM)methodologybasedongranulareomputing,neuraleomputing,fuzzyeomputi雌,linguistieeomputing,andpatternreeognition.Agranularneuralnetwork(GNN)15designedtodealwithnumerieal一linguistiedatafusionandgranularknowledgedis-eoveryinnumerieal一linguistiedatabases.TheGNN15abletolearninternalgranularrelationsbetweennumerical一lin-guistieinputsandoutputs,andpredietnewrelationinadatabase.Ke拌ordsGranularneuralnetworks,Datafusion,Datamini鳍,Knowledgediseovery1引言知识发现和数据挖掘(KnowledgediseoveryanddataMining,简称KDDM)是近几年来随着人工智能和数据库发展起来的一门新兴的数据库技术.其处理对象是海量的日常业务数据,其目的是从大量的数据源中提取人们感兴趣的、有价值的知识和重要的信息[lj。
由于计算机和通信技术的迅猛发展,人类活动产生的数据日益增加,大量的各种数据库用于政府事务、科学研究、工业生产、商业管理和其它各个方面数据的爆炸式增长使KDDM成了一个日益重要的研究领域所提取的知识可用于问题求解、生产控制、信息管理、判断决策及其它许多方面,这将会产生巨大的社会效益和经济效益由于神经网络分类精确、鲁棒性好,因此能从数据库中发现非线性的、不明显的和潜在的有用信息和知识[2]在数据库中,对给定一组输入一输出数据,普通清楚的神经网络(crispNeuralNetwork,CNN)能训练所给的数据组,然后训练的CNN能调节清楚的数字权重,学习输入数据和输出数据之间潜在的知识,最后CNN能够应用发现的知识为新的输入数据去预测新的输出数据对于KDDM而言,CNN是一个有用的工具.在大多数的应用中上述输入和输出数据是清楚的数字但在实际情况中,不仅存在数字数据如3.1416一1.732,而且也存在语言(或者符号)数据如比较高、很年轻、近似等于10等等,这在政府和商业的各种数据库中都存在一个语言神经网络(LinguistieNaturalNetwork,LNN)能够处理语言(或者符号)输入和输出数据,如何在KDDM领域中用神经网络去处理数据库中的数字和语言数据问题变成了一个挑战性的问题。
在数据库中对于单纯数字的KDDM而言,CNN和模糊神经网络(FuzzynetworkFNN)是一个强大的工具[,,‘],而对于语言KDDM而言,用文字计算(ComputingwithWords,CW)是一般语言计算的方法,能够用于发展语言计算的KD--DM系统[sJ对于一个完成数字和语言的KDDM,动力学结构的模糊神经网络可用于数字一符号的挖掘,并且可用于模糊知识的压缩、扩大和再发现[t,‘〕.然而,存在的主要问题是:在数据库中如何训练CNN和FNN用于数字和语言数据;如何从数字一语言数据库中提取IF一Then规则;如何在数据库中应用发现的知识去检查丢失的数字一语言数据并且预测新的数据.针对上述三个问题,提出了一个新颖的粒状神经网(Gramilarneuralnetwork,GNN){”,‘,‘]一般情况下,GNN有能力处理粒状数据(如数字和语言数据),提取粒状的IF一Then规则,融合粒状数据组,压缩粒状数据库,并且能预测新的数据.本文的主要内容是:1)提出了模式识别基本的方法,这个方法能将数字和语言数据转换为数字特性的关系;2)在数据库中,利用CGNN和FGNN工具处理数字数据和语言文字;3)利用CGNN和FGNN解决了粒状数据的融合问题,而且FGNN也可用于发现粒状模糊知识。
2粒状特性的提取一个数据库可以包含各种各样的多媒体数据例如:数值、语言文字、肖像、声音、音乐、画像和课文等最低的数据粒状技术,是从真正的世界环境中直接处理未加工的多媒体数据的收集;而较高的数据粒状技术可以分类未加工的多媒体数据成为较高水平的粒状(即可分类、聚类、种类、群、组等),可简化数据的处理和数据挖掘.在这样的意义下,数据的粒化可叙述为数据的挖掘、数据聚类、信息融合和知识发现‘实际上,人脑有很强的能力去处理多媒体的粒化,计算语言文字并从多媒体数据库中发现有用的信息在外部真正的世界中未加工的多媒体数据和人脑内部生物神经网络之间存在相互关系类似地,在数据库中多媒体粒化和人工神经网络的输入和输出之间将建立相互关系在大多数情况下,一般的神经网络不能直接处理多媒体数据,所以如何转换多媒体数据成为对应的数字特性,这对于KDDM特性系统使用中的神经网络至关重要由于这个问题的复杂性,因此下面仅讨论关于数字和语言文字的粒化,并且提供解决实际问题的方法;研究运用神经网络有效地处理多媒体数据粒状特性的提取方法和模糊语言数据特性的提取方法.2.1多媒体数据特性的提取,)本课题得到国家自然科学基金项目(6013301。
)和863高技术研究发展计划项目的资助.行小帅副教授,访问学者,主要研究领域包括:人工神经网络、数据挖掘和进化算法等.焦李成教授,博士生导师,主要研究领域包括非线性理论、人工神经网络、子波理论与应用、进化算法、数据挖掘与多用户检测等.各种多媒体数据库、数宇图书馆和Web基本的数据库包含不同的多媒体数据,这需要用神经网络来挖掘有用的信息.但在许多情况下,神经网络使用的是数字数据,而不能直接使用多媒体数据,因此合理地转变多媒体数据是必要的一般的多媒体数据特性提取系统如图1(a)所示,利用多媒体数据做为系统的输入,多媒体数据特性提取系统利用一些模式识别技术能将多媒体数据转换成对应的数字特性;然后将这些特性提供给一个神经网络多媒体数据特性系统的输入联接多媒体数据库,其输出联接神经网络的数字输入.然而,它是不同于一般设计的多媒体数据特性提取系统,因为我们必须利用许多不同的模式识别技术去处理不同的多媒体数据下面仅考虑如何设计一个语言数字特性提取系统.多多媒体特性性提提取系统统语语言特性性提提取系统统言,这些特性既可以用于CNNs也可以用于FNN:.3.粒度神经网络通常GNN有能力处理各种粒状数据,像数字分类、一申像素、一组概念、一个目标、一种范畴的数据分类,这些粒状数据是GNNs的输入和输出。
因此,在处理多媒体粒状数据方面,与普通的神经网络相比,GNNs不仅有用,而且有效3·1CGNN的设计CNNs和语言数字特性提取系统是CGNN基本的组成部分为了方便,设计的输入一输出CGNN典型的结构如图2所示X和Y是混合数字一语言数据的两个数据变量用4个特性模糊集表示模糊语言数据左边的语言特性提取系统可将X转换成为一个特性组(a1,b1,1,dl),并且右边的语言特性提取系统可将Y转换成为另一个特性组(a2,bZ,cZ,dZ)注意到数字的值表示为一个清楚的特性(a,),因为它是清楚的而不是模糊的图1多媒体特性、语言特性提取系统2.2语官数字特性的提取基于上述设计多媒体数据特性提取系统的方法,现在考虑一个具体的语言数字特性提取系统如图1(b)所示一般情况下,语言数字特性系统能够将模糊语言数据(如很高、太老、近似于50)转换成为典型的数字特性.下面给出有关模糊数字特性的四个定义定义1一个梯形特性矢量(a,b,d)是几何表示的梯形模糊集又使用最小、最大算子有更简洁的表述形式,可定义如下:_x一a_d一x、、双〕叹劣:口,口,C,召少~宜118X气】1、In欠;----一l,-犷一一少少、l少口一“4一C参数{a,b,。
d}(axfor(a一夕)《x<(a十夕)(2)forx>(a+夕)FFFNNKD333aaabCddd语语言输出出定义3模糊信息容量的模糊集直~[x,,x:〕上定义上X,/!在区间图3FGNN一般结构,一孙(x)d二(3)定义4模糊信息特性矢量[a,b,p一,p十〕是梯形模式特性表示的模糊集又,定义如下:f+(x)forx>(a+b)1for(a一b)《x《(a+b)f一(x)for(a一b)>x(4)、.夕、少尸匕内O了.、口矛、其中,p一卫了广(工,d二和一厂f+(x)dx式中广(x)和f+(x)是单调非减和非增函数,分别为f+(x)(1,和0(f+(x)(1根据上述定义,模糊语言数据特性提取系统能把通常使用的模糊集转换成为数字特性。
对于数字一语言的KDDM而BPAs用于训练CNNs的输入和输出特性集训练之后,CGNN能够产生一个数字输出a和一组模糊语言输出.因此CGNN具有数字和语言数据融合的能力CGNN可用分布式的数字权重解释信息和知识,但是它存在两个主要的缺点:①学习算法非常慢由于权重在神经网络中有不明确的物理意义,因此在刚开始时其效率很低②提取语言知识是很困难的所以下面设计了一个FGNN来处理各种粒状数据,其分类好、鲁棒性强.3·2FGNN的设计FNNKD是FGNN的基本结构模块,FNNKD详细的五层结构参阅文〔9〕.FGNN的结构如图3所示,有2个输入1个输出,由三层组成,不同的层次有不同的作用现描述如下:第一层是语言特性提取层:这一层可将数宇语言X和Y转换成相应的特性矢量(al,bl,el,di)和(az,bZ,cz,dZ)·41.第二层是多层FNNKD层:这一层由四个FNNKDs组成,即:FNNKDI,FNNKDZ,FNNKD3,FNNKD4FNNKDI是ZxK,xl模糊经网络,a表示输出模糊组的中心,K:表示模糊规则;FNNKDZ是2xK:xl模糊神经网络,b表示输出模糊组的宽度,KZ为模糊规则;FNNKD3是2XK:Xl模糊神经网络,产生模糊输出C,K:为模糊规则;FNNKD4是2xK‘Xl模糊神经网络,产生模糊输出d,K;为模糊规则。












