
基于空间统计学的空间关联规则挖掘方法与应用.docx
9页基于空间统计学的空间关联规那么挖掘方法与应用摘要:空间关联规那么知识的发现是空间数据挖掘一个重要的方面,而把空间统计分析技术应用于空间数据库中的空间关联规那么挖掘,是一种不同于传统方法的可用技术该方法首先建立空间对象之间的空间权重矩阵,然后采用Moran‘sI统计量等来发现全局空间相关关系,利用G统计量等来发现局部空间相关关系,并通过实例分析证明了该方法的有效性 关键字:空间统计学;空间数据挖掘;空间关联规那么挖掘 0引言 空间关联规那么知识的发现是空间数据挖掘一个重要的方面,它主要是要找出空间数据库中空间对象间潜在有用的空间相关关系有关空间关联规那么挖掘的算法有许多,比方由R.Agrawal等1994年提出的Apriori算法[1,2],J.S.Park等提出的基于Hash表的挖掘方法[3],D.Malerba等提出的ILP〔InductiveLogicProgramming〕方法[4],J.W.Han等1995年提出的多层次关联规那么挖掘方法[8],这些方法和技术都是从数据库的事务集中找出频繁项集而挖掘关联规那么,具有标准的规那么形式 利用空间统计学挖掘空间关联规那么,是一种广义上的空间关联规那么,它没有固定的规那么形式或格式,一般用自然语言描述。
这类空间关联规那么在空间决策支持中具有十分重要的意义目前,空间统计学已广泛应用于农业、地质、土壤、水文、环境、经济、人口统计等领域[10]不少学者先后对空间统计的一些根本理论和方法进行了广泛研究,形成了一些新的统计理论和应用方法 基于空间统计学的空间关联规那么挖掘包括空间权重矩阵的构建、全局与局部空间自相关、空间关联的度量与检验、空间关联知识的识别与描述等本文将详细介绍相关的理论和计算方法,并以湖南省14个市州2022-2022年连续三年的GDP增长率数据为研究对象,说 1空间统计学根本理论和相关性质 1.1空间权重矩阵 空间数据库中空间对象间的拓扑关系提供了空间对象彼此间的空间连接或空间邻近的根本度量关系,空间连接或空间邻近关系广泛应用于空间数据分析中通常我们采用一个二维对称空间权重矩阵W来表达n个空间对象(位置)间的空间邻近关系,一般采用邻接标准或距离标准来度量空间权重矩阵W的形式如(1-1)所示,空间权重矩阵的定义是空间统计学与传统统计学的重要区别之一利用空间数据的拓扑关系,可以比较容易地构建空间权重矩阵 〔1-1〕 根据邻接标准,当空间对象j和对象i相邻时,空间权重矩阵元素wij为1,其它情况均为0。
矩阵元素值的表达式形式如(1-2)所示 〔1-2〕 根据距离标准,当空间对象j和对象i的距离在给定距离阀值d之内时,空间权重矩阵元素wij为1,否那么为0矩阵元素的取值表达式如(1-3)所示 〔1-3〕 上述两种邻近关系规那么可以分别使用,也可以同时使用如果两个对象客观上空间不相邻,但它们之间在研究的某一方面存在紧密联系时,可以将它们视为一种相邻关系,此时即用到距离规那么所以,基于距离规那么建立空间权重矩阵的目的是为了调整合理距离范围内对象间的空间邻接关系 为了便于解释,通常将空间权重矩阵进行标准化处理〔Anselin,1988〕,以使得每个元素值的范围界于0~1之间,标准化的形式如〔1-4〕所示 〔1-4〕 1.2全局空间自相关的测度指标一Moran’sI Moran,sI统计量是一个应用非常广泛的全局空间自相关统计量,其定义形式如〔1-5〕所示 〔1-5〕 其中,,xi表示在位置i处空间对象的观测值,wij是空间权重矩阵的元素。
根据空间数据分布状态可以计算Moran‘sI的期望值和方差[10] 对于正态分布: 〔1-6〕 〔1-7〕 对于随机分布: 〔1-8〕 〔1-9〕 其中,,wi*和w*i分别表示权重矩阵中第i行和第i列之和 利用式〔1-10〕可以检验n个空间对象间是否存在空间自相关关系 (1-10) 利用Moran‘sI统计量可以测度空间对象间的自相关性,发现对象观测值的空间分布差异性和相关性当Moran‘sI为正时,在距离d范围内的观测值之间存在显著的正相关,即大的观测值和大的观测值集聚在一起,小的观测值和小的观测值集聚在一起,呈现“物以类集〞的分布特征;当Moran’sI为负时,在距离d范围内的观测值之间存在显著负相关,即大的观测值倾向于和小的观测值集聚在一起,呈现空间分散格局;当Moran‘sI趋近于零时,观测值之间不存在空间自相关性,属于独立随机分布。
1.3局部空间自相关的测度指标——G统计量 Getis和Ord〔1992〕研究了用来衡量空间对象间的局部空间关联性的G统计量,在空间位置i的G统计量的表达式定义如下: 〔1-11〕 其期望值和方差分别为: 〔1-12〕 (1-13) 其中,,xi是对象在位置i的观测值,wij是空间权重矩阵的元素,n是观测值的个数 Getis和Ord在1994年定义了Gi的标准化形式: 〔1-14〕 其中, 当Z(Gi)为正值时,说明位置i被数值大的属性值所包围;当Z(Gi)为负值时,说明位置i被数值小的属性值所包围Z(Gi)统计可用来判断空间聚类是为大数值型或小数值型但是,Z(Gi)不能根据其正负号判断空间类型的相似性[12] 2实例分析 下面以湖南省各市州2022-2022年的GDP增长率分析为例,利用空间统计学分析方法挖掘各市州GDP增长率之间存在的空间关联知识的有效性。
湖南省各市州2022年、2022年和2022年的GDP增长率见表2-1 表2-1湖南省各市州2022年一2022年GDP增长率一览表 说明:数据来自湖南统计信息网[13] 根据湖南省各市州的拓扑空间相邻关系建立各市州边界多边形的拓扑关系,我们利用相邻关系图来直观的表达〔如图2-1〕,图上各节点中的数字代表各市州相应的编号,节点间有边相连,说明两市州在空间上具有相邻关系根据此相邻关系图,建立各市州的空间权重矩阵如表2-2所示 图2-1湖南省各市州空间拓扑关系的相邻关系图〔节点上的数字代表各市州编号〕 表2-2各市州基于邻接标准的空间权重矩阵 利用湖南省各市州2022年到2022年连续3年的平均GDP增长率〔见表2-1〕这个指标来进行分析根据空间权重矩阵,计算所得的各市州全局Moran‘sI和局部G统计值分别见表2-3和表2-4。
表2-3全局空间自相关Moran’sI及其Z(I)值 由表2-4可以得到,由于Moran‘sI为正值,说明各市州的GDP增长率在空间上存在明显的相关性,不是随机分布的,而是存在必然的内在联系,GDP增长率高的区域和GDP增长率高的区域有相互邻接的趋势,低增长率区域与低增长率区域有相互邻接的趋势 表2-4局部G统计量及其Z(Gi)值 根据表2-5中的G统计量及其Z值,我们可以发现湖南省各市州局部区域之间既存在显著的正的空间关联,又存在显著的负的空间关联怀化、湘西、常德、郴州、邵阳、张家界和永州市的Z值为负,说明这些市被平均GDP增长率低的市所包围;岳阳、娄底、衡阳、湘潭、株洲、长沙和益阳的Z值为正,说明这些市被平均GDP增长率高的市所包围 通过分析可以发现,长沙、湘潭、娄底、株洲、岳阳五市州平均GDP增长率较高的地区连成一片,形成湖南省东部地区的经济高速开展区域;常德和张家界连成一片,形成湖南省北部地区的经济高速开展区域;从而可以看出,增长率较高的地区有相互邻接的趋势;增长率较低的地区有怀化、湘西、衡阳、郴州、邵阳、永州和益阳,即GDP增长率较低的地区有相互邻接的趋势,它们形成湖南省西南部的经济低速开展区域。
作为省会城市的长沙,同时也是湖南省经济开展的中心,其GDP增长率明显高于省内其它城市,而其它增长率较高的城市大局部都与长沙为邻,说明长沙的经济开展对相邻地市的经济开展存在一定的带动作用 我们可以对上述发现的知识进行整理、加工,为进一步分析奠定根底,同时为经济政策决策的制定提供一定的参考和支持通过上述的例子,说明了空间统计分析方法在确定、量化区域内存在的空间关联关系的正确性和有效性 3结论 基于空间统计分析技术进行空间关联规那么挖掘的方法,既考虑了空间对象的空间分布特征,又利用了空间对象的属性数据,因此是一种结合空间、属性特征的空间数据挖掘方法本文的实例证明了该方法所发现的空间关联知识与实际相吻合,说明空间统计学方法的有效性和实用性但是,对于非数值型数据而言,空间统计学方法还存在一定的局限性 参考文献 [1]AgrawalR,ImielinskiT,SwamiA.Miningassociationrulesbetweensetsofitemsinlargedatabases.InProceedingsofthe1993InternationalConferenceonManagementofData(SIGMOD93),1993:207-216. [2]AgrawalR,SrikantR.Fastalgorithmforminingassociationrulesinlargedatabases.InVLDB’94,1994:487-499. [3]JongSooPark,Ming-SyanChen,PhilipS.Yu.AneffectiveHash-BasedAlgorithmforMiningAssociationRules.SIGMOD’。
