
模糊聚类分析方法在经济区划分及应用.doc
9页模糊聚类分析方法在经济区划分的应用摘要:随着科学技术的不断进步,互联网在现代生活中的应用越来越普遍,已经融入到现代人的日常生活、工作、学习中的方方面面,在给人们生活带来一定便利的同时,也伴随着严重的信息过载现象,数据挖掘技术应运而生模糊聚类分析法作为数据挖掘技术中的一项关键内容,在现代经济区域划分的过程中起着至关重要的作用本文将详细介绍模糊聚类分析法的算法,结合模糊聚类分析法在经济区划分过程中的重要作用进行有效分析关键词:模糊聚类分析法;经济区;划分;应用前言:“聚类”是一种常见的分类方式,能够将事物按照相似性进行划分,在多元分析统计方法中的应用比较常见,在实际应用过程中尽可能的将同类型的事物划分在同一范围内,将差异化比较显著的事物进行区分,确保同一类样本中具有极大的相似性在实际生活中,并不是所有的分类概念都是非常准确的,经常会存在一些模糊性语言,模糊聚类分析法就是针对这些模糊性语言而开发出的一种新型分类方式,能够有效的进行人类思维方式的仿真,提高经济区划分的准确性1、模糊聚类分析方法的相关概述(1)模糊聚类分析方法数学模型的构建聚类分析法是多元统计分析中的一种典型手段,通过对事物内部结构的分析,在聚类准则的基础上进行待分类样本的划分,将同一类事物划分在同一个样本集当中,尽可能提升样本集内各个样本的相似性,避免样本集中出现各个样本之间存在明显差异的情况,属于一种“硬划分”的方式,具有“非此即彼”的基本特征。
但是,在现实生活中,并不是所有的对象都具有严格的属性,很多事物在定义的过程中存在一定的不确定性,而这种不确定性决定了样本之间“亦此亦彼”的基本特征,很难按照“硬划分”的方式对事物进行聚类模糊聚类分析法是在传统聚类分析方法基础上延伸出来的一种“软划分”方式,能够为聚类问题的处理提供更加可靠的参考依据,有效解决描述样本过程中存在的不确定因素,能够更加客观的反应真实问题从数学的角度来进行模糊聚类分析法的研究是阶段比较常见的一种手段,结合数据知识点构建数学模型:X1 X2 . Xc=X,X i Xj=m(2)典型的模糊聚类分析算法典型的模糊聚类分析算法有三种,分别是基于模糊等价关系的传递闭包法、基于模糊图论的最大支撑树法、基于目标函数的模糊聚类算法1.基于模糊等价关系的传递闭包法基于模糊等价关系的传递闭包法是利用传递闭包的性质进行模糊聚类分析,在进行分析之前首先要确定待分类样本之间的模糊相似关系一般情况下,在确定待分类样本之间模糊相似关系的时候,发现很难满足待分类样本的所有需求,经常只满足自反性和对称性而不满足传递性,在实际分类过程中存在着严重的不等价关系,需要利用传递闭包法逐次进行模糊相似关系的转化,尽可能提高待分类样本之间的相似程度。
具体的基于模糊等价关系的传递闭包法如图一所示:图一 基于模糊等价关系的传递闭包法2.基于模糊图论的最大支撑树法最大支撑树法是由 Zahn 提出的一种图论聚类算法,随着时代的不断进步,专家学者在最大支撑树法的基础上进行模糊聚类分析,从传统的图论聚类算法发展到基于模糊图论的最大支撑树法,在一定程度上对传统算法中的问题进行弥补,最大限度的发挥出模糊聚类分析法的重要作用首先,要进行计算各样本间的相似性统计量,在此基础上进行样本集模糊相似关系的分析,并且构建相应的结点模糊图,从结点模糊图中找到权值最大的部分,放在整个样本集合C 中进行分析,与新的结点相结合形成新集合 T,找到集合 T 中的结点与集合 T外的结点组成的边的权值的最大值3.基于目标函数的模糊聚类算法从基于模糊等价关系的传递闭包法和基于模糊图论的最大支撑树法的角度来进行分析,虽然也能够在一定程度上实现模糊聚类分析的效果,但是实际应用的结果并不是非常的理想,很难满足实际应用中的个性化需求,所以其应用并不是十分广泛基于目标函数的模糊聚类算法是一种比较常见的模糊聚类分析方式,也是所有模糊聚类分析方式中最受欢迎的一种,能够通过数学算法的合理使用将模糊聚类转化成一个带有约束作用的非线性规划问题,通过优化求解的方式获得数据集的模糊划分和聚类结果,并且能够结合经典数学中的内容进行实际问题的非线性规划,最终求得相对比较准确的模糊聚类分析。
基于目标函数的模糊聚类算法的适用范围比较广泛,其计算模式比较简单,在实际应用的过程中很容易实现 2、加权模糊 C 均值聚类算法(1)加权模糊 C 均值聚类算法加权模糊 C 均值聚类算法是在模糊聚类分析的基础上进行研究,在传统模糊聚类分析的基础上进行改进与完善,借助欧氏距离的定义进行目标函数的界定,有效满足实际分类过程中各项指标的需求,确保在计算的过程中不会对模糊聚类结果造成严重的影响从本质上来看,加权模糊 C 均值聚类算法与传统模糊聚类算法的使用原理是一致的,直到满足所有客观条件需求之后才能够停止进行迭代,进而得出更加准确的模糊聚类分析结果2)权值的确定方法 在加权模糊 C 均值聚类算法使用的过程中,权值是其中一个比较重要的研究问题确定权值的方法有很多,常见的有变异系数法、熵权法、高斯函数加权法和主成分分析法等,每一种方法在加权模糊 C 均值聚类算法中权值确定环节里面都发挥着至关重要的作用本文主要采用主成分分析法的方式进行权值的确定据有关文献显示,加权模糊 C 均值聚类算法的结果与主成分分析法有着直接的联系,采用主成分分析法进行加权模糊 C 均值聚类算法中权值的确定是可行的。
3)加权模糊 C 均值聚类性能的确定在实际加权模糊 C 均值聚类算法的之前,首先要对加权模糊 C 均值聚类算法的性能效果进行准确的研究,通过一系列的测试检验加权模糊 C 均值聚类算法的使用能否达到模糊聚类的准确结果结合现代化的科学技术进行加权模糊C 均值聚类算法的分析,通过三组数据对比来确定最终模糊聚类的结果,如图二、图三、图四所示:图二 随机二维数据集的实验结果图三 随机三维数据集的实验结果图四 IRIS 数据集的实验结果通过图二、图三和图四我们能够看出,加权模糊 C 均值聚类算法和模糊 C均值聚类算法的目标函数值会随着迭代次数的增加而减少,并且当迭代次数达到一定数量的时候,加权模糊 C 均值聚类算法和模糊 C 均值聚类算法的目标函数值均基本一致从迭代次数来看,加权模糊 C 均值聚类算法的性能要比模糊C 均值聚类算法的性能要好3、模糊聚类分析方法在经济区划分中的应用(1)应用背景在习近平总书记的领导下,我国经济建设迎来了新一轮的“十三五”五年计划,改革开放也上升到了一个全新的高度,进一步推动了我国经济建设的稳定发展,对促进我国综合国力的提升有着很大的帮助但是,现阶段我国社会经济发展的过程中仍然面临着各种各样的问题,经济区域发展不均衡的现象比较严重,在一定程度上影响了我国社会经济发展的整体水平,违背了社会主义共同富裕的出发点。
因此,我们必须要重点强调经济区划分在国家建设中的重要作用,正视区域发展不平衡的问题,因地制宜的采取相应的管理手段和发展战略,找到我国经济发展过程中的薄弱环节,从宏观角度针对不同地区的经济状况进行分析,制定相应的倾斜性政策,在全国范围内进行资源调配,进一步推动我国各个地区经济建设的协调发展2)经济指标的选取本文主要选取 GDP 总量、人均 GDP、第三产业、居民消费水平、人均工资和固定资产投资六项内容作为经济指标,通过对这六项经济指标进行全面的分析,进一步确定我国各个地区经济发展的实际水平GDP 是国际通用的一种衡量地区经济水平的重要指标,第三产业的发展水平是衡量我国服务业发展情况的重要指标,居民消费水平和人均工资能够直接反映出不同经济区人民的生活质量,固定资产投资使经济持续发展的动力总而言之,这六项经济指标在国家经济建设过程中紧密相连,共同形成了一个指标集合,能够更加全面而客观的反映出不同经济区域的真实水平本文主要选择北京、天津、河北、山西和上海五个地区进行调查研究,表一为五个城市中六项经济指标的整体水平表一 五个城市中六项经济指标的整体水平地区 GDP 总量(亿元)人均 GDP(元)第三产业(亿元)居民消费水平(元)人均工资(元)固定资产投资(亿元)北京 17879.3 84516 13625.92 30248.5 84516 6127.4天津 12546.7 95412 6051.26 22954 61542 7951.4河北 26487 36215 9324.15 10754.4 35624 19654.7山西 12154.2 33215 4628.17 10854 44152 8824.5上海 20315.2 85412 12165.71 36521.9 78541 5112.6数据来源:中国统计年鉴 2014.(3)加权模糊 C 均值聚类算法的应用为了进行能够更加直观的反映出各项数据的实际情况,本文主要将选取的经济指标分为三个种类,经过 45 次迭代之后结合数据结构构建隶属度矩阵如表二所示:表二 隶属度矩阵0.9584 0.0264 0.02540.7541 0.0748 0.05890.0126 0.8514 0.08540.0082 0.2416 0.01250.1805 0.3874 0.19580.0084 0.4516 0.2854通过对隶属度矩阵的综合分析,最终将所选择的经济区划分为三类,具体类别如表三所示:表三 经济区划分类别第一类 第二类 第三类北京天津上海河北 山西通过表三可知,其中北京、天津和上海为经济发达地区,河北为经济欠发达地区,山西为经济贫困地区。
4、模糊聚类分析方法应用的有效性(1)几种常用的有效性指标1.Xie Beni 的有效性指标Xie Beni 的有效性指标是样本类别内紧凑度与不同样本类别之间分离度的比值,当样本类别内紧凑度越小的时候,证明样本集合内部各个样本之间的相似程度比较高当不同样本类别之间分离度越大的时候,则不同样本类别之间的差异性越大,样本划分的程度越高在使用 Xie Beni 的有效性指标进行经济区划分的过程中,应该在不同样本类别之间找到一个平衡点,这个平衡点的数值越小,就证明最终得到的模糊聚类结果越好但是, Xie Beni 的有效性指标在使用过程中有一个明显的缺陷,就是在进行指标测试的过程中存在很多不确定因素,很容易在实际应用的过程中失去判断功能,而且对于重叠样本的集合敏感程度也比较高2.S.H.Kwon 的有效性指标S.H.Kwon 的有效性指标在使用过程中通过引入惩罚项的行为对其有效性进行改进,该指标用各个类内紧凑度的平方和代替整体紧凑度的总和,尽可能的降低目标函数对各个类别样本的敏感程度,为模糊聚类分析结果的准确定提供基本保障3.鲍正义的有效性指标鲍正义的有效性指标在使用的过程中能够在一定程度上避免有效性指标随着模糊聚类数值增大而减小的情况。
但是,鲍正义的有效性指标在实际应用的时候其指标却不是非常的稳定2)新的模糊聚类有效性指标1.分离度的定义结合 Vcso-new和 Vcso两种因素进行有效性指标的分析,并且结合现代化的新理念进行模糊聚类有效性指标的合理改进,在 Vcso-new和 Vcso两种因素的基础上赋予了模糊聚类有效性指标新的概念,进一步得出 Vnew指标从模糊聚类分析整体的情况来看,不同样本类别之间的分离度越大越好,而同类别样本间的模糊相关度越小越好由此可见,用模糊相关度进行分离度的定义是可行的,可以通过模糊相关度的变化情况来推测分离度的变化情况,反之也是成立的2.Vnew指标Vnew指标的定义与模糊相关度和分离度有着直接的联系,结合现代化的科学技术进行模糊聚类分析相关数据的有效处理,在完善标准的基础上进行样本间紧凑度和不用类别样本之间分离度的研究从理论的角度来看,要想确保模糊聚类分析的准确程度,应该尽可能的减少样本间的紧凑度和不同类别样本之间的重叠度,同时尽可能的提升不同类别样本之间的分离度也就是说,当Vnew指标数值最小的情况下,所对应的模糊聚类分析效果最高。












