您所在位置：网站首页 > 学术论文 > 论文指导/设计两步聚类分析方法的理论和应用研究综述

两步聚类分析方法的理论和应用研究综述

5页

卖家[上传人]：m****

文档编号：483594914

上传时间：2023-09-12

文档格式：DOC

文档大小：223.50KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金贝

/ 5 举报版权申诉马上下载

文本预览

下载提示

常见问题

1、关于两步聚类分析方法的理论和应用研究综述摘要：两步聚类分析方法是近年来才发展起来的聚类方法的一种，它主要用于处理解决海量数据，复杂类别结构时的聚类分析问题，尤其是连续变量和离散变量的混合数据。它分为两大步骤，包括预聚类和正式聚类。在实践中主要解决群体划分、用户或消费者行为细分等问题。但是目前在国内，由于该方法使用范围较小，且缺乏较为详细的介绍，本文就该方法的理论和应用方面作一具体的介绍。关键字：两步聚类分析方法分层聚类市场细分 BIC准则一、引言聚类分析是依照研究对象的个体特征，对其进行分类的多元统计分析方法。具体说来就是，将一批样本或变量的诸多特征按照在性质上的亲疏程度，在没有先验知识的情况下进行自动分类，产生多个分类结果。在聚类分析中，我们常用的聚类方法有快速聚类和层次聚类。其中层次聚类容易受到极值的影响，并且计算复杂速度慢不适合大样本聚类；快速聚类虽然速度快，但是其分类指标要求是定距变量，而实际研究中，有很多的定类变量，如性别、学历、职业、重复购买的可能性等多个与研究目的紧密相关的指标无法直接参与运算，而大大限制了它的使用范围。在此情况下，两步聚类法作为一种较为综合的聚类方

2、法，并能解决上述问题，成为近几年比较常用的方法之一。法与其他传统的聚类技术有显著的区别，它拥有如下三个有利特征：1、能用于处理基于分类变量和连续变量的聚类问题；2、能自动选择聚类数；3、能高效处理大规模数据量的文件。二、基本原理两步聚类分析法采用似然距离度量来处理离散变量和连续变量。并且，模型中的每项连续变量都假设为正态分布状态，每项离散变量都假设为多项分布状态。在这种假定下，两步聚类按照两个步骤完成聚类。首先，通过构建和修改聚类特征树对记录进行初步归类；然后，对这些初步分类的结果再次进行聚类，由于此时的预聚类的数量要远远小于原始数据的数量，在这一阶段使用传统的聚类方法就可以处理了。其中，第一个步骤叫预聚类过程，它针对每一个记录，都要从根开始进入聚类特征数，并依照节点中条目信息的指引找到最接近的子节点，直到到达叶子节点为止。如果这一纪录与叶子节点中的距离小于临界值，那么它进入该子节点，并且子节点的聚类特征得到更新，反之，该纪录会重新生成一个新的叶子节点。如果这时子节点的数目已经大于指定的最大聚类数量，则聚类特征树会通过调整距离临界值的方式重新构建。当所有的记录通过上面的方式进入聚类特征

3、树，预聚类过程也就结束了，子节点的数量就是预聚类数量。第二个步骤叫正式聚类过程，利用层次聚类方法对聚类特征树上的每个叶结点进行组合。采用层次聚类方法可以产生一组不同聚类数的聚类方案。然后，根据聚类准则，贝叶斯 (BIC)或者Akaike(AIC)准则来对各种聚类方案进行比较选择，选定最佳聚类方案。在这两个步骤中都采用了传统的距离测度的方法，主要有欧式距离和对数似然距离。欧氏距离主要针对连续变量，它的计算公式为： / 文档可自由编辑打印其中设第i和 j 个样品的观测值分别为，。对数似然距离能处理连续变量和离散变量，计算似然对数时连续变量需要满足正态分布，离散变量满足多项式分布，而且它假定变量之间彼此独立。它的计算公式为：其中， i，s分别表示分类i和分类s，表示分类i和分类s合并形成的类，j表示第j个观测样本，表示样本观测值中离散变量的类别，表示对应样本观测值中连续变量的方差的极大似然估计值，对应样本观测值中离散变量的属性值概率的极大似然估计值。在这个过程中，通过贝叶斯 (BIC)或者Akaike(AIC)准则，计算不同聚类类别的BIC或AIC的值，以及类间最短距离的变化，从而来选择最

4、优的聚类类别数。一般来说，BIC值或AIC值越小表示该聚类模型越好，即相应聚类数越优。假设聚类数为k，则BIC和AIC的计算公式如下：其中，v表示第v个聚类类别，表示聚类过程中使用的连续变量的总数，表示聚类过程中使用的离散变量的总数，第k个离散变量的编号。三、实证研究为了更好地展示两步聚类分析方法在实际中的应用，特别是针对含有连续变量和离散变量的混合数据，我们搜集相关数据，来研究我国东部地区工业发展情况的类别划分、区域布局。数据来源于中经网统计数据库，选取的对象为北京市、天津市、河北省、辽宁省、上海市、江苏省、浙江省、福建省、山东省、广东省、广西壮族自治区等我国东部地区11个省、直辖市、自治区，选取指标为2008年这些地区的生产总值、工业企业单位数、工业总产值、工业企业资产合计、企业所有者权益、工业企业全部从业人员年平均人数等，考虑到两步聚类分析的条件(各个连续性变量间独立分布，分类变量问也为独立分布)，通过初步对这些指标的聚类和相关分析并结合专业知识，最后确定将工业企业单位数、工业总产值、工业企业资产合计、企业所有者权益、工业企业全部从业人员年平均人数等作为连续变量，将地区生产总

5、值作为分类变量(又分为地区生产总值在一万亿以下、一万亿至两万亿、两万亿以上三类，这里选择一万亿、两万亿为界，主要是考虑到东部地区该指标的均数分布以及两步聚类模型达到最优的情况)进入模型进行智能聚类分析。数据的处理和分析在SPSS 17.0中完成。（1）最优聚类数。首先比较BIC或AIC计算的结果，确定最佳聚类。以BIC为例，结果见表1：表1 各种聚类结果的BIC值聚类数目BIC标准BIC变化BIC变化率距离测量比187.136273.173-13.9631.0004.081391.47518.302-1.3115.1364118.21026.735-1.9152.2245146.06827.858-1.9951.0636173.98027.912-1.9991.6877202.24328.263-2.0241.1228230.56228.319-2.0282.5359259.15728.595-2.0481.33010287.79728.639-2.0512.74611316.52228.725-2.057.一般来说，BIC值越小表示该聚类模型越好，即相应聚类数越优。BIC将随着聚类数

6、的增加而持续减少，但是由此而来的聚类方案更优化所带来的额外价值却无法抵消由于聚类数的增加而带来的麻烦。在这种状况下，要权衡BIC的变化和距离测量的变化来决定最优的聚类方案。一个好的方案，BIC变化率（Ratio of BIC Changes）和距离测量比（Ratio of Distance Measures）的值都要求较大。从上面表1中，可以得到在本数据中，最佳方案是分2个类。(2)聚类结果和描述。表2 聚类分布表地区数占总体比例聚类类别 17 63.6% 2436.4%总计11100%聚类分布表（表2）显示了每个类的频度。结合各地GDP发展水平，将东部地区工业发展水平分为两类，其中归入第1类的地区有7个，分别是北京市、天津市、河北省、辽宁省、上海市、福建省、广西壮族自治区，归入第2类的地区有4个，分别是江苏省、山东省、浙江省、广东省。表3 连续变量的均值与方差聚类类别1聚类类别2总体工业企业单位数（个）均值12987.000054878.500028220.2727方差6413.671139722.3959522354.86194工业总产值（当年价格，亿元）均值16731.695

7、759253.480032194.1627方差7620.1236712438.8896223270.19003工业企业资产合计（亿元）均值15268.952942211.840025066.3664方差6209.875005863.6475314772.66603企业所有者权益（亿元）均值6700.511417629.275010674.6073方差3034.343742903.292636201.24547工业企业全部从业人员年平均人数（万人）均值248.32141081.1725551.1764方差119.59516299.94966460.58211由表3可以看出每一类地区的五个连续型变量的平均值和标准方差，由此可以看出，第一类各个指标平均水平与第二类各个指标平均水平有明显差距。在spss输出结果中，还给出了每个连续变量均值的置信区间在两类之间的对比图，从中我们也可以比较每个变量在两个类别的均值分布情况。表4 离散变量在各类的频数统计一万亿以下一万亿至两万亿两万亿以上频数百分比频数百分比频数百分比聚类类别12100.0%5100.0%0.0%聚类类别20.0%0.0%4100.

8、0%总体2100.0%5100.0%4100.0%由表4可以看出，聚类类别1由地区生产总值一万亿以下、一万亿至两万亿组成的，聚类类别2由两万亿以上组成的，由此可见，本文中两步聚类分析法很有效地对样本数据进行了聚类，所得2个聚类符合实际类别情况。（3）变量重要性。对于每一个聚类，SPSS都可以列出各项变量对该聚类重要性的图表（如下图1），各项变量沿Y轴以重要性递减排列。图1 两类的属性重要性图1左边是聚类类别1的变量重要性图，可以看出工业企业全部从业人数是最重要的，右边是聚类类别2的变量重要性图，可以看出工业企业资产合计是最重要的。这些变量有的指向正方向（在t统计量的度量下），有的指向负方向。指向负方向意味着它小于平均数，指向正方向意味着它大于平均数。通过上面的分析，我们可知东部地区中江苏省、山东省、浙江省、广东省作为地区生产总值较高的四个省份，同时工业发展情况也不错，是名副其实的“工业大省”，其他地区由于其自身经济发展水平、地理位置、行政职责、发展定位等各方面原因，在工业发展方面落后于上述地区。对于这些地区来说，根据其未来发展规划，可以为其战略调整做出借鉴。通过对上面对两步聚类分析法理

9、论与实证研究的综述，我们可以看出，该聚类方法依附于传统的聚类方法的基础上，进行了拓展，在解决含有连续变量和离散变量的混合数据上具有很大的优势，并通过结合离散变量变现出来的研究对象的属性，定性与定量分析更好地对研究对象进行分类，克服了传统聚类方法仅仅从数据上进行分类的不足。随着近几年的发展，在市场细分、用户定位、区域研究等方面上得到了充分的应用。另外，通过判定AIC或者BIC的大小和类别之间最短距离的变化情况，两步聚类能够提供最优的类别数，克服了以往聚类类别确定缺乏合适的检验标准，往往只能依靠研究人员的经验和关键指标在不同类别上的显著性检验来确定的不足。参考文献：1. 张文颖施久玉基于聚类分析的当代大学生学习心理研究期刊论文-黑龙江高教研究 2009(4)2. 黄钟颖两步聚类分析法在汽车市场研究中的应用期刊论文-综合管理2008(9)3. 何寒青朱敏洁缪凡童峰苏理陈坤浙江省医疗资源分布状况的聚类分析研究期刊论文- 中华医院管理杂志 2006(3)4. 方茜基于结合分析结果的消费者细分期刊论文-市场研究 2005(7) 5. 黄国安两步聚类（Two-StepCluster）在市场细分领域的尝试 6. 吴喜之统计学：从数据到结论（第2版）中国

《两步聚类分析方法的理论和应用研究综述》由会员m****分享，可在线阅读，更多相关《两步聚类分析方法的理论和应用研究综述》请在金锄头文库上搜索。

点击阅读更多内容

TA的资源