实战聚类

资源ID：116112691 资源大小：608.50KB 全文页数：15页
资源格式： DOC 下载积分：16金贝

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要16金贝

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

1、金锄头文库是“C2C”交易模式，即卖家上传的文档直接由买家下载，本站只是中间服务平台，本站所有文档下载所得的收益全部归上传人（卖家）所有，作为网络服务商，若您的权利被侵害请及时联系右侧客服；
2、如你看到网页展示的文档有jinchutou.com水印，是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有jinchutou.com水印标识，下载后原文更清晰；
3、所有的PPT和DOC文档都被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；下载前须认真查看，确认无误后再购买；
4、文档大部份都是可以预览的，金锄头文库作为内容存储提供商，无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证，请慎重购买；
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据；
6、如果您还有什么不清楚的或需要我们协助，可以点击右侧栏的客服。

下载须知 | 常见问题汇总

1、会员注册 2、如何支付与充值 3、个人资料信息修改 4、我的收藏和“收藏文件夹” 5、我的读者群和加入读者群 6、我的书签 7、金锄头文库批量上传工具（绿色版）V1.0 8、下载文档（资源）相关问题整理 9、解决下载文档时，自动弹出迅雷的问题 10、下载时为什么支付不成功？

实战聚类

这篇文章与上一篇的回归分析是一次实习作业整理出来的。所以参考文献一并放在该文最后。CNBlOG网页排版太困难了，又不喜欢live writer聚类分析是将物理或者抽象对象的集合分成相似的对象类的过程。本次实验我将对同一批数据做两种不同的类型的聚类；它们分别是系统聚类和K-mean聚类。其中系统聚类的聚类方法也采用3种不同方法，来考察对比它们之间的优劣。由于没有样本数据，因此不能根据其数据做判别分析。评价标准主要是观察各聚类方法的所得到的类组间距离和组内聚类的大小。分析数据依然采用线性回归所使用的标准化后的能源消费数据。1.1 系统聚类本次实验的系统聚类都是凝聚系统聚类，为了控制变量，都采用平方Euclidean距离。1.1.1 最短距离聚类法最短距离法聚类步骤如下：1. 规定样本间的距离，计算样本两两之间的距离，得到对称矩阵。开始每个样品自成一类。2. 选择对称矩阵中的最小非零元素。将两个样品之间最小距离记为D1，将这两个样品归并成为一类，记为G1。3. 计算G1与其他样品距离。重复以上过程直到所有样品合并为一类。我们在SPSS中实现最短距离分析非常简单。单击“”->“” ->“”。将弹出如图1-1所示的对话框，设置相应的参数即可。图1-1 最短距离法我们的数据已经做过标准化，在“转化值”->“标准化”选项上选无。在统计量的聚类成员中选择“无”，因为这是非监督分类，不需要指定最终分出的类个数。在绘制中选择绘制“树状图”。单击确定，得到以下结果。1. 表3-1显示了数据的缺失情况：案例处理汇总a案例有效缺失总计N百分比N百分比N百分比30100.00.030100.0表1-1 数据汇总我们的数据经过预处理，所以缺失值个数为0. 2. 由于相关矩阵过于庞大，无法在文档中贴出，得到的是一个非相似矩阵。表1-2是样品聚类过程。样品21和28在第一步合并为一类，它们之间的非相关系数最小，为0.211。在下一次合并是第十步。在第五步的时候，样品2、27、14组成一类，出现群集，样品个数为3。如上类推，可以解释表格。聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 212128.211001021224.4650063227.49100541320.5850095214.6453066212.678527727.7026088225.7737099213.91684111021291.0851012112181.1069012122211.115111013132171.36012014142261.56413015152221.6271401616251.6491501717281.87716018182163.02717019192303.54318020202114.9301902121245.02420022222106.4452102423198.26200262421510.093220252522310.09624026261210.189232527271611.38726028281313.153270292911932.3672800 表1-2 聚类过程我们可以通过更加形象直观的树状图来观察整个聚类过程和聚类效果。如图1-2所示，最短距离法组内距离小，但组间距离也较小。分类特征不够明显，无法凸显各个省份的能源消耗的特点。但是我们可以看到广东省能源消耗组成和其他省份特别不同，在其他方法中也显现出来。图1-2 最短距离法聚类图1.1.2 组间联接聚类组间联接聚类法定义为两类之间的平均平方距离，即。类CK和CL 合并为下一步的CM 则CM 与CJ距离的递推公式为：。我们依然贴出组间联接法的聚类表和树状图。1. 聚类表如表1-3所示，相关解释类似于表1-1所述。聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 212128.211001021224.4650053227.49100641320.5850085712.8400276214.9373077271.1056511813251.3314011917181.36000141021291.4951013112131.7037815128261.87700151321222.13310018145172.378091615283.71511121616253.926151418174165.0240023182215.5261613211910116.445002220198.2620025212308.744180232261011.50801924232414.2022117252461514.28822027251219.8222023262612323.36325028273626.51602428281331.2102627292911969.1142800表1-2 组间联接聚类法 2. 树状图如图1-3所示，可以看到聚类的组间距离较大，组内距离较小。聚类结果较为理想。可以看到海南与青海，宁夏自治区，重庆市的能源消耗特点近似，北京、上海两地能源消耗特点也近似。江浙两地亦然。最后广东和各地能源消耗特点都不同。 1.1.3 Ward法聚类Ward即离差平方和法。它的思想是，同类离差平方和较小，类间偏差平方和较大。Ward方法并类时总是使得并类导致的类内离差平方和增量最小。公式：递推公式：我依然贴出ward法聚类表和树状图。1. 聚类表如表1-4所示，相关解释类似于表1-1所述. 聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 212128.106001121224.3380053227.58400641320.87600957121.359021262141.902308717182.582001382293.3516012913254.1404014108265.07900161121226.290101912277.6478514135179.00607211421311.211129191541613.72300231683016.6421002117101119.8650020181923.99600251922130.5561411242061037.15401722215843.8981316242261552.15920026233462.10301526242573.0511921272512386.143180272636106.4422322282712139.00125242928319177.895260292913286.00027280表1-4 Ward法聚类表 2. 树状图如图1-4所示，我们可以看到这个结果较以上两种方法都为理想，组内距离都很小，控制在五次迭代之内。然后组间距离非常大。各分类的样品也基本符合它们的能源消耗特点。最后在接近10次迭代，广东被归入山东、山西这两个分别是能源消耗大省和能源产量大省的一类，说明它们之间的相似度也不大。图1-4 Ward法聚类树状图1.2 K-mean聚类K-mean聚类是用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类，然后逐步调整，得到最终K个分类。 K-mean法对离群点敏感容易扭曲数据分布。单击“”->“” ->“”将弹出如图1-5所示的对话框，我们根据系统聚类法的经验将K选择为5。迭代次数和系统聚类一样选择25次。图1-5 K-mean聚类设置下面输出和解释K-mean聚类结果。1. 表1-5是K-mean的迭代历史记录，非常明了。迭代历史记录a迭代聚类中心内的更改1234512.7961.4141.813.0002.29921.014.000.990.000.0003.000.000.000.000.000a. 由于聚类中心内没有

注意事项

本文（实战聚类）为本站会员（ali****an）主动上传，金锄头文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】，按提示上传提交保证函及证明材料，经审查核实后我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。