电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

实战聚类

15页
  • 卖家[上传人]:ali****an
  • 文档编号:116112691
  • 上传时间:2019-11-15
  • 文档格式:DOC
  • 文档大小:608.50KB
  • / 15 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、这篇文章与上一篇的回归分析是一次实习作业整理出来的。所以参考文献一并放在该文最后。CNBlOG网页排版太困难了,又不喜欢live writer聚类分析是将物理或者抽象对象的集合分成相似的对象类的过程。本次实验我将对同一批数据做两种不同的类型的聚类;它们分别是系统聚类和K-mean聚类。其中系统聚类的聚类方法也采用3种不同方法,来考察对比它们之间的优劣。由于没有样本数据,因此不能根据其数据做判别分析。评价标准主要是观察各聚类方法的所得到的类组间距离和组内聚类的大小。分析数据依然采用线性回归所使用的标准化后的能源消费数据。1.1 系统聚类本次实验的系统聚类都是凝聚系统聚类,为了控制变量,都采用平方Euclidean距离。1.1.1 最短距离聚类法最短距离法聚类步骤如下:1. 规定样本间的距离,计算样本两两之间的距离,得到对称矩阵。开始每个样品自成一类。2. 选择对称矩阵中的最小非零元素。将两个样品之间最小距离记为D1,将这两个样品归并成为一类,记为G1。3. 计算G1与其他样品距离。重复以上过程直到所有样品合并为一类。我们在SPSS中实现最短距离分析非常简单。单击“”-“” -“”。将弹出

      2、如图1-1所示的对话框,设置相应的参数即可。图1-1 最短距离法我们的数据已经做过标准化,在“转化值”-“标准化”选项上选无。在统计量的聚类成员中选择“无”,因为这是非监督分类,不需要指定最终分出的类个数。在绘制中选择绘制“树状图”。单击确定,得到以下结果。1. 表3-1显示了数据的缺失情况: 案例处理汇总a案例有效缺失总计N百分比N百分比N百分比30100.00.030100.0表1-1 数据汇总我们的数据经过预处理,所以缺失值个数为0. 2. 由于相关矩阵过于庞大,无法在文档中贴出,得到的是一个非相似矩阵。表1-2是样品聚类过程。样品21和28在第一步合并为一类,它们之间的非相关系数最小,为0.211。在下一次合并是第十步。在第五步的时候,样品2、27、14组成一类,出现群集,样品个数为3。如上类推,可以解释表格。聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 212128.211001021224.4650063227.49100541320.5850095214.6453066212.678527727.7026088225.7737099213.9168

      3、4111021291.0851012112181.1069012122211.115111013132171.36012014142261.56413015152221.6271401616251.6491501717281.87716018182163.02717019192303.54318020202114.9301902121245.02420022222106.4452102423198.26200262421510.093220252522310.09624026261210.189232527271611.38726028281313.153270292911932.3672800表1-2 聚类过程我们可以通过更加形象直观的树状图来观察整个聚类过程和聚类效果。如图1-2所示,最短距离法组内距离小,但组间距离也较小。分类特征不够明显,无法凸显各个省份的能源消耗的特点。但是我们可以看到广东省能源消耗组成和其他省份特别不同,在其他方法中也显现出来。图1-2 最短距离法聚类图1.1.2 组间联接聚类组间联接聚类法定义为两类之间的平均平方距离,即。类CK和CL 合并为下一步的CM

      4、则CM 与CJ距离的递推公式为:。我们依然贴出组间联接法的聚类表和树状图。1. 聚类表如表1-3所示,相关解释类似于表1-1所述。 聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 212128.211001021224.4650053227.49100641320.5850085712.8400276214.9373077271.1056511813251.3314011917181.36000141021291.4951013112131.7037815128261.87700151321222.13310018145172.378091615283.71511121616253.926151418174165.0240023182215.5261613211910116.445002220198.2620025212308.744180232261011.50801924232414.2022117252461514.28822027251219.8222023262612323.36325028273626.51602428281331.2102627292

      5、911969.1142800表1-2 组间联接聚类法 2. 树状图如图1-3所示,可以看到聚类的组间距离较大,组内距离较小。聚类结果较为理想。可以看到海南与青海,宁夏自治区,重庆市的能源消耗特点近似,北京、上海两地能源消耗特点也近似。江浙两地亦然。最后广东和各地能源消耗特点都不同。 1.1.3 Ward法聚类Ward即离差平方和法。它的思想是,同类离差平方和较小,类间偏差平方和较大。Ward方法并类时总是使得并类导致的类内离差平方和增量最小。公式:递推公式:我依然贴出ward法聚类表和树状图。1. 聚类表如表1-4所示,相关解释类似于表1-1所述. 聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 212128.106001121224.3380053227.58400641320.87600957121.359021262141.902308717182.582001382293.3516012913254.1404014108265.07900161121226.290101912277.6478514135179.00607211421311.21112919

      6、1541613.72300231683016.6421002117101119.8650020181923.99600251922130.5561411242061037.15401722215843.8981316242261552.15920026233462.10301526242573.0511921272512386.143180272636106.4422322282712139.00125242928319177.895260292913286.00027280表1-4 Ward法聚类表 2. 树状图如图1-4所示,我们可以看到这个结果较以上两种方法都为理想,组内距离都很小,控制在五次迭代之内。然后组间距离非常大。各分类的样品也基本符合它们的能源消耗特点。最后在接近10次迭代,广东被归入山东、山西这两个分别是能源消耗大省和能源产量大省的一类,说明它们之间的相似度也不大。图1-4 Ward法聚类树状图1.2 K-mean聚类K-mean聚类是用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终K个分类。K-mean法对离群点敏感容易扭曲数据分布。单击“”-“” -“”将弹出如图1-5所示的对话框,我们根据系统聚类法的经验将K选择为5。迭代次数和系统聚类一样选择25次。图1-5 K-mean聚类设置下面输出和解释K-mean聚类结果。1. 表1-5是K-mean的迭代历史记录,非常明了。 迭代历史记录a迭代聚类中心内的更改1234512.7961.4141.813.0002.29921.014.000.990.000.0003.000.000.000.000.000a. 由于聚类中心内没有

      《实战聚类》由会员ali****an分享,可在线阅读,更多相关《实战聚类》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结 2022年家长会心得体会集合15篇
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.