电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > DOC文档下载
分享到微信 分享到微博 分享到QQ空间

实战聚类

  • 资源ID:116112691       资源大小:608.50KB        全文页数:15页
  • 资源格式: DOC        下载积分:16金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要16金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

实战聚类

 这篇文章与上一篇的回归分析是一次实习作业整理出来的。所以参考文献一并放在该文最后。CNBlOG网页排版太困难了,又不喜欢live writer聚类分析是将物理或者抽象对象的集合分成相似的对象类的过程。本次实验我将对同一批数据做两种不同的类型的聚类;它们分别是系统聚类和K-mean聚类。其中系统聚类的聚类方法也采用3种不同方法,来考察对比它们之间的优劣。由于没有样本数据,因此不能根据其数据做判别分析。评价标准主要是观察各聚类方法的所得到的类组间距离和组内聚类的大小。 分析数据依然采用线性回归所使用的标准化后的能源消费数据。1.1 系统聚类 本次实验的系统聚类都是凝聚系统聚类,为了控制变量,都采用平方Euclidean距离。1.1.1 最短距离聚类法最短距离法聚类步骤如下:1. 规定样本间的距离,计算样本两两之间的距离,得到对称矩阵。开始每个样品自成一类。2. 选择对称矩阵中的最小非零元素。将两个样品之间最小距离记为D1,将这两个样品归并成为一类,记为G1。3. 计算G1与其他样品距离。重复以上过程直到所有样品合并为一类。我们在SPSS中实现最短距离分析非常简单。单击“”->“” ->“”。将弹出如图1-1所示的对话框,设置相应的参数即可。 图1-1 最短距离法我们的数据已经做过标准化,在“转化值”->“标准化”选项上选无。在统计量的聚类成员中选择“无”,因为这是非监督分类,不需要指定最终分出的类个数。在绘制中选择绘制“树状图”。单击确定,得到以下结果。1. 表3-1显示了数据的缺失情况:                                                            案例处理汇总a案例有效缺失总计N百分比N百分比N百分比30100.00.030100.0表1-1 数据汇总我们的数据经过预处理,所以缺失值个数为0.          2. 由于相关矩阵过于庞大,无法在文档中贴出,得到的是一个非相似矩阵。表1-2是样品聚类过程。样品21和28在第一步合并为一类,它们之间的非相关系数最小,为0.211。在下一次合并是第十步。在第五步的时候,样品2、27、14组成一类,出现群集,样品个数为3。如上类推,可以解释表格。聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 212128.211001021224.4650063227.49100541320.5850095214.6453066212.678527727.7026088225.7737099213.91684111021291.0851012112181.1069012122211.115111013132171.36012014142261.56413015152221.6271401616251.6491501717281.87716018182163.02717019192303.54318020202114.9301902121245.02420022222106.4452102423198.26200262421510.093220252522310.09624026261210.189232527271611.38726028281313.153270292911932.3672800                 表1-2 聚类过程我们可以通过更加形象直观的树状图来观察整个聚类过程和聚类效果。如图1-2所示,最短距离法组内距离小,但组间距离也较小。分类特征不够明显,无法凸显各个省份的能源消耗的特点。但是我们可以看到广东省能源消耗组成和其他省份特别不同,在其他方法中也显现出来。图1-2 最短距离法聚类图1.1.2 组间联接聚类组间联接聚类法定义为两类之间的平均平方距离,即。类CK和CL  合并为下一步的CM 则CM   与CJ距离的递推公式为:。我们依然贴出组间联接法的聚类表和树状图。1. 聚类表如表1-3所示,相关解释类似于表1-1所述。  聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 212128.211001021224.4650053227.49100641320.5850085712.8400276214.9373077271.1056511813251.3314011917181.36000141021291.4951013112131.7037815128261.87700151321222.13310018145172.378091615283.71511121616253.926151418174165.0240023182215.5261613211910116.445002220198.2620025212308.744180232261011.50801924232414.2022117252461514.28822027251219.8222023262612323.36325028273626.51602428281331.2102627292911969.1142800表1-2 组间联接聚类法          2. 树状图如图1-3所示,可以看到聚类的组间距离较大,组内距离较小。聚类结果较为理想。可以看到海南与青海,宁夏自治区,重庆市的能源消耗特点近似,北京、上海两地能源消耗特点也近似。江浙两地亦然。最后广东和各地能源消耗特点都不同。      1.1.3 Ward法聚类Ward即离差平方和法。它的思想是,同类离差平方和较小,类间偏差平方和较大。Ward方法并类时总是使得并类导致的类内离差平方和增量最小。公式: 递推公式: 我依然贴出ward法聚类表和树状图。1. 聚类表如表1-4所示,相关解释类似于表1-1所述.                                                                          聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 212128.106001121224.3380053227.58400641320.87600957121.359021262141.902308717182.582001382293.3516012913254.1404014108265.07900161121226.290101912277.6478514135179.00607211421311.211129191541613.72300231683016.6421002117101119.8650020181923.99600251922130.5561411242061037.15401722215843.8981316242261552.15920026233462.10301526242573.0511921272512386.143180272636106.4422322282712139.00125242928319177.895260292913286.00027280表1-4 Ward法聚类表           2. 树状图如图1-4所示,我们可以看到这个结果较以上两种方法都为理想,组内距离都很小,控制在五次迭代之内。然后组间距离非常大。各分类的样品也基本符合它们的能源消耗特点。最后在接近10次迭代,广东被归入山东、山西这两个分别是能源消耗大省和能源产量大省的一类,说明它们之间的相似度也不大。图1-4 Ward法聚类树状图1.2 K-mean聚类K-mean聚类是用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终K个分类。 K-mean法对离群点敏感容易扭曲数据分布。单击“”->“” ->“”将弹出如图1-5所示的对话框,我们根据系统聚类法的经验将K选择为5。迭代次数和系统聚类一样选择25次。图1-5 K-mean聚类设置下面输出和解释K-mean聚类结果。1. 表1-5是K-mean的迭代历史记录,非常明了。                                        迭代历史记录a迭代聚类中心内的更改1234512.7961.4141.813.0002.29921.014.000.990.000.0003.000.000.000.000.000a. 由于聚类中心内没有

注意事项

本文(实战聚类)为本站会员(ali****an)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.