聚类分析学习总结.

资源ID：470758926 资源大小：100.89KB 全文页数：9页
资源格式： DOCX 下载积分：15金贝

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金贝

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

1、金锄头文库是“C2C”交易模式，即卖家上传的文档直接由买家下载，本站只是中间服务平台，本站所有文档下载所得的收益全部归上传人（卖家）所有，作为网络服务商，若您的权利被侵害请及时联系右侧客服；
2、如你看到网页展示的文档有jinchutou.com水印，是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有jinchutou.com水印标识，下载后原文更清晰；
3、所有的PPT和DOC文档都被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；下载前须认真查看，确认无误后再购买；
4、文档大部份都是可以预览的，金锄头文库作为内容存储提供商，无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证，请慎重购买；
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据；
6、如果您还有什么不清楚的或需要我们协助，可以点击右侧栏的客服。

下载须知 | 常见问题汇总

1、会员注册 2、如何支付与充值 3、个人资料信息修改 4、我的收藏和“收藏文件夹” 5、我的读者群和加入读者群 6、我的书签 7、金锄头文库批量上传工具（绿色版）V1.0 8、下载文档（资源）相关问题整理 9、解决下载文档时，自动弹出迅雷的问题 10、下载时为什么支付不成功？

聚类分析学习总结.

聚类分析学习体会聚类分析是多元统计分析中研究“物以类聚”的一种方法，用于对事物的类别尚不清楚，甚至在事前连总共有几类都不能确定的情况下进行分类的场合。聚类分析主要目的是研究事物的分类，而不同于判别分析。在判别分析中必须事先知道各种判别的类型和数目，并且要有一批来自各判别类型的样本，才能建立判别函数来对未知属性的样本进行判别和归类。若对一批样品划分的类型和分类的数目事先并不知道，这时对数据的分类就需借助聚类分析方法来解决。聚类分析把分类对象按一定规则分成组或类，这些组或类不是事先给定的而是根据数据特征而定的。在一个给定的类里的这些对象在某种意义上倾向于彼此相似，而在不同类里的这些对象倾向于不相似。1聚类统计量在对样品（变量）进行分类时，样品（变量）之间的相似性是怎么度量？通常有三种相似性度量一一距离、匹配系数和相似系数。距离和匹配系数常用来度量样品之间的相似性，相似系数常用来变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义，而这些定义与变量的类型有着非常密切的关系。通常变量按取值的不同可以分为：1. 定量变量：变量用连续的量来表示，例如长度、重量、速度、人口等，又称为间隔尺度变量。2. 定性变量：并不是数量上有变化，而只是性质上有差异。定性变量还可以再分为：有序尺度变量：变量不是用明确的数量表示，而是用等级表示，例如文化程度分为文盲、小学、中学、大学等。名义尺度变量：变量用一些类表示，这些类之间既无等级关系，也无数量关系，例如职业分为工人、教师、干部、农民等。下面主要讨论具有定量变量的样品聚类分析，描述样品间的亲疏程度最常用的是距离。1.1. 距离1. 数据矩阵设*为第i个样品的第j个指标，数据矩阵如下表品就是Rp中的n个点。在Rp中需定义某种距离，第1个样品与第j个样品之间的距离记为q，在聚类过程中，相距较近的点倾向于归为一类，相距较远的点应归属不同的类。所定义的距离q一般应满足如下四个条件：(l) q 0，对一切i, j ;且d(x,XJ0当且仅当x Xjdjdji，对一切 i, j ； d ijd ikdkj，对一切 L j，k2. 定量变量的常用的距离对于定量变量，常用的距离有以下几种：闵科夫斯基(Minkowski)距离Pdj(q) XkXjkqq这里q为某一自然数。闵科夫斯基距离有以下三种特殊形式：1) 当q 1时，dj(1) XikXjk称为绝对值距离，常被形象地称为“城市k 1街区”距离；p X2 2) 当q 2时，q(2) XjkX.k2，称为欧氏距离，这是聚类分析中最k 1常用的距离；3) 当q时，d.( ) max XjkXjk,称为切比雪夫距离。J1 k pJq(q)在实际中用得很多，但是有一些缺点，一方面距离的大小与各指标的观测单位有关，另一方面它没有考虑指标间的相关性。当各指标的测量值相差悬殊时，应先对数据标准化，然后用标准化后的数据计算距离；最常用的标准化处理是：XX令 XSjj1n其中Xj - X.为第j个变量的样本均值，Sj n 1 i 1ni 1-(Xj Xj)2为第j个变量的样本方差。兰氏(Lance和Williams )距离当 Xj0( i 1,2,n; j 1,2,第i个样品与第j个样品间的兰氏距离为dj(L)p XikXjkk 1Xik Xjk这个距离与各变量的单位无关，但没有考虑指标间的相关性。马氏距离(Mahalanobis)距离第i个样品与第j个样品间的马氏距离为dj(M) .(XiXj)'S1(XiXj)其中X X .X , , X )', X.(X.,X夕X ), S为样品协方差矩阵。/、 Ii ( iV l2 ' ip , ' j ' j V j2 jp / / J J-使用马氏距离的好处是考虑到了各变量之间的相关性，并且与各变量的单位无关；但马氏距离有一个很大的缺陷，就是S难确定。由于聚类是一个动态过程，故S随聚类过程而变化，那么同样的两个样品之间的距离可能也会随之而变化，这不符和聚类的基本要求。因此，在实际聚类分析中，马氏距离不是理想的距离。斜交空间距离第i个样品与第j个样品间的斜交空间距离定义为d 牙1 &：X）（X X.rijik jkii jj kiJP killd 其中g是变量xk与变量X间的相关系数。当p个变量互不相关时，djj即斜交空j间距离退化为欧氏距离（除相差一个常数倍外）。P以上几种距离的定义均要求样品的变量是定量变量，如果使用的是定性变量，则有相应的定义距离的方法。3. 定性变量的距离下例只是对名义尺度变量的一种距离定义。例1某高校举办一个培训班，从学员的资料中得到这样6个变量：性别（*）取值为男和女；外语语种（X2）取值为英、日和俄；专业（X3）取值为统计、会计和金融；职业（X4）取值为教师和非教师；居住处（X5）取值为校内和校夕卜；学历（x6）取值为本科和本科以下。现有两名学员：Xi（男，英，统计，非教师，校外，本科）/X2 （女，英，金融，教师，校外，本科以下）/这两名学员的第二个变量都取值“英”，称为配合的，第一个变量一个取值为m2mi m2“男”，另一个取值为“女”，称为不配合的。一般地，若记配合的变量数为m.不配合的变量数为m2,则它们之间的距离可定义为d 12寸光阴不可轻 nn其中 X* XjXkj k 1k 12聚类分析从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS SAS等。从机器学习的角度看，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。聚类是观察式学习，而不是示例式的学习。从实际应用的角度看，聚类分析是数据挖掘的主要任务，是模式识别的重要前提。而且聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法（如分类和定性归纳算法）的预处理步骤。2.1聚类分析的流程及数据来源聚类分析法的主要流程包括：数据预处理、为衡量数据点间的相似度定义一个距离函数、聚类或分组和评估输出，用流程图描述如图1所示。图1聚类分析流程图聚类分析的源数据通常是待聚类或分组的数据。对机械故障模式识别而言，首先要获取关于本机组的大量运行参数，既要有机器平稳运行、正常工作时的数据，更要有机器出现故障时的数据，并且获知故障的类别。这样，由已知故障类别、故障发生时的各运行参数、历史记录组成的数据库便构成了数据挖掘的训练学习样本库。这里用到的数据就是设备的点检数据。2.2 .常用的聚类分析方法(1)系统聚类法系统聚类法(Hierarchical clusteHng method)是目前使用最多的一种方法。其基本思想是首先将n个样品看成n类(即一类包括一个样品)，然后规定样品之间的距离和类与类之间的距离。将距离最近的两类合并为一个新类，在计算新类和其他类之间的距离，再从中找出最近的两类合并，继续下去，最后所有的样品全在一类。将上述并类过程画成聚类图，便可以决定分多少类，每类各有什么样品。系统聚类法的步骤为：首先各样品自成一类，这样对n组样品就相当于有n类；计算各类间的距离，将其中最近的两类进行合并；计算新类与其余各类的距离，再将距离最近的两类合并；重复上述的步骤，直到所有的样品都聚为一类时为止。下面以最短距离法为例来说明系统聚类法的过程。最短距离法的聚类步骤如下：规定样品之间的距离，计算样品的两两距离，距离矩阵记为So,开始视每个样品分别为一类，这时显然应有D(p,q) d ;pq 选择距离矩阵S。中的最小元素，不失一般性，记其为D(p,q)，则将Gp与Gq合并为一新类，记为Gm，有GmGpGq ；计算新类Gm与其他各类的距离，得到新的距离矩阵记为S!；对S?重复开始进行第步，直到所有样本成为一类为止。值得注意的是在整个聚类的过程中，如果在某一步的距离矩阵中最小元素不止一个时，则可以将其同时合并。(2) 动态聚类法开始将n个样品粗略地分成若干类，然后用某种最优准则进行调整，一次又一次地调整，直至不能调整了为止。此法非常类似于计算方法的迭代法。(3) 分解法它的程序正好和系统聚类相反，开始时所有的样本都在一类，然后用某种最优准则将它分成两类。再用同样准则将这两类各自试图分裂为两类，从中选出一个使目标函数较好者，这样由两类变成了三类。如此下去，一直分裂到每类只有一个样品为止（或用其他停止规则）。（4）加入法将样品依次输入，每次输入后将它放到当前聚类图的应有位置上，全部输入后，即得聚类图。3总结体会聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。比如说现在要把n个产品按产品的m 个指标继续聚类，因为产品可能之前的特色是不一样的。而这个时候影响产品的因素有m 个，不可能一个一个的考虑，那样是分不出类来的。所以只能对产品的m个指标综合考虑，采用SPSS中的样本聚类方法，就可以直接将产品分好类。并且从分析结果还可以看出各类产品的特色分别是什么。聚类分析不仅可以用于样本聚类，还可以用于变量聚类，就是对m个指标进行聚类。因为有时指标太多，不能全部考虑，需要提取出主要因素，而往往指标之间又有很多相关联的地方，所以可以先对变量聚类，然后从每一类中选取出一个代表型的指标。这样就大大减少了指标，并且没有造成巨大的信息丢失。2按此定义本例中X1与X2之间的距离为2。31.2. 匹配系数当样品的变量为定性变量时，通常采用匹配系数作为聚类统计量

注意事项

本文（聚类分析学习总结.）为本站会员（re****.1）主动上传，金锄头文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】，按提示上传提交保证函及证明材料，经审查核实后我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。