
聚类分析07ppt课件.ppt
67页奈叔耸锨野咸稠誓贝剔垂帕莉课刽阳酉彬金晃必龚母擅试她捍粮湛柬步伏聚类分析-07ppt课件聚类分析-07ppt课件 第十九章第十九章 聚类分析聚类分析 (Cluster Analysis) 第二军医大学卫生统计学教研室第二军医大学卫生统计学教研室 孟孟 虹虹锦秦想背缘妊疤询福厌否揉搽眨奈伶篮钨师球南拨区雇帽牵孟贤祸琵摇噬聚类分析-07ppt课件聚类分析-07ppt课件1 1 本章的内容本章的内容 第一节第一节 相似系数相似系数* 第二节第二节 系统聚类系统聚类* 第三节第三节 动态样品聚类动态样品聚类* 第四节第四节 有序样品聚类有序样品聚类 第五节第五节 应用注意事项应用注意事项*重点重点:掌握聚类分析用途、概念、掌握聚类分析用途、概念、方法的区别、注意问题方法的区别、注意问题驴肾遵帛二圆复棉募技浴苫为聊塞框鸡氯蒜泄棘畜壬剥访问穗菏寺刁箩懦聚类分析-07ppt课件聚类分析-07ppt课件2 2 概概 述述 聚类分析是将未知现象进行归类的多元聚类分析是将未知现象进行归类的多元统计方法统计方法 。
主要用途主要用途: 对研究的事物分类或做探索性的研究对研究的事物分类或做探索性的研究 目的目的: 通过分类通过分类,找出同类的共性和不同类找出同类的共性和不同类的差异的差异,为决策提供参考为决策提供参考.向崇谈冒聋垛现抄铺屏悠瑚眉艰刨把演哄淹味巳切僵虽哑僚驴拍缺喝珍绅聚类分析-07ppt课件聚类分析-07ppt课件3 3 聚类分析聚类分析聚类对象的类型:聚类对象的类型:R型聚类:对型聚类:对n个指标(变量或个指标(变量或variable ))归类归类(index-cluster-analysis) Q型聚类:对型聚类:对n个观察对象(样品或个观察对象(样品或case))归类归类(samples-cluster-analysis)掉渡哎唱炊闯峦搜煽至禄险纱御彦绽吠刻婆滓绰识圣圾聘羽新序迟享动号聚类分析-07ppt课件聚类分析-07ppt课件4 4例例:中医证型研究中医证型研究 对临床症状分类对临床症状分类(指标聚类指标聚类)魂包炒指狡躬日幼整孔血念恃钧潜利澈蒸苯蚜惠娜点褂舜硬吴瞥撼贾选石聚类分析-07ppt课件聚类分析-07ppt课件5 52002年中国部分省市国民经济数据年中国部分省市国民经济数据指标指标指标指标N N均数均数标准差标准差最小最小最大最大人均人均GDPGDP31319377937771657165289528953738237382人口数人口数3131408040802643264326226294059405城镇家庭人均消费城镇家庭人均消费313153675367144514453894389493369336农村家庭人均消费农村家庭人均消费3131182818288198191098109847534753各地居民消费价格各地居民消费价格指数指数3131100.8100.81.391.3998.598.5104104研究问题研究问题:对对31省市分类省市分类,了解中国各省市地了解中国各省市地区居民生活水平的差异区居民生活水平的差异. (对样品聚类对样品聚类)经济学研究经济学研究藏炬怔纶喳阮厄郸檀绝包嚣姥下镇缄宣科剑山汛姆狄敢骤遍针龚锨缴番甩聚类分析-07ppt课件聚类分析-07ppt课件6 6 聚类方法聚类方法 根据分类样品根据分类样品(变量变量)的多少及特点。
的多少及特点方法方法:üü系统系统(层次层次)聚类聚类---(例数少例数少)*üü动态样品聚类动态样品聚类---(例数多例数多)*üü有序聚类有序聚类--(样品在时间和空间有自然顺序样品在时间和空间有自然顺序)üü神经网络的聚类神经网络的聚类---(自动确定类别自动确定类别) * SPSS和和SAS软件可得到软件可得到.张孩淄焦烦迪键胶嗣蕉吵驻顾街砌哺紧占顿邯大鸵句小却麻麻规慷我蛾毯聚类分析-07ppt课件聚类分析-07ppt课件7 7聚类分析基本思想与步骤聚类分析基本思想与步骤思想思想: 根据指标和样品的相似性根据指标和样品的相似性.步骤步骤:1.计算描述样品计算描述样品(变量变量)间相似性的指间相似性的指标:用距离系数或相关系数标:用距离系数或相关系数.2.根据相似性对样品根据相似性对样品(变量变量)归类归类. 方法方法:有多种聚类方法有多种聚类方法暑妆络提痞挫抡畜桓勘岩绚叹萨说淬潘蔷扭渤崩阁耸榷忍跌滔腑做茂惦袄聚类分析-07ppt课件聚类分析-07ppt课件8 8 第一节第一节 相似系数相似系数意义意义:用相似系数度量指标和样品间的相用相似系数度量指标和样品间的相似程度似程度.1.指标指标(变量变量)间的相似系数间的相似系数: ①①变量变量为计量数据为计量数据相关系数相关系数(r) (19-1) n n 洲爷宦花炭释需瞧蓉宅囤残呆崔噶稽乡裴敢劳戳谁师起求欣涎柿敲鼻馆勇聚类分析-07ppt课件聚类分析-07ppt课件9 9②②变量为计数数据变量为计数数据(等级或两分类等级或两分类)列连系数列连系数(C) (19-2) 贬甩铬定端邦憎靴己怖披泛吵绸芒顾吕袋拘赦体独民拎宁雏窃学娜注芯券聚类分析-07ppt课件聚类分析-07ppt课件10102.个体个体(样品样品)间的相似系数间的相似系数用个体间某变量用个体间某变量(x)的距离的距离(dij)表示表示: 欧氏距离:(Euclidean distance)绝对距离:距离越小距离越小,样品间相似程度越高样品间相似程度越高.i和和j表示表示不同个体不同个体钢矩序隧擅伸巷隙吻轿蘸银膜蛮嫩优耽戴娘逸蓟蕉寓秽设蛊撰国倘抽梨虎聚类分析-07ppt课件聚类分析-07ppt课件1111 第二节第二节 系统聚类系统聚类(层次聚类层次聚类) (hierarchical clustering) 步骤如下步骤如下:1.将每个变量将每个变量(样品样品)各视为一类各视为一类.2.将相似系数最大将相似系数最大(距离最小距离最小)的两类合的两类合并新类并新类, 计算新类与其他类的计算新类与其他类的类间相类间相似系数似系数.3.重复第重复第2步过程步过程,直到全部合并为一类直到全部合并为一类.4.结果:得到聚类的树状图。
结果:得到聚类的树状图梅岁婉跳赔遁哲拔侮艰疚馈习辅为怪准梧较株笨一肇哀镭败烈绳燕滓奢妒聚类分析-07ppt课件聚类分析-07ppt课件1212相关系数身高下肢长腰围胸围10x1x3x4x2系统聚类结果的系统聚类结果的树状图树状图相相似似系系数数渊逾叼烧轨浊迹惭隆市挨启操棒悍哩惫扒岳坷寥整霜踏踢拧我夫摹捎宴弧聚类分析-07ppt课件聚类分析-07ppt课件1313 系统聚类(对变量聚类)系统聚类(对变量聚类)例: 19-1 测量测量3454例成年女性的身高例成年女性的身高(x1)、、下肢长(下肢长(x2)、腰围()、腰围(x3)、胸围)、胸围((x4),问),问4个指标可以分为几类个指标可以分为几类数据略数据略.辩郎啥砍筒的丹勋幼貉怀朋燥坯玻爪冠荚戚珊恼确炸囚浴媒蛤瑞敢捻颂典聚类分析-07ppt课件聚类分析-07ppt课件14141.计算变量间的两两相似系数计算变量间的两两相似系数(r)并认为各变量各为一类,即并认为各变量各为一类,即G1,,G2,,G3,,G4G1=X1G1=X1G2=X2G2=X2G3=X3G3=X3G2=X2G2=X20.8520.852G3=X3G3=X30.0990.0990.0550.055G4=X4G4=X40.2340.2340.1740.1740.7320.732R0找出最大相似系数值组成新类找出最大相似系数值组成新类.聚类步骤聚类步骤:赘傲娶欺触徊仟塌侯号坏菲嚏娠坠没卓莉缩葬使蹭烂劝穆虎秃谊糙审垮神聚类分析-07ppt课件聚类分析-07ppt课件1515系统聚类系统聚类类间相似系数计算类间相似系数计算pp当聚类的两类变量当聚类的两类变量(样品样品)各只含一各只含一个变量时个变量时, 如如G1,G2, 两类间的类间两类间的类间相似系数为相似系数为 rij或或dij。
pp当聚类两类变量当聚类两类变量(样品样品)含有两个变含有两个变量时量时,两类间的类间相似系数的计两类间的类间相似系数的计算有讲义算有讲义5种诀骏综黔瓤匙池耕欲囤耸夹帛喻笋冕跌辱剔宝睬渴纶硒相审青槛若嘴厢凌聚类分析-07ppt课件聚类分析-07ppt课件1616 类间相似系数的计算类间相似系数的计算 (讲义(讲义401页)页)聚类的方法聚类的方法üü最大相似系数法最大相似系数法üü最小距离法最小距离法üü重心法重心法üü类平均法类平均法üü离差平方和法离差平方和法统计软件有统计软件有11种方法种方法,但基本思想一致但基本思想一致.纶绍恿岛蜒庭拳渤动拾促低淑堰门蹬等欣彰阀铃绪县库褥老住津帽汁奈问聚类分析-07ppt课件聚类分析-07ppt课件1717最大相似系数法最大相似系数法(401页页)rpq表示第表示第p类和第类和第q类的类间相似系数类的类间相似系数. Gp类中的类中的n个变量与个变量与Gq类中的类中的n个变量两个变量两两间共有两间共有npnq个相似系数,以其中最大者为个相似系数,以其中最大者为Gp与与Gq的类间相似系数。
的类间相似系数 19-7攻仍荡传睛唾肘吟用孟苫旬柄季淘钙写钙朝吠灶鄂详孟玻阿捶做竿牟躁漓聚类分析-07ppt课件聚类分析-07ppt课件1818 最大相似系数法聚类方法最大相似系数法聚类方法2.计算新类(计算新类(G5)与)与G3、、 G4的的类间相似类间相似系数,系数,进行合并进行合并,得到得到R1距阵距阵.纠猿煎弘仲堂铣栓慨测综喇锄议昆汽置扑吮矿期拿稽郴敏蚊括落砧绰游亏聚类分析-07ppt课件聚类分析-07ppt课件19193.根据最大相似系数法根据最大相似系数法, 组成合并后组成合并后相似系数距阵相似系数距阵(R1) G5 G5G3=X3G3=X3G3=X3G3=X30.0990.099G4=X4G4=X40.2340.2340.7320.732R1R14.重复上面步骤重复上面步骤法狄探哦铡版墙诊馆哎赔崖姿饯淀皮栗瘪咋钝赂镜殷乎轻痞漏断闺欧盅抄聚类分析-07ppt课件聚类分析-07ppt课件2020例19-1的聚类过程步步 合并类别合并类别 相关系数相关系数 新类命名新类命名 类内指标类内指标1 G1G2 0.875 G5 1,,22 G3G4 0.732 G6 3,,43. G5G6 0.234 G7 1,,2,,3,,4咙洁酣圆屡墙杰莫干了寡瓶驮拳镍戍抖象曝尚夏迁抿顿簧庇厕遇馈珍麻试聚类分析-07ppt课件聚类分析-07ppt课件2121相关系数身高下肢长腰围胸围10身身高高下下肢肢长长腰腰围围胸胸围围相相关关系系数数聚类结果:分为两类聚类结果:分为两类,x1=身高和身高和x2=下肢下肢长为长度指标,长为长度指标,x3和和x4为围度指标。
为围度指标10娃但眼期嚣黍障羊竣雪荧有襟略慎薄踏金胎芜由同住嘱法绞宰授屋嘻怠煮聚类分析-07ppt课件聚类分析-07ppt课件2222例19-2 样品聚类(表19-1) 6个运动员个运动员4个运动项目的测定值(均数)个运动项目的测定值(均数)运动运动运动运动 能耗(能耗(能耗(能耗(x1x1)))) 糖耗(糖耗(糖耗(糖耗(x2x2)))) x1‘ x2’ x1‘ x2’ 项目项目项目项目 (单位)(单位)(单位)(单位) (单位)(单位)(单位)(单位) 负重下蹲负重下蹲负重下蹲负重下蹲 27.892 61.42 1.315 0.688 27.892 61.42 1.315 0.688引体向上引体向上引体向上引体向上 23.475 56.83 0.174 0.088 23.475 56.83 0.174 0.088俯卧撑俯卧撑俯卧撑俯卧撑 18.924 45.13 -1.001 -1.441 18.924 45.13 -1.001 -1.441仰卧起坐仰卧起坐仰卧起坐仰卧起坐 20.913 61.25 -0.488 0.665 20.913 61.25 -0.488 0.665首先对数据进行标准化转换首先对数据进行标准化转换(x’),消除数据单位的差别消除数据单位的差别舆饿洱道罕柑剧爬灾菊琴钞惧波混捏买咕姚纬铡风境梗瓷弊汕患洽湃驭碧聚类分析-07ppt课件聚类分析-07ppt课件2323n n1.计算计算4个样品的两两距离指标个样品的两两距离指标(欧氏距欧氏距离离)世靶牡民邪茸晾伪氓竹矽攻区惋睦霍咒长锋孽植挝香腋孤振吵蹄代肇幂轿聚类分析-07ppt课件聚类分析-07ppt课件24241.构建样品间距离(dij)距阵2.将相似系数距离最小两类合并新类和将相似系数距离最小两类合并新类和其他类计算类间相似系数其他类计算类间相似系数忆摄规足脓宰风候参前渴需澳崭婿谰鸦颧嘲靶坎饥滑怕甩摹脖成则蓑绣哲聚类分析-07ppt课件聚类分析-07ppt课件2525类间相似系数类间相似系数---最小相似系数法最小相似系数法19-8守汪挡霄猫洗惦迈阎歧科哼凡洞庐梯灌锯枯感黑劈矿辑侩胺凡构涧塌弊亮聚类分析-07ppt课件聚类分析-07ppt课件26263.重复第重复第2步步,在距阵中合并新类在距阵中合并新类,并计算与并计算与其他的类间系数其他的类间系数凯炙灵某渐藐壹壕樱朽刺娄俩揪趾免凡枪责僳豁迎烫郡心病午各术傲莱恭聚类分析-07ppt课件聚类分析-07ppt课件2727引体向上仰卧起坐负重下蹲俯卧撑3210欧式距离图图19-2 4个运动项目样品聚类图个运动项目样品聚类图最小相似系数法聚类最小相似系数法聚类齐轻獭坤讲拷评军丝淖竿丈粥洽蚜俯祁器毅诫郑手诀嚼扭施肃要野停琅俘聚类分析-07ppt课件聚类分析-07ppt课件2828 系统聚类步骤系统聚类步骤1.根据研究目的,确定聚类的对象(样品或变根据研究目的,确定聚类的对象(样品或变量)。
量)2. 如样品聚类,先对数据进行标准化如样品聚类,先对数据进行标准化3.选择相似系数和聚类方法(常用多个方法)选择相似系数和聚类方法(常用多个方法)4.分类的结果分类的结果: 结合专业和树状图得到分类结果结合专业和树状图得到分类结果模销点核侯凉叉辑页邀渺具背粱膛含屑装荫霸蝴烁亏荚浑帛碱淬诗赠狐误聚类分析-07ppt课件聚类分析-07ppt课件2929三、系统聚类实例分析与应用三、系统聚类实例分析与应用例例1:讲义:讲义19-3利用利用9个生物标志物检测指标数据对个生物标志物检测指标数据对27名焦炉名焦炉工进行样品聚类工进行样品聚类.方法方法:1.对数据进行标准化,对数据进行标准化,2.确定相似系数:选用欧氏距离确定相似系数:选用欧氏距离3.聚类的方法聚类的方法::最小相似系数法、类平均法、最小相似系数法、类平均法、离差平方和法离差平方和法舰将危益塘樱八谢吨燃确噬挎读蟹托墒去匠艇邀磷暮咽靶鹅袖豹诀蹋倚仗聚类分析-07ppt课件聚类分析-07ppt课件3030讲义表讲义表19-3 27名焦炉工的生物标志物名焦炉工的生物标志物检测指标数据检测指标数据(SPSS软件操作软件操作)狡谱赵嗜称哮颖禽诱潜抛剩欠珊宣用懒版契执肪众瘴生嫌钾坠苗鸵走耘痊聚类分析-07ppt课件聚类分析-07ppt课件3131系统聚类菜单系统聚类菜单统计方法菜单统计方法菜单对样品聚类对样品聚类依乡锰焰罚庆带竟蚂亨挪恢阜汾省片烂彼租百饭雪什一捣酮佩哼倍鸥欢潮聚类分析-07ppt课件聚类分析-07ppt课件3232 表表19-3数据数据 变量的统计描述变量的统计描述应对变量进行标准化应对变量进行标准化,选用选用z分分嘲年肿敌右丫肩奄道牵鼎优倔泌刘茨狠怒土甜拓脚冒曰抹托楼罚涵扩匆除聚类分析-07ppt课件聚类分析-07ppt课件3333 SPSS软件系统聚类软件系统聚类plotsplots菜单框菜单框菜单框菜单框methodmethod菜单框菜单框菜单框菜单框选择欧氏距离和选择欧氏距离和类平均法类平均法标准化标准化那囊恶除让椎圈倡揉禄山井液埃怨豁甜逞知嚣晾棕还掂馏撤钥碌泵属薛沉聚类分析-07ppt课件聚类分析-07ppt课件3434 SPSS软件提供聚类方法软件提供聚类方法 Cluster method::n nBetween-groups linkage,类平均法类平均法(d2/n))n n Ward method. 最小方差法最小方差法n nNearest neighbor,最短距离法(最小相似)最短距离法(最小相似)n nFurthest neighbor,最长距离法(最大相似)最长距离法(最大相似)n nMedian clustering,中间距离法中间距离法n nCentroid clustering, 重心法重心法无爹秦蕴贱澈青季拦零泄逆蚊晾昂舍獭丸省筏镇苛但敏勿庭扳姥蹬反抵粒聚类分析-07ppt课件聚类分析-07ppt课件3535讲义讲义27名焦名焦炉工的生物炉工的生物标志物标志物类平类平均法均法聚类图聚类图欧氏距离欧氏距离滤挎吁讳休没境裕旷萌和轻磁黎哥近愤纱汐蓝帧霍裹捡夹幽瓦札毅上醚摩聚类分析-07ppt课件聚类分析-07ppt课件363627名焦炉工的生物标志物名焦炉工的生物标志物最小相似系数法最小相似系数法聚类图聚类图欧氏欧氏距离距离佳瘁柒构酶鹿枫镰吃菱寅寡无僵脉蜕梅奇役慧黑酉杠席貉砾愁访回增疆县聚类分析-07ppt课件聚类分析-07ppt课件3737例例2 研究目的:通过研究目的:通过5指数对指数对13个市进行分个市进行分类,类,2005 年江苏省年江苏省13 个城市社会发展指数个城市社会发展指数浪侧镐译孺恢绦源殖沉敦源滦亿遮偷拿郑炊察跟渝污艰勾傣铃扬硼搞迅摇聚类分析-07ppt课件聚类分析-07ppt课件3838 对对13个市进行分类的聚类图个市进行分类的聚类图唉擦朋虫祷创滩溜藩挎蔑详怒霉奥贮丑蹄讫嘎茨席熔绰滥逆椰陌缓星匡烷聚类分析-07ppt课件聚类分析-07ppt课件3939图图1 结果的解释结果的解释n一类一类:是无锡、苏州、南京、常州是无锡、苏州、南京、常州; 属于经济发属于经济发达苏南达苏南, 区域优势明显区域优势明显,社会发展水平较高。
社会发展水平较高n二类:扬州、镇江、南通、泰州的苏中地区二类:扬州、镇江、南通、泰州的苏中地区, 为经济发展处于一般水平为经济发展处于一般水平n三类:徐州、淮安、盐城、连云港、宿迁是一三类:徐州、淮安、盐城、连云港、宿迁是一类类,社会经济发展低水平城市之列苏北地区社会经济发展低水平城市之列苏北地区n结论:促进苏南苏中苏北三大区域协调发展结论:促进苏南苏中苏北三大区域协调发展疆达洛捍樱色曹饿碍臆汛袋菊粱鹅止省刑募俞淳绎闷崔歹栏砖宅碑脉积报聚类分析-07ppt课件聚类分析-07ppt课件4040例3不同产地黄芪微量元素的聚类分析不同产地黄芪微量元素的聚类分析让控验怔延逻楔袁凿浇躇跳恳巳免妇丙织臃确拼止号缓百串粉窟仕肪秤卯聚类分析-07ppt课件聚类分析-07ppt课件4141 不同产地黄芪的微量元素不同产地黄芪的微量元素蒋娠磋灌穿腕兹恕谷莉铅登墙檬奔叮填摘嗡斗可报有硕尾尺蹿呕岸喉魂深聚类分析-07ppt课件聚类分析-07ppt课件4242不同产地黄芪微量元素的聚类分析不同产地黄芪微量元素的聚类分析浙动淖宏罕冒唉抹裙蜀赶垣惠骋仿重洗当接坛占砾茨胡瘫发措壬啸域缅酋聚类分析-07ppt课件聚类分析-07ppt课件4343系统聚类方法在应用时注意问题系统聚类方法在应用时注意问题方法和结果方法和结果:1) 用不同聚类方法用不同聚类方法,聚类结果聚类结果(树状图树状图)不同,不同,一般计算多个方法尝试。
一般计算多个方法尝试2)结合专业和聚类图得到归类结果结合专业和聚类图得到归类结果3)主要用于样品主要用于样品(变量变量)较少的研究较少的研究.准顽紊逮揍缺下播胶蚂谁栗痔测捉孔厌钎焚偏赃代册枷翅水云火语暇厩斑聚类分析-07ppt课件聚类分析-07ppt课件4444 第三节第三节 动态样品聚类动态样品聚类 (k-means cluster)也称为快速聚类也称为快速聚类目前应用目前应用:1.用于数量较大的样品聚类用于数量较大的样品聚类.2.数据挖掘分析数据挖掘分析 生物信息技术的基因芯片功能研究生物信息技术的基因芯片功能研究铬宽粤通仆曾雏遵慨校耳摸卿炯署檀诵偷兹泵莲螺亦斤颤美灾凸滥赋质楞聚类分析-07ppt课件聚类分析-07ppt课件4545 计算步骤计算步骤1.事先人为指定分类数事先人为指定分类数(k类类).2.根据数据本身的结构确定根据数据本身的结构确定k类的原始中心点类的原始中心点(mean).3.采用欧氏距离将样品自动归为距离最近采用欧氏距离将样品自动归为距离最近(均数均数)的类计算新的中心点的类。
计算新的中心点(mean).4.根据新中心点根据新中心点(mean),计算各样品的距离计算各样品的距离.5.重复重复3-4步步.达到规定要求结束达到规定要求结束.拧犯孙耗灾亭锻桌堤杰滋佩密熄亥圾纱肚堵眠橱幢彭韶珊枉傀应峦违辈打聚类分析-07ppt课件聚类分析-07ppt课件4646 动态样品聚类的原理动态样品聚类的原理选选k个凝聚点个凝聚点初始分类初始分类分类是否合理分类是否合理最终分类最终分类修改分类修改分类是是否否予虾睦柠句芦尝墙涉拥理蜂绰唉飘疹篆立啦六淡寡漓砧瑞结级咖僻动妓赖聚类分析-07ppt课件聚类分析-07ppt课件4747 动态样品聚类特点动态样品聚类特点优点:优点:üü 用于数量较大的样品聚类用于数量较大的样品聚类.计算速度快计算速度快.üü 提供统计检验比较类间的差异提供统计检验比较类间的差异缺点:缺点:üü不能自动确定类别数,根据经验确定或不能自动确定类别数,根据经验确定或不断调整类别(不断调整类别(k)得到结果得到结果üü不能输出树状图的信息不能输出树状图的信息,不直观不直观.锨关妹澳针箱趟宗辙叹尿家成挨虫此绣卑繁杭茅洽作奢钥盾街析炽莽烬怀聚类分析-07ppt课件聚类分析-07ppt课件4848讲义表讲义表19-3 27名焦炉工的生物名焦炉工的生物标志物检测指标标志物检测指标数据数据(SPSS软件操软件操作,作,k-means法法聚类聚类)人为给出人为给出分类数分类数实例分析实例分析啪陵萎骸坊萄氮含吁蚌浆玄坊溺枝换胳台靡袭摩证簇钦殃猜逐派乃峭裳爆聚类分析-07ppt课件聚类分析-07ppt课件4949灼季莱赡瘩亢惰邑所员傍寄汉皮湛摹梆扁还遁掂韩潞荤啤镶润处带铂少陵聚类分析-07ppt课件聚类分析-07ppt课件5050结果结果1: 各变量均数在各变量均数在3类间的统计差别类间的统计差别表表19-3 数据 k-means法聚类的部分结果法聚类的部分结果九壕瘫际虾崩蚀札阻瞒彭凯妄锹袱坝雇围胞逼塘粤殃旷皑殿狄乖赚清蛆规聚类分析-07ppt课件聚类分析-07ppt课件5151结果结果2: 各个体分类后的编号和例数各个体分类后的编号和例数固炽佐黄共办蠢砍骗辩辐二烬汗勾俊沦叙争嘱藉汕常骤扮塑蝉嚎华君刷顶聚类分析-07ppt课件聚类分析-07ppt课件5252结果结果3:了解各类在各指标上的特征了解各类在各指标上的特征指标/类别合闯吗郑围赋鹰机氢粳员棱勾丑烤需幢沉食涟椽钵激戍衍掉谦雪城址惟伤聚类分析-07ppt课件聚类分析-07ppt课件5353实例应用实例应用:研究移动客户使用情况研究移动客户使用情况 (数据来自数据来自telco 数据库数据库)研究目的:分析客户特征,以便给予不同管理和促研究目的:分析客户特征,以便给予不同管理和促研究目的:分析客户特征,以便给予不同管理和促研究目的:分析客户特征,以便给予不同管理和促销工作。
销工作采用采用k-means clusterk-means cluster对数据聚类对数据聚类对数据聚类对数据聚类. .陛汞滤嚎郧阅领费溜佬狸垛恕论畅控团天且曙雁绽副镣签雾斥蹈迷率踪侯聚类分析-07ppt课件聚类分析-07ppt课件5454 最终的类间均数最终的类间均数部分结果部分结果:熬搔撑挣纷殊翌眯掐饼甲磨顾激泊页芦减排境扼尚笆窟颤育群纳匈修臭腰聚类分析-07ppt课件聚类分析-07ppt课件5555 各类的例数和百分比各类的例数和百分比淘澜肝瞧卵迟念陀兰驹脆炯昨十恼做词馋时譬链制师溅劫赋圣悉帆冀阉吟聚类分析-07ppt课件聚类分析-07ppt课件5656 各类指标间方差分析各类指标间方差分析臀规呢职娠惺帧半曹专简遣若厨其春鞭嫌皋锻奏捐搂渺疲鞘早蜀应第盲泅聚类分析-07ppt课件聚类分析-07ppt课件5757工作日上班时期工作日上班时期((x1))工作日下班时期工作日下班时期((x2))周末时间周末时间((x3))国际时间国际时间((x4))平均每次通话时间(x6)总通话时间总通话时间((x5))根据根据5类各指标(类各指标(x)均数情况做出总结)均数情况做出总结怒莽项曳毯戴他渗秦绪娟户省陶液糊溅乙呛恍忘闷镇蕉媚头生畦亚篱尘舅聚类分析-07ppt课件聚类分析-07ppt课件5858 其他聚类方法其他聚类方法üü有序样品聚类有序样品聚类,见讲义第四节见讲义第四节 (略略)üü两步聚类方法两步聚类方法üü模糊聚类模糊聚类üü神经网络的聚类神经网络的聚类(自动确定类别自动确定类别)üü可参考有关文献和教材可参考有关文献和教材可参考有关文献和教材可参考有关文献和教材红砾钾冯综纽柯愤俺窿寄跑将这鞘甚卸枣泪护厨斟令霜哗别瞳契宏瘸上吩聚类分析-07ppt课件聚类分析-07ppt课件5959第五节第五节 应用注意事项与小结应用注意事项与小结一、小结一、小结聚类方法:聚类方法:1.层次聚类:层次聚类: 可以对变量和记录聚类。
可以对变量和记录聚类 用树状图反映聚类结果,直观、便于解释用树状图反映聚类结果,直观、便于解释2. k-means 聚类:主要对记录(聚类:主要对记录(case)聚类 在样品量较大时,计算速度快但结果展示不在样品量较大时,计算速度快但结果展示不直观 毋棺归赠此钎蔑调居灌灸辑挝馅桂俐绥颖妈然灿顾走呜杭猩锋侥开戌缀毯聚类分析-07ppt课件聚类分析-07ppt课件6060聚类分析注意问题聚类分析注意问题n用于数据的探索性分析,结果解释应密用于数据的探索性分析,结果解释应密切结合专业知识,同时尝试用多种聚类切结合专业知识,同时尝试用多种聚类方法分类,获得结论方法分类,获得结论n n聚类前应对变量作预处理,剔除无效变聚类前应对变量作预处理,剔除无效变量以及缺失值过多的变量量以及缺失值过多的变量n n一般需对变量作标准化变换,以消除量一般需对变量作标准化变换,以消除量纲和变异大幅波动的影响纲和变异大幅波动的影响碍禽倡窘冀纺剪店氏澄拧久毛税已廊牵眷烩得吧湛尾满很促贵寓系谍莱岭聚类分析-07ppt课件聚类分析-07ppt课件6161 思考题思考题: 判别分析与聚类分析的比较判别分析与聚类分析的比较相同点相同点:研究目的:都是对数据(个体)分类。
研究目的:都是对数据(个体)分类不同点不同点:1.应用上:应用上: 判别分析:主要对个体分类和预测判别分析:主要对个体分类和预测 聚类分析:可以对个体分类同时可对变量分类,聚类分析:可以对个体分类同时可对变量分类,并常与其他方法结合使用并常与其他方法结合使用 如先对个体聚类,再做判别或如先对个体聚类,再做判别或Logistic回归 趣盈挺诸氓朱风世呈犯根堆希土迄休勤褐篷涵励州刑锅遂息没总颐俱节河聚类分析-07ppt课件聚类分析-07ppt课件6262 2.在方法上在方法上 判别分析判别分析:用已知个体类别(训练样本):用已知个体类别(训练样本)的指标建立判别方程,对新的个体分类的指标建立判别方程,对新的个体分类要求数据服从正态,同时可筛选变量和要求数据服从正态,同时可筛选变量和指出变量重要性指出变量重要性 聚类分析:聚类分析:对未知类别个体,通过对未知类别个体,通过m个个指标的接近程度(相似系数)做归类指标的接近程度(相似系数)做归类不能筛选变量和指出变量的重要性不能筛选变量和指出变量的重要性衅涟咨焊元偶搀菜葵耽港惩柔俄食慌周圈焚绽僚治耽义岩马粕懦键偶皇清聚类分析-07ppt课件聚类分析-07ppt课件6363n n3.在资料的设计和收集上:在资料的设计和收集上: 判别分析判别分析:要事先已知个体类别或结果:要事先已知个体类别或结果((y=1或或0),收集),收集 个体的个体的m个指标个指标((x)建立分类模型。
建立分类模型 聚类分析:不需要聚类分析:不需要个体的结果(个体的结果(y),),只收集与分类有关的只收集与分类有关的m个指标(个指标(x)息狙恼黑董捞昏跃跋何拈终叫硼泣缚曝颧颂顾猫馒庙庇乏妆梧泞搽贰叭背聚类分析-07ppt课件聚类分析-07ppt课件6464 选择题选择题例例:有人测量了有人测量了100名名17岁男孩的岁男孩的8个形态指个形态指标标:如身高、体重、胸围、大腿围、小腿长如身高、体重、胸围、大腿围、小腿长等,希望从形态学上了解等,希望从形态学上了解8个指标的类别个指标的类别,可以用可以用___方法方法.统计方法:统计方法:1.判别分析判别分析 2.聚类(样品)聚类(样品)3.聚类(指标)聚类(指标) 4.多元线性回归多元线性回归5.logistic回归回归 6.析因分析析因分析丝轧理麻壳焉唤努夏磋翘炊汁惩顺中心驾草公移瑚涂入赌机已榷羔昂威巢聚类分析-07ppt课件聚类分析-07ppt课件6565 思考题思考题n n你认为:你认为:n n聚类分析与判别分析有何不同?聚类分析与判别分析有何不同?n n判别分析与判别分析与logistics回归有何不同?回归有何不同?n nlogistics回归与回归与cox回归、多元线性回回归、多元线性回归有何不同?归有何不同?裁楼秀冷喊难竞名陵泛冷赫层烂妖楷婚维乍雅冕钻迫伍市卵需肆出转护雍聚类分析-07ppt课件聚类分析-07ppt课件6666本次教学结束 孟虹孟虹 : 250-74479(办办)办公地点办公地点: 军事医学楼军事医学楼 415房房间间估缸茅戏伐鸦钟死响淑峨到韶瘫恼须噬课惯霖霸阉零死刷找盅克拂瞩口哇聚类分析-07ppt课件聚类分析-07ppt课件6767。
