
聚类分析和判别分析.ppt
28页Chap19 聚类分析和判别分析聚类分析和判别分析 P268~279Cluster analysis and discriminant analysis教学目的与要求 :1.5学时掌握:意义、用途和一般步骤熟悉:SPSS操作方法和结果的解读 了解:Fisher判别、Bayes判别 教学内容提要 : 重点讲解:意义、用途和一般步骤 讲解: SPSS的操作方法 介绍: Fisher判别、Bayes判别 重点:意义、用途和一般步骤 难点: Fisher判别、Bayes判别 §1§1 聚类分析(Cluster Analysis) P268一、概念:一、概念:将没有分类信息的资料按距离将没有分类信息的资料按距离最近或最相似的聚为一类的原则进行最近或最相似的聚为一类的原则进行探索探索性分性分类的类的方法方法 类中的个体相似,类间的个体差异大类中的个体相似,类间的个体差异大二、分类二、分类1.样品聚类(样品聚类(Q型聚类):型聚类):对对n个观测对个观测对象(观察单位)进行聚类象(观察单位)进行聚类2.变量聚类(变量聚类(R型聚类):型聚类):对对m个观测指个观测指标(变量)聚类。
标(变量)聚类三、描述指标三、描述指标: 相似性系数相似性系数((similarity coefficient)) 1.样品聚类(样品聚类(Q型)型) 计量计量: Pearson r 等级等级: Spearman rs 计数计数: 列联系数列联系数 c 2.变量聚类(变量聚类(R型)型) 计量计量: 欧氏、马氏距离欧氏、马氏距离 等级等级: →数量化数量化→欧氏、马氏欧氏、马氏 计数计数: 列联系数列联系数 c 四、四、 聚类方法聚类方法 1.有序样品聚类有序样品聚类: 大小顺序,同类样品必须相邻大小顺序,同类样品必须相邻Hb2.模糊聚类模糊聚类: 属性属性→模糊矩阵模糊矩阵→分类三好、优干三好、优干3.快速聚类(快速聚类(Quick cluster,,K-均值聚类均值聚类K-Means Cluster,逐步聚类),逐步聚类) : L19-1大大n→k类类→k个中心(均值)个中心(均值)→归类归类(最小距离原则)最小距离原则) 4.系统聚类系统聚类: L19-2 n类类→缩类缩类(相近原则)(相近原则)→k类(目标)类(目标)学生编号测验项目常识 算术 理解 填图 积木 译码 1 14 13 28 14 22 392 10 14 15 14 34 353 11 12 19 13 24 394 7 7 7 9 20 235 13 12 24 12 26 386 19 14 22 16 23 377 20 16 26 21 38 698 9 10 14 9 31 469 9 8 15 13 14 4610 9 9 12 10 23 46【【例19-1】】某小学10名9岁男学生六个项目的智力测验得分如表19-1所示,用Q型聚类对这10名学生的智力状态进行分类。
【【SPSS操作操作】】样品聚类,可用快速聚类法建立6列10行的数据文件L19-1.sav:以常识、算术、理解、填图、积木、译码为变量名Analyze → Classify → K-Means Cluster,所有变量入Variables;将“Number of Clusters:2 改为 3 (智力分上中下3类)→ Options ,√ ANOVA table、√ Cluster information for each case→ Continue →OK(上中下3类智力只在填图和译码的平均分上差别有统计学意义,即填图和译码可作为聚类变量)【【例19-2】】 L19-1.sav:按测试项目进行聚类分析 变量聚类,采用系统聚类法Analyze →Classify →Hierarchical Cluster(系统聚类分析),所有变量入(系统聚类分析),所有变量入Variable(s),,⊙ ⊙Variables((变量聚类))→Plots,,Dendrogram(树状图,显示每(树状图,显示每步合并的聚类与系数的值)步合并的聚类与系数的值)→Continue→OK §2§2 判别分析判别分析(discriminant analysis ) P273一、意义:一、意义:判别样品所属类型。
判别样品所属类型用于判别任意一个已知特定测量指标取值,但分类未用于判别任意一个已知特定测量指标取值,但分类未知的个体应归属于哪一类知的个体应归属于哪一类判别值Y=a1X1+ a2 X2 +…+ amXm (19-1)a l、a2、…、am为各变量的判别系数聚类:要划分的类型事先不知,确定类型无类分类无类分类判别:已知变量值及其分类,建立判别式,对未知类型的样品进行判别分类如评优. 有类归类有类归类判别分析和聚类分析往往联合起来使用二、步骤二、步骤 三、三、 方法:方法:按判别准则按判别准则1. Fisher判别判别法法(典则判别canonical discriminant) : 用于用于两类判别两类判别((g=2) L19-3 金标准金标准→ A、、B两类两类:m个观个观测测指标指标,nA、、nB例例→判判别界值别界值Yc==(YA+YB)/2判别规则判别规则::个体个体Yi>>Yc → A类类;; Yi<<Yc → B类类;; Yi==Yc →任一类任一类2. Bayes判别法判别法 :多类判别多类判别((g≥2)) 。
先验概率先验概率→用用Bayes公式构造判别函数公式构造判别函数→计算计算个个体属于各类别体属于各类别的的后验后验概率概率→按按后验后验概率值最大概率值最大并超并超过后验过后验概率概率的临界值的临界值进行归类进行归类 四、四、 判别效果的考核判别效果的考核判别函数必须通过验证才能应用判别函数必须通过验证才能应用 1.训练样本回代法训练样本回代法 :用建立判别函数的训用建立判别函数的训练样本进行回代练样本进行回代→错判概率错判概率偏低偏低2.样本二分法样本二分法 :将已知类别的大将已知类别的大n→随机随机分成大小两部分分成大小两部分→大大的部分的部分 (85%%)建立建立判别函数,判别函数,小小的用于验证的用于验证→错判概率错判概率 3.刀切法刀切法((jackknife交叉考核法交叉考核法)) :n个个→逐个搁置逐个搁置→对其余的对其余的n-1个个体进行判个个体进行判别分析,求出判别规则,别分析,求出判别规则,→对搁置的个对搁置的个体进行考核,共体进行考核,共n次,次,→假阳性率、假阴假阳性率、假阴性率、总错误率和性率、总错误率和ROC曲线等【【例19-3】】经名老中医辩证为实热、虚寒两种证型的14例功能性子宫出血患者皮质醇含量(μg/dl)和淋巴细胞转化率(%)资料见表19-2。
建立对两种证型进行鉴别诊断的判别函数某功能性子宫出血就诊者,皮质醇含量为18.0μg/dl,淋巴细胞转化率为65%判断是何证型根据Wilksλ统计量最小化法,可认为皮质醇判别更有意义 Wilks λ值=0.036,P=0.000,这个典则判别函数有统计学意义 标准化典则判别函数式为(判断各变量影响的大小): 分类=0.924×皮质醇+0.331×淋巴细胞 各类别重心位置 非标准化典则判别函数式为(计算观察对象的判别函数值): 辨证分型辨证分型=0.661×皮质醇+0.137×淋巴细胞-21.447 Fisher线性判别函数:实热证实热证=11.601×皮质醇皮质醇+11.725×淋巴细胞-淋巴细胞-558.679 虚寒证虚寒证=5.265×皮质醇皮质醇+10.408×淋巴细胞-淋巴细胞-353.095 某就诊者:皮质醇=18.0(μg/dl),淋巴细胞=65(%),判别是何证型:非标准化非标准化:分类分类=0.661×18.0+0.137×65-21.447=-0.644<0,应判为虚寒证型Fisher判别函数判别函数:实热证实热证=11.601×18+11.725×65-558.679=412.264虚寒证虚寒证=5.265×18+10.408×65-353.095=418.195因实热证<虚寒证,应判为虚寒证型。
五、五、 注意事项注意事项1.训练样本是关键训练样本是关键 : 代表性,原始分类必须正确无误代表性,原始分类必须正确无误 2.判别指标要适当判别指标要适当 : 筛选 3.样本含量足够大样本含量足够大: n为自变量个数的为自变量个数的10~20倍以上4.类别数多效果差类别数多效果差 : 进行多个两两判别进行多个两两判别 5.判别规则要合格:判别规则要合格:前瞻性考核合格才能应用于实践前瞻性考核合格才能应用于实践 6.判别函数要修正判别函数要修正。
