《多元分析分析》课程实验指导书.doc
19页《多元统计分析》实验指导书一、实验教学简介«多元统计分析»是统计学本科专业的专业必修课,同时也是核心课程,尤其强调理论与实践的有机结合实验教学是该课程教学中的重要组成部分实验教学的主要内容有:多元正态总体均值向量的假设检验,聚类分析,判别分析,主成分分析,因子分析等本实验教学主要采用国际权威统计软件—Spss软件进行统计分析实验数据收集自各类调查研究报告、统计年鉴、数据网站、教学参考书的案例等二、实验教学目的与任务通过对本课程的实验教学,要使学生对多元统计分析的基本概念、基本原理、基本方法有一个直观的认识,能熟练应用多元统计分析方法处理多维数据,培养学生利用多元统计分析方法对社会经济现象及自然现象作定量分析的能力,并受到多元统计分析思想方法的熏陶,以此提高学生解决实际问题的基本素质,锻炼学生的动手能力和独立思考能力三、实验内容与基本要求实验一: 多元正态总体的均值和方差的假设检验(综合性实验) (2课时)实验原理:利用正态检验统计量对给定的多维数据进行正态性检验实验目的:(1)掌握单一多元正态总体均值的检验;(2)掌握两个多元正态总体均值向量的检验 实验内容 :单一多元正态总体均值向量的检验,有相等已知协差阵的两个正态总体均值向量的检验,有相等未知协差阵的两个正态总体均值向量的检验,协差阵不等的两个正态总体均值向量的检验。
实验题目:1、多元总体的单样本检验(协差阵未知) 人的出汗多少与人体内钠和钾的含量有一定的关系今测20名健康成年女性的出汗多少(X1)、钠的含量(X2)和钾的含量(X3),其数据如下所示: 试检验 2、多元两样本检验(有共同未知协差) 为了研究日、美两国在华投资企业对中国经营环境的评价是否存在差异,今从两国在华投资企业中各抽出10家,让其对中国的政治、经济、法律、文化等环境进行打分,其结果如表所示,1~10号为美国在华投资企业的代号,11~20号为日本在华投资企业的代号设两组样本来自正态总体X和Y,且两组样本相互独立,协差阵相等但未知 检验 基本要求: 对原假设作假设检验(α=0.05),构造检验统计量,并给出检验结果实验步骤:第一步:建立Spss数据集;第二步:对原假设构造检验统计量;第三步:编程计算检验结果;第四步:依据输出结果对原假设作判断实验二:判别分析(设计性实验)(2课时)实验原理:判别分析是判别样品所属类型的一种统计方法判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数目,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。
本实验要求学生应用距离判别准则(即,对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类),对两总体和多总体情形下分别进行判别分析实验中需注意协方差矩阵相等时,选取线性判别函数;协方差矩阵不相等时,应选取二次判别函数实验目的及要求: 判别分析是判别样品所属类型的一种统计方法本实验要求学生应用距离判别准则(即,对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类),对两总体和多总体情形下分别进行判别分析实验中需注意协方差矩阵相等时,选取线性判别函数;协方差矩阵不相等时,应选取二次判别函数 SPSS中的判别分析从Analyze中主菜单中选择Classify→Discriminant1). Select 指定选择变量的取值2). Statistics1. Descriptives 描述统计量(1) Means 均值(2) Univariate ANOVAs 单因子方差分析量(3) Box’s M Box’s M检验 检验类协方差矩阵齐性2. Function Coefficients 函数系数(1) Fisher’s Fisher’s线性判别函数系数(2) Unstandardized 非标准化线性判别函数系数3. Matrices 矩阵(1) Within-groups correlation 类内相关矩阵(2) Within-groups covariance 类内协方差矩阵(3) Separate-groups covariance 类协方差阵(4) Total Covariance 总协方差矩阵3). Method 逐步判别方法(1) Wilk’s lambda 维尔克斯统计量最小者入选(2) Unexplained variance 具有最小非解释方差者入选(3) Mahalanobis distance 两类间具有最大马氏聚类者入选(4) Smallest F ratio F比值最小者入选(5) Rao’s Rao’s统计量V值产生最大增殖的变量入选4). Classification 分类1. Prior Probabilities 给分类样品提供先验概率值(1) All groups equal 相等先验概率值(2) Compute from group sizes 样品频率代替先验概率值2. Use Covariance Mathix 用协方差矩阵(1) Within-groups 类内协方差矩阵(2) Separate-groups 类协方差矩阵3.Plots 图形(1) Combined-groups 全部类散点图或直方图(2) Separate-groups 分类散点图或直方图(3) Territorial map 区域图 4.Display 显示(1) Results for each case 每个样品的分类信息(2) Summary table 分类结果表X1X2result19.865.18213.333.731314.663.89149.337.101512.805.491610.664.091710.664.451813.333.631913.335.9611013.335.7011112.006.1911214.664.0111313.334.0111412.803.6311513.335.961实验内容: 为研究舒张期血压和血浆胆固醇对冠心病的作用,某医师测定了50—59岁冠心病人15例和正常人16例的舒张压和胆固醇指标建立数据文件如下:试作判别分析,建立判别函数。
X1X2result1610662.0721712.534.4521813.333.062199.333.9422010.664.4522110.664.922229.333.6822310.662.7722410.663.2122510.665.0222610.403.942279.334.9222810.662.6922910.662.4323011.203.422319.333.632其中变量X1、X2分别表示舒张压、胆固醇;变量result=1表示冠心病资料;result=2表示正常人资料试验步骤:从Anslyze菜单→Classify→Dicriminant项,弹出Discriminant Analysis对话框从对话框左侧的变量列表中选result,单击向右的箭头按钮使进入Grouping Variable框;并点击Define Range钮,在弹出的Discriminant Analysis:Define Range对话框中,定义判别原始数据的类别区间本例为两类,故在Minimum处输入1、在Maximum处输入2,点击Continue钮返回Discriminant Analysis对话框。
再从对话框左侧的变量列表中选x1、x2,点击向右的箭头按钮使进入Independeents框,作为判别分析的基础数据变量.系统提供两类判别方式供选择,一类是Enter Independent together,即判别的原始变量全部进入判别方程;另一类是Use stepwise method,即采用逐步的方法选择变量进入方程本例由于变量数仅为2个,倾向让两个变量均进入方程,故选用Enter Independent together判别方式点击Statistics按钮,弹出Discriminant Analysis:Statistics对话框,在Descriptive栏中选Means项,要求对各组的个变量作均数与标准差的描述;在Function Coefficients栏中选Unstandardized项,要求显示判别方程的非标准化系数,之后点击Continue按钮返回Discriminant Analysis对话框点击Classify按钮,弹出Discriminant Analysis:Classification对话框,在Plot栏选Combined groups项,要求作合并的判别结果分布图;在Display栏中选Casewise Results项,要求对原始资料根据建立的判别方程作逐一回代重判别,同时选Summary table项,要求对这种回代判别结果进行总结评价。
之后,点击Continue按钮返回Discriminant Analysis对话框点击Save按钮,弹出Discriminant Analysis:Save New Variables对话框,选Predicted group membership项要求将回代判别的结果存入原始数据库中点击Continue按钮返回Discriminant Analysis对话框,之后再点击OK按钮即完成分析根据实验结果写出实验结果分析报告实验三: 聚类分析(设计性实验) (2课时)实验原理:聚类分析的目的是将分类对象按一定规则分为若干类,这些类不是事先给定的,而是根据数据的特征确定的在同一类里的这些对象在某种意义上倾向于彼此相似,而在不同的类里的对象倾向于不相似系统聚类法是聚类分析中用的最多的一种,其基本思想是:开始将n个对象各自作为一类,并规定对象之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其它类之间的距离;重复进行两个最近类的合并,每次减少一类,直至所有的对象合并为一类实验目的与要求:聚类分析的目的是将分类对象按一定规则分为若干类,这些类不是事先给定的,而是根据数据的特征确定的。
在同一类里的这些对象在某种意义上倾向于彼此相似,而在不同的类里的对象倾向于不相似 SPSS中的聚类分析:1). K-means Cluster 快速聚类1. Method 方法(1) Iterate and Classify 迭代且分类(2) Classify Only 只分类2. Cluster Centers 聚类中心3. 。





