
应用多元统计分析1.ppt
47页应用多元统计分析应用多元统计分析趙博娟 编著 参考书目:•《从数据到结论》, 吴喜之编著,中国统计出版社•Business Statistics: A Decision-making Approach (D.F.Groebner & P. W. Shannon)•《Applied Multivariate Statistical Analysi》第6版,R.A. Johnson and D.W. Wichern•清华大学出版社,2008•《应用多元统计分析》,高惠旋 编著,北京大学出版社,2005•《多元统计分析》何晓群编著,中国人民大学出版社第一章 数据收集和描述第一节 数据收集第二节 两变量图描述和量化分析第三节 多变量图描述第四节 上机实现第一节 数据收集1.1.1 一手和二手数据1. 一手数据(primary data, 也叫原始数据)是一些组织或个人为了某些特定的应用或研究目的, 必须自己来收集的数据. 2.二手数据(secondary data)是其他人收集的(对于他们来说是一手数据), 而你仅仅用它来进行分析或进行数据挖掘, 该数据对你来说则是二手数据. 3.常见的二手数据包括从期刊和网络上找到的, 由政府、机构、公司、组织专门收集和维护的数据, 比如: 外汇牌价、房价、人口抽样调查结果等数据4.在开展一手数据收集前, 要先调研一下是否已经有相应的二手数据存在. 而在使用二手数据的过程中, 要了解数据的来源及其真实和可靠程度, 是否符合研究目的, 以便恰当地进行分析并解释结果.试验数据和观测数据 1.试验数据( experimental data ) 中的自变量取值是可以人为改变的. 比如, 通过调节冶炼金属的时间、温度和原料配比, 寻找最佳组合条件, 以炼成满足某些性能指标的金属材料; 这类数据便于分析因果关系. 2.实践中, 我们遇到的绝大部分二手数据都是观测数据(observational data). 如跟踪观测研究吸烟与罹患癌症的关系等. 这类数据的自变量不能随意调节, 我们不能在身体健康状况完全类似的人中随机抽样, 强迫一部分人吸烟而另一部分不吸, 之后观测他们将来是否罹患癌症. 第一节 数据收集1.1.2 数据的度量级别和类型 1.名义数据(nominal data), 也叫定性数据或分类数据(categorical data), 是最低级形式的数据, 我们可以对数据取值任意编号. 如对婚姻状态, 可以用1∼4 或M,S,D 和O 分别标记, 即是M(已婚), S(未婚), D(离婚) 和O(其他)2.有序数据(ordinal data)-比名义数据高一级别, 数据的类别是有序的. 如健康状态: 1(非常健康), 2(健康), 3(一般), 4(不健康) 和5(非常不健康). 级别--从低到高包括:3.区间数据(interval data)是有序的, 而且任意两点的距离是可以精确度量出来的. 如华氏(Fahrenheit) 和摄氏(Celsius) 温度. 4.比率数据(ratio data)有真正有意义的零点, 度量级别最高. 如体重、高度、距离、钱包里的钱数等等. 口袋没钱, 不管是美元还是人民币元, 都是0.第一节 数据收集数据的类型1.定量数据(quantitive data)-指可以用数字量化的数据, 具体地又可以分为连续型(如身高) 数据和离散型(如某路口每月交通事故次数) 数据; 2.定性数据(qualititive data)-指取值分类别的数据, 如性别为男女. 定性数据可以是名义数据, 也可以是有序数据. 定量数据可以是区间数据, 也可以是比率数据.从数据整体特点来看, 数据类型还可以分为:1.横截面数据(cross-sectional)是在某个固定的时间点观测得到的一组数据, 如某校大学生高考入学成绩; 2.时间序列数据(time series data)和纵向数据(longitudinal data)中, 每个对象都有重复观测, 这些重复观测可能是按某种顺序的不同的时间点或不同的状况采集的. 许多社会和医学领域的前瞻群组跟踪研究(prospective cohort study) 和回顾群组调查研究(retrospective cohort study) 都在不同时间点有多次观测值.第一节 数据收集1.1.3 数据存放格式1.截面数据的存放很简单. 以用Excel 进行数据收集整理为例, - 可将第一行存放变量名(variable), - 从第二行开始, 每一行存放一个样品或对象的观测值, 即一行数据对应一个样本观测. - 每个变量名所对应的列为各样本点的观测值.2.对于时间序列, 前瞻群组跟踪研究数据和回顾群组调查研究数据, 每一个观测对象可以在几个不同时间点有观测值, 这种数据有两种存放方式: (1). 每一个对象有几行观测值, 常称长表格式(long form); (2). 每一个对象仅有一行观测值, 不同时间观测点用不同的变量名, 常称短表或宽表格式(short form 或wide form).3.对于一些整合后的列联表数据, 也可以存成矩形表格形式. - 可在变量名中添加一个频数(计数), - 将表格中的数值放在这个频数变量所在的列. - 这类数据在分析中通常要做加权处理.第二节 两变量图描述和量化分析对于这个数据, 我们一般会关心casual(临时用户人数)、regist(注册用户人数) 或cnt(临时用户和注册用户人数之和) 受天气和季节的影响情况, 也就是把这三个定量变量之一看成因变量(dependent variable), 其他的定性或定量变量看为自变量(independent variable), 做回归分析. 本节我们先就数据中的不同变量类型, 介绍如何用图描述和简单量化分析了解变量之间的关系.第二节 两变量图描述和量化分析其结果显示四个季节人数均值相等的零假设被拒绝, 而且后三个季度各自的平均人数都分别显著高于第一季度的平均人数.第二节 两变量图描述和量化分析二、量化分析在两个变量不相关(即变量的相关系数r=0)的零假设下,其中n是样本量.此检验与两个变量之间线性回归系数是否为零的假设检验是等价的, 它们有相同的p值, 详见第3章内容.结果表明结果表明, 对于给定的显著性水平对于给定的显著性水平0.05, -- temp, atemp, windspd与与cnt不相关的零假设不相关的零假设被拒绝被拒绝, --但但hum和和cnt无关的零假设没被拒绝无关的零假设没被拒绝. --温度温度temp和体感温度和体感温度atemp越高越高, 人数人数cnt越多越多; --风速风速windspd越高越高, 人数人数cnt越少越少. 一、图描述观察两个定性变量之间的关系, 如季节season和天气情况weathsit, 可用列联表(contingency table), 也可用旁置或摞在一起的条形图通过比较各行(或列)观测频数是否成比例, 判断两个定性变量取值之间是否独立. 1.2.3 两个定性变量第二节 两变量图描述和量化分析第三节 多变量图描述•在用脸谱图对观测对象进行比较分析时, 脸谱形状受各变量次序的影响很大. 如果将本例中8个变量的次序换一下, 得到的脸谱图会很不一样. •另外, 不同人关注的脸的部位有很大不同, 有人在意胖瘦, 有人在意五官.•实践中脸谱图必须与聚类分析等量化分析方法结合使用.•与脸谱图相比, 雷达图和星图受变量排序和人为主观偏好的影响较小.注意:注意:第三节 多变量图描述1.3.3 轮廓图-- 把多个变量(或样品)的取值放在同一个图中用线连起来, 就是轮廓图(又称折线图).-- 图1.7展示了8个变量在31个地区的取值. -- 当然, 我们也可以行列颠倒, 画31条折线, 以显示31个地区在8个变量(方面)的取值. 它们都有助于比较31个地区取值的不同. -- 轮廓图的优点是直观明了, 缺点是在变量或样品多的时候, 折线易摞在一起, 难以分清.第三节 多变量图描述总之, 各种图示方法虽然直观, 但也容易受主观因素的影响. 因此, 实践中要与有关量化分析方法结合使用.得到图1.7的R语句作业作业•安装SPSS或R或SAS,重复课件中画图和分析•做习题1和2,将分析报告email到:duoyuan2015@。
