高级应用统计学—假设检验与方差分析
沈 琪2010Previously reviewedPreviously reviewed 前情回顾总体(Population)个体(Individual)指标(Variable)数据(Data)离散变量(discrete variable)连续变量(continuous variable)样本(Sample)前情回顾一、数据的审核、筛选、排序二、数据分组与频数分布数据预处理三、数据的标准化前情回顾一、集中趋势二、离散趋势常用指标三、数据的分布平均值 中位数 众数极差 离差 离差平方和 方差与标准差 变异系数偏度系数 峰度系数前情回顾1、如果数据是对称分布的,则中位数Me 与均值 相等, 即 中位数与算术平均数的关系当分布右偏时(说明存在极端大的值)2、对于非对称分布,当分布左偏时(说明存在极端小的值)沈 琪2010高级应用统计学高级应用统计学 假设检验与方差分析假设检验与方差分析什么是假设推论统计介绍 方差分析 具体案例Cases 010203导 读04第一节第一节 什么是假设(什么是假设(HypothesisHypothesis)什么是假设假设将问题陈述或研究问题转换为更适合于检验 的形式。这种形式就叫做假设。什么是假设零假设(null hypothesis)“代表正在研究的两个变量无关”。例:9年级学生的ABC记忆考试的平均成绩和12年级 学生的平均成绩没有差异。反应时间和问题解决能力无关。什么是假设零假设的目的u 是研究的起点u 提供与观察到的结果进行比较的基准什么是假设研究假设(research hypothesis)u变量间有关系的明确陈述。u对于一个零假设,存在不止一个对应的研究假 设。例:9年级学生的ABC记忆考试的平均成绩不同于12 年级学生的平均成绩。较慢反应时间和问题解决能力正相关。什么是假设假设的数学表达 例:9年级学生的ABC记忆考试的平均成绩不同于12 年级学生的平均成绩。例:9年级学生的ABC记忆考试的平均成绩和12年级 学生的平均成绩没有差异。例:9年级学生的ABC记忆考试的平均成绩低于12年 级学生的平均成绩。什么是假设研究假设和零假设的一些区别 u基本区别变量间是否有关系u零假设总体;研究假设样本u零假设间接检验;研究假设直接检验u零假设暗含;研究假设明确的什么是假设好的假设 u陈述句u提出变量间的预期关系u反映假设建立的理论和文献基础u简短并切中要点u可检验的假设什么是假设练习依据下面的研究问题,建立一个零假设,一 个有方向假设,一个无方向假设。u注意力对教室里不专心听课行为的影响如 何?u婚姻的质量和夫妇双方与他们兄弟间关系 好坏之间的关系如何?u治疗厌食症的最好方式是什么?什么是假设抽样误差(sampling error):测量样本和 总体特征近似程度的量数。样本的选取方式:样本要尽可能的和总 体的特征相配。第二节第二节 推论统计与假设检验推论统计与假设检验推论统计与假设检验推断统计是研究如何利用样本数据来推断总体特征的统计方法 。 推论统计进行的步骤少年对母亲工作的态度u选择代表性样本u对样本进行测试u分析测试结果(例如计算均值),并使用检验方法 进行比较u分析引起差异的原因(偶然性因素or”真实的”差 异)u推断出总体中母亲就业和青少年态度之间的关系。推断统计是研究如何利用样本数据来推断总体特征的统计方法。 推论统计与假设检验1、假设检验采用的逻辑推理方法是反证法2、判断结果合理与否,是基于“小概率事件不 易发生”这一原理的。3、假设检验是基于样本资料来推断总体特征的 ,而这种推断是在一定概率置信度下进行的,而 非严格的逻辑证明。假设检验的基本思想推论统计与假设检验1、提出原假设(null hypothesis)和备择假设(alternative hypothesis)原假设为正待检验的假设:H0;备择假设为可供选择的假设:H12、选择适当的统计量,并确定其分布形式 3、选择显著性水平或置信度,确定临界值 4、作出结论假设检验的基本步骤2a 接受域 2a 拒绝域 推论统计与假设检验通常把 “拒绝原假设的最小显著性水平”称为假 设检验的P值。假设检验的P值一般地,可通过样本计算检验统计量的值C,根据具 体分布求出该C值对应的P值(为一概率值),然后与 给定的显著性水平 进行比较推论统计与假设检验第三节第三节 方差分析(方差分析(ANOVAANOVA) 方差分析方差分析(Analysis of Variance, ANOVA)是假设检验的一种延续与扩展,它可以解决诸如多个 均值是否相等等方面的检验问题,在因素分析中具有 一定的优势。方差分析例:一个儿童食品制造商生产儿童麦片,该制造商认为以 下三种因素影响麦片味道:(1)麦片中小麦与玉米的比例;(2)甜味剂类型的选择:糖、蜂蜜等;(3)制作时间的长短。该例中,食品制造商通过生产出不同类型的麦片并邀请儿 童进行品尝试验,最后发现:(1)麦片成份及甜味剂类型对麦片食味有很大影响;(2)制作时间对麦片食味没有影响。方差分析方差分析的内容方差分析主要用来对多个总体均值是否相等作 出假设检验。方差分析可以用来分析不同因素对总体特征是否 有显著影响。方差分析例:某饮料制造商生产一种新型饮料,共有四种颜色: (1)橘黄、(2)粉红、(3)绿色、(4)无色。 该制造商想知道颜色是否对销售量有显著影响,随机 抽取了5家超市前一期的销售量(表4.1)进行分析。 方差分析样本来自于一 个相同的总体样本来自于不同的总体要知道颜色是否对饮料销售有显著影响,就是要知道四种 颜色饮料销售量的均值是否有显著差异,即进行下述假设检验 :H0: 1=2=3=4H1: 四个总体均值不全相等其中, i(I=1,2,3,4) 表示所有饮料(无色、粉红、橘黄、绿色 )销售量之均值。方差分析方差分析的相关术语因素:是一个独立的变量,是方差分析的研究对象 (例中的饮料颜色);单因素方差分析:只针对一个因素进行分析; 多因素方差分析:同时针对多个因素进行分析。水平:因素中的内容 (例中饮料的四种颜色:无色、粉色、橘黄色、 绿色 )方差分析进行方差分析必须满足如下假设(1)每个总体的相应变量(因素)服从正态分布(2)所有总体相应变量(因素)的方差相等2(3)不同观察值(水平)相互独立(每个样本点 的取值不影响其他样本点的取值)方差分析方差分析的原理方差分析就是要考察各子样均值间的离差 是否足够大。这是通过总体方差的子样间 估计与总体方差的子样内估计来完成的。如果原假设成立,说明每个子样都取自具 有相同均值与相同方差的同一个分布,从 而各子样均值间的离差不会很大。方差分析称为总体方差的子样间估计 (between-sample estimate of 2) 在例中在例中,4个子样的均值与方差已知,在原假设成立时, 可由各子样均值的均值估计总体均值,用样本均值的方差 估计总体方差:样本均值的均值:样本均值的方差:由此:总体方差为:方差分析如果原假设不成立?一般地,子样均值不同,总体方差的子样间 估计将高估总体方差。方差分析总体方差的子样内估计如果每个子样来自各自的总体,每个子样的方差都是 对其总体的无偏估计 S2 2 。在假设所有总体的方差为同一个2时,可得总体方差 的子样内估计(within-samples estimate of 2) :子样内估计是对总体方差的一个较好的估计。方差分析总体方差的子样间估计/总体方差的子样内估计=25.615/2.4428=10.486比较问题归结为:比值多大,才能拒绝原假设。方差分析观察值之间的差异来自两个方面:某因素不同水平的影响 (系统性影响)其他随机因素的影响 (随机性影响)水平间方差 (组间方差)水平内方差 (组内方差)进一步的理解:方差分析大样本的总离差平方和(Sum of Squares for Total,SST)为:=全体子样本合并的大样本的样本均值xij=第j 个子样本中第 i 个观测值; nj=第 j个子样本的样本容量其中,n=n1+n2+nr r为子样本个数方差分析可以证明:第一项是各子样本均值与合并的大样本的公共均值的离差 平方和,它反映了因素(变量)不同水平对总离差平方和的 影响(系统性影响),可当作组间离差平方和(Sum of Squares for Factor A, SSA);第二项是各子样本内部离差平方和之和,反映了随机性因 素的影响(误差性影响),可当作组内离差平方和(Sum of Squares for Error,SSE)。方差分析用离差平方和除以自由度即得到平均平方 (Mean Square)(方差):合并的(扩大的)样本方差:TSS/(n-1) 水平间方差(组间方差): MSA=SSA/(r-1) 水平内方差(组内方差): MSE=SSE/(n-r)F=MSA/MSEF=MSA/MSE方差分析对原假设: H0: 1=2=3=4及备择假设: H1: 四个总体均值不全相等计算F值: F=MSA/MSEF=MSA/MSE=25.6152/2.4428= 10.486给出显著性水平:=0.05,查F(r-1,n-r)分布表临界值:3.24由于计算的 F=10.486>3.24 ,拒绝原假 设,从而得出:颜色对该公 司饮料销售有显著影响。均值的F检验方差分析总结:方差分析建立在对总体方差两种独立的估计 基础之上:一种估计以各子样均值的离差为基础,另一 种估计以各子样内样本点的差异为基础。通过这两种估计总体方差结果的对比(F统计 量),来判断各子样是否来自同一总体(均值是 否相等)。第四节第四节 案例分析案例分析 案例分析电视广告效果的比较分析