
社会统计学卢淑华版.ppt
35页第八章 类别变量与尺度变量关系的假设检验——方差分析 •8.1方差分析的原理•8.2一元方差分析•8.3二元方差分析2021/3/101第一节 方差分析的原理•一、方差分析及其有关术语一、方差分析及其有关术语•1、什么是方差分析、什么是方差分析•方差分析通过分析数据的误差判断各总体均值是否相等来检验多个总体均值是否相等,从而研究分类型自变量对数值型因变量的影响•根据自变量的多少,方差分析可分分为单因素方差、双因素方差分析和多因素方差分析•2、因素或因子、因素或因子•因素或因子是指所要检验的对象•3、水平或处理、水平或处理•水平或处理是指因子的不同表现2021/3/102第一节 方差分析的原理•4、观察值、观察值•观察值是指在每个因素水平下得到的样本数据•二、方差分析的基本思想和原理方差分析的基本思想和原理•1、基本思想、基本思想•方差分析通过对数据误差来源的分析判断不同总体的均值是否相等•2、基本原理、基本原理•⑴两类误差•①随机误差•因素的同一水平(总体)下,由随机因素的影响造成的样本各观察值之间的差异称为随机误差2021/3/103第一节 方差分析的原理•②系统误差•因素的不同水平(不同总体)下由系统性因素造成的样本各观察值之间观察值的差异称为系统误差。
•⑵误差平方和—SS•数据的误差用平方和(sum of squares)表示,分为组内平方和和组间平方和•①组内平方和•组内平方和是指因素的同一水平下数据误差的平方和,组内平方和只包括随机误差•②组间平方和•组间平方和是指因素的不同水平之间数据误差的平方和,组间平方和既包括随机误差,也包括系统误差2021/3/104第一节 方差分析的原理•⑶均方—MS•均方是指平方和除以相应的自由度•⑷基本原理•若原假设(自变量对因变量没有影响)成立,组间均方与组内均方的数值就应该很接近,它们的比值就会接近1;若原假设不成立,组间均方会大于组内均方,它们之间的比值就会大于1当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,即自变量对因变量有影响•三、方差分析的基本假定三、方差分析的基本假定•1、每个总体都应服从正态分布、每个总体都应服从正态分布自变量对因变量没有影响,则没有系统性误差,组间平方和中只有随机误差2021/3/105第一节 方差分析的原理•对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本•2、各个总体的方差必须相同、各个总体的方差必须相同•各组观察数据是从具有相同方差的总体中抽取的。
•3、观察值是独立的、观察值是独立的•四、问题的一般提法四、问题的一般提法•1、设因素有m个水平,每个水平的均值分别用 1 , 2,,, m表示•2、要检验m个水平(总体)的均值是否相等,需要提出如下假设: •H0 : 1 2 … m H1 : 1 , 2 , ,m 不全相等2021/3/106第二节:单因素方差分析/一元方差分析•一、数据结构一、数据结构观察值观察值观察值观察值 ( ( j j ) )因素因素因素因素( (A A) ) i i 水平水平水平水平A A1 1 水平水平水平水平A A2 2 … … 水平水平水平水平A Amm12::n x11 x21 … xm1 x12 x22 … xm2 : : : : : : : : x1n x2n … xmn2021/3/107第二节:单因素方差分析/一元方差分析•二、分析步骤二、分析步骤•1、提出假设、提出假设•H0 :μ1 = μ2 =…= μm 自变量对因变量没有显著影响 •H1 :μ1 ,μ2 ,… ,μk不全相等 自变量对因变量有显著影响 •注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等•2、构造检验的统计量、构造检验的统计量•⑴水平的均值2021/3/108第二节:单因素方差分析/一元方差分析•假定从第i个总体中抽取一个容量为ni的简单随机样本,第i个总体的样本均值为该样本的全部观察值总和除以观察值的个数。
计算公式:式中: ni为第 i 个总体的样本观察值个数,xij 为第 i 个总体的第 j 个观察值⑵计算全部观察值的总均值用全部观察值的总和除以观察值的总个数,计算公式:2021/3/109第二节:单因素方差分析/一元方差分析•⑶计算总误差平方和TSS•总误差平方和 TSS是全部观察值 与总平均值 的离差平方和,反映全部观察值的离散状况,其计算公式为:⑷计算组间平方和BSS组间平方和是各组平均值组间平方和是各组平均值 与总平均值 的离差平方和,反映各总体的样本均值之间的差异程度,计算公式为:2021/3/1010第二节:单因素方差分析/一元方差分析•⑸计算组内平方和RSS •组内平方和是每个水平或组的各样本数据与其组平均值的离差平方和,该平方和反映的是随机误差的大小,计算公式为:⑹三个平方和的关系TSS = BSS + RSS2021/3/1011第二节:单因素方差分析/一元方差分析•⑺计算均方MS•各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方均方,也称为方差均方由误差平方和除以相应的自由度求得,三个平方和对应的自由度分别是:•TSS 的自由度为n-1,其中n为全部观察值的个数•BSS的自由度为m-1,其中m为因素水平(总体)的个数•RSS 的自由度为n-m组间方差MSB:组内方差MSR:2021/3/1012第二节:单因素方差分析/一元方差分析3、计算检验统计量、计算检验统计量 F4、统计决策统计决策将统计量的值F与给定的显著性水平的临界值F进行比较,作出对原假设H0的决策。
例(参例(参见见教材教材376页页例例1、、383页页例例2))为了研究职业对家庭赡养人数的影响,研究者抽查了某企业41名员工的家庭赡养人数(如下表),试判断职业对家庭赡养人数是否有影响家庭赡养人数职业管理人员35 054 423132 3 3 2 4 2 6 1工人13 446 234352 4技术员64 223 0531212021/3/1013第二节:单因素方差分析•变量间关系的强度用自变量平方和(BSS) 占总平方和(TSS)的比例大小来反映,自变量平方和占总平方和的比例记为R2 ,即:其平方根R就可以用来测量两个变量之间的关系强度三、关系三、关系强强度的度的测测量量拒绝原假设表明因素(自变量)与观测值之间有显著关系,组间平方和(BSS)度量了自变量(行业)对因变量(投诉次数)的影响效应只要组间平方和BSS不等于0,就表明两个变量之间有关系(只是是否显著的问题) 当组间平方和比组内平方和(SSE)大,而且大到一定程度时,就意味着两个变量之间的关系显著,大得越多,表明它们之间的关系就越强反之,就意味着两个变量之间的关系不显著,小得越多,表明它们之间的关系就越弱 2021/3/1014第三节第三节 双因素方差分析双因素方差分析/二元方差分析二元方差分析•一、二元方差分析的数学模型一、二元方差分析的数学模型•二元方差又称双因素方差分析,用来分析两个因素(行因素Row和列因素Column)对试验结果的影响。
•设两个自变量A和B作用于总体,其中自变量A有a种取值:A1,A2,…,Aa,自变量B有b种取值:B1,B2,…,Bb变量A的取值为Ai 、变量B的取值为Bj 时因变量y的取值为yij •⒈⒈无交互作用的二元方差分析模型无交互作用的二元方差分析模型•如果两个因素对试验结果的影响是相互独立的,分别判断行因素和列因素对试验数据的影响,这时的二元方差分析称为无交互作用的二元方差分析或无重复二元方差分析(Two-factor without replication) 2021/3/1015•因变量y与自变量A、B之间的关系可以表达为以下模型:εij相互独立,并且服务正态分布:⒉有交互作用的二元方差分析模型如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响,这时的双因素方差分析称为有交互作用的双因素方差分析或可重复双因素方差分析 (Two-factor with replication )2021/3/1016•因变量y与自变量A、B之间的关系可以表达为以下模型:εijk相互独立,并且服务正态分布:K=1,2,…,r r为自变量A和B每种搭配的重复数2021/3/1017•二、无交互作用的二元方差分析二、无交互作用的二元方差分析•⒈⒈提出假设提出假设2、、构造构造检验统计量检验统计量⑴几个基本概念自变量y1j,y2j , … ,yaj,观测一次取平均的,因此可以认为变量A的影响已经相互抵消,所以行平均值 反映的是自变量B对因变量y的影响。
①2021/3/1018自变量yi1,yi2 , … ,yib,观测一次取平均的,因此可以认为变量B的影响已经相互抵消,所以行平均值 反映的是自变量A对因变量y的影响变量A的离差平方和BSSA②③④2021/3/1019⑤变量B的离差平方和BSSBTSS=BSSA+BSSB+RSS剩余平方和RSS离差平方和之间的关系⑥⑦2021/3/1020⑧计算均方其中a-1是自由度其中a-1是自由度其中(a-1)、(b-1)是自由度⑵构造检验统计量2021/3/1021用Excel进行方差分析 (Excel分析步骤) 第第1步:步:选择“数据数据 ”下拉菜单第第2步:步:选择【数据分析数据分析】选项第第3步:步:在分析工具中选择【单因素方差分析单因素方差分析】】 , 然后选择【确定确定】第第4步:步:当对话框出现时 在【输入区域输入区域 】方框内键入数据单元格区域 在【】方框内键入0.05(可根据需要确定) 在【输出选项输出选项 】中选择输出区域⑷确定临界值,并与检验统计量进行比较,得出结论:2021/3/1022•例 三个地区家庭人口数的抽样调查如下表所示,试问这三地区的平均家庭人口有没有显著差异?地区甲地乙地丙地家庭人口数262641443131358182741216145222021/3/1023•三、有交互作用的二元方差分析三、有交互作用的二元方差分析•⒈⒈提出假设提出假设⒉⒉几个基本概念几个基本概念⑴总平均值总平均值是对全部观测值求平均2021/3/1024⑵行平均值行平均值是对行号相同的全部观测值求平均⑶列平均值列平均值是对列号相同的全部观测值求平均⑷格平均值格平均值是对行号和列号都相同的全部观测值求平均2021/3/1025⑸总离差平均和TSS⑹列间平均和BSSA列间平方和BSSA反映了由变量A解释掉的误差⑺行间平均和BSSB行间平方和BSSB反映了由变量B解释掉的误差2021/3/1026⑻交互作用⑼自变量A、B在每一格所能解释的全部误差BSS⑽剩余误差RSS⑾总离差平方和、行间平方和、列间平方和、交互作用、剩余误差之间的关系2021/3/1027⑿平方和的自由度①总平方和TSS的自由度总平方和TSS是围绕着均值计算的,独立变化的取值只有abr-1,所以总平方和TSS的自由度为abr-1②列间平方和BSSA的自由度列间平方和BSSA是 围绕着均值计算的,存在 的约束,所以列间平方和BSSA的自由度为a-1③列间平方和BSSB的自由度列间平方和BSSB是 围绕着均值计算的,存在 的约束,所以列间平方和BSSA的自由度为b-1④剩余平方和RSS的自由度剩余平方和BSS是围绕着各格AiBj的均值计算的,所以剩余平方和BSS的自由度为abr-ab2021/3/1028自由度之间存在与平方和之间同样的关系式:abr-1a-1b-1abr-ab?⑤交互作用IA×B的自由度交互作用IA×B的自由度=(abr-1)-(a-1)-(b-1)-(abr-ab)=(a-1)(b-1)⒊⒊交互作用显著性的检验交互作用显著性的检验⑴提出假设H0:i=1,2,…,a j=1,2,…,bH1:i=1,2,…,a j=1,2,…,b2021/3/1029⑵构造检验统计量⑶确定临界值:⑷比较临界值与检验统计量,得出结论:4、、交互作用不交互作用不显显著情况下,自著情况下,自变变量量A、、B显显著性的著性的检验检验交互作用不显著,则交互作用的平方和IA×B合并到误差项RSS中,作为总误差TRSS,自由度也相应地合并:abr-a-b+12021/3/1030⑴自变量A的检验检验统计量:根据给定的显著性水平α,查出临界值。
如果,则不拒绝原假设否则,拒绝原假设⑵自变量B的检验检验统计量:根据给定的显著性水平α,查出临界值如果,则不拒绝原假设否则,拒绝原假设2021/3/10315、交互作用显著情况下,自变量、交互作用显著情况下,自变量A、、B显著性的检验显著性的检验交互作用显著情况下,自变量A、B的检验方法要根据变量A和B的性质来确定如果某变量的取值是固定的,则该变量属于固定变量如果变量所涉及的测试个体是随机选择的,则该变量属于随机变量根据A、B性质的不同,可以分为三种模型:⑴固定模型:A、B都是固定变量对于固定模型,F检验分母项就用剩余误差项(RSS)的均方①变量A的检验检验统计量:2021/3/1032根据给定的显著性水平α,查出临界值如果,则不拒绝原假设否则,拒绝原假设②变量B的检验检验统计量:根据给定的显著性水平α,查出临界值如果,则不拒绝原假设否则,拒绝原假设⑵混合模型:A和B中有一个固定变量,另一个是随机变量以A为固定变量,B为随机变量为例①固定变量A的检验,F检验分母项用交互误差项(IA×B)的均方2021/3/1033检验统计量:根据给定的显著性水平α,查出临界值。
如果,则不拒绝原假设否则,拒绝原假设②随机变量B的检验,F检验分母项用剩余误差项(RSS)的均方检验统计量:根据给定的显著性水平α,查出临界值如果,则不拒绝原假设否则,拒绝原假设2021/3/1034⑶随机模型:A、B都是随机变量变量A的检验,F检验用交互误差项IA×B的均方检验统计量:根据给定的显著性水平α,查出临界值如果,则不拒绝原假设否则,拒绝原假设变量B的检验,F检验用交互误差项IA×B的均方检验统计量:根据给定的显著性水平α,查出临界值如果,则不拒绝原假设否则,拒绝原假设2021/3/1035。
