杨鹏伟stata统计分析与应用第七章方差分析.ppt
20页STATA从入门到精通第七章第七章 方差分析方差分析Page 2STATA从入门到精通从入门到精通方差分析方差分析n方差分析是基于样本方差对总体均值进行方差分析是基于样本方差对总体均值进行统计推断的方法,它是通过实验观察某一统计推断的方法,它是通过实验观察某一种或多种因素的变化对实验结果是否带来种或多种因素的变化对实验结果是否带来显著影响,进而鉴别各种因素的效应,从显著影响,进而鉴别各种因素的效应,从而选取一种最优方案而选取一种最优方案n方差分析包括单因素方差分析、多因素方方差分析包括单因素方差分析、多因素方差分析和协方差分析差分析和协方差分析Page 3STATA从入门到精通从入门到精通7.1 t检验的检验的Stata基本命令基本命令nt检验是用于小样本(样本容量小于检验是用于小样本(样本容量小于30)两个平均值差异程度的检验方法它)两个平均值差异程度的检验方法它是用是用t分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著t检验包括单样本检验包括单样本t检验、两样本检验、两样本t检验,其中两样本检验,其中两样本t检验又包括配对样本检验又包括配对样本t检检验和两独立样本验和两独立样本t检验。
检验n 1、单样本、单样本t检验的检验的Stata操作操作n单样本单样本t检验有两种用法一是检验样本平均数是否显著地不同于某个假设值二是检检验有两种用法一是检验样本平均数是否显著地不同于某个假设值二是检验同一套观察值中的两个变量的统计指标是否显著地不同这等价于两者的差值的平验同一套观察值中的两个变量的统计指标是否显著地不同这等价于两者的差值的平均数是否等于零均数是否等于零n在在Stata应用中使用应用中使用ttest命令来完成,单样本命令来完成,单样本ttest有两种命令格式:有两种命令格式:n命令格式命令格式1(通过样本进行(通过样本进行t检验):检验):nttest varname == # [if] [in] [, level(#)]n命令格式命令格式2(通过样本的统计指标进行(通过样本的统计指标进行t检验):检验):nttesti #obs #mean #sd #val [, level(#)]n其中,其中,#obs为样本容量,为样本容量,#mean为样本均值,为样本均值,#sd为标准差,为标准差,#val为待检验数值,为待检验数值,level为置信度水平为置信度水平Page 4STATA从入门到精通从入门到精通n2、、两样本两样本t检验的检验的Stata操作操作n两样本两样本t检验的检验的Stata操作有三种基本命令格式,如下所示:操作有三种基本命令格式,如下所示:n命令格式命令格式1(通过样本进行双变量(通过样本进行双变量t检验):检验):nttest varname1 == varname2 [if] [in], [options]n命令格式命令格式2(通过样本进行分组(通过样本进行分组t检验):检验):nttest varname [if] [in] , by(groupvar) [options]n命令格式命令格式3(通过样本的统计指标进行(通过样本的统计指标进行t检验):检验):nttesti #obs1 #mean1 #sd1 #obs2 #mean2 #sd2 [, options] n其中,其中,#obs为样本容量,为样本容量,#mean为样本均值,为样本均值,#sd为标准差,为标准差,#val为待检验为待检验数值,数值,level为置信度水平。
为置信度水平Page 5STATA从入门到精通从入门到精通nTtest的主要选项如下的主要选项如下表表7-1所示:所示:n【例【例7.1】使用文件】使用文件“减肥减肥.dta”的数据来对样本的数据来对样本ttest命令的应用进行命令的应用进行说明该例子是通过减肥茶前后的体重数据来评估减肥茶是否有效果该例子是通过减肥茶前后的体重数据来评估减肥茶是否有效果本例要求用单样本本例要求用单样本t检验验证在服用减肥药之前,体重的均值是否为检验验证在服用减肥药之前,体重的均值是否为90公斤以及使用减肥药前后,体重是否有显著变化以及使用减肥药前后,体重是否有显著变化n部分数据如下部分数据如下表表7-2 所示所示::主要选项主要选项描述描述* by(groupvar)通过定义组变量unequal非配对的数据含有不同变量welch使用Welch近似level(#)置信水平默认95%Page 6STATA从入门到精通从入门到精通n表表7-2 减肥茶服用前后体重对比表减肥茶服用前后体重对比表喝减肥茶前体重(公斤)喝减肥茶后体重(公斤)906395718279917310074876591679073866087769871887282758762Page 7STATA从入门到精通从入门到精通n【例【例7.2】使用文件】使用文件“职工信息表职工信息表.dta”的数据来对两独立样本的数据来对两独立样本ttest命令的应用进行说命令的应用进行说明。
表明表7-3给出了某厂职工的性别、年龄、职称及文化程度的信息本例要求检验不同给出了某厂职工的性别、年龄、职称及文化程度的信息本例要求检验不同性别的职工工资是否相同,使用的方法包括一般的性别的职工工资是否相同,使用的方法包括一般的t检验,消除同方差假定的检验,消除同方差假定的t检验检验n表表7-3 某厂职工信息表某厂职工信息表职工号性别年龄基本工资职称文化程度1男职工481014高级工程师本科2男职工49984工程师专科3男职工541044高级工程师高中4男职工41866助理工程师高中5男职工38848助理工程师本科6女职工41824无技术职称高中7女职工42824无技术职称高中8女职工41824无技术职称高中9女职工42859工程师专科10男职工35827助理工程师本科11男职工561014高级工程师专科12男职工59989工程师专科13男职工59938助理工程师初中14男职工41889工程师本科15男职工55887助理工程师初中16男职工45887助理工程师初中Page 8STATA从入门到精通从入门到精通17男职工男职工51887助理工程师助理工程师初中初中18男职工43879工程师专科19女职工50867助理工程师初中20男职工35879工程师专科21男职工37879工程师专科22男职工37827助理工程师高中23男职工39847助理工程师初中24女职工49887助理工程师初中25女职工53867助理工程师高中26女职工50867助理工程师高中27男职工36830助理工程师专科28男职工42847助理工程师初中29男职工33827助理工程师高中30女职工44867助理工程师初中Page 9STATA从入门到精通从入门到精通7.2 单因素方差分析单因素方差分析n本节首先介绍单因素方差分析的原理,然后介绍实现单因素方差分析本节首先介绍单因素方差分析的原理,然后介绍实现单因素方差分析的两个命令的两个命令 oneway和和 longway。
n单因素方差分析用于比较多组样本的均数是否相同,并假定:每组的单因素方差分析用于比较多组样本的均数是否相同,并假定:每组的数据服从正态分布,具有相同的方差,且相互独立数据服从正态分布,具有相同的方差,且相互独立n单因素方差分析表单因素方差分析表Page 10STATA从入门到精通从入门到精通nOneway命令的基本格式如下:命令的基本格式如下:n oneway response_var factor_var [if] [in] [weight] [, options] 主要选项主要选项描述描述 bonferronibonferroni 多重比较检验 scheffescheffe 多重比较检验 sidaksidak 多重比较检验 tabulate产生列表[no]means[不]显示均值[no]standard[不]显示标准差[no]freq[不]显示频数[no]obs[不]显示观测个数noanova不显示方差分析表nolabel以数值形式显示,而不是以标签形式wrap列表不隔开missing将缺失值作为一类Page 11STATA从入门到精通从入门到精通nlongway命令的基本格式如下:命令的基本格式如下:n loneway response_var group_var [if] [in] [weight] [, options] 主要选项描述meanF分布的期望值,默认是1medianF分布的中位数,默认是1exact精确置信区间level置信度,默认95%Page 12STATA从入门到精通从入门到精通n【例【例7.3】使用文件】使用文件“大学生信息表大学生信息表.dta”的数据来对单因素方差分析的数据来对单因素方差分析oneway命令命令的应用进行说明。
表的应用进行说明表7.7来自于来自于Ward和和Ault((1990)对在校大学生的抽样调查表,)对在校大学生的抽样调查表,其中其中year代表所处的大学年级,代表所处的大学年级,gender代表性别,代表性别,drink用一个用一个33级别表来衡量学级别表来衡量学生喝酒频度和程度,生喝酒频度和程度,gpa代表学分积点,代表学分积点,belong表示是否是大学生联谊会的会员,表示是否是大学生联谊会的会员,employed为是否就业部分数据如表为是否就业部分数据如表7-7所示:所示:n表表7-7 大学生信息表大学生信息表n本例中,我们检验大学生饮酒行为平均数是否会因为是否就业而有所变化本例中,我们检验大学生饮酒行为平均数是否会因为是否就业而有所变化yearyeargendergenderdrinkdrinkgpagpabelongbelongemployedemployedFreshmanMale53.2nonmembeNoFreshmanFemale93nonmembeYesFreshmanMale292.85nonmembeNoFreshmanFemale22nonmembeNoFreshmanFemale19nonmembeNoFreshmanMale19nonmembeNoFreshmanMale24nonmembeNoPage 13STATA从入门到精通从入门到精通7.3 双因素和多因素方差分析双因素和多因素方差分析n多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。
这里,由于研究多个因素对观测变量的影响,因此称为生显著影响这里,由于研究多个因素对观测变量的影响,因此称为多因素方差分析多因素方差分析若研究的是两个变量,则称为双因素方差分析若研究的是两个变量,则称为双因素方差分析n多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合进而最终找到利于观测变量的最优组合Page 14STATA从入门到精通从入门到精通n多因素方差分析处理的就是两个或者更多多因素方差分析处理的就是两个或者更多x分类变量的情况在分类变量的情况在Stata中用命令中用命令anova实现,其基本命令格式如下:实现,其基本命令格式如下:nanova response_var [if] [in] [weight] [,options] n要在要在anova中纳入任何交互项,只需要指定有关变量的名称,并用中纳入任何交互项,只需要指定有关变量的名称,并用*号连接即可。
号连接即可主要选项主要选项描述描述category(varlist)分类变量class(varlist)分类变量,与上同义如不注明,Stata默认所有变量都是分类变量repeated(varlist)重复观测因子partial使用边际平方和,默认选项sequential使用序列平方和noconstant没有常数项regress显示回归结果[no]anova不显示ANOVA 表Page 15STATA从入门到精通从入门到精通n【例【例7.4】使用文件】使用文件“员工信息表员工信息表.dta”的数据来对多因素方差分析的数据来对多因素方差分析anova命令的应用命令的应用进行说明表进行说明表7.15介绍了某单位的员工信息表,其中介绍了某单位的员工信息表,其中minority代表是否属于少数民代表是否属于少数民族,这里的族,这里的0是非少数民族,是非少数民族,1表示为少数民族,表示为少数民族,educ代表教育年限,代表教育年限,salary为年薪,为年薪,beginsalary为起始年薪,为起始年薪,gender为性别部分数据如表为性别部分数据如表7-15所示:所示:n表表7-15 员工信息表员工信息表n考察工资考察工资是否因是否因性别性别、少数、少数民族民族与否的与否的不同而不同而存在差异存在差异。
minorityminorityeduceducsalarysalarybeginsalarbeginsalary ygendergender081575010200Female081590010200Female08162009750Female08166509750Female081680010200Female081695010200Female081740010200Female081770010200FemalePage 16STATA从入门到精通从入门到精通7.4 协方差分析协方差分析n不论是单因素方差分析还是多因素方差分析,控制因素都是可控的,不论是单因素方差分析还是多因素方差分析,控制因素都是可控的,其各个水平可以通过人为的努力得到控制和确定但在许多实际问题其各个水平可以通过人为的努力得到控制和确定但在许多实际问题中,有些控制因素很难人为控制,但它们的不同水平确实对观测变量中,有些控制因素很难人为控制,但它们的不同水平确实对观测变量产生了较为显著的影响产生了较为显著的影响n协方差分析将那些人为很难控制的控制因素作为协变量,并在排除协协方差分析将那些人为很难控制的控制因素作为协变量,并在排除协变量对观测变量影响的条件下,分析控制变量(可控)对观测变量的变量对观测变量影响的条件下,分析控制变量(可控)对观测变量的作用,从而更加准确地对控制因素进行评价。
作用,从而更加准确地对控制因素进行评价 Page 17STATA从入门到精通从入门到精通n协方差分析拓展了多因素方差分析,使之可以包含分类变量和连续变协方差分析拓展了多因素方差分析,使之可以包含分类变量和连续变量的情况当出现连续变量时,定义此变量,方差分析便可进行量的情况当出现连续变量时,定义此变量,方差分析便可进行Anova具有处理连续变量和分类变量的能力方法就是在双因素和多具有处理连续变量和分类变量的能力方法就是在双因素和多因素方差分析格式后,再加上因素方差分析格式后,再加上continuous,指定连续变量其基本,指定连续变量其基本命令格式如下:命令格式如下:nanova response_var [if] [in] [weight] [,options] n要在要在anova中纳入任何交互项,只需要指定有关变量的名称,并用中纳入任何交互项,只需要指定有关变量的名称,并用*号号连接即可连接即可Page 18STATA从入门到精通从入门到精通主要选项主要选项描述描述category(varlist)分类变量class(varlist)分类变量,与上同义。
如不注明,Stata默认所有变量都是分类变量continuous(varlist)表明是连续变量repeated(varlist)重复观测因子partial使用边际平方和,默认选项sequential使用序列平方和noconstant没有常数项regress显示回归结果[no]anova不显示ANOVA 表Page 19STATA从入门到精通从入门到精通n【例【例7.5】本例中继续使用上例中的数据来对】本例中继续使用上例中的数据来对stata中协方差分析的操中协方差分析的操作进行说明作进行说明n首先,在上例的基础上,检验薪水水平的差异是否还由起始薪水的差首先,在上例的基础上,检验薪水水平的差异是否还由起始薪水的差异所引起,其中起始薪水为连续变量异所引起,其中起始薪水为连续变量n在分析薪水差异的原因之后,对变量进行回归分析,得到回归方程在分析薪水差异的原因之后,对变量进行回归分析,得到回归方程20本章结束,谢谢观看!本章结束,谢谢观看!。





