
实验七 描述性统计分析.doc
79页第四章 非参数统计实验参数统计学中的许多统计分析方法的应用对总体都有严格的假定,例如,t检验要求总体服从正态分布,F 检验要求误差呈正态分布且各组方差为齐性的等等,然而在现实生活中,有许多总体的分布我们却是一无所知或知之甚少,所以在参数模型中所建立的统计推断就会失效,于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息这就是非参数统计的宗旨非参数统计方法简便,适用性强,但检验效率较低,应用时应加以考虑实验一 卡方检验(Chi-square test)实验目的:实验目的:掌握卡方检验方法实验内容:实验内容:一、拟合优度检验2二、独立性检验2三、齐性检验2实验工具:实验工具:SPSS 非参数统计分析菜单项和 Crosstabs 菜单项知识准备:知识准备:一、卡方拟合优度检验检验(Chi—Square Test) 适用于拟合优度检验,适用于定类变量的检验2问题,用来检验实际观察数目与理论期望数目是否有显著差异当检验问题是实际分布是否与理论分布相符合时,在大样本时也可以用分类数据的卡方检验来解决,这时的卡方检验也称为分布拟合的卡方检验若样本分为 k 类,每类实际观察频数为,与其相对应的期望kfff,,,21L频数为,则检验统计量可以测度观察频数与期望频数之间的keee,,,21L2差异。
其计算公式为:期望频数期望频数实际频数212 2)()(kiiii eef很显然,实际频数与望频数越接近,值就越小,若=0,则上式中分22子的每—项都必须是 0,这意味着 k 类中每一类观察频数与期望频数完全一样,即完全拟合统计量可以用来测度实际观察频数与期望频数之间的拟合程度2在 H0成立的条件下,样本容量 n 充分大时,统计量近似地服从自由度2df=k-1 的分布,因而,可以根据给定的显著性水平,在临界值表中查到2相应的临界值若,则拒绝 H0,否则不能拒绝 H0) 1(2k) 1(22k所有的统计软件都可以输出检验统计量的显著性值,也可以根据显著性值pp和显著性水平作比较,若,则拒绝 H0,否则不能拒绝 H0p另外卡方拟合优度检验也可以用来检验某总体是否服从某一特定分布的假设拟合优度检验中几种常用分布的参数如表 4-1:表 4-1 拟合优度检验中几种分布的参数分布参数估计值参数个数df二项分布 fxf 1k-2泊松分布x1k-2正态分布2,2,sx2k-3指数分布/1x/11k-2二、独立性检验2假设有个随机试验的结果按照两个变量 A 和 B 分类,A 取值为nA1,A2,…,Ar,B 取值为 B1,B2,…,Bs,则形成了一张的列联表,称sr为二维列联表。
其中表示 A 取 Ai及 B 取 Bj的频数,,其中:srijnnnr1is1jij 表示各行的频数之和r,...,2 , 1i ,nns1jiji.表示各列的频数之和s,...,2 , 1i ,nnr1iij.j令() ,和分别表示各行)BB,AA(Ppjiijs,...,2 , 1j ; r,...,2 , 1i. ipj .p和各列的边缘概率,对于二维列联表,如果变量 A 和变量 B 是独立的,则srA 和 B 的联合概率应该等于 A 和 B 边缘概率的乘积因而有如下检验:j .. iij0ppp:H在 H0成立的条件下,二维列联表中的期望频数为:srnnnej .. iij则 r1is1jij2 ijij2 e)en(如果期望频数,则统计量近似服从自由度为的卡方分5eij2) 1s)(1r (布如果 Pearson值过大,或 p 值过小,则拒绝 H0,认为变量 A 和变量 B 存2在某种关联,即不是独立的;否则不能拒绝 H0,认为是独立的 如果期望,则需要将其合并使得期望频数,否则容易夸大卡方5eij5eij统计量值,导致拒绝原假设的结论。
三、 齐性检验2与独立性检验类似的是齐性检验22实际问题中,假设有 n 组从不同来源得到的数据,要判定这些数据的来源是否相同(相同的分布) ,统计上我们可以将这些问题表述为:假定有 k 组样本,分别取自 k 个总体,要检验这 k 个总体的分布是否相同这样的假设检验问题称为“齐次性检验” 对一般的二维列联表,可以提出假设:sr()isi2i10p...pp:Hr,...,2 , 1i 在 H0成立的条件下,这些概率与 j 无关,因此的期望值(理论频数)ijpijn为,,因此期望值,则检验统计量为:ijj .pnnnp. i. innnpnej .. i. ij .ij2 r1is1jij2 ijij2 e)en(与独立性检验一样,如果,则统计量近似服从自由度为25eij2的卡方分布如果 Pearson值过大,或 p 值过小,则拒绝 H0, ;否) 1s)(1r (2则不能拒绝 H0 实验背景实验背景:一、据以往经验,机床发生故障的频数服从均匀分布,某车间在一周内统计所有机床发生故障频数的资料如下:表 4-2 故障频数星 期一二三四五六故障次数78391617检验故障频数是否服从均匀分布()?05. 0二、在丧偶问题上的性别因素和地区因素是否独立按照 1996 年一个抽样,我国华北五省市区的丧偶人数按性别分为:表 4-3 1996 年华北地区丧偶情况统计男女合 计北 京112356478天 津130305435河 北84617872633山 西3597821141内蒙古291558849合 计174837885536检验在丧偶数量上性别因素和地区因素是否独立。
三、在一个有三个主要百货商场的商贸中心,调查者问 479 个不同年龄段的人首先去三个商场中的哪个,结果如下表:表 4-4 调查结果年龄段商场 1商场 2商场 3总和≤3083704519831—50918615192>5041381089总和21519470479检验人们去这三个商场的概率是否一样 (数据来源:《非参数统计》 ,王星,中国人民大学出版社,P161)实验过程:实验过程:一、用 Chi-Square 过程进行拟合优度检验2激活数据管理窗口,定义变量名:每天为 day,故障次数为 count按顺序输入数据, 结果见图 4.1图 4.1点击 Data 菜单选 Weight Cases...命令项,弹出 Weight Cases 对话框(如图 4.2) ,选 Weight cases by,再选 count 点击钮使之进入 Frequency Variable 框,定义 count 变量为权数,再点击 OK 钮即可图 4.2选择 Analyze/ Nonparametric Tests/Chi-Square,打开卡方检验对话框,如图4.3 所示:图 4.3图 4.3 左侧为候选变量框,在候选变量框中选择一个或多个变量,单击向右箭头按钮使其进入右侧的 Test Variable List 框中。
1)Test Variable List 框:用于选入需要进行检验的变量,可以选入一个或多个,如果选入多个,系统会对其依次进行分析本例中选中变量 count,使之进入 Test Variable List 框2)Expected Range 单选框:设定需检验的变量的取值范围,在此范围之外的取值将不进入分析Get from data 选项:数据文件的最大值和最小值所确定的范围,系统默认该项 Use specified range 选项:自行制定检验的取值范围,在 Lower 和 Upper框中键入检验范围的下限和上限本例采用系统默认项3)Expected Values 单选框:指定已知总体的各分类构成比All categories equal 选项:系统默认项,各类别构成比例相等,即意味着检验的总体是服从均匀分布的本例中使用此选项Values 选项:自行定义给类别构成比例,每输入一个值后按 Add 按钮,于是在它右边的框中便增加了刚键入的数值要求输入数值必须大于 0,一直到输完为止,如果在输入过程出现了错误,并已按 Add 按钮使录入的值进入了右下框中,则可用鼠标来进行修改,即用鼠标将光标移到错误处,但一鼠标左上键使错误值置于光带中,若是刚录入的值,则可以点击 Remove 按钮将其删除,然后重新录入;如果错误值在录入值中间,则先将它置于光带中,然后在Add 右边的观众键入修改的值后按 Change 按钮进行替换。
4)Exact 子对话框:用于设定是否进行确切概率的计算,以及具体的计算方法如图 4.4Asymptotic only:渐近分布的显著性检验,只近似计算概率,不计算确切概率,适合于渐近性分布和较大样本,系统默认选项Monte Carlo:采用蒙特卡罗模拟方法计算确切概率,适合于数据满足渐近性分布,而且数据过大以至不能计算精确显著性Confidence:指定置信度,默认为 99%Number of sample:指定计算的样本数目,样本数越大显著性水平越可靠,默认为 10000Exact:准确计算观测结果的统计概率Time limit per test:限定进行每个检验所使用的最长时间,如果超过 30 分钟,则用 Monte Carlo 法比较合适,默认计算时间限制在 5分钟内,超过此时限则自动停止图 4.4(5)Option 子对话框:选择输出结果形式及缺失值处理方式如图 4.5 图 4.5Statistics 复选框:选择可供输出的统计量Descriptive:输出常用的描述统计量,包括变量的均值、标准差、最大值、最小值等等Quartiles:输出变量的四分位数Missing Values 单选框:选择缺失值的处理方式。
Exclude cases test-by-test:分析用到的变量有缺失值时去除该记录系统默认该项,以便充分利用数据本例中选择默认项,不做修改Exclude cases listwise:只要相关变量有缺失值,则在所有分析中均去除该记录在本例中,点击 Data 菜单选 Weight Cases...命令项,弹出 Weight Cases对话框(如图 4.2) ,选 Weight cases by,再选 count 点击钮使之进入 Frequency Variable 框,定义 count 变量为权数,再点击 OK 钮即可选择 Analyze/ Nonparametric Tests/Chi-Square,打开 Chi-Square 检验对话框,选择变量 count 进入 Test Variable List 框,其他选择不做任何修改,在主对话框点击 ok 按钮,提交运行命令,得到结果如图 4.6、图 4.7:图 4.6图 4.6 中,最上方 Npar Tests 表示进行的是非参数统计检验,Chi-Square Test 表示进行的是卡方检验,Frequency 为表格名称,表示输出的是频数表,count 是检验变量名,表格内显示的是 6 个类别的观测频数、期望频数和残差。
在本例中,观测频数合计为 60,期望频数各类别相等,均为 10图4.7图4.7中,最上方Test Statistics为表格名称,即检验统计量表,为最终的检验结果,给出了卡方值、自由度和近似的显著性p值结果显示卡方检验统计量微14.800,近似的p值为0.011 ,因此,在0.05的显著性水平下,结论为拒绝原假设,认为一周内机床发生故障的频数不是服从均匀分布的二、用 Crosstabs 过程进行独立性检验2激活数据管理窗口,定义变量名:sex(性别)为列变量,region(地区)为行变量,count 为频数变量(行列对应的频数值) 切换到 。
