
交叉表分析.docx
10页进行交叉表分析时需要注意:(1)卡方检验要求各单元的期望频数均大于5 或小于5的比例不能超过20%;当样本数小于40时,需要进行小样本的交叉表分析卩选择输出结果中的Fisher精确检验结果(Fisher's Exact Test)(2)若变量为定距以上的变量需要先转化为定类或定序变量data05-02为某公司工资数据(n=15)使用变量性别sex、收入高低earnings分析男女 经理间薪金是否平等可以利用data05-01中的数据,使用变量occcat80为工作性质分类‘region为地区,childs 为每个家庭的孩子数将childs为行变量,occcat80为列变量,region为控制变量选入Layer of 框中,进行交叉表分析列联表(交叉表)分析1、 项目名称Crosstabs 过程4、实训原理Crosstabs 过程用于定类数据和定序数据进行统计描述和简单的统计推断 在分析时可以产生二维至 n 维列联表,并计算相应的百分数指标4-1 列联表分析的含义与任务在实际分析中,当问题涉及到多个变量时,我们不仅要了解单个变量的分布 特征,还要分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而 分析变量之间的相互影响和关系。
很明显,如果还采用单纯的频数分析方法显然 不能满足要求因此,我们需要借助交叉分组下的频数分析,卩列联表分析列 联表分析的主要任务有两个:(1) 根据样本数据产生二维或多维交叉列联表交叉列联表是两个或两个 以上变量交叉分组后形成的频数分布表2) 在交叉列联表的基础上,分析两变量之间是否具有独立性或一定的相 关性4-2 卡方检验的原理为了理解列联表中行变量(Row)和列变量(Column)之间的关系,我们需要借助非参数检验方法通常采用的方法是卡方检验和一般假设检验一样,卡方检验主要包括三个步骤:1)建立零假设:行变量和列变量相互独立2)选择和计算检验统计量列联表分析中的检验统计量是 Pearson 卡方统计量其公式为:X 24-9-1)其中,r为列联表的行数,c为列联表的列数,f 0为实际观测频数,fe期望观测频数期望频数的计算公式为:4-9-2)「 RT x CTfe =n其中,RT是指定单元格所在行的观测频数合计,CT是指定单元格所在列的 观测频数合计, n 是观测频数的合计由式(4-9-1)可以看出,卡方统计量的大小取决于两个因素:一个是列联表的格子数;另一个是观测频数和期望频数的差值。
在列联表固定的情况下,卡 方统计量取值的大小取决于观测频数和期望频数的总差值当总差值越大时,卡 方值也就越大,表明行列变量之间越相关;反之,当总差值越小时,卡方值也就 越小,表明行列变量之间越独立3)得出结论并做决策根据卡方统计量的概率P值和显著性水平a进行 比较,做出拒绝还是接受原假设的结论如果卡方检验的概率P值小于显著性水 平a,则拒绝原假设,认为行列变量之间不独立,两者之间存在依存关系反之, 如果卡方检验的概率P值大于显著性水平a,则接受原假设,认为行列变量之间 独立,两者之间不存在依存关系在卡方检验中还需要注意:交叉列联表中不应有期望频数小于1的单元格, 或者不应有大量期望频数小于 5的单元格如果交叉列联表中有20%以上单元格 中的期望频数小于5,则不应用卡方检验,可以采用似然比(Likelihood Ratio) 卡方检验等方法进行修正5、背景材料 某新产品上市前一个月中,分别对北京、上海、深圳三地进行了市场调查, 调查表中有一项是关于顾客获知该产品的渠道随机抽取了 300 份调查表,统计 顾客获知产品渠道的数据如下,SPSS数据文件见4-9.sav表4-9-1顾客获知某新产品渠道的调查数据 城市 北京 上海 深圳 合计朋友 电视 网络 报刊2096034261333261653028622712388合计12398793006、实训步骤6-1 选择菜单“Analyze"f“Descriptive Statistics"f“Crosstabs"弹出如 图4-9-1所示的窗口,进入列联表分析界面。
图4-9-1列联表分析窗口6-2选择列联表中的行变量进入Row(s)框,如表4-9-1中的获取新产品的渠 道变量6-3选择列连表中的列变量进入Column(s)框,如表4-9-1中的城市变量6-4 Layer框:Layer指的是层,对话框中的许多设置都可以分层设定,在 同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置如 果要让不同的变量做不同的分析,则将其选入Layer框,并用Previous和Next 钮设为不同层Layer在这里用的比较少,在多元回归中我们将进行详细的解释6-5选择Display clustered bar charts复选框表示输出分组条图选择Suppress table复选框表示禁止在结果中输出列联表6-6单击E-act "按钮,弹出Exact Tests子对话框,如图4-9-2所示Exact Te^ts(2 ^syrriptotic: onlyMonte CarloConiidence level:Number of samples;Exact0 Time limit per test:minutesExact in&tliod will be used instead of Monte Carlo when computational limits allow.For nonaaympdotic methods, cell counts are always rounded or truncated in computing "the test stsrtistics.Continue Csntel Help图4-9-2 Exact Tests子对话框Exact Tests子对话框是针对2*2以上的行*列表设定计算确切概率的方法, 可以是不计算(Asymptotic only)、蒙特卡罗模拟(Monte Carlo)或确切计算 (Exact)。
其中,系统默认是不计算;蒙特卡罗模拟默认进行10000次模拟, 给出99%置信区间;确切计算默认计算时间限制在5分钟内这些默认值均可更 改6-7单击按钮,弹出Statistics子对话框,用于定义所需计算的统计量如图4-9-3所示Crosstabs: StatisticsChi-squareCorrelationsrNominalrOrdinalCantinge ncy coefficientfl OammaPhi and Cramer's VSomers' dLambdaKendall's 1au-bUncertainty coeflicientKendall's tau-crNominal by IntervalKappa□ RiskMcNemarTest common odds ratio equals: qConrtinueCanceCochran's and Mantel-Haenszel statistics图4-9-3 Statistics子对话框Statistics子对话框包括:(1) Chi-square复选框:选择是否进行卡方检验,计算咒2值2) Correlaitons复选框:计算列联表两变量的Pearson相关系数和Spearman 等级相关系数。
3) Nominal复选框组:选择是否输出反映分类资料相关性的指标,很少 使用,共有四个选项:Contingency coefficient复选框:列联系数,其值界于0〜1之间,取值越大 说明两变量之间的相关性越强Phi and Cramer's V复选框:这两者也是基于咒2值的,Phi在四格表咒2检验 中界于-1〜1之间,在R*C表咒2检验中界于0〜1之间;Cramer's V则界于0〜1 之间该指标的绝对值越大,说明两变量之间的相关性越强Lambda复选框:在自变量预测中用于反映比例缩减误差,其值为1时表明 自变量预测因变量好,为0时表明自变量预测因变量差Uncertainty coefficient复选框:不确定系数,以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后 一变量的信息与前一变量无关4) Ordianl复选框组:选择是否输出反映定序资料相关性的指标,很少使用 包括以下组成部分:Gamma复选框:界于-1〜1之间,所有观察实际数集中于左上角和右下角 时,其值为1,取1和-1代表两变量完全一致或不一致,取0代表两变量完全不 相关。
Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序 对子数的比例界于-1〜1之间,结果解释同上;Kendall's tau-b复选框:界于-1〜1之间,结果解释同上;Kendall's tau-c复选框:界于-1〜1之间,结果解释同上;(5) Nominal by Interval: Eta复选框:计算Eta值,用于分类变量的检验, 其平方值可认为是因变量受不同因素影响所致方差的比例;(6) Kappa复选框:计算Kappa值,即内部一致性系数通常Kappa大于 0.75则认为两变量的一致性较好;小于0.4则认为两变量的一致性较差;(7) Risk复选框:计算相对危险系数;(8) McNemar复选框:进行McNemar检验(一种非参检验),该检验只 有在行列数相等时才能用;(9) Cochran's and Mantel-Haenszel statistics 复选框:进行独立性和齐性检 验6-8单击 C^"s- 按钮弹出Cell子对话框,用于定义列联表单元格中需要计算的指标,如图4-9-4所示图4-9-4 Cell子对话框Cell子对话框主要包括以下几部分:Counts复选框:是否输出实际观察数(Observed)和期望数(Expected);Percentages复选框:是否输出行百分数(Row)、列百分数(Column)以 及合计百分数(Total);Residuals复选框:选择残差的显示方式,可以是实际数与期望数的差值 (Unstandardized)、标化后的差值(standardized,将差值转化为标准正态分布), 或者被标准误除的单元格残差(Adj. standardized);Noninteger Weights:当频数因为加权而变成小数时,选择该项对频数进行取 整。
主要包括五种方法:Round cell counts:对频数进行四舍五入取整;Round case weights:对加权样本在使用前进行四舍五入取整;Truncate cell counts:对频数 进行舍位取整;Truncate case weights :对加权样本在使用前进行舍位取整;No adjustments :不调整6-9单击呵個…按钮,弹出Format子对话框,用于选择行变量是升序还 是降序单击 按钮返回主界面,单击冰 按钮完成操作7、实训解析由于背景资料中表 4-9-1 的数据给出的直接是频数表,因此在建立 SPSS 数 据集时可以直接输入三个变量:——行变量、列变量和指示每个单元格中频数的 变量,然后指定频数变量,最后进行 2 检验。
