
spss学习系列17. 交叉表与多选题.docx
15页17. 交叉表与多选题(一)基本理论 分类变量包括无序分类变量、有序分类变量、多选题变量集对于分类变量的描述统计,主要是对分类变量各水平值分别进行频数和比例计算,再进步计算所需的一些相对频数指标一、单分类变量的统计描述1. 频数分布分类变量的分析,首先要了解:各类别的样本数(频数),以及占总样本量的百分比;对有序分类变量,还需要了解:累积频数、累积百分比2. 集中/离散趋势观察原始频数,或者使用众数对于分类变量,集中/离散趋势是一体的3. 相对频数指标(1)比(Riatio)两个有关指标之比A/B, 用来反映相对的大小关系,例如,月销售额/销售人数;(2)构成比用于描述事物内部各构成部分所占的比重,例如,百分比、累积百分比;(3)率(Rate)率是具有时间概念或速度、强度意义的指标,表示某个时期内某事件发生的频率或强度,例如速率、频率、费率、发病率等二、多分类变量的联合描述列联表例如,r×c二维列联表:(1)共n个样本;(2)按两种属性A、B,属性A有r个水平值:A1, …, Ar; 属性B有c个水平值:B1, …, Bc. 属性A=Ai,属性B=Bj的样本数为nij. (3)ni. = “属性A=Ai”的合计数,n.j = “属性B=Bj”的合计数。
注:多分类变量对应高维列联表三、多选题的统计描述多选题是调查问卷的常见题型,因为多选题是回答同一个大问题,所以不能割裂开来单独分析,需要做汇总处理1. 应答人数(Count)选择各题项的人数,原始频数;2. 应答人数百分比选择该项的人数占总人数的百分比,可以反映该选项在人群中的受欢迎程度;3. 应答人次(Response)选择各选项的总人次,1个受访者选择2个选项,即2人次;4. 应答次数百分比在做出的所有选择中,选择该项的人次占总人次数的比例二)SPSS实现有某调查问卷的数据文件(部分):变量属性:一、单分类变量的描述——频率变量“s4”表示学历:问题1:描述受访者的学历分布情况【分析】——【描述统计】——【频率】,将“学历”选入【变量】框,点【确定】得到S4. 学历频率百分比有效百分比累积百分比有效初中/技校或以下15413.413.413.4高中/中专31327.327.340.7大专33128.928.969.6本科29225.525.595.0硕士或以上575.05.0100.0合计1147100.0100.0注:详细操作见第15篇《频率图表》二、多分类变量的联合描述——交叉表问题2:描述“性别”和“学历”的交叉频数分布1. 【分析】——【描述统计】——【交叉表】,打开“交叉表”窗口,将“性别”选入【行】框,将“学历”选入【列】框,勾选“显示复式条形图”注:若是3个分类变量的三维列联表,将第3个分类变量选入【层1的1】框,通过【下一张】可以设置更多层;2. 【精确】设置计算概率值的方法,保持默认;【统计量】设置计算行/列变量关联性的统计指标和检验方法,保持默认;【格式】【Bootstrap】一般不用设置;3. 点【单元格】,勾选【计数】的“观察值”,勾选【百分比】的“列”,【非整数权重】选默认的“四舍五入单元格计数”;点【继续】回到原窗口,点【确定】得到S2. 性别* S4. 学历 交叉制表S4. 学历合计初中/技校或以下高中/中专大专本科硕士或以上S2. 性别男计数7416719116936637S4. 学历 中的 %48.1%53.4%57.7%57.9%63.2%55.5%女计数8014614012321510S4. 学历 中的 %51.9%46.6%42.3%42.1%36.8%44.5%合计计数154313331292571147S4. 学历 中的 %100.0%100.0%100.0%100.0%100.0%100.0% 注:若将变量“城市”选入第1步中的【层1的1】框,则得到三维列联表,S2. 性别* S4. 学历* S0. 城市 交叉制表S0. 城市S4. 学历合计初中/技校或以下高中/中专大专本科硕士或以上100北京S2. 性别男计数2843594711188S4. 学历 中的 %47.5%51.8%50.9%46.5%57.9%49.7%女计数314057548190S4. 学历 中的 %52.5%48.2%49.1%53.5%42.1%50.3%合计计数598311610119378S4. 学历 中的 %100.0%100.0%100.0%100.0%100.0%100.0%200上海S2. 性别男计数2364546416221S4. 学历 中的 %48.9%52.5%62.1%59.3%69.6%57.1%女计数245833447166S4. 学历 中的 %51.1%47.5%37.9%40.7%30.4%42.9%合计计数471228710823387S4. 学历 中的 %100.0%100.0%100.0%100.0%100.0%100.0%300广州S2. 性别男计数236078589228S4. 学历 中的 %47.9%55.6%60.9%69.9%60.0%59.7%女计数254850256154S4. 学历 中的 %52.1%44.4%39.1%30.1%40.0%40.3%合计计数481081288315382S4. 学历 中的 %100.0%100.0%100.0%100.0%100.0%100.0%合计S2. 性别男计数7416719116936637S4. 学历 中的 %48.1%53.4%57.7%57.9%63.2%55.5%女计数8014614012321510S4. 学历 中的 %51.9%46.6%42.3%42.1%36.8%44.5%合计计数154313331292571147S4. 学历 中的 %100.0%100.0%100.0%100.0%100.0%100.0%(三)多选题处理——多重响应一、多选题的编码多选题的编码方式有两种:1. 多重二分法是标准的多选题数据格式,即每个选项各设一个变量,“选中=1”“未选中=0”例如,C0题:请问您的家庭目前有下列还贷支出吗?(1)房贷 (2)车贷 (3)其他一般消费还贷用变量C0_1、C0_2、C0_3分别代表上述3个选项,取值“1=选中、0=未选中、99=拒答”;注:“99=拒答”后续可作为缺失值,或合并到“0=未选中”。
2. 多重分类法若题项较多限定回答数较少,多重二分法就显得太啰嗦(过多的“未选中”),此时适合用多重分类法:为所有选项设置一套值标签,需要多少个变量取决于限选项数例如,Q题:如果你喝酒,主要受哪方面的影响?(限选2项,请按主次程度排出顺序,不喝酒的不用填)(1)家人 (2)朋友同学 (3)影视剧 (4)文学作品(5)网络 (6)风俗习惯 (7)其他用变量Qa_1、Qa_2分别表示第1影响、第2影响,取值为选项编号,如Qa_1=3, Qa_2=2.二、设定多选题变量集多选题按前文的编码方式录入后只是若干个离散的变量,SPSS并不知道它们代表一道多选题,这就需要将其设置为多选题变量集(也称为多重响应集),SPSS提供了两种方式:方法1:【分析】——【表】——【多响应集】方法2:【分析】——【多重响应】——【定义变量集】二者操作基本相同,区别在于方法1可以保存定义的信息,方法2关闭数据文件后相应信息将丢失下面以方法2为例,有数据文件:多选题变量是c0和a3,其中c0_1, c0_2, c0_3是多重二分法编码;a3a_1, a3a_2是多重分类法编码1. 【分析】——【多重响应】——【定义变量集】,打开“定义多重响应集”窗口;2. 将变量“c0_1, c0_2, c0_3”选入【集合中的变量】框;勾选【将变量编码为】的“二分法”,在【计数值】框输入“1”,即指定“1”表示选中;【名称】框输入“C0”,【标签】框输入“家庭每月还贷情况”;点【添加】; 3. 将变量“a3a_1, a3a_2”选入【集合中的变量】框;勾选【将变量编码为】的“类别”,在【范围】框输入取值范围:“0”到“150”;【名称】框输入“A3a”,【标签】框输入“家庭经济状况”;点【添加】,得到注意:同一多选题必须采用相同的编码方式和编码值。
三、多选题的频数对前文得到的“多重响应集”C0进行频数分析1. 【分析】——【多重响应】——【频率】,打开“多响应频率”窗口,将多响应集“C0”选入【表格】框;【缺失值】处理“在二分集内按照列表顺序排除个案”对应多重二分法多选题,“在类别内按照列表顺序排除个案”对应多重分类法多选题;点【确定】得到个案摘要个案有效的缺失总计N百分比N百分比N百分比$C0a16314.2%98485.8%1147100.0%a. 值为 1 时制表的二分组 在1147受访者中,共有163人选择了至少一个贷款种类C0 频率响应个案百分比N百分比家庭每月还贷情况aC0. 请问您的家庭目前有下列还贷支出吗:房贷11859.3%72.4%C0. 请问您的家庭目前有下列还贷支出吗:车贷3316.6%20.2%C0. 请问您的家庭目前有下列还贷支出吗:其他一般消费还贷4824.1%29.4%总计199100.0%122.1%a. 值为 1 时制表的二分组 共199个有效回答(各种贷款种类共被选择199次),其中房贷118次,车贷33次,其他一般消费还贷48次;响应百分比,给出了每类贷款选择次数占总选择数的百分比;个案百分比,给出了选择某类贷款的人数占总人数的百分比,即应答人数百分比,以房贷为例,118/163=72.4%; 最后的122.1%说明163个人平均每人选择了1.221种贷款。
四、多选题的列联表分析若要就多选题对不同人群分别描述,即对多选题变量集合其它分类变量进行交叉表。
