
定性数据分析第五章课后答案.doc
6页定性数据分析第五章课后作业 1、为了解男性和女性对两种类型的饮料的偏好有没有差异,分别在年青人和老 年人中作调查调查数据如下: 偏好饮料A 偏好饮料B 男性 37 26 年青人 女性 11 23 男性 30 43 老年人 女性 31 11 试分析这批数据,关于男性和女性对这两种类型的饮料的偏好有没有差异的问 题,你有什么看法?为什么? 解:(1)数据压缩分析 首先将上表中不同年龄段的数据合并在一起压缩成二维2×2列联表1.1, 合起来看,分析男性和女性对这两种类型的饮料的偏好有没有差异? 表1.1 “性别×偏好饮料”列联表 偏好饮料A 偏好饮料B 合计 偏好A比 例 偏好B比 例 男性 67 69 136 49.26% 50.74% 女性 42 34 76 55.26% 44.74% 二维2×2列联表独立检验的似然比检验统计量 的值为0.7032, ln 2 值为 ,不应拒绝原假设,即认为“偏好 p 05 . 0 4017 . 0 ) 7032 . 0 ) 1 ( ( 2 P p 类型”与“性别”无关 (2)数据分层分析 其次,按年龄段分层,得到如下三维2×2×2列联表1.2,分开来看,男 性和女性对这两种类型的饮料的偏好有没有差异? 表1.2 三维2×2×2列联表 偏好饮料 A 偏好饮料 B 合计 偏好A比 例 偏好B比 例 男性 37 26 63 58.73% 41.27% 年青人 女性 11 23 34 32.35% 67.65% 老年人 男性 30 43 73 41.10% 58.90% 女性 31 11 42 73.81% 26.19% 在上述数据中,分别对两个年龄段(即年青人和老年人)进行饮料偏好的 调查,在“年青人”年龄段,男性中偏好饮料A 占58.73%,偏好饮料B占 41.27%;女性中偏好饮料A 占58.73%,偏好饮料B占41.27%,我们可以得出 在这个年龄段,男性和女性对这两种类型的饮料的偏好有一定的差异。
同理, 在“老年人”年龄段,也有一定的差异 (3)条件独立性检验 为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验 即由题意,可令 表示年龄段, 表示年青人, 表示老年人; 表示性别, C 1 C 2 C D 表示男性, 表示女性; 表示偏好饮料的类型, 表示偏好饮料 , 1 D 2 D E 1 E A 表示偏好饮料 欲检验的原假设为: 给定后 和 条件独立 2 E B C D E 按年龄段分层后得到的两个四格表,以及它们的似然比检验统计量 的值 ln 2 如下:层 1 C 层 2 C248 . 6 ln 2 822 . 11 ln 2 条件独立性检验问题的似然比检验统计量是这两个似然比检验统计量的和,其 值为 07 . 18 822 . 11 248 . 6 ln 2 由于 ,所以条件独立性检验的似然比检验统计量的渐近 分布的 2 t c r 2 自由度为 ,也就是上面这2个四格表的渐近 分布的自由度的 2 ) 1 )( 1 ( t c r 2 1 E 2 E 合计 1 D 37 26 63 2 D 11 23 34 合计 48 49 97 1 E 2 E 合计 1 D 30 43 73 2 D 31 11 42 合计 61 54 115和。
由于 值 很小,所以认为条件独立性不成立, p 5 0.00011916 ) 07 . 18 ) 2 ( ( 2 P 即在年龄段给定的条件下,男性和女性对两种类型的饮料的偏好是有差异的 (4)产生偏差的原因 a、在(1)中,将不同年龄段的数据压缩在一起合起来后分析发现男性和女性 在对两种类型的饮料的偏好上是没有差异的但将数据以不同的年龄段分层后 并分别分析发现男性和女性在对两种类型的饮料的偏好上是有一定差异的合 起来看和分开来看的结果不同 b、由此看来,年龄段在此次调查中属于混杂因素由于不同年龄段的人对饮料 的选择也会有差异,例如现在的年青人偏好喝一些像可口可乐,美年达等这样 的碳酸饮料,而老年人则偏好喝一些红茶,绿茶等这样的非碳酸饮料,在调查 中, “老年人”年龄段共有115人,所占比例大,从而使整个结果就倾向于老年 人的观点,即使得混杂因素“年龄段”起到一定的干扰作用,从而导致整个调 查结果产生了偏差 2、某工厂有三个车间车间主任分别为王、张和李过去的一年里,该工厂产 品的质量情况总结如下: 产品质量情况 车间主任 产品类别 合格产品数 不合格产品数 产品总数 内销 2368 131 2499 王 外销 123 81 204 内销 293 3 296 张 外销 1247 255 1502 内销 307 12 319 李 外销 359 75 434 王主任将内销和外销产品合并在一起,然后计算各个车间的不合格率。
计算结 果如下: 产品质量情况 主任 合格产品数 不合格产品数 不合格率 王 2491 212 7.84% 张 1540 258 14.35% 李 666 87 11.55%王主任说,我负责的车间生产情况最好,其次是李主任负责的车间,最差的是 张主任负责的车间这样的比较是不是有偏比较?为什么? 解:不是,有偏比较是指将数据压缩后合起来看与分层后分开来看得出的结果 不一致时所产生的偏差,而此题只是将数据压缩起来后相互间比较,因此这样 的比较不是有偏比较 具体分析如下: 由题知,分析车间主任与产品的质量情况之间的关系,则本题是以产品类别为 层,以车间主任为行,产品的质量情况为列进行相关分析 (1)数据压缩分析 首先将上表中不同产品类别的数据合并在一起压缩成二维3×2列联表 2.1,合起来看,分析车间主任与产品的质量情况两者之间的关系? 表2.1 “车间主任×产品质量”列联表 产品质量情况 主任 合格产品数 不合格产品数 不合格率 王 2491 212 7.84% 张 1540 258 14.35% 李 666 87 11.55% 可计算出该表独立性检验的似然比检验统计量 的值为48.612, 值为 ln 2 p 。
应该拒绝原假设,即认为车间主任与产品的质量 0 ) 612 . 48 ) 2 ( ( 2 P p 情况两者是有一定相关性的 (2)数据分层分析 其次,按产品类别分层,得到如下三维2×3×2列联表2.2,分开来看,分析 车间主任与产品的质量情况两者之间的关系? 表1.2 三维2×2×2列联表 产品的质量情况 产品类别 车间主任 合格产品数 不合格产品数 不合格率 王 2368 131 5.24% 内销 张 293 3 1.01%李 307 12 3.76% 王 123 81 39.71% 张 1247 255 16.98% 外销 李 359 75 17.28% 在上述数据中,分别对两个产品类别(即内销和外销)进行分析,在“内 销”类别中,王姓主任车间的产品不合格率最高,即车间生产情况最差,张姓 主任车间的不合格率最低,即车间生产情况最好;在“外销”类别中,王姓主 任车间的产品不合格率最高,即车间生产情况最差,张姓和李姓主任车间生产 情况差不多 (3)条件独立性检验 为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验 即由题意,可令 表示产品类别, 表示内销, 表示外销; 表示车间主 A 1 A 2 A B 任, 表示王姓主任, 表示张姓主任, 表示李姓主任; 表示产品的质 1 B 2 B 3 B C 量情况, 表示合格产品数, 表示不合格产品数。
欲检验的原假设为: 给 1 C 2 C A 定后 和 条件独立 B C 按产品类别分层后得到的两张表格,以及它们的似然比检验统计量 的值 ln 2 如下: 层 1 A 1 C 2 C 合计 1 B 2368 131 2499 2 B 293 3 296 3 B 307 12 319 合计 2968 146 3114 289 . 15 ln 2 层 2 A 1 C 2 C 合计 1 B 123 81 204 2 B 1247 255 1502 3 B 359 75 434 合计 1729 411 2140 684 . 51 ln 2 条件独立性检验问题的似然比检验统计量是这两个似然比检验统计量的和,其 值为973 . 66 684 . 51 289 . 15 ln 2 由于 ,所以条件独立性检验的似然比检验统计量的渐近 分布 3 , 2 r t c 2 的自由度为 ,也就是上面这2个表格的渐近 分布的自由度 3 ) 1 )( 1 ( t c r 2 的和由于 值 很小,所以认为条件独立性不成立,即 p 0 ) 973 . 66 ) 3 ( ( 2 P 在产品类别给定的条件下,车间主任与产品的质量情况两者是有一定相关性的。
(4)结论 在(1)中,将不同产品类别的数据压缩在一起合起来后分析发现车间主任 与产品的质量情况两者是有一定相关性的;在(2)中,将数据以不同的产品类 别分层后分析发现车间主任与产品的质量情况两者也是有一定相关性的即合 起来看和分开来看的结果相同据我们所知,有偏比较是指将数据压缩后合起 来看与分层后分开来看得出的结果不一致时所产生的偏差,而此题合起来看和 分开来看的结果都是相同的因此此题若是分析车间主任与产品的质量情况两 者之间的相关关系的话,则该题是无偏的,即不均有有偏性,无法进行有偏比 较。












