好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

第1章定性数据.ppt

18页
  • 卖家[上传人]:M****1
  • 文档编号:586565388
  • 上传时间:2024-09-05
  • 文档格式:PPT
  • 文档大小:854.52KB
  • / 18 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 定性数据统计分析Categorical Data Analysis 教学内容第一章￿￿定性数据第二章￿￿分类数据的检验第三章￿￿四格表第四章￿￿二维列联表第五章￿￿高维列联表第六章￿￿逻辑斯蒂回归模型第七章￿￿对数线性模型第八章￿￿列联表的对应分析 第一章￿￿定性数据什么是定性数据?数据的类型￿——根据数据的取值来分:1.计量数据(Continuous Data) : 身高、体重等;³取值为任意实数2.计数数据(Counts) : 职工人数、成交股票数等;³取值为非负整数3.名义数据(Nominal Data) : 性别、婚姻状况等;³取值为属性编码4.有序数据(Ordinal Data) : 文化程度、满意度等;³取值为可排序的属性编码 第一章￿￿定性数据定性数据的描述性统计³方法有表格法、图示法、数值法1、表格法【例】向50个被访者调查“你最喜欢喝的饮料”,得到表1.1以上数据经按类别整理后,可得到频数分布表,见表1.2制作有序数据的频数分布表时,还可以统计累积频数和累积频率,见表1.3 第一章￿￿定性数据如果我们想考察这些饮料受欢迎程度与性别的关系,可以制作饮料与性别的交叉分组表,见表1.4。

      显然,这种表有利于我们进一步发现受欢迎程度与性别之间的关系类似地有三种、或更多种方式分组的交叉表,即列联表(contingency table) 第一章￿￿定性数据2、图示法包括条形图、圆形图(表1.4)、排列图等³其中的排列图,又叫帕累托图,是按照发生频率大小顺序绘制的条形图;®表示有多少结果是由已确认类型或范畴的原因所造成;®将出现的质量问题和质量改进项目按照重要程度依次排列而采用的一种图表;®可以用来分析质量问题,确定产生质量问题的主要因素 帕累托图(Pareto Chart)通常用双坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率,分析线表示累累积频率率;横坐标表示影响质量的各项因素,按影响程度的大小(即出现频数多少)从左到右排列;通常将累积频率0~80%之间的因素认为是影响质量的主要因素见附录1) 第一章￿￿定性数据3、数值法即用代表性的数值描述定性数据的统计分布特征代表性的数值有两类:³描述定性数据的中心位置³描述定性数据的离散程度中心位置:众数、中位数、百分位数离散程度:异众比率、G-S指数、熵 众数数据中出现频数最高的数据值,记为Mo如上例中,“可口可乐”是众数;适用于定性名义数据中心位置的量度;众数的性质略。

      中位数将数据按一定顺序排列后位于中间的数值,记为Me;例:游客对服务态度的评价(￿% )适用于定性有序数据中心位置的量度 百分位数百分位数是对数据位置的量度,但不一定是中心位置;一般地,第p百分位数是指,至少有p%的数据项小于等于这个值,且至少有(100-p) %的数据项大于等于这个值;第25百分位数称为下四分位数,记为QL,第50百分位数就是中位数,第75百分位数称为上四分位数,记为QU ; 异众比率用于定性名义数据离散程度的度量,记为V:离异比率越小,说明数据越集中;此外,还可以利用随机变量来刻画定性数据的离散程度;比如,随机变量ξ ,可以取 等不同的值,相应的概率为 即: Gini-Simpson指数基尼-辛卜生指数简称G-S指数随机变量ξ的G-S指数记为G-S(ξ)G-S指数越小,说明随机变量ξ的分布越集中;￿G-S指数越大,则分布越分散当k=2,￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿时,G-S指数达到最大值￿￿￿￿￿￿￿￿￿￿￿￿￿,即均匀分布时指数达到最大(见附录2)。

      熵随机变量ξ的熵(entropy)记为H(ξ):在￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿￿的条件下,衡量给定分布与均匀分布接近的程度越接近于均匀分布,越处于平衡状态,即离散程度越大,熵的取值越大,最大值为￿￿￿￿￿￿￿￿;反之也反￿(见附录2) 定性数据离散程度的测度【例】最喜欢的饮料的频数分布表1、用离异比率测度:若将数据稍作调整为:则饮料频数频率可口可乐苹果汁橘子汁百事可乐杏仁露2565595012101018合计50100 定性数据离散程度的测度2、用G-S指数测度:³调整前,³调整后,3、用熵测度:³调整前,³调整后, 定性数据离散程度的测度如果前例中每种饮料的频数相同,那么各自的G-S指数和熵分别为多少呢?³当均匀分布时,定性数据的离散程度达到最大³G-S指数的最大值为:³熵的最大值为: 本章小结定性数据的类型运用频数分布表整理数据,并计算频率绘出条形图、饼图、帕累托图描述定性数据的中心位置和离散程度 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.