
统计学3样本数据特征初步分析课件.ppt
80页第三章第三章 样本数据特征的样本数据特征的 初步分析初步分析 一、整理样本数据 信息在被操纵或处理后并没有超出其原有的格式信息在被操纵或处理后并没有超出其原有的格式 原始数据原始数据原始数据原始数据 -- --两种整理原始数据的基本方法两种整理原始数据的基本方法两种整理原始数据的基本方法两种整理原始数据的基本方法 数据阵列数据阵列数据阵列数据阵列 频数分布频数分布频数分布频数分布 2、整理数据 --数据阵列 保留了数据的原值保留了数据的原值 ,并按数值的升序或降序显示数据并按数值的升序或降序显示数据 易观察到:易观察到: 数据集中包含最大观察值和最小观察值数据集中包含最大观察值和最小观察值 确认在某个数据集中哪些数组具有相同的值确认在某个数据集中哪些数组具有相同的值 很容易发现各个值之间的差异很容易发现各个值之间的差异 3、样本数据结构的基本特征:频次与频率、样本数据结构的基本特征:频次与频率一、一些基本概念一、一些基本概念1、频次(频数)、频次(频数) 在有限的样本数据集合中,同样的数据值(样本值)在有限的样本数据集合中,同样的数据值(样本值)出现的次数出现的次数 称为该样本值出现的频次称为该样本值出现的频次。
2、频率、频率 该样本值出现的频次该样本值出现的频次 / 该数据集合的数据总数该数据集合的数据总数常用表示方法:常用表示方法: ((1)表)表 ;; ((2)饼图;)饼图; ((3)条形图;)条形图;二、样本数据集合的基本特征的延伸:累积频率二、样本数据集合的基本特征的延伸:累积频率 当样本数据的测度在顺次级以上时,把样本值小于等于当样本数据的测度在顺次级以上时,把样本值小于等于某个样本数据某个样本数据xi的频率值累加起来,就得到的频率值累加起来,就得到“小于等于小于等于xi”的累积频率的累积频率注:名义级的样本数据集合,不存在累积频率问题注:名义级的样本数据集合,不存在累积频率问题表示法同上表示法同上整理数据 --频数分布 将数据值分成几组将数据值分成几组 显示各组中有多少数值显示各组中有多少数值很容易发现数据的图形特点很容易发现数据的图形特点 无法保留原始数据的值无法保留原始数据的值 频数分布 定义定义定义定义某个变量所有可能值的集合某个变量所有可能值的集合 显示了变量的图形特点显示了变量的图形特点 分布分布 P当数据集为小型时,数据之间的变化特点很容易观察出来当数据集为小型时,数据之间的变化特点很容易观察出来 P随着数据集变为中型或大型,变量的特性一般表现得越来随着数据集变为中型或大型,变量的特性一般表现得越来越不明显越不明显 定定定定 义义义义频数分布的类别频数分布的类别 频数分布 频数频数 每一组包含的观察值数目每一组包含的观察值数目 组组 组限组限 每一组的上限和下限每一组的上限和下限 组宽组宽 上限和下限之间的间距上限和下限之间的间距 ´如何将数据转换成表格如何将数据转换成表格 ?´哪些重要或必要的信息应当包括在内哪些重要或必要的信息应当包括在内 ? 确定确定 “组数组数”和和“组宽组宽 ” 频数分布一般包括与每组有关的频数、累积频数、相对频数分布一般包括与每组有关的频数、累积频数、相对频数和相对累积频数频数和相对累积频数频数分布 频数分布 累积频数累积频数累积频数累积频数 相对频数相对频数相对频数相对频数 相对累积频数相对累积频数相对累积频数相对累积频数 显示每组范围内或其下有多少观察值显示每组范围内或其下有多少观察值 相对频数描述每组范围内观察值所占的百分比,相对频数描述每组范围内观察值所占的百分比,即每组的频数除以观察值的总数目即每组的频数除以观察值的总数目 显示每组范围内或其下观察值所占的百分比显示每组范围内或其下观察值所占的百分比 对于定性变量而言对于定性变量而言 --常常根据变量结果的种类来选择组常常根据变量结果的种类来选择组 例如,为了研究本班例如,为了研究本班100名学生的性别名学生的性别 --频数分布 对于定量变量而言对于定量变量而言 --选择选择“组数组数” 和和“组宽组宽 ”是主要问题是主要问题频数分布 应当遵循哪些基本原则来确定组应当遵循哪些基本原则来确定组 --1.各个组之间必须是各个组之间必须是“相互排斥相互排斥”的的 2.各个组必须将各个组必须将“所有数据均包括在内所有数据均包括在内” 3.组数组数K 的经验法则的经验法则 2K n ,此处此处n代表观察值的总数目代表观察值的总数目4. 各组之间的宽度最好相等,但这并不是必要条件。
各组之间的宽度最好相等,但这并不是必要条件当组宽相等时,当组宽相等时, W 频数分布 5.应当尽量避免开口组应当尽量避免开口组 6.组宽最好是整数组宽最好是整数 例如例如,为了研究某班为了研究某班100名学生的身高名学生的身高 --我们确定将整个数据分成我们确定将整个数据分成5组,每组宽度相等,组,每组宽度相等,W = 10厘米厘米频数分布 1. 一张整理有序的表格可以使数据中隐藏的信息清楚地表现出一张整理有序的表格可以使数据中隐藏的信息清楚地表现出 来来2. 有助于采用图形方式来汇总数据有助于采用图形方式来汇总数据 3数据集表格不具有唯一性数据集表格不具有唯一性频数分布 频数分布 以下数据表示一个当地咖啡馆进行的以下数据表示一个当地咖啡馆进行的30笔交易笔交易 举例举例举例举例 141464641515343475752424818167671919252548485757696962624141464635352727727264644848515177776464515150502626424283833838频数分布 首先首先首先首先--确定确定“组数组数” 和和“组宽组宽 ”样本大小样本大小 n =3025 = 32 > 305 组组最小观察值最小观察值 = 14,最大观察值最大观察值 = 83最好采用最好采用“整数整数” W = 15 组数组数 组宽组宽 频数分布 茎叶图形 数据必须按照升序排列数据必须按照升序排列 为了构造图形,我们将数值的第一个数字作为茎为了构造图形,我们将数值的第一个数字作为茎 茎叶排列使我们可以通过图形来了解数据的分布茎叶排列使我们可以通过图形来了解数据的分布 茎叶图形 例如例如,我们想将我们想将12个数据转换成一张茎叶图形个数据转换成一张茎叶图形 : 4.4 3.6 4.4 3.7 7.6 3.9 3.6 3.5 3.0 4.5 3.8 2.22| 23| 0 5 6 6 7 8 94| 4 4 55|6|7| 6茎叶图形 用直观方式显示定量变量 三种最常使用的图形类型三种最常使用的图形类型 -- 直方图直方图 频数多边形频数多边形 分布曲线分布曲线 在构造图形之前,需要用频数分布来显示数据在构造图形之前,需要用频数分布来显示数据用直观方式显示定量变量 --直方图 应当将数据转换成频数分布表应当将数据转换成频数分布表 水平轴代表变量的数值,核对符号代表每一组的中点水平轴代表变量的数值,核对符号代表每一组的中点 垂直轴代表计数频数或百分比频数垂直轴代表计数频数或百分比频数 每个条形图的高度与每一组的频数或百分比相对应每个条形图的高度与每一组的频数或百分比相对应 每个条形图的宽度与每一组的宽度相对应每个条形图的宽度与每一组的宽度相对应 用直观方式显示定量变量 --直方图例如,我们在本单元中想通过绘制直方图来表示例如,我们在本单元中想通过绘制直方图来表示100名学生的身名学生的身高分布高分布 身高身高185.0175.0165.0155.0145.0计数频数计数频数403020100用直观方式显示定量变量 --频数多边形 身高身高190.0180.0170.0160.0150.0计数频数计数频数403020100200.0140.0用线段将各组中点和频数(或相对频数)的交叉点连接起来,用线段将各组中点和频数(或相对频数)的交叉点连接起来,就可以得到频数多边形图形就可以得到频数多边形图形 身高身高.190.0180.0170.0160.0150.0累积计数频数累积计数频数806040200140.0100用直观方式显示定量--分布曲线 图形显示了每一组的累积频图形显示了每一组的累积频数或相对累积频数数或相对累积频数 它可以用它可以用“小于小于”或或“大于大于”来来表示表示 定性变量常常用非数值刻度来测量定性变量常常用非数值刻度来测量 对这些变量可以进行分类对这些变量可以进行分类 可以采用两种最为常见的图形来描述定性变量的分布可以采用两种最为常见的图形来描述定性变量的分布 饼图饼图 条形图条形图 用直观方式显示定性变量 饼图的圆圈代表了所有观察值的集合饼图的圆圈代表了所有观察值的集合 根据定性变量的类型数目将饼图分成几个部分根据定性变量的类型数目将饼图分成几个部分 饼图每一部分的大小与每一类型的相对频数成正比饼图每一部分的大小与每一类型的相对频数成正比 用直观方式显示定性变量 -- 饼图 例如,我们可以用饼图来描述某班例如,我们可以用饼图来描述某班100名学生的性别分布状名学生的性别分布状况况 男性男性60%女性女性40%用直观方式显示定性变量 -- 饼图对于定性变量而言,条形图表示每一类型的百分比或对于定性变量而言,条形图表示每一类型的百分比或 计数频数计数频数 每个条形图的高度代表每一类型的百分比或比例每个条形图的高度代表每一类型的百分比或比例 条形图的宽度没有意义,所有类型的宽度均相同条形图的宽度没有意义,所有类型的宽度均相同 用直观方式显示定性变量 --条形图 例如,我们用条形图来显示某班例如,我们用条形图来显示某班100名学生的性别分布状况名学生的性别分布状况020406080男性男性女性女性用直观方式显示定性变量 --条形图SPSS统计软件给我们的工作带来了方便 饼图饼图 :图形图形 饼图饼图 对各组情形进行总结对各组情形进行总结 条形图条形图 :图形图形 条形图条形图 对各组情形进行总结对各组情形进行总结 SPSS统计软件给我们的工作带来了方便 直方图直方图 :图形图形 直方图直方图 选择关心的变量选择关心的变量 茎叶图形茎叶图形 :分析分析 描述统计学描述统计学 寻找寻找 选择绘图选项选择绘图选项 集中趋势测度 --未分组数据 定义定义定义定义所有观察值所有观察值 的平均值的平均值均值均值 所有观察值中位于最中心位置的那个值所有观察值中位于最中心位置的那个值 中位数中位数 出现最频繁的数据值出现最频繁的数据值 众数众数 均值均值 --总体均值总体均值 样本均值样本均值 集中趋势测度 --未分组数据Kim 测验的平均成绩等于测验的平均成绩等于 在此我们可以看到,在汇总在此我们可以看到,在汇总Kim的测验成绩时,均值并不能发挥很的测验成绩时,均值并不能发挥很好的作用。
在大多数情况下,好的作用在大多数情况下,Kim的测验成绩低于的测验成绩低于30分,她只在一分,她只在一次测验中意外地获得了次测验中意外地获得了98的高分,因此她的平均成绩被提高到的高分,因此她的平均成绩被提高到35分 集中趋势测度 --未分组数据Kim是一名中等学校的学生,她上星期进行了是一名中等学校的学生,她上星期进行了5次测验,成次测验,成绩分别如下绩分别如下 7, 98, 25, 19, 和和26均值对极值表现得非常敏感均值对极值表现得非常敏感 如果数据中存在极值(或者说数据分布有所偏斜),那么如果数据中存在极值(或者说数据分布有所偏斜),那么均值就不能很好地测度集中趋势均值就不能很好地测度集中趋势 集中趋势测度 --未分组数据 中位数中位数 (Md) --1.将将n个观察值按升序或降序排列个观察值按升序或降序排列 2.如果观察值个数是奇数,则中位数就是位于最中心位置的那个观如果观察值个数是奇数,则中位数就是位于最中心位置的那个观察值,即数据集中的第察值,即数据集中的第 个观察值个观察值 3.如果观察值个数是偶数,则中位数就是位于正中心两个观察值的如果观察值个数是偶数,则中位数就是位于正中心两个观察值的平均值,即数据集中的第平均值,即数据集中的第 个和第个和第 个观察值的平均值个观察值的平均值 集中趋势测度 --未分组数据举例举例: 有有6名工人组成一个样本,请找出他们每周工资的中位名工人组成一个样本,请找出他们每周工资的中位数数 151179163142180195按升序重新排列每周的工资按升序重新排列每周的工资 142151163179180195 最中心位置的最中心位置的两个两个数值数值 求这两个数值的平均数求这两个数值的平均数 中位数中位数 = 集中趋势测度 --未分组数据Kim的5次测验成绩 又如何呢?Kim成绩的中位数为成绩的中位数为25看来中位数能更好地测度看来中位数能更好地测度Kim测验成绩的中心位置测验成绩的中心位置 --中位数不受中位数不受“极值极值”的影响的影响 集中趋势测度 --未分组数据众数众数 (Mo) --并不经常用众数来测度中心位置并不经常用众数来测度中心位置适用于定性变量适用于定性变量 众数不具有唯一性众数不具有唯一性 集中趋势测度 --未分组数据集中趋势测度 --未分组数据举例举例: 有有6名工人组成一个样本,请找出他们每周工资的众数名工人组成一个样本,请找出他们每周工资的众数 151 179 163 142 180 195 不存在不存在 众数众数 151 180 163 142 180 195 180 142 180 163 142 180 195 142 和和180 (双峰双峰 )对对两个旅行团的小孩年龄进行了数据调查,以下是调两个旅行团的小孩年龄进行了数据调查,以下是调查结果:查结果: --A A组组组组 年龄年龄 : 14, 17, 11, 10, 11, 14, 9, 12, 8, 10, 9均值均值 中位数中位数 11众数众数 9, 10 , 11 和和 14 (有有4 个众数个众数 )集中趋势测度 --未分组数据B B组组组组 age: 9, 14, 8, 10, 13, 7, 9, 11, 16, 10, 12, 9均值均值 中位数中位数 10众数众数 9集中趋势测度 --未分组数据均值、中位数和众数之间的关系均值、中位数和众数之间的关系 --1. 对称分布对称分布 (均值均值 = Md = Mo) 均值均值 = Md = Mo集中趋势测度 --未分组数据均值、中位数和众数之间的关系均值、中位数和众数之间的关系 --2.倾向左侧倾向左侧 (均值均值 < Md < Mo) 均值均值MdMo集中趋势测度 --未分组数据均值、中位数和众数之间的关系均值、中位数和众数之间的关系 --3.倾向右侧倾向右侧 (均值均值> Md > Mo) MdMo均值均值集中趋势测度 --未分组数据集中趋势测度 --分组数据 为了计算分组数据的为了计算分组数据的均值均值 – 计算每一组的中点计算每一组的中点 假设观察值都落在各组的中点上假设观察值都落在各组的中点上 总体均值总体均值 样本均值样本均值 集中趋势测度 --分组数据举例举例举例举例: :下列频数分布显示了某家公司下列频数分布显示了某家公司50名工人的每周工资名工人的每周工资收入,估计每周工资的平均水平收入,估计每周工资的平均水平 集中趋势测度 --分组数据每周的平均工资每周的平均工资集中趋势测度 --分组数据为了计算分组数据的为了计算分组数据的中位数中位数 – 计算每一组的累积频数计算每一组的累积频数 包括包括“最中心位置最中心位置” 观察值的那一组就是观察值的那一组就是“中位数组中位数组” LMd :中位数组的下中位数组的下 限限fMd :中位数组的频数中位数组的频数 w :中位数组的宽度中位数组的宽度 c :位于中位数组之前那一组的累位于中位数组之前那一组的累积频数积频数 集中趋势测度 --分组数据举例举例举例举例: : 继续讨论前面的例子,即计算继续讨论前面的例子,即计算50名工人每周工资名工人每周工资收入的中位数收入的中位数集中趋势测度 --分组数据LMd = 169.5fMd = 12w = 10c = 19中位数组中位数组 170 – 179每周工资收入的中位数每周工资收入的中位数集中趋势测度 --分组数据为了计算分组数据的为了计算分组数据的众数众数 – 出现最频繁的那一组就是出现最频繁的那一组就是“众数组众数组” LMo :众数组的下限众数组的下限 d1 : 众数组的频数减去众数组众数组的频数减去众数组之前之前那那一组的频数一组的频数 w :众数组的宽度众数组的宽度 d2 : 众数组的频数减去众数组众数组的频数减去众数组之后之后那那一组的频数一组的频数 集中趋势测度 --分组数据举例举例举例举例: :继续讨论前面的例子,即计算继续讨论前面的例子,即计算50名工人每周工资收入的众数名工人每周工资收入的众数集中趋势测度 --分组数据LMo = 169.5w = 10d1 = 12 – 9 = 3众数组众数组 170 – 179每周工资收入的众数每周工资收入的众数d2 = 12 – 9 = 3集中趋势测度 举例举例:A A列数据列数据: : 55 56 57 58 59 60 61 62 63 64 65均值均值 = Md = Mo = 60B B列数据列数据: : 35 40 45 50 55 60 65 70 75 80 85均值均值= Md = Mo = 60离中趋势测度 --未分组数据 测度离中趋势最常用的三种方法测度离中趋势最常用的三种方法 --1.全距全距 2.标准差标准差 (SD)3.变异系数变异系数 (CV)离中趋势测度 --未分组数据全距全距 =最大观察值最大观察值– 最小观察值最小观察值 全距有两个主要缺点全距有两个主要缺点 --1.对数据集中的极值显得非常敏感对数据集中的极值显得非常敏感 2. 忽略了位于最大观察值与最小观察值之间的数据是如忽略了位于最大观察值与最小观察值之间的数据是如何分布的何分布的 定义定义定义定义离中趋势测度 --未分组数据离中趋势测度 --未分组数据举例举例举例举例: : 有有5名工人组成一个样本,请找出他们每周工资的全距名工人组成一个样本,请找出他们每周工资的全距 151179163142180X最大值最大值 = 180X最小值最小值 = 142全距全距 = 180 – 142 = 38标准差可以让我们大致了解数据值距离标准差可以让我们大致了解数据值距离均值有多远均值有多远 定义定义定义定义标准差标准差 离中趋势测度 --未分组数据 总体标准差总体标准差 , 样本标准差样本标准差 , s离中趋势测度 --未分组数据计算标准差的其他公式计算标准差的其他公式 –总体标准差总体标准差 :样本标准差样本标准差 :离中趋势测度 --未分组数据举例:举例:有有5名工人组成一个名工人组成一个总体总体,请找出他们每周工资的标准差,请找出他们每周工资的标准差 151179163142180数据分布的经验法则数据分布的经验法则 --当数据集接近对称分布时当数据集接近对称分布时 ,则大约,则大约 68.3 %的数据落在均值的的数据落在均值的1倍标准差范围内倍标准差范围内 95.5 %的数据落在均值的的数据落在均值的2倍标准差范围内倍标准差范围内 99.7 5%的数据落在均值的的数据落在均值的3倍标准差范围内倍标准差范围内 离中趋势测度 --未分组数据测量数据相对于均值的离中趋势测量数据相对于均值的离中趋势 定义定义定义定义变异系数变异系数 (CV)离中趋势测度 --未分组数据?? 什么时候采用变异系数什么时候采用变异系数 (CV) 来测度离中趋势来测度离中趋势 ?? 比较具有不同单位的数据集比较具有不同单位的数据集 比较具有不同幅度的数据集比较具有不同幅度的数据集 离中趋势测度 --未分组数据举例举例:例如,我们想比较例如,我们想比较1993年年2月至月至1994年年1月期间黄金和锌块的月期间黄金和锌块的价格波动情况,我们收集了价格数据并得出如下计算结果:价格波动情况,我们收集了价格数据并得出如下计算结果: 黄金黄金:锌块锌块 :每盎司每盎司 每磅每磅 离中趋势测度 --未分组数据CV表示每种商品相对于其自身平均价格的波动幅度表示每种商品相对于其自身平均价格的波动幅度 ::黄金黄金:锌块锌块 :离中趋势测度 --未分组数据离中趋势测度 --分组数据为了计算分组数据的为了计算分组数据的标准差标准差 – 计算每一组的中点计算每一组的中点 假设观察值都落在各组的中点上假设观察值都落在各组的中点上 总体标准差总体标准差 样本标准差样本标准差 离中趋势测度 --分组数据总体标准差总体标准差 样本标准差样本标准差 计算标准差的其他公式计算标准差的其他公式 离中趋势测度 --分组数据举例举例::计算工人每周工资的计算工人每周工资的总体总体标准差标准差 --离中趋势测度 --分组数据总体标准差总体标准差 离中趋势测度 --分组数据举例举例举例举例: : 计算工人每周工资的计算工人每周工资的样本样本标准差标准差离中趋势测度 --分组数据样本标准差样本标准差 样本数据的离散特征样本数据的离散特征1、四分点、四分点 下四分点:把排序后的样本数据集合,分成左右两部分,下四分点:把排序后的样本数据集合,分成左右两部分,使左边部分包含使左边部分包含25%的样本总个数,使右边包含的样本总个数,使右边包含75%的样本的样本总个数。
总个数上四分点:把排序后的样本数据集合,分成左右两部分,使上四分点:把排序后的样本数据集合,分成左右两部分,使左边部分包含左边部分包含75%的样本总个数,使右边包含的样本总个数,使右边包含25%的样本总的样本总个数 2、十分点、十分点 下十分点:把排序后的样本数据集合,分成左右两部分,使下十分点:把排序后的样本数据集合,分成左右两部分,使左边部分包含左边部分包含10% 的样本总个数,使右边包含的样本总个数,使右边包含 90% 的样本的样本总个数上十分点:把排序后的样本数据集合,分成左右两部分,上十分点:把排序后的样本数据集合,分成左右两部分,使左边部分包含使左边部分包含 90 % 的样本总个数,使右边包含的样本总个数,使右边包含10 %的的样本总个数样本总个数 样本数据离散特征的区间描述:样本数据离散特征的区间描述: 极差(极差(R):):R=极大值极大值 - 极小值极小值 四分位距(四分位距(Iqr):):Iqr=上四分点上四分点 – 下四分点下四分点 离差:每个样本值与样本均值之差离差:每个样本值与样本均值之差 离差平方和离差平方和:: (略)离散状况的统计值描述:离散状况的统计值描述: 样本方差样本方差样本数据特征的综合表达:箱体图样本数据特征的综合表达:箱体图箱体图基本结构箱体图基本结构刻度尺刻度尺极差极差极小值极大值下四分点中位数上四分点四分位距例例:样本数据为样本数据为:1.2,1,3,4,5,3.2,2.2,5.2,7.3,6,8.5,3.9,7.1共共13个数个数,求其中位数和上下四分位点。
求其中位数和上下四分位点解:对数据排序解:对数据排序:1,1.2,2.2,3,3.2,3.9,4,5,5.2,6,7.1,7.3,8.5所以得其中位数为所以得其中位数为4;上四分位点为上四分位点为(6+7.1)/2=6.52;下四分位点为下四分位点为(2.2+3)/2=2.6.SPSS统计软件给我们的工作带来了方便 数值汇总数值汇总:分析分析 描述统计学描述统计学 频数频数 选择统计选项选择统计选项 1.注意,我们可以使用注意,我们可以使用“样本样本”数据来计算标准差数据来计算标准差 2. SPSS 输出结果中不包含输出结果中不包含 CV 。
