
第3章 数据特征的描述.ppt
89页1 第3章数据分布特征的测度 2 第3章数据分布特征的测度 3 1集中趋势的测度 3 2离散程度的测度 3 3偏态与峰态的测度 3 学习目标 1 集中趋势各测度值的计算方法2 集中趋势各测度值的特点及应用场合3 离散程度各测度值的计算方法4 离散程度各测度值的特点及应用场合偏态与峰态的测度方法用Excel计算描述统计量并进行分析 4 数据分布的特征 5 数据分布特征的测度 6 3 1集中趋势的测度 一 分类数据 众数二 顺序数据 中位数和分位数三 数值型数据 均值四 众数 中位数和均值的比较 7 数据分布特征的和测度 本节位置 8 集中趋势 Centraltendency 一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据 但高层次数据的测度值并不适用于低层次的测量数据 9 分类数据 众数 10 众数 mode 出现次数最多的变量值不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据 也可用于顺序数据和数值型数据 11 众数 不唯一性 无众数原始数据 10591268 一个众数原始数据 659855 多于一个众数原始数据 252828364242 12 分类数据的众数 例题分析 解 这里的变量为 饮料品牌 这是个分类变量 不同类型的饮料就是变量值在所调查的50人中 购买可口可乐的人数最多 为15人 占总被调查人数的30 因此众数为 可口可乐 这一品牌 即Mo 可口可乐 13 顺序数据的众数 例题分析 解 这里的数据为顺序数据 变量为 回答类别 甲城市中对住房表示不满意的户数最多 为108户 因此众数为 不满意 这一类别 即Mo 不满意 14 顺序数据 中位数和分位数 15 中位数 median 排序后处于中间位置上的值 不受极端值的影响主要用于顺序数据 也可用数值型数据 但不能用于分类数据各变量值与中位数的离差绝对值之和最小 即 16 中位数 位置的确定 原始数据 顺序数据 17 顺序数据的中位数 例题分析 解 中位数的位置为300 2 150从累计频数看 中位数在 一般 这一组别中 因此Me 一般 18 数值型数据的中位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 中位数 1080 19 数值型数据的中位数 10个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 20 四分位数 quartile 排序后处于25 和75 位置上的值 不受极端值的影响主要用于顺序数据 也可用于数值型数据 但不能用于分类数据 21 四分位数 位置的确定 原始数据 顺序数据 22 顺序数据的四分位数 例题分析 解 QL位置 300 4 75QU位置 3 300 4 225从累计频数看 QL在 不满意 这一组别中 QU在 一般 这一组别中 因此QL 不满意QU 一般 23 数值型数据的四分位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 24 数值型数据的四分位数 10个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 25 数值型数据 均值 26 均值 mean 集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据 不能用于分类数据和顺序数据 27 简单均值与加权均值 simplemean weightedmean 设一组数据为 x1 x2 xn各组的组中值为 M1 M2 Mk相应的频数为 f1 f2 fk 简单均值 加权均值 28 已改至此 加权均值 例题分析 29 加权均值 权数对均值的影响 甲乙两组各有10名学生 他们的考试成绩及其分布数据如下甲组 考试成绩 x 020100人数分布 f 118乙组 考试成绩 x 020100人数分布 f 811 30 均值 数学性质 1 各变量值与均值的离差之和等于零 2 各变量值与均值的离差平方和最小 31 调和平均数 harmonicmean 均值的另一种表现形式易受极端值的影响计算公式为 原来只是计算时使用了不同的数据 32 调和平均数 例题分析 例 某蔬菜批发市场三种蔬菜的日成交数据如表 计算三种蔬菜该日的平均批发价格 33 几何平均数 geometricmean n个变量值乘积的n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为 5 可看作是均值的一种变形 34 几何平均数 例题分析 例 某水泥生产企业1999年的水泥产量为100万吨 2000年与1999年相比增长率为9 2001年与2000年相比增长率为16 2002年与2001年相比增长率为20 求各年的年平均增长率 年平均增长率 114 91 1 14 91 35 几何平均数 例题分析 例 一位投资者购持有一种股票 在2000 2001 2002和2003年收益率分别为4 5 2 1 25 5 1 9 计算该投资者在这四年内的平均收益率 算术平均 几何平均 36 众数 中位数和均值的比较 37 众数 中位数和均值的关系 38 众数 中位数和均值的特点和应用 众数不受极端值影响具有不唯一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用 39 数据类型与集中趋势测度值 40 3 2离散程度的测度 分类数据 异众比率顺序数据 四分位差数值型数据 方差及标准差相对位置的测量 标准分数相对离散程度 离散系数 41 数据的特征和测度 本节位置 42 离中趋势 数据分布的另一个重要特征反映各变量值远离其中心值的程度 离散程度 从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值 43 分类数据 异众比率 44 异众比率 variationratio 1 对分类数据离散程度的测度2 非众数组的频数占总频数的比率3 计算公式为 4 用于衡量众数的代表性 45 异众比率 例题分析 解 在所调查的50人当中 购买其他品牌饮料的人数占70 异众比率比较大 因此 用 可口可乐 代表消费者购买饮料品牌的状况 其代表性不是很好 46 极差 range 一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布 R max xi min xi 计算公式为 47 平均差 meandeviation 各变量值与其均值离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差 实际中应用较少 计算公式为 未分组数据 组距分组数据 48 平均差 例题分析 49 平均差 例题分析 含义 每一天的销售量平均数相比 平均相差17台 50 顺序数据 四分位差 51 四分位差 quartiledeviation 对顺序数据离散程度的测度也称为内距或四分间距上四分位数与下四分位数之差QD QU QL反映了中间50 数据的离散程度不受极端值的影响用于衡量中位数的代表性 52 四分位差 例题分析 解 设非常不满意为1 不满意为2 一般为3 满意为4 非常满意为5已知QL 不满意 2QU 一般 3四分位差 QD QU QL 3 2 1 53 数值型数据 方差和标准差 54 方差和标准差 varianceandstandarddeviation 数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的 称为总体方差或标准差 根据样本数据计算的 称为样本方差或标准差 55 样本方差和标准差 simplevarianceandstandarddeviation 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 56 样本方差自由度 degreeoffreedom 一组数据中可以自由取值的数据的个数当样本数据的个数为n时 若样本均值 x确定后 只有n 1个数据可以自由取值 其中必有一个数据则不能自由取值例如 样本有3个数值 即x1 2 x2 4 x3 9 则 x 5 当 x 5确定后 x1 x2和x3有两个数据可以自由取值 另一个则不能自由取值 比如x1 6 x2 7 那么x3则必然取2 而不能取其他值样本方差用自由度去除 其原因可从多方面来解释 从实际应用角度看 在抽样估计中 当用样本方差s2去估计总体方差 2时 s2是 2的无偏估计量 57 样本标准差 例题分析 58 样本标准差 例题分析 含义 每一天的销售量与平均数相比 平均相差21 58台 59 相对位置的测量 标准分数 60 标准分数 standardscore 1 也称标准化值2 对某一个值在一组数据中相对位置的度量3 可用于判断一组数据是否有离群点4 用于对变量的标准化处理5 计算公式为 61 标准化值的分子为第i个变量值与其均值的差 一般称为数据的中心化 表现为变量值与其均值的绝对距离 标准化值的分母为标准差 通过用标准差除以中心化后的数据 来消除标准化值的量纲和绝对水平 剔除不同的数据分布离散程度在量纲和数值水平上的差异 使离散程度不同的数据之间具备了广泛的可比性 使数据具有了普遍的可加性和直接的可比性 62 标准分数 性质 均值等于02 方差等于1 63 标准分数 性质 z分数只是将原始数据进行了线性变换 它并没有改变一个数据在改组数据中的位置 也没有改变该组数分布的形状 而只是将该组数据变为均值为0 标准差为1 64 标准化值 例题分析 65 经验法则 经验法则表明 当一组数据对称分布时约有68 的数据在平均数加减1个标准差的范围之内约有95 的数据在平均数加减2个标准差的范围之内约有99 的数据在平均数加减3个标准差的范围之内 66 切比雪夫不等式 Chebyshev sinequality 如果一组数据不是对称分布 经验法则就不再使用 这时可使用切比雪夫不等式 它对任何分布形状的数据都适用切比雪夫不等式提供的是 下界 也就是 所占比例至少和多少 对于任意分布形态的数据 根据切比雪夫不等式 至少有的数据落在k个标准差之内 其中k是大于1的任意值 但不一定是整数 67 切比雪夫不等式 Chebyshev sinequality 对于k 2 3 4 该不等式的含义是至少有75 的数据落在平均数加减2个标准差的范围之内至少有89 的数据落在平均数加减3个标准差的范围之内至少有94 的数据落在平均数加减4个标准差的范围之内 68 相对离散程度 离散系数 69 离散系数 coefficientofvariation 1 标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4 用于对不同组别数据离散程度的比较5 计算公式为 70 离散系数 例题分析 例 某管理局抽查了所属的8家企业 其产品销售数据如表 试比较产品销售额与销售利润的离散程度 71 离散系数 例题分析 结论 计算结果表明 v1 v2 说明产品销售额的离散程度小于销售利润的离散程度 72 数据类型与离散程度测度值 73 3 3偏态与峰态的测度 一 偏态及其测度二 峰态及其测度 74 数据的特征和测度 本节位置 75 偏态与峰态分布的形状 偏态 峰态 76 偏态 77 偏态 skewness 统计学家Pearson于1895年首次提出偏态 Skewness 是指数据分布偏倚的方向和程度 偏态系数是度量数据分布偏离对称分布的方向和程度的测度 偏态系数一般采用三阶中心矩与标准差三次方的比值来度量数据分布的偏倚 数据分布偏斜程度的测度2 偏态系数 0为对称分布3。












