
数据分布特征的描述.ppt
130页2018/10/14,1,对统计数据进行排序、分组、整理、图示,是对数据的分布特征进行描述的一个基本方面,为进一步掌握数据的分布特征及其变化规律,以进行深入的分析,还需找出反映数据分布特征的各个代表值统计学中主要从以下三方面刻划数据分布特征:数据分布的集中趋势;数据分布的离散程度;数据分布的形状分类 分组 整理 图示,统计数据,寻找 反映数据分布特征的代表值: 集中趋势;离散程度;形状第三章 数据分布特征的描述,2018/10/14,2,数据分布的特征,2018/10/14,3,数据分布特征和适用的描述统计量,2018/10/14,4,该项活动中,每月都有数据统计及分析以用来进行该项活动的调整与实施如:有一组关于病人进入“救助”活动的时间长度的数据:67个样本:时间长度从1天到185天为了改善 濒临死亡的病人 及其家庭的 生活质量,救 助 活 动,“服务队”: 医生 家庭健康保健员 社会工作者 受训志愿者,给予 病人及 家庭一些 指导 帮助,减轻由于 疾病、 分离等而 引起的 精神紧张,,,,,例:美国一家具有福利院性质的医院(Barnes Hospital)2018/10/14,5,均值(mean):35.7天; 中位数(median):17天;众数(Mode):1天 Interpretation:(1) the average time a patient stays in the Program is 35.7 days, or slightly over a month; (2)half of the patients are in the Program 17 days or less and half are in the Program 17 days or more; (3) many patients have a short day in the Program.,,除了对该组数据进行频数方面的描述和分析外,下面的统计方法在描述数据分布特征及分析方面也很重要:,█,2018/10/14,6,第三章 数据分布特征的描述,3.1 集中趋势的度量3.2 离散程度的度量3.3 偏态与峰态的度量,2018/10/14,7,3.1 集中趋势的度量,3.1.1 什么是集中趋势 3.1.2 分类数据----众数 3.1.3 顺序数据----中位数和分位数 3.1.4 数值型数据----均值 3.1.5 几种平均数简评,2018/10/14,8,3.1.1 什么是集中趋势 (central tendency),一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据水平的代表值或中心值 不同类型的数据用不同的集中趋势测度值 注意:低层次数据的测度方法也适用于高层次的数据,但高层次数据的测度方法往往不适用于低层次的数据。
2018/10/14,9,3.1.2 分类数据---众数,一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据,2018/10/14,10,众数(不惟一性),无众数 原始数据: 10 5 9 12 6 8,一个众数 原始数据: 6 5 9 8 5 5,多于一个众数 原始数据: 25 28 28 36 42 42,11,有时众数是一个合适的代表值,比如在服装行业中,生产商、批发商和零售商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸2018/10/14,12,1、分类数据的众数 (例题分析),解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即 Mo=可口可乐,2018/10/14,13,2、顺序数据的众数 (例题分析),解:这里的数据为顺序数据。
变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo=不满意,2018/10/14,14,3、数值型数据的众数 1)单变量值分组数据,某年级83名女生身高资料,身高 人数 (CM) (人)152 1154 2155 2156 4157 1158 2159 2160 12161 7162 8163 4,身高 人数 (CM) (人)164 3165 8166 5167 3168 7169 1170 5171 2172 3174 1 总计 83,,STAT,2018/10/14,15,2)组距分组数据众数的计算公式,2018/10/14,16,,,,,,,,,,,,,,,,G,E,F,D,C,A,B,f,X,f3,f2,f1,,d,L,U,M0,Δ1,Δ2,众数的计算公式可以从几何图形得到证明:,2018/10/14,17,身高 人数 比重(CM) (人) (%)150-155 3 3.61155-160 11 13.25160-165 34 40.96 165-170 24 28.92170以上 11 13.25总计 83 100,某年级83名女生身高资料,组距分组数据的众数,,,,STAT,,2018/10/14,18,3.1.3 顺序数据---中位数和分位数 1、顺序数据----中位数,排序后处于中间位置上的值,不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据 各变量值与中位数的离差绝对值之和最小,即,2018/10/14,19,中位数(位置的确定),未分组数据:,分组数据:,2018/10/14,20,①顺序数据的中位数 (例题分析),解:中位数的位置为 300/2=150从累计频数看,中位数在“一般”这一组别中中位数为Me=一般,2018/10/14,21,②未分组数值型数据的中位数 (奇数个数据的算例),【例】 9个家庭的人均月收入数据 原始数据:1500 750 780 1080 850 960 2000 1250 1630 排 序:750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,中位数 1080,,2018/10/14,22,未分组数值型数据的中位数 (偶数个数据的算例),【例】:10个家庭的人均月收入数据 排序:660 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9 10,,2018/10/14,23,③组距分组数据中位数的计算公式,2018/10/14,24,(组距分组),,,,,,共 个单位,共 个单位,,,,,共 个单位,共 个单位,,,L,,中位数组,组距为d,共 个单位,假定该组内的单位呈均匀分布,,中位数下限公式为,该段长度应为,,,,U,2018/10/14,25,身高 人数 累计(CM) (人) 人数150-155 3 3155-160 11 14160-165 34 48 165-170 24 72170以上 11 83总计 83,某年级83名女生身高资料,,,,,,,STAT,组距分组数据的中位数,26,如果统计资料中含有异常的或极端的数据,就有可能得到非典型的甚至可能产生误导的平均数,这时使用中位数来度量集中趋势比较合适。
比如有5笔付款:9元,10元,10元,11元,60元平均付款为100/5=20元很明显,这并不是一个好的代表值,而中位数10元是一个更好的代表值2018/10/14,27,2、顺序数据----分位数 (1)四分位数,1)分位数有二分位数(中位数)、四分位数、十分位数和百分位数等其中主要有四分位数 2)排序后处于25%和75%位置上的值即四分位数,3)不受极端值的影响 4)主要用于顺序数据,也可用于数值型数据,但 不能用于分类数据,2018/10/14,28,A)原始数据四分位数的位置,下四分位数上四分位数,2018/10/14,29,【例】某学习小组的统计学考试成绩如下:,要求: (1)计算前15个学生统计学考试成绩的四分位数; (2)如果增加一个学生的成绩95分,试计算16个学生统计学考试成绩的四分位数2018/10/14,30,2018/10/14,31,B)根据组距数列计算四分位数,2018/10/14,32,根据组距数列计算四分位数,2018/10/14,33,十分位数是指将按大小顺序排列的一组数据划分为10等分的9个变量值,用以反映一组数据在各个区间的一般水平2) 十分位数,2018/10/14,34,(3) 百分位数,35,位置测度的一种常用方法:百分位数(Percentile),含义:第p个百分位数是这样的数值:至少有p%个数值跟它一样大或比它小;至少有(100-p)%个数值跟它一样大或比它大。
例如,一个考生入学考试的口语成绩是55分,对应第70个百分位数,我们就可以知道大约有70%的考生成绩比他低,或者说大约有30%的考生成绩比他高2018/10/14,36,算术平均数定义:全部变量值之和与变量值个数相除所得到的结果按其计算形式又有简单算术平均数和加权算术平均数之分STAT,平均数(average )的定义----变量值的一般水平,通常也称为均值(mean) 有算术均值、调和均值和几何均值3.1.4 数值型数据---平均数 一.算术平均数,2018/10/14,37,(一)简单算术平均数,如果是未分组整理的原始资料,则直接将各个数据加总再除以数据的个数即得到平均数设一组数据为 ,则其算术平均数的计算公式为,2018/10/14,38,(二)加权算术平均数,根据分组整理的数据计算平均数时,需要先用每个组的变量值或组中值分别乘以各自的频数或频率,然后加总再除以总频数或总频率,即得算术平均数其计算公式为,2018/10/14,39,【例】 2005年某市红星幼儿园共有458名儿童,其年龄资料如表3.2所示。












