
(04)第4章--用分布特征的描述(j5).pptx
62页数据分析数据分析( (方法与案例方法与案例) )作者作者 贾俊平贾俊平统计学基础统计学基础第第 4 章章 数据分布特征的测度数据分布特征的测度4.1 集中趋势的度量集中趋势的度量 4.2 离散程度的度量离散程度的度量4.3 偏态与峰态的度量偏态与峰态的度量4 - 4 - 3 3统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年学习目标学习目标l度量集中趋势的统计量度量集中趋势的统计量l度量离散程度的统计量度量离散程度的统计量l度量偏态与峰态的统计量度量偏态与峰态的统计量l各统计量的的特点及应用场合各统计量的的特点及应用场合l用用Excel计算描述统计量计算描述统计量4 - 4 - 4 4统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年数据分布的特征数据分布的特征集中趋势集中趋势集中趋势集中趋势 ( (数据的水平数据的水平数据的水平数据的水平) )偏态和峰态偏态和峰态偏态和峰态偏态和峰态( (分布形状分布形状分布形状分布形状) )离散程度离散程度离散程度离散程度 ( (数据的差异数据的差异数据的差异数据的差异) )4.1 集中趋势的度量集中趋势的度量 一、平均数一、平均数 二、中位数和分位数二、中位数和分位数 三、各度量值的比较三、各度量值的比较第第 4 章章 数据分布特征的测度数据分布特征的测度4 - 4 - 6 6统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年集中趋势集中趋势(central tendency)1.1.一一组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度2. 2.测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值3. 3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值4. 4.低层次数据的测度值适用于高层次的测量数据,但高低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据层次数据的测度值并不适用于低层次的测量数据一、平均数一、平均数4.1 集中趋势的度量集中趋势的度量4 - 4 - 8 8统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年 x x x x平均数平均数(mean)1.也称为均值,常用的统计量之一2.消除了观测值的随机波动3.易受极端值的影响4.根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x4 - 4 - 9 9统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年简单算数平均简单算数平均(Simple mean)设一组数据为:设一组数据为:x x1 1 ,x x2 2 , ,x xn n ( (总体数据总体数据x xN N) ) 样本平均数样本平均数样本平均数样本平均数总体平均数总体平均数总体平均数总体平均数统计函数统计函数统计函数统计函数AVERAGEAVERAGE4 - 4 - 1010统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年加权平均数加权平均数 (Weighted mean)设各组的组中值为:设各组的组中值为:MM1 1 ,MM2 2 , ,MMk k 相应的频数为:相应的频数为: f f1 1 , f f2 2 , ,f fk k样本样本样本样本加权平均:加权平均:总体总体总体总体加权平均:加权平均:4 - 4 - 1111统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年加权平均数加权平均数 (例题分析例题分析)某电脑公司销售额数据分组表某电脑公司销售额数据分组表某电脑公司销售额数据分组表某电脑公司销售额数据分组表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)Mi fi 140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235 4 91627201710 8 4 5 5801395264047253700331520501720 9001175合计合计12022200二、中位数和四分位数二、中位数和四分位数4.1 集中趋势的度量集中趋势的度量4 - 4 - 1313统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年中位数中位数(median)1.排序后处于中间位置上的值。
不受极端值影响排序后处于中间位置上的值不受极端值影响MMe e50%50%2.2. 位置确定位置确定位置确定位置确定3.3. 数值确定数值确定数值确定数值确定4 - 4 - 1414统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年中位数的计算中位数的计算 (数据个数为奇数数据个数为奇数)【例例4.3】 9个家庭的人均月收入数据 原始数据原始数据原始数据原始数据: : 1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630 排排排排 序序序序: : 750 780 850 960 750 780 850 960 10801080 12501250 1500 1630 20001500 1630 2000 位位位位 置置置置: : 1 2 3 4 1 2 3 4 5 5 6 7 8 9 6 7 8 9中位数中位数 10804 - 4 - 1515统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年中位数的计算中位数的计算 (数据个数为偶数数据个数为偶数)【例例4.3】 10个家庭的人均月收入数据 排排排排 序序序序: : 750 780 850 960 750 780 850 960 1080 1080 1250 1250 1500 1630 2000 28001500 1630 2000 2800 位位位位 置置置置: : 1 2 3 4 1 2 3 4 5 65 6 7 8 9 10 7 8 9 10 统计函数统计函数统计函数统计函数MEDIANMEDIAN4 - 4 - 1616统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年四分位数四分位数用用3个点等分数据个点等分数据(quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响Q L LLQ MMMQ U UU25%25%25%25%4 - 4 - 1717统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年四分位数的计算四分位数的计算(位置的确定位置的确定)方法方法2:较准确算法:较准确算法(SPSS的算法的算法)方法方法1:定义算法:定义算法4 - 4 - 1818统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年四分位数的计算四分位数的计算(位置的确定位置的确定)方法方法3 Excel给出的四分位数位置的确定方法给出的四分位数位置的确定方法 如果位置不是整数,则按比例分摊位置两侧数值的差值4 - 4 - 1919统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年四分位数的计算四分位数的计算 (数据个数为奇数数据个数为奇数)【例例例例4.44.4】 9 9个家庭的人均月收入数据个家庭的人均月收入数据(4(4种方法计算种方法计算) ) 原始数据原始数据原始数据原始数据: : 1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630 排排排排 序序序序: : 750 750 780 850780 850 960 1080 960 1080 1250 1500 1250 1500 1630 20001630 2000 位位位位 置置置置: : 1 1 2 32 3 4 4 5 5 6 6 7 7 8 9 8 9方法方法方法方法11定义公式定义公式定义公式定义公式4 - 4 - 2020统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年四分位数的计算四分位数的计算 (数据个数为奇数数据个数为奇数)【例例4.4】 9个家庭的人均月收入数据 原始数据原始数据原始数据原始数据: : 1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630 排排排排 序序序序: : 750 750 780 850780 850 960 1080 1250 960 1080 1250 1500 16301500 1630 2000 2000 位位位位 置置置置: : 1 1 2 32 3 4 4 5 5 6 6 7 87 8 9 9方法方法方法方法2SPSS2SPSS公式公式公式公式4 - 4 - 2121统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年四分位数的计算四分位数的计算 (数据个数为奇数数据个数为奇数)【例例34.4】 9个家庭的人均月收入数据 原始数据原始数据原始数据原始数据: : 1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630 排排排排 序序序序: : 750 780 750 780 850 850 960 1080 1250 960 1080 1250 1500 1500 1630 20001630 2000 位位位位 置置置置: : 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9方法方法方法方法3Excel3Excel公式公式公式公式统计函数统计函数统计函数统计函数QUARTILEQUARTILE4 - 4 - 2222统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年众数众数(mode)1.1.一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值2.2.适合于数据量较多时使用适合于数据量较多时使用3.3.不受极端值的影响不受极端值的影响4.4.一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数mo统计函数统计函数统计函数统计函数MODEMODE三、各度量值的比较三、各度量值的比较4.1 集中趋势的度量集中趋势的度量4 - 4 - 2424统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年众数、中位数和平均数的关系众数、中位数和平均数的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值 = = 中位数中位数中位数中位数中位数中位数 = = 众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值4 - 4 - 2525统计学基础统计学基础( (第三版第三版第三版第三版) )20112011年年众数、中位数、平均数的特点和应用众数、中位数、平均数的特点和应用1.平均数平均数n n易受极端值影响易受极端值影响n n数学性质优良,实际中最常用数学性质优良,实际中最常用n n数据对称分布或接近对称分布时代表性较好数据对称分布或接近对称分布时代表性较好2.中位数中位数n n不受极端值影响不受极端值影响n n数据分布偏斜程度较大时代表性接好数据分布偏斜程度较大时代表性接好3.众数众数n n不受极端值影响不受极端值影响n n具有不惟一性具有不惟一性n n数。












