
第四章统计数据的描述课件.ppt
60页第四章 统计数据的描述第一节 分布集中趋势的描述一、众数一、众数( (modemode) )一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值适合于数据量较多时使用适合于数据量较多时使用不受极端值的影响不受极端值的影响一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数众数(不惟一性)无众数无众数原始数据原始数据: 10 5 9 12 6 8: 10 5 9 12 6 8一个众数一个众数原始数据原始数据: 6 5 9 8 5 5多于一个众数多于一个众数原始数据原始数据: 25 28 28 36 42 421.排序后处于中间位置上的值排序后处于中间位置上的值MMe e50%50%2.不受极端值的影响不受极端值的影响不受极端值的影响不受极端值的影响3. 3. 各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即二、中位数(二、中位数(median)(一)中位数的概念(一)中位数的概念(一)中位数的概念(一)中位数的概念原始数据:原始数据:分组数据:分组数据:(二)中位数的位置(二)中位数的位置中位数的求法 (9个数据的算例)【例例】 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排排 序序: 750 780 850 960 1080 1250 1500 1630 2000位位 置置: 1 2 3 4 5 6 7 8 9中位数中位数 1080中位数的求法 (10个数据的算例)【例例】:10个家庭的人均月收入数据个家庭的人均月收入数据排排 序序: 660 750 780 850 960 1080 1250 1500 1630 2000位位 置置: 1 2 3 4 5 6 7 8 9 10 三、四分位数(三、四分位数(quartilequartile)(一)四分位数的概念(一)四分位数的概念1.1.将一组数据(排序后)四等分的数据将一组数据(排序后)四等分的数据L LMMU U25%25%25%25%2.2.不受极端值的影响不受极端值的影响原始数据:原始数据:分组数据:分组数据:(二)四分位数的位置(二)四分位数的位置四分位数的求法 (9个数据的算例)【例例】:9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排排 序序: 750 780 850 960 1080 1250 1500 1630 2000位位 置置: 1 2 3 4 5 6 7 8 9四分位数的求法 (10个数据的算例)【例例】:10个家庭的人均月收入数据个家庭的人均月收入数据排排 序序: 660 750 780 850 960 1080 1250 1500 1630 2000位位 置置: 1 2 3 4 5 6 7 8 9 10 统计函数统计函数统计函数统计函数QUARTILEQUARTILE四、均值(四、均值(meanmean)(一)均值的概念(一)均值的概念集中趋势的最常用测度值集中趋势的最常用测度值一组数据的均衡点所在(重心)一组数据的均衡点所在(重心)易受极端值的影响易受极端值的影响(二)均值的算法(二)均值的算法(二)均值的算法(二)均值的算法1 1 1 1、简单均值(、简单均值(、简单均值(、简单均值(simple meansimple meansimple meansimple mean)设一组数据为:设一组数据为:设一组数据为:设一组数据为: x x x x1 1 1 1 ,x x x x2 2 2 2 , ,x x x xn n n n总体均值总体均值总体均值总体均值样本均值样本均值样本均值样本均值2 2 2 2、加权均值(、加权均值(、加权均值(、加权均值(weighted meanweighted meanweighted meanweighted mean)设一组数据为:设一组数据为:设一组数据为:设一组数据为: x x x x1 1 1 1 ,x x x x2 2 2 2 , ,x x x xn n n n相应的频数为:相应的频数为:相应的频数为:相应的频数为: f f f f1 1 1 1 , f f f f2 2 2 2 , ,f f f fk k k k总体均值总体均值总体均值总体均值样本均值样本均值样本均值样本均值单变量分组单变量分组单变量分组单变量分组组距式分组组距式分组组距式分组组距式分组加权均值计算表零件数零件数 工人数工人数 组中值组中值 Mifi80-9080-903 3858525525590-10090-1007 79595665665100-110100-110131310510513651365110-120110-1205 5115115575575120-130120-1302 2125125250250合计合计3030 31103110加权均值 (例题分析)(三)均值的数学性质(三)均值的数学性质1.1.各变量值与均值的离差之和等于零各变量值与均值的离差之和等于零 2. 2. 各变量值与均值的离差平方和最小各变量值与均值的离差平方和最小五、几何平均数(五、几何平均数(geometric meangeometric mean)1. 1. n n 个变量值乘积的个变量值乘积的 n n 次方根次方根2. 2. 适用于对比率数据的平均适用于对比率数据的平均3. 3. 主要用于计算平均增长率主要用于计算平均增长率4. 4. 计算公式为计算公式为5. 5. 可看作是均值的一种变形可看作是均值的一种变形可看作是均值的一种变形可看作是均值的一种变形几何平均数的求法 (例题分析) 【例例】一一位位投投资资者者购购持持有有一一种种股股票票,在在2000年年、2001年年、2002年年和和2003年年收收益益率率分分别别为为4.5%、2.1%、25.5%、1.9%。
计计算算该该投投资资者者在在这这四四年年内内的平均收益率的平均收益率 几何平均:几何平均:几何平均:几何平均:六、切尾均值(六、切尾均值(trimed meantrimed mean) 1. 1. 去去掉掉大大小小两两端端的的若若干干数数值值后后计计算算中中间间数数据的均值据的均值2. 2. 在在电电视视大大奖奖赛赛、体体育育比比赛赛及及需需要要人人们们进进行综合评价的比赛项目中已得到广泛应用行综合评价的比赛项目中已得到广泛应用3. 3. 计算公式为计算公式为n n 表示观察值的个数;表示观察值的个数;表示观察值的个数;表示观察值的个数; 表示切尾系数,表示切尾系数,表示切尾系数,表示切尾系数, 切尾均值切尾均值 (例题分析) 【例例】某某次次比比赛赛共共有有11名名评评委委,对对某某位位歌歌手手的的给给分分分分别是:别是: 经整理得到顺序统计量值为经整理得到顺序统计量值为经整理得到顺序统计量值为经整理得到顺序统计量值为去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取去掉一个最高分和一个最低分,取1/11 1/11 众数、中位数和均值的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值 = = = 中位数中位数中位数中位数中位数中位数= = 众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值众数、中位数、均值的特点和应用1.1.众数众数不受极端值影响不受极端值影响具有不惟一性具有不惟一性数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用2.2.中位数中位数不受极端值影响不受极端值影响数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用3.3.均值均值易受极端值影响易受极端值影响数学性质优良数学性质优良数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用一、极差一、极差二、内距二、内距三、方差和标准差三、方差和标准差四、离散系数四、离散系数第二节第二节 分布离散程度的测度分布离散程度的测度一、极差(一、极差(rangerange)一组数据的最大值与最小值之差一组数据的最大值与最小值之差离散程度的最简单测度值离散程度的最简单测度值极差越大,说明离散程度越大极差越大,说明离散程度越大易受极端值影响易受极端值影响未考虑数据的分布未考虑数据的分布7 7 8 8 9 910107 7 8 8 9 9 1010 R = max(xi) - min(xi)计算公式为计算公式为计算公式为计算公式为二、内距二、内距( (Inter-Quartile Range,IQR) ) 1.1.也称四分位差也称四分位差2.2.上四分位数与下四分位数之差上四分位数与下四分位数之差内内 距距= = Q QU U Q QL L3.3.反映了中间反映了中间50%50%数据的离散程度数据的离散程度4.4.不受极端值的影响不受极端值的影响5.5.可用于衡量中位数的代表性可用于衡量中位数的代表性三、方差与标准差三、方差与标准差(Variance and Standard deviation)(一)方差与标准差的概念(一)方差与标准差的概念1.1. 离散程度的测度值之一离散程度的测度值之一2.2. 最常用的测度值最常用的测度值3.3. 反映了数据的分布反映了数据的分布4. 4. 反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异5.5.根据总体数据计算的,称为总体方差或标准根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或差;根据样本数据计算的,称为样本方差或标准差标准差6.6.可用于衡量均值的代表性大小可用于衡量均值的代表性大小4 6 8 10 124 6 8 10 12 x = 8.3(二)总体方差和标准差的计算公式(二)总体方差和标准差的计算公式未分组数据:未分组数据:组距分组数据:组距分组数据:组距分组数据:组距分组数据:未分组数据未分组数据未分组数据未分组数据:组距分组数据组距分组数据组距分组数据组距分组数据:1.1.1.1.总体方差的计算公式总体方差的计算公式总体方差的计算公式总体方差的计算公式2.2.2.2.总体标准差的计算公式总体标准差的计算公式总体标准差的计算公式总体标准差的计算公式(三)样本方差和标准差的计算公式未分组数据:未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:1 1、样本方差的计算公式、样本方差的计算公式2 2、样本标准差的计算公式、样本标准差的计算公式、样本标准差的计算公式、样本标准差的计算公式注意:注意:注意:注意:注意:注意:样本方差用自样本方差用自样本方差用自样本方差用自样本方差用自样本方差用自由度由度由度由度由度由度n nn-1-1-1去除去除去除去除去除去除! !单变量分组的样本方差和标准差单变量分组的样本方差和标准差注:在分注:在分组数据里组数据里n=fi注解:样本方差自由度注解:样本方差自由度(degree of freedom)1.1.一组数据中可以自由取值的数据的个数一组数据中可以自由取值的数据的个数 当当样样本本数数据据的的个个数数为为 n n 时时,若若样样本本均均值值 x x 确确定定后后, ,只只有有n n-1 -1个个数数据据可可以以自自由由取取值值,其其中必有一个数据则不能自由取值中必有一个数据则不能自由取值(举例)2.2.样样本本方方差差用用自自由由度度去去除除,其其原原因因可可从从多多方方面面解解释释,从从实实际际应应用用角角度度看看,在在抽抽样样估估计计中中,当当用用样样本本方方差差去去估估计计总总体体。
