好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据分布特征的测度.ppt

57页
  • 卖家[上传人]:新**
  • 文档编号:584697173
  • 上传时间:2024-08-31
  • 文档格式:PPT
  • 文档大小:430.50KB
  • / 57 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第第4章章 数据分布特征的测度数据分布特征的测度 对统计数据分布的特征可以从三个方面进行测对统计数据分布的特征可以从三个方面进行测度和描述:度和描述:集中趋势集中趋势集中趋势集中趋势、、、、离散程度离散程度离散程度离散程度、、、、偏态和峰度偏态和峰度偏态和峰度偏态和峰度l重点:掌握各类统计指标的计算方法和应用原则,并进行初步的分析l难点:结合实例准确进行集中趋势和离散程度的测度及分析 第第1节节 集中趋势的量度集中趋势的量度 集中趋势集中趋势(Central tendency)是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一一般水平般水平的代表值或中心值l分类数据:众数l顺序数据:中位数和分位数l数值型数据:均值 集中趋势(Central tendency)1.1.一一组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度2. 2.测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值3. 3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值4. 4.低层次数据的测度值适用于高层次的测量数据,但高低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据层次数据的测度值并不适用于低层次的测量数据 均值均值均值均值( (meanmean) )1.集中趋势的最常用测度值2.一组数据的均衡点所在3.体现了数据的必然性特征4.易受极端值的影响5.用于数值型数据,不能用于分类数据和顺序数据 一、算术平均数(Arithmetic mean)(一)简单算术平均数(一)简单算术平均数(一)简单算术平均数(一)简单算术平均数l例:有5名工人生产的零件数分别为:15、16、17、18、19,平均零件数为多少?l解: (件) l (二)加权算术平均数(二)加权算术平均数(二)加权算术平均数(二)加权算术平均数l基本公式l影响加权算术平均数的因素:变量值和权数l选择权数的原则:变量值与其乘积是具有实际经济意义的标志总量。

      l加权算术平均数与简单算术平均数的关系:l当 时, 例:计算某车间工人平均工资(单项式)例:计算某车间工人平均工资(单项式) 某班组工人平均工资的计算(单项式数列)某班组工人平均工资的计算(单项式数列)l解: (元)工资(x)工人数(f)工资总额(xf)50021000530421207408592086054300102011020合计2014360 按零件数分组(个)组中值(x)人数(f)xf50—6055844060—706520130070—807512900合计—402640例:计算某车间工人加工零件平均数(组距式数列)例:计算某车间工人加工零件平均数(组距式数列)l 解: (件) 权数对均值的影响l 甲乙两组各有10名学生,他们的考试成绩及其分布数据如下l 甲组:甲组: 考试成绩(考试成绩(x )): 0 20 100l 人数分布(人数分布(f ):):1 1 8l 乙组:乙组: 考试成绩(考试成绩(x)): 0 20 100l 人数分布(人数分布(f ):):8 1 1 均值的数学性质1. 各变量值与均值的离差之和等于零 2. 2. 各变量值与均值的离差平方和最小各变量值与均值的离差平方和最小 l例:某市场某蔬菜销售价格早晨为1.00元,中午为0.5元,晚上为0.2元。

      在下列两种情况下分别计算平均价格(1)早午晚各买1斤(2)早午晚各买1元l简单调和平均数l加权调和平均数二、调和平均数二、调和平均数二、调和平均数二、调和平均数 ( (倒数平均数倒数平均数倒数平均数倒数平均数 Harmonic mean Harmonic mean)))) 例题分析例题分析某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据蔬菜蔬菜名称名称批发价格批发价格(元元) x成交额成交额(元元) M成交量成交量(公斤公斤)f甲甲乙乙丙丙1.200.500.801800012500640015000250008000合计合计—3690048000【【【【例例例例】】】】某某蔬蔬菜菜批批发发市市场场三三种种蔬蔬菜菜的的日日成成交交数数据据如如表表,,计算三种蔬菜该日的平均批发价格计算三种蔬菜该日的平均批发价格 练习练习1 1:某管理局所属的:某管理局所属的1515个企业,个企业,20002000年按其生产某产品平年按其生产某产品平均单位成本的高低分组资料如下,试计算平均单位成本均单位成本的高低分组资料如下,试计算平均单位成本按平均单位成本分组(元/件)企业数(个)各组产量在总产量中所占的比重(%)10~1212~1414~18276224038合计15100 l试指出那个厂的总平均成本高,其原因何在?品种单位成本(元)总成本一厂二厂甲乙丙152030210030001500322515001500练习练习2 2::有两个工厂生产三种产品的单位成本和总成本资料如下:有两个工厂生产三种产品的单位成本和总成本资料如下: 练习练习3 3::计算某地区工业企业产值平均计划完成程度计算某地区工业企业产值平均计划完成程度计划完成%企业数(个)计划产值(万元)90以下714090——10022310100——110571650110——12026710120以上340合计1152850 ※※平均数计算方法的选择平均数计算方法的选择l设l则 (已知m、f) (已知x、f) (已知x、m)原来只是计算原来只是计算时使用了不同时使用了不同的数据!的数据! 三、几何平均数三、几何平均数三、几何平均数三、几何平均数(Geometric mean(Geometric mean))))l例1:一位投资者持有一种股票,1997,1998,1999,2000收益率分别为4.5%、2.0%、3.5%、5.4%。

      计算该投资者在这四年内的平均收益率l例2:某企业四个车间流水作业生产某产品一车间产品合格率为99%,二车间为95%,三车间为92%,四车间为90%,计算该企业的平均产品合格率l算术平均数、调和平均数、几何平均数之间的关系l算术平均数≥几何平均数≥调和平均数 练习:求平均年利率练习:求平均年利率 投资银行某笔投资是的年利率是按复利计算的,25年利率分配时(按时间数序):有一年是3%,有4年为4%,有8年为8%,有10年为10%,有2年为15%求平均年利率 四、众数(四、众数(四、众数(四、众数(ModeMode)))) 众数是一组数据中出现次数最多的变量值 无众数或复众数 主要用于分类数据,也可用于顺序数据和数值型数据l对于未分组数据和单项式分组数据,众数位置确定之后便找到了众数l对于组距数列,若众数组相邻两组次数相等,则众数组的组中值就是众数;若众数组上一组的次数较多,则众数在众数组内靠近上限;若众数组下一组的次数较多,则众数在众数组内靠近下限 计算公式: 例:分类数据的众数不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%) 可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露15119690.300.220.180.120.183022181218合计合计501100解解解解::::这这里里的的变变量量为为“ “饮饮料料品品牌牌” ”,,这这是是个个分分类类变变量量,,不不同同类类型型的的饮饮料料就就是是变变量量值值 在在所所调调查查的的5050人人中中,,购购买买可可口口可可乐乐的的人人数数最最多多,,为为1515人人,,占占总总被被调调查查人人数数的的30%30%,,因因此此众众数数为为“ “可口可乐可口可乐” ”这一品牌,即这一品牌,即 MMo o=可口可乐=可口可乐=可口可乐=可口可乐 例:顺序数据的众数解解解解::::这这里里的的数数据据为为顺顺序序数数据据。

      变变量量为为“ “回答类别回答类别” ” 甲甲城城市市中中对对住住房房表表示示不不满满意意的的户户数数最最 多多 ,, 为为 108108户户 ,,因因此此众众数数为为“ “不不满满意意” ”这一类别,即这一类别,即 MMo o=不满意=不满意=不满意=不满意甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%) 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意24108934530836311510合计合计300100.0 五、中位数(五、中位数(五、中位数(五、中位数(Median)Median)l中位数是一组数据按一定顺序排列后,处于中间位置上的变量值 主要用于顺序数据,也可用数值型数据,但不能用于分类主要用于顺序数据,也可用数值型数据,但不能用于分类数据l对于未分组数据,中位数位置=(n+1)/2l对于单项式分组数据,中位数位置=l对于组距数列,确定中位数组之后,可按以下公式计算中位数: 例:顺序数据的中位数解解解解 :::: 中中 位位 数数 的的 位位 置置 为为 300/2300/2==150150 从从累累计计频频数数看看,,中中位位数数在在“ “一一般般” ”这这一组别中。

      因此一组别中因此 Me=一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300— 例:数值型数据例:数值型数据————某地农户收入众数、中位数某地农户收入众数、中位数年收入(元)农户数农户数累计向上累计向下累计500—600600—700700—800800—900900—10001000—11001100—12001200—1300240480105060027021012030240720177023702640285029703000300027602280123063036015030合计3000—— l解:因第3组次数最多,故其为众数组 = =755.9(元) l中位数位置= =1500,所以第三组为中位数组。

      = =774.3(元) 六、中位数、众数、算术平均数之间的关系六、中位数、众数、算术平均数之间的关系六、中位数、众数、算术平均数之间的关系六、中位数、众数、算术平均数之间的关系l在同一变量数据集合中如果变量值分布呈对称型,则算术平均数、中位数和众数三者相等;l若不对称,则中位数必居中,算术平均数和众数分列两侧 右偏 左偏 练习练习1 1:某企业工人工资等级的中位数和众数的计算:某企业工人工资等级的中位数和众数的计算级别12345678人数223861967020135 练习练习2 2:计算工人完成生产定额的中位数和众数:计算工人完成生产定额的中位数和众数完成生产定额(%)工人数(人)90——1005100——11013110——12016120——13026130——14020140——15015合计95 第二节第二节第二节第二节 离散程度的测度(标志变异指标)离散程度的测度(标志变异指标)离散程度的测度(标志变异指标)离散程度的测度(标志变异指标)l标志变异指标的作用 衡量平均数代表性的大小 反映社会经活动过程的均衡性和节奏性例: 1、有两个小组工人工资资料如下: 甲:50 60 70 80 90 乙:60 65 70 75 80 哪一组工人工资平均数的代表性大? 2、某企业计划完成情况如表,哪个车间生产过程均衡?计划数实际完成上旬中旬下旬全月数量 比重%数量比重%数量比重%数量比重%甲车间乙车间120120382031.716.7404033.333.342603550120120100100 数值型数据的离中趋势测度数值型数据的离中趋势测度数值型数据的离中趋势测度数值型数据的离中趋势测度一、极差(全距一、极差(全距一、极差(全距一、极差(全距RangeRange))))l 极差(R)=最大标志值-最小标志值如前例中,l 对于组距数列极差也可以近似表示为: R=最高组上限值-最低组下限值如农户收入例中,R=1300-500=800(元) 简单平均式简单平均式如两组工人工资平均差二、平均差二、平均差二、平均差二、平均差 月工资额X工人数f工资总额Xf离差离差绝对值5060708090305070302015003000490024001800-18-82122218821222540400140360440合计20013600————1880加权平均式加权平均式加权平均式加权平均式例: 例例:对成年和幼儿身高进行调查资料如下:成年组(厘米):161 163 165 167 169幼儿组(厘米):73 74 75 76 77哪一组平均身高的代表性更大? 三、方差(三、方差(三、方差(三、方差(Variance)Variance)Variance)Variance)及标准差及标准差及标准差及标准差(Standard deviation)(Standard deviation)(Standard deviation)(Standard deviation)l简单平均式简单平均式例: 加权平均式加权平均式加权平均式加权平均式l方差 = l标准差 例:某企业工人日加工零件的个数如下表,计算工人日加工零例:某企业工人日加工零件的个数如下表,计算工人日加工零件的标准差件的标准差按零件数分组(个)组中值(X)人数(f)105—110110—115115—120120—125125—130130—135135—140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计—50—3100.5 解:解: 样本方差和标准差 (simple (simple variancevariance and and standard deviationstandard deviation) )l未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:样本方差用自样本方差用自样本方差用自由度由度由度n-1n-1n-1去除去除去除! !! 四、离散系数(变异系数或标准差系数)四、离散系数(变异系数或标准差系数)消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响 例:甲、乙两商店营业员及销售额的分组资料如下例:甲、乙两商店营业员及销售额的分组资料如下甲商店乙商店组中值x人数fxf组中值x人数fxf253545556531296——75420405330——7684321441176——2535455565——2864——70360330260——51228896784合计3012302520合计2010201680试问两个商店营业员平均销售额的代表性哪个大?为什么? 解解 用“是”、“否”或“有”、“无”来表示的标志——是是非标志非标志。

      总体单位数用N来表示 表示具有所研究标志值的单位数, 表示不具有所研究标志的单位数是非标志(比例)的标准差是非标志(比例)的标准差是非标志的平均数 五、标准化数值(五、标准化数值(五、标准化数值(五、标准化数值(Z-Score)Z-Score)l标准化数值是一个数据在数据集中相对位置的测度 l计算公式为 l标准化数值就是数据值偏离平均数标准差的个数正的z值表示观察值位于平均数右侧,负的z值表示观察值位于平均数左侧 l根据经验法则,对于钟形分布,几乎所有的数据都在偏离平均数3个标准差范围之内因此,标准化数值低于-3或高于3的数据值就是异常值异常值,也称为离群点离群点 1、假设下面数据是A公司和B公司的供货天数:A:11 10 9 10 11 11 10 11 10 10B: 8 10 13 7 10 11 10 7 15 12 利用全距和标准差来证明A公司供货时间上更具有一致性和可一致性和可靠性2、下面数据是某大学田径队的队员跑400米和1500米的时间(分钟)400米: 0.92 0.98 1.04 0.90 0.991500米:4.52 4.35 4.60 4.70 4.50一名教练看了以上样本后断言,400米耗时更具有一致性。

      一致性对不对?为什么? 练习:练习: 分类数据离中趋势测度异众比率异众比率( (variation ratiovariation ratio) )l1.对分类数据离散程度的测度l2.非众数组的频数占总频数的比率l3.计算公式为 4. 4. 用于衡量众数的代表性用于衡量众数的代表性 例:计算异众比率解:解:解:解: 在在所所调调查查的的5050人人当当中中,,购购买买其其他他品品牌牌饮饮料料的的人人数数占占70%70%,,异异众众比比率率比比较较大大因因此此,,用用“ “可可口口可可乐乐” ”代代表表消消费费者者购购买买饮饮料料品品牌牌的的状状况况,,其代表性不是很好其代表性不是很好不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%) 可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露15119690.300.220.180.120.183022181218合计合计501100 顺序数据离中趋势测度四分位差(quartile deviation)1.对顺序数据离散程度的测度2.也称为内距或四分间距3.上四分位数与下四分位数之差l QD = QU – QL4.反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性 例:计算四分位差解解解解::::设设非非常常不不满满意意为为1,1,不不满满意意为为2, 2, 一一般般为为3, 3, 满满意意为为 4, 4, 非非常常满满意为意为5 5 已知已知 Q QL L = = 不满意不满意 = = 2 2 Q QU U = = 一般一般 = = 3 3四分位差:四分位差: Q QD D = = Q QU U = = Q QL L = = 3 – 2 3 – 2 = = 1 1甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300— 数据类型与离散程度测度值数据类型和所适用的离散程度测度数据类型和所适用的离散程度测度值值数据类型数据类型分类数据分类数据 顺序数据顺序数据数值型数据数值型数据适适用用的的测测度度值值※异众比率异众比率※四分位差四分位差 ※方差或标准差方差或标准差 — 异众比率异众比率 ※离散系数(比较时用)离散系数(比较时用)—— 平均差平均差—— 极差极差—— 四分位差四分位差—— 异众比率异众比率 集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。

      偏态偏态和峰度峰度就是对这些分布特征的近一步描述 第第第第3 3 3 3节节节节 偏度与峰度的测定偏度与峰度的测定偏度与峰度的测定偏度与峰度的测定 一、偏度及其测定一、偏度及其测定一、偏度及其测定一、偏度及其测定 如果次数分布是完全对称的,叫对称分布对称分布;如果次数分布不是完全对称的,就称为偏态分布偏态分布所谓偏度,就是指次数分布的非对称程度,以偏态系数偏态系数来表示<0,说明是左偏>0,说明是右偏 二、峰度及其测定二、峰度及其测定二、峰度及其测定二、峰度及其测定l峰度是分布集中趋势高峰的形状它通常是与正态分 布相比而言的l若分布形状比正态分布更瘦更高,叫尖峰分布尖峰分布l若分布形状比正态分布更矮更胖,叫平顶分布平顶分布l测定峰度的指标是峰度系数峰度系数=3为正态分布<3为平顶分布>3为尖峰分布 例:计算农户收入的偏态系数和峰度系数例:计算农户收入的偏态系数和峰度系数 数据的特征和测度数据的特征和测度数据的特征和测度数据的特征和测度分布的形状分布的形状离散程度离散程度集中趋势集中趋势众众众众众众 数数数数数数中位数中位数中位数中位数中位数中位数均均均均均均 值值值值值值离散系数离散系数离散系数离散系数离散系数离散系数方差方差方差方差方差方差峰峰峰峰峰峰 度度度度度度标准差标准差标准差标准差标准差标准差极差极差极差极差极差极差偏偏偏偏偏偏 态态态态态态 本章小结本章小结1. 数据水平的概括性度量数据水平的概括性度量2. 数据离散程度的概括性度量数据离散程度的概括性度量3. 数据分布形状的测度数据分布形状的测度4. 用用Excel计算描述统计量计算描述统计量 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.