
数据的描述性分析.ppt
83页§4§4 数据的描述性分析 数据分布的特征: 数据分布的集中趋势 数据分布的离散程度 平均指标变异指标数据分布的形状 偏态与峰度1. 1. 一组数据向其中心值靠拢的倾向和程度一组数据向其中心值靠拢的倾向和程度2. 2. 测度集中趋势就是寻找数据一般水平的代表值或中心值测度集中趋势就是寻找数据一般水平的代表值或中心值3. 3. 不同类型的数据适用不同的集中趋势测度值(平均指标)不同类型的数据适用不同的集中趋势测度值(平均指标)集中趋势(Central tendency)(Central tendency)的描述数据集中区变量x平均指标平均指标平均指标的种类 按所反映 的时间状 态划分 静态平均数 动态平均数 按计算方 法划分 算术平均数 调和平均数 几何平均数 众数 中位数 数值平均数 位置平均数 算 术 平 均 数 (Arithmetic mean)简单算术平均数(Simple mean)——依据未分组的原始数据直接计算 X1、X2、X3、Xn表示总体各单位变量值;n表示总体单位数(或总体变量值个数);Σ为求和(连加)符号; 表示从X1连加到Xn;也可简写成ΣXi 或ΣX。
式中:表示算术平均数(读作X-bar);某大学生职业介绍所对商学院的毕业生进行问卷调查, 获得12名毕业生的起始薪金(元)信息如下2350 2450 2550 2380 2255 2210 2390 2630 2440 2825 2420 2380加权算术平均数(Weighted mean)——原始数据经过分组,已编成次数分布数列 式中:f——各组次数X——当分布数列为单项数列时,即各组变量值——当分布数列为组距数列时,用各组组中值代表各组变量值 工人按日产产量 分组组/件(X)工人人数(f )Xf20120 21484 226132238184 2412288 2510250 267182 27254 合计计501194按月平均工资资分组组 (元)职职工人数 (f) 320~3603360~4007400~44013440~4805480~5202合计计30组组中值值( x)340380420460500——x·f1020266054602300100012440男生女生录录取人数 未录录取人数350 450200 400报报考人数800600表1.某高校报考及录取情况统计表表2.某高校两专业报考及录取情况统计表工程系财经财经 系男生女生男生女生录录取人数 未录录取人 数300 300100 10050 150100 300报报考人数600200200400加权算术平均数受两个因素的影响 分布数列中各组变量值的大小(或组中值的大小) 各组中单位数的多少/次数f的大小 当各组变量值固定不变时,出现次数多的变量值对平均数的影响较大, 使平均数向其靠拢;出现次数少的变量值对平均数的影响较小, 平均数远离该变量值。
次数f在计算平均数的过程中起着权衡轻重的作用 ,故将其称为权数 权数的两种表现形式 以绝对数表示——次数/频数f 以相对数表示——频率f/∑f 工人按日产产量分组组/ 件(X)每组组工人数占总总人 数的比重(f/ ∑ f)x·f/ ∑f 200.020.40 210.081.68 220.122.64230.163.68 240.245.76 250.205.00 260.143.64 270.041.08合计计1.0023.88算术平均数的权数算术平均数的权数客观权数客观权数次数分布数列中,各组变量值出现的次数或频率;与变量存在直接数量关系的指标主观权数主观权数某公司利润情况统计表 利润润率分公司数(个)职职工人数(人)销销售额额(万元)5%以下 5%~10% 10%~15% 15%以上2 8 9 1200 500 600 120300 5000 8000 400合计计20142013700要求:计算该公司的平均利润率算术平均数的数学性质 各变量值与其算术平均数的离差之和为零 各变量值与其算术平均数的离差平方和最小 算术平均数的特点 易于理解和运算受极端数值的影响较大例如:有5个数,分别为:9、11、12、13、55, 解决途径:切尾平均法(trimmed mean)采用其他不受极端值影响的平均数市场上有三种苹果,每公斤的价格分别为3.00元、3.60元 、4.00元,分别在下述情况下求平均价格: (1)三种苹果各购买1公斤;(2)三种苹果分别购买1公斤、2公斤、3公斤;(3)三种苹果各购买1元钱。
保留小数点后两位数) 调 和 平 均 数(Harmonic mean)一、含义:调和平均数是变量值(标志值)倒数 的算术平均数的倒数,也称倒数平均数 ——变量值不能为零 ——受极端数值的影响 三、计算方法简单调和平均法加权调和平均法 四、应用二、特点:简单调和平均数(Simple harmonic mean)——依据未分组的原始数据直接计算 即先计算总体中各变量值倒数的简单算术平均数 ,然后求其倒数 加权调和平均数(Weighted harmonic mean)——原始数据经过分组,已编成次数分布数列 例(4)若三种苹果分别购买7.5元、10.8元、16元, 求其平均价格H=(7.5+10.8+16)/(7.5/3+10.8/3.6+16/4 )=34.3/9.5=3.61元/公斤 市场场批发发价X (元/公斤)成交量 (公斤)甲0.7020000乙0.6830000丙0.7410000例:某市有三个西瓜的批发交易市场,三个市场某日西瓜 的批发价格和成交量如下: 要求计算该市这天西瓜的平均价格 f f市场场批发发价X (元/公斤)成交额额 (元) 甲0.7014000乙0.6820400丙0.747400例:某市有三个西瓜的批发交易市场,三个市场某日西瓜 的批发价格和成交额如下: 要求计算该市这天西瓜的平均价格。
mmm=x·f 调和平均数是算术平均数的变形 调和平均数的应用用于计算相对数的平均数 工厂计计划完成程度(% ) x计计划产值产值 (万元 ) 甲951200 乙10512800 丙1152000例:某工业公司有三个工厂,已知其计划完成程度及 计划产值资料如下: 要求计算该公司的平均计划完成程度 平均计划完成程度=总实际产值/总计划产值 f f工厂计计划完成程度(% ) x实际产值实际产值 (万 元) 甲951140 乙10513440 丙1152300例:某工业公司有三个工厂,已知其计划完成程度及 实际产值资料如下: 要求计算该公司的平均计划完成程度 mm如何选择平均数的计算方法?关键以基本公式为依据 当所掌握的是公式中的分母资料,就将其作 为权数,采用加权算术平均法; 当所掌握的是公式中的分子资料,就 将其作为权数,采用加权调和平均法 原来只是计原来只是计 算时使用了算时使用了 不同的数据不同的数据 !!几 何 平 均 数 (Geometric mean) 一、应用它主要用于计算社会经济现象的平均比率或平均速度凡是各变量值的连乘积等于事物总量,应使用几何平均法 求其平均数例:某钢铁厂第一年的钢产量为100万吨,第二年为110万吨,比 第一年增产10%,第三年又比第二年增长了20%,达到132万吨。
发展总速度=110%×120%=132%几何平均数是几何平均数是n n个变量值乘积的个变量值乘积的n n次方根简单几何平均数的计算简单几何平均数的计算————未分组资料未分组资料式式中,中,G——G——几何平均数;几何平均数; x——x——变量值;变量值; ∏∏————连乘符号连乘符号二、计算例:例:x x1 1=110% x=110% x2 2=120%=120%100100× ×114.89%114.89%× ×114.89%=132114.89%=132万吨万吨 若采用算术平均法求平均发展速度:若采用算术平均法求平均发展速度:100100× ×115%115%× ×115%=132.25115%=132.25万吨万吨算术平均数与调和平均数是应用于按算术级数形式变化的算术平均数与调和平均数是应用于按算术级数形式变化的 事物,即在事物总量等于各变量值的总和时求平均水平事物,即在事物总量等于各变量值的总和时求平均水平。
几何平均数适用于按几何级数形式变化的事物,即在事物几何平均数适用于按几何级数形式变化的事物,即在事物 总量等于各变量值乘积时求平均水平总量等于各变量值乘积时求平均水平加权几何平均数的计算加权几何平均数的计算—— —— 分组资料分组资料f——f——各变量出现的次数各变量出现的次数三、几何平均数的特点三、几何平均数的特点2 2、几何平均数是算术平均数的、几何平均数是算术平均数的变形1 1、用以计算几何平均数的各变量值必须大于零,否则不、用以计算几何平均数的各变量值必须大于零,否则不 能计算几何平均数或计算的结果无意义能计算几何平均数或计算的结果无意义 例:某银行在例:某银行在1010年内几次调整贷款利率(按复利计息),年内几次调整贷款利率(按复利计息), 第第1 1至第至第2 2年为年为4 4%,第%,第3 3至第至第5 5年为年为5 5%,第%,第6 6至第至第9 9年为年为 6.5%6.5%,第,第1010年为年为8 8%求这1010年银行贷款的平均年利率年银行贷款的平均年利率 平均年利率=平均年利率=105.69%-100%=5.69%105.69%-100%=5.69%简单几何平均数:∴∴ 简单几何平均数的对数是各个变量值对数的简单算术平均。
简单几何平均数的对数是各个变量值对数的简单算术平均加权几何平均数:加权几何平均数:∴∴ 加权几何平均数的对数是各个变量值对数的加权算术平均加权几何平均数的对数是各个变量值对数的加权算术平均中位数(Median) 将总体各单位的变量值按大小顺序排列,处于数列中点将总体各单位的变量值按大小顺序排列,处于数列中点 位置的变量值为中位数位置的变量值为中位数 二、中位数的特点二、中位数的特点一、确定中位数一、确定中位数MeMe的方法的方法vv 由未分组的原始数据确定中位数由未分组的原始数据确定中位数vv 由单项式数列确定中位数由单项式数列确定中位数vv 由组距数列确定中位数由组距数列确定中位数MMe e50%50%50%50%v 由未分组的原始数据确定中位数中位数位置中位数位置= = n——n——总体变量值个数总体变量值个数 当当n n为奇数时,中间位置所对应的数值即为中位数为奇数时,中间位置所对应的数值即为中位数当当n n为偶数时,居于中间位置的两个数值的算术平均数为中位数为偶数时,居于中间位置的两个数值的算术平均数为中位数 例:有例:有5 5个工人,每天生产某产品的件数,按序排列如下:个工人,每天生产某产品的件数,按序排列如下: 2020,,2323,,2626,,2929,,30 30 中位数位置中位数位置= =((5+15+1))/2 = 3 Me=26 /2 = 3 Me=26 ((件)件) 例:有例:有6 6个工人,每天生产某产品的件数,按序排列如下:个工人,每天生产某产品的件数,按序排列如下: 2020,,2323,,2626,,2929,,3030,,32 32 中位数位置=(6+1)/2=3.5 Me=(26+29)/2=27.5(件)v 由单项式数列确定中位数2 2、、计算各组的累计次数(较小制累计或较。












