
第五章变量分析.ppt
36页第五章 变量数列分析 本章主要阐述变量数列描绘性分析的根本方法, 主要包括集中趋势测度与离散趋势测度,及偏度与峰度的测度方法5.1 变量数列分析概述一. 变量数列分析的内容 变量数列分析是对总体各单位按数量水准分组形成的分布数列进展定量分析,以提醒总体的分布特征、集中趋势、离散趋势等主要内容有: (1) 总体构造与分布特征 . 主要考察变量数列中各组在总体中所占的比重, 分布特征与分布类型等. (2) 集中趋势测度. 主要考察变量数列中总体各单位某一数量标志值或统计指标的一般程度, 主要测度有算均, 调均, 几均, 中位数和众数等平均指标.Date (3) 离散趋势测度 . 主要考察变量数列中总体各单位数量标志或统计指标的差异程度, 主要测度有全距, 四方位差, 方差与标准差, 变异系数等指标. (4) 偏度与峰度测定. 主要考察变量数列次数分布的非对称程度和次数分布曲线的尖峭程度. 二. 变量数列分析的作用 (1) 认识作用. 通过变量数列分析可以认识总体内部构造与分布特征, 总体各单位的一般程度与差异程度, 掌握客观现象的数量特征与规律. (2) 比较作用. 通过集中趋势与离散趋势测度, 可以比较不同国家、地区、企业同类现象一般程度的上下及其差异程度以及收入差距是否扩大.Date (3) 数量标准作用 . 以平均数为标准, 可以判断某种现象或事物数量的大小, 程度的上下, 效果和质量的好坏.在制定各种管理定额中, 常以相应的平均数为根底. (4) 推断作用. 集中趋势测度的样本平均数和离散趋势测度的样本方差是抽样推断的重要根据. 亦可根据总体单位总量及总平均数推算总体标志总量. 三. 变量数列分析的作用 (1) 注意总体各单位的同质性. 假设总体中极端值的非同质总体单位的混入, 那么大大削弱了平均指标的意义, 扩大了总体单位之间的离散程度. (2) 用组平均数补充总平均数. 用组平均数对总平均数作补充说明, 可以说明总平均数内部原因或说明不同时间, 不同空间总平均数差异的原因.Date (3) 用次数分布补充总平均数 . 总平均数把总体各单位的差异抽象化了, 掩盖了总体各单位的差异及其分布状况, 因此用次数或频率分布补充总平均数,可以较全面地认识单体的数量特征. (4) 集中趋势与离散趋势测度相结合. 集中趋势测度的只能说明数列的一般程度, 离散趋势测度的变异指标, 可以衡量平均数代表性上下, 评价现象变动的平衡性或稳定性, 因此二者应结合应用. (5) 注意一般与个别相结合. 为了丰富平均数对客观现象的认识作用, 往往需要结合典型事例, 特别是要用先进和落后的典型来补充总平均数的缺乏.Date5.2 变量数列分布分析一. 次数分布与频率分布 变量数列次数分布是由变量的不同取值及其相应的频数所构成的分布数列;频率分布是由变量的不同取值及其相应的频率所构成的. 在变量数列中, 各组次数 fi占总次数的比率即频率. 其满足 次数分布和频率分布都能说明总体中所有个体在各组间的分布特征, 因此在编制变量数列时, 常把频率列入数列中, 以便更好地说明问题. Date二. 次数分布的主要类型 由于现象的性质不同, 次数分布或频率分布有: (1) 钟形分布: 其特征是“中间大,两头小,即靠近中间的变量值分布的次数或频率多,靠近两端的变量值分布的次数或频率少, 绘成曲线图,像口钟。
可分为对称分布(如图5-1(a)、右偏(图5-1(b)和左偏分布(图5-1(c). 对称分布的特征是: 中间变量值分布的次数或频率最多, 两侧变量值分布的次数随着与中间变量值间隔 的增大逐渐减少, 并围绕中心变量值两侧呈对称分布, 最常见的最重要是正态分布, 许多现象的总体分布都趋于正态分布, 因此它在统计研究和应用中具有极其重要的作用. Date(a)(b)(c)图5-1 钟形分布图 (2) U形分布: 其特征是“中间小,两头大,即靠近中间的变量值分布的次数或频率少,靠近两端的变量值分布的次数或频率多, 绘成曲线图,像字母U最常见的U型分布是人口死亡率的分布, 即按年龄阶段来看, 婴儿和老年死亡率较高, 中年死亡率最低. (3) J形分布: 其有两种类型, 即正J形和反J形分布.如投资额与利润率大小一般呈正J形分布;如费用率按销售额大小呈反J形分布.Date三. 变量数列分布分析 变量数列分布分析主要考察变量取值的分布类型, 描绘总体或样本的构造. 变量数列按变量的取值是否连续, 可分为离散型与连续型变量数列. 离散型变量宜采用直线图和直方图, 连续型变量宜采用直方图, 折线图, 平滑图. 变量数列分布的类型也有钟形分布, U形分布及J 形分布等. 例5.1 表5-1所示是某市1000户被调查的居民家庭现有住房面积的分布. 从中可看出, 这1000户中, 住房面积在60 m2以下的占3.1%,在120 m2以上的占42.1%. 假定120 m2以下的居民都想进步到120 m2以上, 全市现有57.9%的居民家庭低于这个值, 因此该市地产商仍有较大的市场潜力. Date表5-1 某市居民家庭现有住房面积分布住房面积积 ( m2 )户户数 ( 户户 )频频率 (%)累计计户户数 (人)频频率()40以下4060608080100100120120140140160160180180以上合计计1021731952802069865521 0001.02.17.319.528.020.69.86.55.2100.010311042995797858839481 0001.03.110.429.957.978.588.394.8100.0Date5.3 集中趋势测度 集中趋势是指变量数列中数据分布的中心值或一般程度。
变量数列是以平均数为中心而上下波动,故平均数反映了总体的集中趋势,它是总体分布的重要特征之一集中趋势测度就是计算变量数列的平均数,而常见平均数有算术平均数、调和平均数、几何平均数、中位数和众数等,前三种称为数值平均数,后两种称为位置平均数一. 算术平均数 算术平均数是指变量数列中所有数据的总和除以数据个数所得这商此为一般所称的平均数,用 来表示,其算式为数据总和数据个数Date 1. 简单算术平均数:其是用于未分组资料求平均数. 2. 加权平均数: 其是用于分组数列求平均数. 其中 代表各组变量值的频率. 看例5.34 注意: (1) 权数对平均数大小起着权衡轻重作用, 但不 取决于它的绝对值的大小, 而是取决于它的比重, 故比重权更能反映权数的本质. (2) 根据组距数列求加权算术平均时, 需取组中值作为各组变量值的代表, 是假定总体各单位在各组内部是均匀分布的, 但实际并非如此, 故这样计算的平均数只是一人近似数. 如例4.1原始数据未分组的平均分为78.1, 而例5.4分组后平均分为77.5分.Date 3. 算术平均数的性质: (1) 算术平均数与总体个数乘积等于总体数据和. 即或 (2) 各变量值与算术平均数差异总和为零. 即或 (3) 各变量值与算术平均数差异的平方和最小. (4) 组平均数 的加权平均数等于总平均数.(5) = E(X), 因 E(aX+b)=aE(X)+b , 即有书上8条.Date 4. 先进平均数 先进平均数是根据数列中比一般算术平均数先进的那一部分数据所计算的平均数. (即比平均数大的平均数) 二. 调和平均数 调和平均数是各个变量值倒数的算术平均数的倒数, 又称倒数平均数, 用H表示, 调均也有简单也加权两种.加权调均: (分组资料) 其中n代表变量值项数, m代表调均的权数. 简单调均: (未分组资料) Date例5.5 某工厂8个工人日消费某产品的件数分别为: 20,22,23,25,26,24,28,30那么算均为其调均为 例5.6 将例5.3的数据更改为工资数及各段总工资总数所计算的调和平均数与例5.3的频数分布所计算的加权平均数相等。
即 各变量值和各组次数,采用算术平均法的加权平均数; 与变量值和各组变量值的总和时, 采用调和平均法求得的平均数是相等的 Date三. 几何平均数 1. 几何平均数的计算 例5.85.9详细的计算2. 几均, 算均,调均的关系对同一变量数列而言, 假设分别计算几均, 算均及调均, 那么有如下大小关系: (注数列 x 值都是正值) 简单几均: 加权几均: 等号当且仅当 各 x 的值都为同一值 . Date四. 中位数 中位数是指在变量值大小排序后数列可变量中属于中间位置的变量值, 又称二分位数. 由于中位数位置居中, 其数值不太大也不太小, 因此可用其代表数列的一般程度. 用 Me 表示中位数, 其确定有以下三种情形. (1) 未分组资料求中位数. 首先将n个数据由小到大排序;假设n为奇数, 那么第(n+1)/2个数就是中位数; 假设n为偶数, 那么以第n/2与第n/2+1个数值的平均数作为中位数. (2) 单项分组数列求中位数. 首先应采用较小累计制求累计次数, 其次用公式 决定中位数的位置.月工资资 ( x )420450500560680工人数 ( f )1018352611累计计人数10286389100中位数位置: (100+1)/2=50.5, 中位数 M e =500元 Date (3) 组距变量求中位数. 首先应采用较小(大)累计制求累计次数, 其次用公式 决定中位数的位置所在的组别, 最后根据均匀分布假设, 用以下公式求得成绩绩分组组506060707080809090100合计计人 数 ( f )较较小累计计(人)较较大累计计(人)33406937142331113517640640Date五. 众数 众数是指在变量数列中出现次数最多的变量值, 即现象总体中最常见的数, 通常用 M0 来表示, 由于众数所出现的频率较高, 有时利用众数来表示现象的一般程度或集中趋势. 众数确实定有以下两种情形. 1. 单项分组数列求众数. 根据单项数列确定众数, 只要找到出现次数最多的变量值即为众数. 如在表5-2中500元就是众数. (注 : 众数可能不唯一) 2. 组距变量数列求众数 . 此情形下, 众数在次数最多的一组内, 而此组称为众数组, 由集中分配假设, 众数取众数组的组中值, 这样确定的叫粗众数. 但再根据相邻组中的频数影响, 较为合理的修正下众数的值. 有:Date(1) 金氏插值法: (2) 切伯插值法: (3) 皮尔逊经历法: 根据统计得到一个经历公式:Date1.众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用1.中位数不受极端值影响数据分布偏斜程度较大时应用1.平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用Date众数、中位数和平均数的关系左偏分布左偏分布均值 中位数中位数 众数众数对称分布对称分布 均值均值 = = 中位数中位数 = = 众数众数右偏分布右偏分布众数众数 中位数中位数均值均值Date数据分布的特征集中趋势集中趋势 ( (位置位置) )偏态和峰态偏态和峰态(形状)(形状)离中趋势离中趋势 ( (分散程度分散程度) )Date5.4 离散趋势测度 离散趋势是指变量数列中变量之间差异程度、分散程度或离中程度;用以测定离散趋势的指标为标志变异指标;而标志变异指标是衡量变量数列变量值离散程度的综合指标。
标志变异指标可以评价平均数代表性大小衡量事物变动的平衡性或稳定性标志变异指标变小,平均数的代表性越大,数据取值越稳定一. 全距 全距是数列中最大值与最小值之差,又称极差,表示某一总体全部变量值的变动范围全距R越大,平均数的代表性就越低,反之,那么越强其计算 R=最大变量值最小变量值 单项数列 R=最高组上限最低组下限 组距数列Date 全距易懂且计算简便,但易受极端值影响,不能准确反映数据的实际离散程度二. 四分位差 四分位差是将一群由小到大排列的数列分为四等分,可得到三个分割点Q1, Q2, Q3,分别称为第一,第二,第三个四分位数自Q1至Q3的间隔 为数列中间的。












