好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

spss统计及分析讲稿第三章统计分析的基本特征数.ppt

67页
  • 卖家[上传人]:suns****4568
  • 文档编号:85154388
  • 上传时间:2019-03-07
  • 文档格式:PPT
  • 文档大小:912KB
  • / 67 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 一、集中量 集中量用来表现数据资料的典型水平或集中趋势(central tendency)常用的集中量是平均数 平均数主要包括有算术平均数(arithmetic mean)、中位数(median)、众数(mode)、几何平均数(geometric mean)及调和平均数(harmonic mean),第三章 统计分析的基本特征数,(一)、平均数 1、算术平均数:各个观察值的总和除以观察值个数所得的商称为算术平均数它是我们日常工作和生活中应用最广泛的平均数,也可简称为平均数(average)或均数、均值(mean)一般用M,或者用 表示1).直接法 主要用于样本含量n≤30以下、未经分组资料平均数的计算其中,Σ为总和符号; 表示从第一个观测值x1累加到第n个观测值xn当 在意义上已明确时,可简写为Σx,(1-1)式可改写为:,设某一资料包含n个观测值: x1、x2、…、xn, 则样本平均数可通过下式计算:,2、算术平均数计算,例:对食品科学专业2004级1班10位同学的体重进行测定,测定结果分别为50.0、52.0、53.5、56.0、58.5、60.0、48.0、51.0、50.5、49.0(kg),求其平均数。

      由于 Σx=50.0+52.0+53.5+56.0+58.5 +60.0+48.0+51.0+50.5+49.0 =528.5, n=10 那么 10位同学的平均体重为52.85 kg例:某种公牛站测得10头成年公牛的体重分别为500、520、535、560、585、600、480、510、505、490(kg),求其平均体重2). 加权法 对于样本含量 n≥30 以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为:,,,(2-2),式中: Xi —第i组的组中值; fi —第i组的次数; K—分组数,第i组的次数fi是权衡第i组组中值xi在资料中所占的比重大小,因此将fi 称为是xi的“权”,加权法也由此而得名例】 100听罐头净重(单位:kg)资料整理成次数分布表如下,求其加权数平均数表2-3 100听罐头净重的次数分布,利用加权法计算平均数公式计算: 100听罐头每听净重的加权平均数为342.67 g 注意: 计算若干个来自同一总体的样本平均数的平均数时,如果样本含量不等,也应采用加权法计算例】 某牛群有黑白花奶牛 1500头,其平均体重为750 kg ,而另一牛群有黑白花奶牛1200头,平均体重为725 kg,如果将这两个牛群混合在一起,其混合后平均体重为多少?,将100头长白母猪的仔猪一月窝重(单位:kg)资料整理成次数分布表如下,求其加权数平均数。

      连加和计算规则,3、算术平均数的几个重要性质,离均差总和等于零样本各观测值与平均数之差的和为零,即离均差之和等于零 样本各观测值与平均数之差的平方和为最小,离均差的平方总和为最小,,,=最小,4、算术平均数的意义,算术平均数是应用最普遍的一种集中量它是“真值”(true score)的最佳估计值 真值是反映某种现象的真实水平的分数由于测量过程中的各种偶然因素的影响,真值往往很难得到 在实际测量中,往往采用“多次测量,取平均数”的方法,用平均数去估计真值5、算术平均数的优缺点,算术平均数具备一个良好的集中量所应具备的一些特点:反应灵敏、有公式严密确定、简明易懂、适合代数运算等等,因此是一个最常用的集中量 主要不足:容易受两极端数值的影响;一组数据中有模糊不清的数值时无法计算6、计算和应用算术平均数的原则,同质性原则:算术平均数只能用于表示同类数据的集中趋势 平均数与个体数值相结合的原则:在解释个体特征时,既要看平均数,也要结合个体的数据 平均数与标准差、方差相结合原则:描述一组数据时既要分析其集中趋势,也要分析离散程度对于总体而言,通常用μ表示总体平均数,有限总体的平均数为:,,式中,N表示总体所包含的个体数。

      当一个统计量的数学期望等于所估计的总体参数时,则称此统计量为该总体参数的无偏估计量统计学中常用样本平均数( )作为总体平均数(μ)的估计量,并已证明样本平均数是总体平均数μ的无偏估计量二)、中位数,中位数(median)又称为中数,是按顺序排列的一组数据中位于中间位置的数 中位数是常用集中量的一种 一般用Md或Mdn表示 中位数简称中数当所获得的数据资料呈偏态分布时,中位数的代表性优于算术平均数1、中位数的计算方法 (1)、原始数据计算法 首先将一组数据按顺序排列,【例】 对9个小麦品种的容重进行测定,测定结果为750 、 760、 767、 769、773、775、778、780、800(已排序),求其中位数 此例 n=9,为奇数,则: Md= =773(g) 即九个小麦品种的中位数为773 g观察得9只西农莎能奶山羊的妊娠天数为144、145、147、149、150、151、153、156、157,求其中位数某犬场发生犬瘟热,观察得10只仔犬发现症状到死亡分别为7、8、8、9、11、12、12、13、14、14天,求其中位数2)、次数分布表计算法,由次数分布表计算中位数需要用到累积次数分布表。

      当表中数据的累积方向不同时,计算公式也不同52名学生数学成绩次数分布表,,,由下至上累积频数计算公式,公式中:Lb为中位数所在组的精确下限 fb为中位数所在组下限以下的累积频数 n为数据总和 fMd为中位数所在组的频数 i为组距,由上至下累积频数计算公式,公式中:La为中位数所在组的精确上限 fa为中位数所在组上限以上的累积频数 n为数据总和 fMd为中位数所在组的频数 i为组距,52名学生数学成绩中位数计算表,某奶牛场68头健康母牛从分娩到第一次发情间隔时间整理成次数分布表如表3—2所示,求中位数3、中位数的特点及应用,中位数是根据全部数据的个数来确定其位置的,意义简明,对按顺序排列的数据来讲,计算中位数也比较容易中位数不受两端极端数据的影响,但反应不灵敏,也不适合进一步代数运算的要求 一般用于下列情况: 一组数据中有极端数据时; 一组数据中有个别数据不确切、不清楚时; 资料属于等级性质时三)、众数,众数(mode):资料中出现次数最多的那个观测值或次数最多一组的组中值,称为众数,用Mo表示 理论众数是指与频数分布曲线最高点相对应的横坐标上的一点; 粗略众数是一组数据中出现次数最多的那个数。

      众数也是一种集中量,也可用来表示一组数据的集中趋势1、众数的计算方法,观察法寻找粗略众数 未分组数据中出现次数最多的数即为众数 次数分布表中,频数最多那一组数据的组中值,即为众数 公式法计算理论众数的近似值 用公式计算的众数称为理论众数一般在心理与教育统计中常用的公式有皮尔逊的经验公式和金氏插补法公式皮尔逊经验公式,金氏插补法,皮尔逊经验公式只有当数据分布呈正态或接近正态时才能使用当数据分布呈偏态时,一般用金氏插补法计算众数2、众数的优缺点,众数的概念简单易懂,但比较粗略,不能灵敏地反映一组数据的变化,而且不适合进一步代数运算一般用于类别变量或等级变量的资料3、算术平均数、中位数、众数三者的关系,在正态分布中:,在正偏态分布中:,在负偏态分布中:,(四)、其它集中量,除了算术平均数、中位数和众数以外,在应用中还有一些其它集中量这些统计指标可以从其它角度描述一组数据的集中趋势1、加权平均数,加权平均数是不同比重数据(或平均数)的平均数,一般用 表示其计算公式有两种:,,2、几何平均数,几何平均数主要应用于科学研究中的动态分析,如微生物的增长率、人口的增长率等等当观测值呈几何级数变化时,用几何平均数比用算术平均数更能代表其平均水平。

      几何平均数(geometric mean)是n个数值连乘积的n次方根,用 或 表示计算公式为,几何平均数(geometric mean)是n个数值连乘积的n次方根,用 或 表示计算公式为,几何平均数的变式,两边取对数,得,注意:几何平均数计算的是平均的变化情况,如果要计算平均增长率,需要从几何平均数中减去基数1例3.7】 某波尔山羊群1997—2000年各年度的存栏数见表3—3,试求其年平均增长率G= =lg-1[(-0.368-0.398–0.602)] =lg-1(-0.456)=0.3501,3、 调和平均数(harmonic mean):资料中各观测值倒数的 算术平均数 的倒数,称为调和平均数,记为H,即,某保种牛群不同世代牛群保种的规模分别为:0世代200头,1世代220头,2世代210头;3世代190头,4世代210头,试求其平均规模二、差异量,描述数据离散程度的统计量称为差异量差异量越大,表明数据越分散、不集中;差异量越小,表明数据越集中,变动范围越小 一组数据的离散程度,常常通过数据的离中趋势特点进行分析常用的表示变异程度的统计量有全距、方差、标准差和变异系数 (一)、全距、四分位距和百分位距 1、全距 R (range):是一组数据中的最大值(maximum)与该组数据中最小值(minimum)之差,又称极差。

      R=Xmax-Xmin,R值越大,平均数的代表性越差但是全距只利用了资料中的最大值和最小值,没有充分利用全部资料,并不能准确表达资料中各观测值的变异程度,是比较粗略的当资料很多而又要迅速对资料的变异程度作出判断时,可以利用全距这个统计量2、百分位差(百分位距),百分位差是指两个百分位数(percentile)之差 常用的百分位距有两种: 公式中:fbp为某一百分位数所在组下限以下的累积 频数 fp为某一百分位数所在组的频数 Lbp为某一百分位数所在组的精确下限 用几个百分位距能较好地反映一组数据的差异程度3、四分位距,四分位距是第一个四分位数与第三个四分位数之差的一半,计算公式为,其中:,用中位数作集中量时,常用四分位距作差异量二)、平均差,平均差(average deviation 或者 mean deviation)是指一组数据中,每一个数据与该组数据的平均数离差的绝对值的算术平均数,通常用AD或MD表示 1、原始数据计算公式 2、次数分布表计算公式 平均差意义明确,计算容易,反应灵敏但计算时要用绝对值,不适合代数运算,因此在进一步统计分析中应用较少1、方差和标准差的定义 为 了 准 确 地 表示样本内各个观测值的变异程度 ,人们 首 先会考虑到以平均数为标准,求出各个观测值与平均数的离差, ( ) ,称为离均差。

      虽然离均差能表示一个观测值偏离平均数的性质和程度,但因为离均差有正、有负 ,离均差之和为零,即 = 0 ,因 而 不 能 用离均差之和 Σ( )来 表 示 资料中所有观测值的总偏离程度三) 方差(Variance)和标准差,为了解决离均差有正 、有负,离均差之和为零的问 题 , 可先求 离 均 差的绝 对 值 并 将 各 离 均 差 绝对 值 之 和 除以 观 测 值 个 数 n 求 得 平 均 绝 对 离差,即Σ| |/n虽然平均绝对离差可以表示资料中各观测值的变异程度 ,但由于平均绝对离差包含绝对值符号 ,使用很不方便,在统计学中未被采用在统计学上,采用将离均差平方的办法来解决离均差有正、有负,离均差之和为零的问题 先将各 个离 均差平方,即 ( )2 ,再求 离均差平方和 , 即 ,简称平方和,记为SS; 由 于 离差平方和 常 随 样 本 大 小 而 改 变 ,为 了 消 除 样 本大小 的 影 响 , 用平方和 除 以 样 本 大 小, 即 ,求出离均差平方和的平均数 ;,,,,为了使所得的统计量是相应总体参数的无 偏估计量,统计学证明,在求离均。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.