好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

第三章 次数分布和平均数、变异数 zhao.ppt

42页
  • 卖家[上传人]:飞***
  • 文档编号:48507141
  • 上传时间:2018-07-16
  • 文档格式:PPT
  • 文档大小:4.80MB
  • / 42 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第三章 次数分布和平均数、变异数第一节 总体及其样本第二节 次数分布第三节 平均数第四节 变异数第一节 总体与样本1.数据的变异和趋中性数据(data):在科学试验或调查过程中,对 研究对象的某些特征、特性进行观察记载得到的数 字资料的总称数据是千差万别,各不相同,这就是数据的变异 性,也是数据的最基本特征数据除了变异的特征外,还具有趋中性,即一 组数据中数字位于平均数附近的分布较多,离平均 数越远,分布越少2.变数和变量变数(variable):相同性质的事物间表现变异 性或变异特征的数据如作物的株高、抽穗期、穗 粒数、产量,植株的害虫头数、发病率等变数的某一具体数值称为变量(variate)或观测 值(observed value),用英文大写字母表示,并附 下角码如有一个变数,用y表示,yi 表示某一具 体观测值;如有多个变数,可分别用X、Y、Z等表 示变数连续性变数是指观测值在一定范围内可以取任何 一个数值,这些观测值一般是通过测量或称量的方法 获得的如作物的株高、穗长、粒重、产量等间断性变数是指观测值只能取0或正整数的变数, 其观测值一般通过观察和计数的方法获得的如昆虫 的头数、病菌的个数、作物的穗粒数和穗数等。

      连续性变数(continuous variable)间断性变数(discontinuous or discrete variable)3.总体和样本总体(population or universe):根据研究目的 而确定的,具有共同性质的个体所组成的集团, 或者说是整个研究对象中每个个体某一变数所有 观测值的总称总体中每一个个体称为总体单位总体中的个体 数目 称为总体单位数或总体容量,常用大写 N 表示 根据总体全体观测值算出的总体特征数称为参数 (parameter)参数常用希腊字母表示如总体平 均数  ,方差2,标准差  等按总体中的个体数目可分为 :无限总体有限总体总体往往比较大,了解总体是很困难的,通常是 从总体中抽出一部分有代表性的个体或观测值来调查 ,这一部分个体或观测值称为样本(sample)3.总体和样本 样本中的个体数称为样本单位数或样本容量样 本容量用小写字母 n 表示n>30为大样本, n≤30为 小样本根据样本所有观测值计算出的样本特征数称为统 计数或统计量(statastic)样本统计数常用英文字母表示例如样本平均数 ,方差S2,标准差S等第二节 次数分布● 试验资料的性质农业试验中所得的数据,因所研究的性状、特性 不同而有不同的性质,一般可以分为两大类:一、数量性状资料1、离散型或间断型随机变数:(由计数或测量方式得到)是指用计数方法获得 的数据,如基本苗数、分蘖数等,其各观测值必 须以整数表示。

      指由称量、度量或测量等方法 取得到的数据,其各个数据并不限于整数如粒 重、株高等2、连续型随机变数:二、质量性状资料 (指能观察而不能量测的性状)1、按性状的属性把样本个体分为若干类,数出各 类个体的数目;这类资料有时换算为百分率或数 如调查300株碗豆的花色,其中紫花植株数为220 株,白花植株为80株2、给予每类性状以相当数量的方法:如小麦品种 芒的有无,可令有芒种子为1,无芒种子为0;等等 这种资料可按间断型变数处理一、数量性状资料(由计数或测量方式得到)这类资料通常可用两种方法取得数据:一、数量性状资料l 次数分布从一个总体随机抽取n个个体进行调查,得到n个 观测值,不同数值(或区间)的个体数目(出现次数 )不尽相同,这些次数将会按一定规律分配给不同的 数值(或区间),这种分布情况叫次数分布把次数分布以表的形式列出来,得次数分布表; 以图的形式绘出来,得次数分布图㈠ 间断性变数资料的整理 1、若变数可取值个数不多时以自然单位进行分组 例如因为取值个数只有15 、16、17、18、19和20等六种, 所以以自然单位分组第二节 次数分布2、若变数可取值个数太多,则可按取值大小,从小到大相邻若干个值合为一组的方法进行整理(一般要求组距相等)。

      课本P37表3.3)第二节 次数分布例:200个稻穗的穗粒数,变异幅度为27-83粒㈡连续性变数资料的整理它的整理方法有以下5个步骤:(这个步骤可以省略)1. 数据排序;2. 求极差;3. 确定组数和组距;4. 确定组限,计算组中值;5. 数据归组第二节 次数分布以课本p.38的表3.4为例说明R = Max(x) - Min(x) = 254 - 75 = 179 组数:拟分为12组 组距 = 179÷12=14.9≈15找出资料中的最大观察值和最小 观察值,将其相减得资料的变异 范围(称为极差)如何确定分为多少组才合适?应参考观察值的 个数、极差的大小和能否反映出资料的真实面 貌等方面p.38表3.5列出了样本大小与组数的 关系本例中,样本大小为140,初拟分成12组 将极差除以组数得到组距的近似数组限是指各组的界限,数值小的一端称下限, 数值大的一端称上限,上限与下限之差应该等 于组距,上限与下限的平均数称为组中值,组 中值就是各组的中点确定组限、组距、组中 值的原则是应该能体现数据资料的分布特点并 便于计算按现在的分组方法情况如何? 分布表的范围=组数×组距=12 ×15=180,仅比 极差多出1,将1分为两分,加在资料两端。

      第 1组的下限为:74.5(太靠近数据的最小值);第 12组的下限为:254.5(太靠近数据的最大值)似 乎太紧了,增加一组看看怎么样?分13组,情况如何? 将新增那组的组距分 为两份,放在资料两 端,第1组的下限变 成75 - 15/2 = 67.5; 上限变成67.5+15/2 = 82.5,整个表的组限 就可以列出来了 (p.39表3.6)这个步骤可以省略)㈡ 连续性变数资料的整理它的整理方法有以下5个步骤:1. 数据排序;2. 求极差;3. 确定组数和组距;4. 确定组限,计算组中值;5. 数据归组第二节 次数分布以课本p.38的表3.4为例说明R = Max(x) - Min(x) = 254 - 75 = 179 组数:拟分为12组 组距 = 179÷12=14.9≈15(用打“正”字的方法,计算出应归入 各组的观察值个数)丁 正丁一2 71次数140(这个步骤可以省略)㈡ 连续性变数资料的整理它的整理方法有以下5个步骤:1. 数据排序;2. 求极差;3. 确定组数和组距;4. 确定组限,计算组中值;5. 数据归组第二节 次数分布以课本p.38的表3.4为例说明R = Max(x) - Min(x) = 254 - 75 = 179 组数:拟分为12组 组距 = 179÷12=14.9≈15计算各组的组中(点)值2 71次数14075 90255组中值㈢ 属性变数资料的整理—单项式分组按属性类别分组:第二节 次数分布以课本P39的表3.7为例说明。

      1. 方柱形图2. 多边形图;3. 条形图;4. 饼图;l 次数分布图 适用于表示连续性变数的次数分布;以课本P39的表3.6的分布为例说明1. 方柱形图 2. 多边形图3. 条形图;4. 饼图;l 次数分布图适用于表示连续性变数的次数分布; 适用于表示连续性变数的次数分布; 以课本P39的表3.6的分布为例说明1. 方柱形图 2. 多边形图 3. 条形图4. 饼图l 次数分布图 适用于表示连续性变数的次数分布; 适用于表示连续性变数的次数分布; 适用于表示间断性和属性变数的资料; 以课本P37的表3.2、P39表3.7的分布为例说明质量性状的变数资料变异范围较小的间断性变数资料1. 方柱形图 2. 多边形图 3. 条形图4. 饼图l 次数分布图 适用于表示连续性变数的次数分布; 适用于表示连续性变数的次数分布; 适用于表示间断性和属性变数的资料; 以课本P37的表3.3的分布为例说明 适用于表示间断性和属性变数的资料; 以课本P39的表3.7的分布为例说明第三节 平均数 ¡ 一、平均数的意义和种类¡算术平均数:1、度量数据资料的趋中性,衡量一组数据的综合水平;¡ 中(位)数(median):¡ 众数(mode):¡ 几何平均数:所有观察值的总和除以观察值数目所得的商。

      将资料所有观察值排序后,居于中间 位置的那个观测值的值(如观测值数目为偶数时,则以中 间两个观测值的算术平均数为中数)记作:Md资料中最常见的一数,或次数分布表中次数 最多的那组的组中值记作:Mon个观察值的乘积的n次方根记作:G其中以算术平均数最为常用 一)平均数的作用2、可以作为一组数据的代表值与其它数据相比较 二)平均数的种类¡ 算术平均数—所有观察值的总和除以观察值数目所得的商¡ 总体平均数(population mean):在不会混淆时记为:对于分组资料:¡样本平均数(sample mean):在不会混淆时记为: 对于分组资料:¡二、平均数计算三、算术平均数的重要特性:¡离均差(1)资料中所有观察值的离均差之和为0 u离均差的两个重要特性:(2)资料中所有观察值的离均差平方之和最小 观察值与整个资料的平均数之间的差2) 资料中所有观察值的离均差平方之和最小对于任意实数 有关系:证明:记 则有样本各观察值与其平均数的差数的平方的总和,比各观察 值与任意其他数值的差数平方的总和都要小¡ 算术平均数的局限性:平均数是最具有代表数据资料整体水平的数 值,但不同数据资料,其平均数的代表性是不 一样的,因此单用平均数还不足以很好地表达 一组数据的主要特征。

      例如下面两组人24岁 26岁25岁25岁49岁1岁两组人的平均年龄都 是25岁,你能说这两 人都是青年人吗?第四节 变异数一、变异数的作用及其与平均数的关系1、变异数的作用:变异数主要用来度量数据资料 的离中性2、变异数与平均数的关系对同一组资料来说,变异程度越小,平均数的代表性越好;变异程度越大,平均数的代表性越差第四节 变异数¡极差(range) — 一组数据的最大值与最小值之差 即:R=Max(y)-Min(y)上例中:第一组数据的极差为:R1 = 26-24 = 2第二组数据的极差为:R2 = 49-1 = 48可见第二组人的年龄变异大的多 ¡ 极差只考虑了数据中的两个极端值,没有充分利用资 料提供的全部信息,而且极端值往往是数据中最不可 靠的观测值,因此用极差来表示数据资料的变异具有 明显的局限性,一般只在观测值较少的情况下使用二、变异数的种类¡ 为了解决资料中所有观测值的离均差正负抵消的问 题,采用先平方后再相加的办法由于资料中有些观测值大于平均数,有些观测值小于 平均数,全资料的离均差之和为0因此不能利用全 资料的离均差之和来衡量资料的变异程度¡ 数据资料的变异取决于观测值的离散程度,这自然 会联想到所有观测值离均差的大小,即观测值与平 均数的差值。

      第i个观测值的离均差为 ¡ 到底用什么来表示数据资料的变异呢?很显然,必 须利用所有观测值所反映出的信息上例中: 第一组数据的平方和为:SS1 = (24-25)2 + (25-25)2 +(26-25)2 = 2 第二组数据的平方和为:SS2 = (1-25)2 + (25-25)2 +(49-25)2 = 1152可见第二组人的年龄变异大的多¡ 当资料平均数不是精确数而是含有四舍五入误差时 ,利用上面的定义公式计算将会引入颇大的计算误差 特别是观测值较多时,计算很麻烦¡ 离均差平方和简称平方和(sum of squares,SS) 可较 好地衡量资料的变异,定义公式:¡平方和的计算公式:其中 简称矫正数,用C表示,其定义为资 料中所有观测值总和的平方除以观测值的个数¡ 对于分组资料,平方和的计算公式为:其中 f 为各组的次数, 为观测值总数,为所有观。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.