
第2章资料的整理及特征数的计算.ppt
52页第二章第二章 资料的整理与特征资料的整理与特征 数的计算数的计算第一节第一节第一节第一节 试验资料的搜集与整理试验资料的搜集与整理试验资料的搜集与整理试验资料的搜集与整理第二节第二节 特征数的计算特征数的计算一、试验资料的类型一、试验资料的类型资料资料:鱼的尾数、人的个数、猪的体重、奶牛鱼的尾数、人的个数、猪的体重、奶牛的产奶量、花的颜色、人的血型的产奶量、花的颜色、人的血型 、疾、疾病治疗的疗效病治疗的疗效 数量性状资料数量性状资料数量性状资料数量性状资料: : 计数资料计数资料 ( (如鱼的尾数如鱼的尾数, ,以正整数出现以正整数出现) ) 计量资料计量资料( (如人的身高如人的身高, ,依试验的要求和测依试验的要求和测量仪器或工具的精度量仪器或工具的精度) )质量性状资料质量性状资料质量性状资料质量性状资料: : 对某种现象只能观察而不能测量对某种现象只能观察而不能测量 如如, ,动物的雌雄动物的雌雄; ;茸毛的有无茸毛的有无; ;人的血型人的血型 数量化数量化( (统计次数法统计次数法; ; 评分法评分法) ) 二、试验资料的整理二、试验资料的整理n n原始资料的检查与核对n n次数分布表n n次数分布图当观测值不多当观测值不多当观测值不多当观测值不多( (n≤30n≤30) )时,时,时,时,不必分组,直接进行统计分不必分组,直接进行统计分析。
析当观测值较多当观测值较多当观测值较多当观测值较多( (n>30n>30) )时,时,时,时,宜分成若干组,以便统计分宜分成若干组,以便统计分析将观测值分组后,制成次数分布表,即可看到析将观测值分组后,制成次数分布表,即可看到资料的集中和变异情况资料的集中和变异情况 表2-1 50枚受精种蛋孵化出雏鸡的天数 (一)计数资料的整理 1、观测数较少时:现以50枚受精种蛋孵化出雏鸡的天数为例 表2-1 50枚受精种蛋出雏天数的次数分布表 2 2、观察值较多,且变异范围较大时,、观察值较多,且变异范围较大时,可扩大为以几个相邻观察值为一组,适当减少组数,可扩大为以几个相邻观察值为一组,适当减少组数,可扩大为以几个相邻观察值为一组,适当减少组数,可扩大为以几个相邻观察值为一组,适当减少组数,这样资料的规律性就较明显这样资料的规律性就较明显这样资料的规律性就较明显这样资料的规律性就较明显例如例如例如例如, , , ,观测某品种观测某品种观测某品种观测某品种100100100100只蛋鸡每年每只鸡产蛋数只蛋鸡每年每只鸡产蛋数只蛋鸡每年每只鸡产蛋数只蛋鸡每年每只鸡产蛋数( ( ( (原始原始原始原始资料略资料略资料略资料略),),),),其变异范围为其变异范围为其变异范围为其变异范围为200200200200- - - -299299299299枚。
枚经初步整理后分为经初步整理后分为经初步整理后分为经初步整理后分为10101010组,资料的规律性就比较明显,组,资料的规律性就比较明显,组,资料的规律性就比较明显,组,资料的规律性就比较明显,见表见表见表见表2-42-42-42-4表2-3 100只蛋鸡每年产蛋数的次数分布表 (二二)计量资料的整理计量资料的整理 计量资料在分组前需要确定全距全距、组数组数、组组距距、组中值组中值及组限组限,然后将全部观测值划线计全部观测值划线计数归组数归组 【例2.1】 将126头母羊的体重资料(见表2-4)整理成次数分布表 表2-4 126头母羊的体重资料 单位:kg 1、求全距、求全距 全距全距是资料中最大值与最小值之差,又称为极差极差(range),用R表示,即 R=Max(x)-Min(x) 本例 R=65.0-37.0=28.0(kg) 2、确定组数、确定组数 组数的多少视样本含量及资料的变动范围大小而定,组数的多少视样本含量及资料的变动范围大小而定,组数的多少视样本含量及资料的变动范围大小而定,组数的多少视样本含量及资料的变动范围大小而定,一般以达到既简化资料又不影响反映资料的规律一般以达到既简化资料又不影响反映资料的规律一般以达到既简化资料又不影响反映资料的规律一般以达到既简化资料又不影响反映资料的规律性为原则。
性为原则性为原则性为原则分组越多所求得的统计量越精确,但增大了运算量;分组越多所求得的统计量越精确,但增大了运算量;分组越多所求得的统计量越精确,但增大了运算量;分组越多所求得的统计量越精确,但增大了运算量;若分组过少,资料的规律性就反映不出来,计算若分组过少,资料的规律性就反映不出来,计算若分组过少,资料的规律性就反映不出来,计算若分组过少,资料的规律性就反映不出来,计算出的统计量的精确性也较差一般组数的确定,出的统计量的精确性也较差一般组数的确定,出的统计量的精确性也较差一般组数的确定,出的统计量的精确性也较差一般组数的确定,可参考表可参考表可参考表可参考表2-52-5 表2-5 样本含量与组数 本例中,n=126,根据表2-5,初步确定组数为10组 3、确定组距、确定组距 每组最大值与最小值之差称为组距组距,记为 i分组时要求各组的组距相等组距的计算公式为: 组距(i)=全距/组数 本例 i=28.0/10≈3.0 4、确定组限及组中值、确定组限及组中值 üü各组的最大值与最小值称为各组的最大值与最小值称为各组的最大值与最小值称为各组的最大值与最小值称为组限组限组限组限。
最小值称最小值称最小值称最小值称为为为为下限下限下限下限,,,, 最大值称为最大值称为最大值称为最大值称为上限上限上限上限每组的中点值称每组的中点值称每组的中点值称每组的中点值称为为为为组中值组中值组中值组中值; ;üü上限不计入原则上限不计入原则上限不计入原则上限不计入原则; ;üü在分组时为了避免第一组中观察值过多,一在分组时为了避免第一组中观察值过多,一在分组时为了避免第一组中观察值过多,一在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近或等于资料中的最般第一组的组中值以接近或等于资料中的最般第一组的组中值以接近或等于资料中的最般第一组的组中值以接近或等于资料中的最小值为好;最末一组的上限应大于资料中的小值为好;最末一组的上限应大于资料中的小值为好;最末一组的上限应大于资料中的小值为好;最末一组的上限应大于资料中的最大值 表表2-42-4中,中, 最小值为最小值为37.037.0,, 第一组的组中值取第一组的组中值取37.537.5,因组距已确定为,因组距已确定为3.03.0,所以,所以 第一组的下限为:第一组的下限为: 37.5-(1/2)×3.037.5-(1/2)×3.0==36.036.0;; 第一组的上限也就是第二组的下限为:第一组的上限也就是第二组的下限为: 36.0+3.0=39.036.0+3.0=39.0;; 第二组的上限也就是第三组的下限为:第二组的上限也就是第三组的下限为: 39.0+3.0=42.039.0+3.0=42.0,,…………,, 以此类推,一直到某一组的上限大于资料中的最大以此类推,一直到某一组的上限大于资料中的最大值为止,值为止, 于是可分组为:于是可分组为: 36.0 36.0 39.0 39.0,,39.0 39.0 42.0 42.0,,…………。
5、归组划线计数,作次数分布表、归组划线计数,作次数分布表 分组结束后,将资料中的每一观测值逐一归组,划线计数,然后制成次数分布表 表2-7 126头母羊的体重的次数分布表表表表表2-7 1262-7 126头母羊的体重的次数分布表头母羊的体重的次数分布表头母羊的体重的次数分布表头母羊的体重的次数分布表组别组别组中值组中值次数次数频次频次累积频次累积频次36.0-36.0-37.537.51 11/1261/1261/1261/12639.0-39.0-40.540.51 11/1261/1262/1262/12642.0-42.0-43.543.56 66/1266/1268/1268/12645.0-45.0-46.546.5181818/12618/12626/12626/126…………第二节第二节 特征数的计算特征数的计算Ø 集集中中性性是是变变量量在在趋趋势势上上有有着着向向某某一一中中心心聚聚集集,,或或者者说说以以某某一一数数值值为为中中心心而而分分布布的的性性质质反反映映集集中中性性的的特特征征是是平平均均数数,,常常用用算算术术平平均均数数。
此此外外还还有有几几何何平平均均数数、、中中位位数数和和众众数等Ø 离离散散性性是是变变量量有有着着离离开开中中心心分分散散变变异异的的性性质质,,常常用用的的指指标标是是极极差差、、方方差差、、标标准准差差和和变变异系数异系数等如如:1, 2, 3, 4, 52, 2.5, 3, 3.5, 4集中性一致集中性一致, 但离散性不同但离散性不同平均数平均数是统计学中最常用的统计量,用来表是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位明资料中各观测值相对集中较多的中心位置平均数主要包括有:置平均数主要包括有: 算术平均数算术平均数算术平均数算术平均数((((arithmetic meanarithmetic mean)))) 中位数中位数中位数中位数((((medianmedian)))) 众数众数众数众数((((modemode)))) 几何平均数几何平均数几何平均数几何平均数((((geometric meangeometric mean)))) 调和平均数调和平均数调和平均数调和平均数((((harmonic meanharmonic mean)))) 一、平均数:一、平均数:算术平均数是描述观测资料的重要特征数,算术平均数是描述观测资料的重要特征数,它的作用主要有以下两点:它的作用主要有以下两点:n n指出一数据资料内变量的中心位置,标志着资料指出一数据资料内变量的中心位置,标志着资料指出一数据资料内变量的中心位置,标志着资料指出一数据资料内变量的中心位置,标志着资料所代表性状的数量水平和质量水平所代表性状的数量水平和质量水平所代表性状的数量水平和质量水平所代表性状的数量水平和质量水平n n作为样本或资料的代表数与其他资料进行比较。
作为样本或资料的代表数与其他资料进行比较作为样本或资料的代表数与其他资料进行比较作为样本或资料的代表数与其他资料进行比较 算术平均数算术平均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数平均数或均数均数算术平均数可根据样本大小及分组情况而采用直接法或加权法计算 (一)直接法直接法 主要用于样本含量n≤30以下、未经分组资料平均数的计算 设某一资料包含设某一资料包含n n个观测值:个观测值: x x1 1、、x x2 2、、……、、x xn n,, 则样本平均数可通过下式计算:则样本平均数可通过下式计算: 其中,其中,Σ Σ为总和符号;为总和符号; 表示从第一个观测值表示从第一个观测值x x1 1累加到第累加到第n n个个观测值观测值x xn n。
当当 在意义上已明确时,可简写为在意义上已明确时,可简写为ΣxΣx, , 上式可改写上式可改写为:为: 【【例例3.13.1】】 某种公牛站测得某种公牛站测得1010头成年公牛的体重分头成年公牛的体重分别为别为500500、、520520、、535535、、560560、、585585、、600600、、480480、、510510、、505505、、490490((kgkg),),求其平均数求其平均数 由于由于 Σ Σx x=500+520+535+560+58 =500+520+535+560+58 +600+480+510+505+49 +600+480+510+505+49 =5285 =5285,, n n=10=10 得: 即10头种公牛平均体重为528.5 kg。
(二)加权法(二)加权法 对于样本含量 n≥30 以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为: 式中: —第i组的组中值; —第i组的次数; —分组数 第i组的次数fi i是权衡第i组组中值xi i在资料中所占比重大小的数量,因此将fi i 称为是xi i的“权”,加权法也由此而得名 【例3.2】 将100头长白母猪的仔猪一月窝重(单位:kg)资料整理成次数分布表如下,求其加权数平均数 表表3—1 1003—1 100头长白母猪仔猪一月窝重次数分布表头长白母猪仔猪一月窝重次数分布表 利用(3—2)式得: 即这100头长白母猪仔猪一月龄平均窝重为45.2kg (三)平均数的基本性质平均数的基本性质 1、样本各观测值与平均数之差的和为零,即离均差之和等于零离均差之和等于零。
或简写成 2 2、样本各观测值与平均数之差的平方和为最小,、样本各观测值与平均数之差的平方和为最小,即即离均差平方和为最小离均差平方和为最小离均差平方和为最小离均差平方和为最小 ( (x xi i- )- )2 2 < (< (x xi i- a- a) )2 2 ((常数常数a≠ a≠ )) 或简写为:或简写为: < < 对于总体而言,通常用对于总体而言,通常用μ μ表示总体平均数,有限总表示总体平均数,有限总体的平均数为:体的平均数为: ((3-33-3)) 二、离散性二、离散性n n变变变变量量量量的的的的分分分分布布布布具具具具有有有有集集集集中中中中性性性性和和和和离离离离散散散散性性性性两两两两方方方方面面面面特特特特征征征征,,,,因因因因而而而而只只只只有有有有表表表表示示示示集集集集中中中中性性性性的的的的平平平平均均均均数数数数是是是是不不不不够够够够的的的的,,,,还还还还必必必必须计算变异数以度量其变量的离散性须计算变异数以度量其变量的离散性须计算变异数以度量其变量的离散性须计算变异数以度量其变量的离散性( (变异性变异性变异性变异性) )。
n n用用用用来来来来表表表表示示示示变变变变异异异异性性性性的的的的指指指指标标标标较较较较多多多多,,,,常常常常用用用用的的的的有有有有极极极极差差差差、、、、标标标标准准准准差差差差、、、、方方方方差差差差和和和和变变变变异异异异系系系系数数数数等等等等,,,,其其其其中中中中以以以以标标标标准准准准差差差差和和和和变异系数变异系数变异系数变异系数应用最为广应用最为广应用最为广应用最为广 为了使所得的统计量是相应总体参数的无为了使所得的统计量是相应总体参数的无 偏估偏估计量,统计学证明,在求离均差平方和的平均数计量,统计学证明,在求离均差平方和的平均数时,分母不用样本含量时,分母不用样本含量n n,,而用自由度而用自由度 n-n-1 1,, 于是,于是,我们我们 采采 用统计量用统计量Σ Σ 表示资料的变异表示资料的变异程度 统计量Σ 称 为 均均 方方 (( mean square缩写为MS)),又称样本方差样本方差,记为S2,即 S2= 相应的总体参数叫总体方差总体方差,记为σ2。
对于有限总体而言,σ2的计算公式为: σ2 μ)2/N 由于由于由于由于 样本方差样本方差样本方差样本方差 带有原观测单位的带有原观测单位的带有原观测单位的带有原观测单位的 平方单位,在仅平方单位,在仅平方单位,在仅平方单位,在仅表示一个资料中各观测值的变异程度而不作其它表示一个资料中各观测值的变异程度而不作其它表示一个资料中各观测值的变异程度而不作其它表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,这分析时,常需要与平均数配合使用,这分析时,常需要与平均数配合使用,这分析时,常需要与平均数配合使用,这 时时时时 应应应应 将将将将平方单位还原,即应求出样本方差的平方根平方单位还原,即应求出样本方差的平方根平方单位还原,即应求出样本方差的平方根平方单位还原,即应求出样本方差的平方根统计学上把样本方差统计学上把样本方差S2的平方根叫做的平方根叫做 样样 本本 标准标准 差差,记为,记为S,,即:即: 由于 所以(3-11)式可改写为: (3-12) 相应的总体参数叫总体标准差总体标准差,记为σ。
对于有限总体而言,σ的计算公式为: σ= (3-13) 在统计学中,常用样本标准差S估计总体标准差σ 三、标准差的计算方法三、标准差的计算方法 (一)直接法(一)直接法 对于未分组或小样本资料,可直接利用(3—11)或(3-12)式来计算标准差 【例3.9】 计算10只辽宁绒山羊产绒量:450,450,500,500,500,550,550,550,600,600,650(g)的标准差 此例n=10,经计算得:Σx=5400,Σx2=2955000,代入(3—12)式得: (g) 即10只辽宁绒山羊产绒量的 标准差 为65.828g (二)加权法(二)加权法 对于已制成次数分布表的大样本资料,可利用次数分布表,采用加权法计算标准差。
计算公式为: (3—14) 式中,f为各组次数;x为各组的组中值;Σf = n为总次数 【例3.10】 利用某纯系蛋鸡200枚蛋重资料的次数分布表(见表3-4)计算标准差 将表3-4中的Σf、Σfx、 代入(3—14)式得: (g ) 即某 纯 系 蛋 鸡200枚 蛋 重的标准差为3.5524g 表表3—4 3—4 某纯系蛋鸡某纯系蛋鸡200200枚蛋重资料次数分布枚蛋重资料次数分布 及标准差计算表及标准差计算表 四、标准差的特性四、标准差的特性四、标准差的特性四、标准差的特性 ((一)一)一)一)标准差的大小,受资料中每个观测值的标准差的大小,受资料中每个观测值的标准差的大小,受资料中每个观测值的标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,影响,如观测值间变异大,求得的标准差也大,影响,如观测值间变异大,求得的标准差也大,影响,如观测值间变异大,求得的标准差也大,反之则小。
反之则小反之则小反之则小 (二)(二)(二)(二)在计算标准差时,在各观测值加上或减在计算标准差时,在各观测值加上或减在计算标准差时,在各观测值加上或减在计算标准差时,在各观测值加上或减去一个常数,其数值不变去一个常数,其数值不变去一个常数,其数值不变去一个常数,其数值不变 (三)(三)(三)(三)当每个观测值乘以或除以一个常数当每个观测值乘以或除以一个常数当每个观测值乘以或除以一个常数当每个观测值乘以或除以一个常数 a a,,,,则所得的标准差是原来标准差的则所得的标准差是原来标准差的则所得的标准差是原来标准差的则所得的标准差是原来标准差的 a a 倍或倍或倍或倍或 1 1/a /a 倍 (四)(四)(四)(四)在资料服从正态分布的条件下,资料在资料服从正态分布的条件下,资料在资料服从正态分布的条件下,资料在资料服从正态分布的条件下,资料中约有中约有中约有中约有68.26%68.26%的观测值在平均数左右一倍的观测值在平均数左右一倍的观测值在平均数左右一倍的观测值在平均数左右一倍标准差(标准差(标准差(标准差( ±S±S))))范围内;范围内;范围内;范围内;约有约有约有约有95.43%95.43%的观测值在平均数左右两倍标准的观测值在平均数左右两倍标准的观测值在平均数左右两倍标准的观测值在平均数左右两倍标准差(差(差(差( ±2S±2S))))范围内;范围内;范围内;范围内;约有约有约有约有99.73%99.73%的观测值在平均数左右三倍标准的观测值在平均数左右三倍标准的观测值在平均数左右三倍标准的观测值在平均数左右三倍标准差(差(差(差( ±3S±3S))))范围内。
范围内也就是说全距近似地等于也就是说全距近似地等于也就是说全距近似地等于也就是说全距近似地等于6 6倍标准差,可用倍标准差,可用倍标准差,可用倍标准差,可用(全距(全距(全距(全距/6/6)来粗略估计标准差来粗略估计标准差来粗略估计标准差来粗略估计标准差 五、标准误差五、标准误差n n标准误差即平均数的标准差,可表示为标准误差即平均数的标准差,可表示为标准误差即平均数的标准差,可表示为标准误差即平均数的标准差,可表示为n n表示样本平均数的离散程度表示样本平均数的离散程度表示样本平均数的离散程度表示样本平均数的离散程度n n在结果描述中常写成在结果描述中常写成在结果描述中常写成在结果描述中常写成六、六、 变异系数变异系数 ü变异系数是衡量资料中各观测值变异变异系数是衡量资料中各观测值变异 程度的程度的另一个统计量另一个统计量 ,比较不同样本相对变异程度,比较不同样本相对变异程度的大小ü标准差与平均数的比值称为标准差与平均数的比值称为变异系数变异系数,记为,记为C C··V Vü变异系数可以消除单位和变异系数可以消除单位和 (或)平均数不同(或)平均数不同对两个或多个资料变异程度比较的影响。
对两个或多个资料变异程度比较的影响 变异系数的计算公式为: (3—15) 【【【【例例例例3.113.11】】】】 已知某良种猪场长白成年母猪平已知某良种猪场长白成年母猪平已知某良种猪场长白成年母猪平已知某良种猪场长白成年母猪平均体重为均体重为均体重为均体重为190190kgkg,,,,标准差为标准差为标准差为标准差为10.510.5kgkg,,,,而大约克成而大约克成而大约克成而大约克成年母猪平均体重为年母猪平均体重为年母猪平均体重为年母猪平均体重为196196kgkg,,,,标准差为标准差为标准差为标准差为8.58.5kgkg,,,,试问试问试问试问两个品种的成年母猪,那一个体重变异程度大两个品种的成年母猪,那一个体重变异程度大两个品种的成年母猪,那一个体重变异程度大两个品种的成年母猪,那一个体重变异程度大 由于,长白成年母猪体重的变异系数: 大约克成年母猪体重的变异系数: 所以,长白成年母猪体重的变异程度大于大约克成年母猪。
注意:变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出总结总结n n平均数平均数平均数平均数的计算方法的计算方法的计算方法的计算方法n n数据离散性的相互关系及计算公式:数据离散性的相互关系及计算公式:数据离散性的相互关系及计算公式:数据离散性的相互关系及计算公式:方差、标准差、标准误差、变异系数方差、标准差、标准误差、变异系数方差、标准差、标准误差、变异系数方差、标准差、标准误差、变异系数。












