1、第二章 数值变量资料的统计描述,第一节 频数表,频数分布表,用于反映各变量(观察单位的某种特征)值及其相应频数之间关系的一类表格,我们称之为频数表.这里频数指对一种变量在多个观察单位中进行多次观察,其中某一变量值重复出现的次数. 不同的资料类型编制频数表难易程度不同,其中计数资料和等级资料比较简单,而计量资料相对较繁杂些.,计量资料频数表的编制,一般情况下,样本含量小于30的统计资料无须编制频数表,但对于大样本含量的资料,编制频数表有利于进一步的统计分析、且频数表本身也具有统计描述的作用.,编制频数表的步骤,编制频数表步骤流程图,举例说明计量资料频数表的编制过程,步骤如下: R=160.8-129.4=31.4。 组段数=10;组距=R/10=3.1430(cm);按要求确定每一组段上下限。 分组统计每一组段的频数,编制频数表。,计量资料频数分布表,计量资料频数分布图,频数分布表的用途,揭示数值变量频数分布的类型和特征 作为陈述资料的形式 便于发现一些特大或特小的可疑值 便于进一步的统计分析,计量资料频数分布的类型和特征,第二节 集中趋势指标,3. 中位数(median),中位数是将一
2、批数据从小至大排列后位次居中的数据值,符号为Md,反映一批观察值在位次上的平均水平。 适用条件:适合各种类型的资料。尤其适合于大样本偏态分布的资料; 资料有不确定数值;资料分布不明等。,频数表资料的中位数,下限值L,上限值U,i; fm,中位数Md,中位数1.1+0.1x(160x50%72)/201.14,均数、中位数、众数三者关系,正态分布时: 均数中位数众数 正偏态分布时:均数中位数众数 负偏态分布时:均数中位数众数,第三节 变异(variation)指标,反映数据的离散度( Dispersion )。即个体观察值的变异程度。常用的指标有: 1.极差(Range) (全距) 2.百分位数与四分位数间距 Percentile and Quartile range 3.方差 Variance 4.标准差Standard Deviation 5.变异系数 Coefficient of Variation,例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3),甲,乙,丙,1.极差(Range) (全距),优点:简便 缺点:1. 只利用了两个 极
3、端值 2.n大,R也会大 3.不稳定,120,40,20,2.百分位数与四分位数间距 Percentile and quartile range,百分位数 :数据从小到大 排列;在百分尺度下,所占百分比对应的值。记为Px。 四分位间距: QRP75 P25 四分位半间距quartile deviation:QDQR/2,P100(max) P75 P50(中位数) P25 P0(min),Px,频数表资料的百分位数,下限值L,上限值U,i; fm,百分位数Px,P250.9+0.1x(160x25%37)/170.92 P751.3+0.1x(160x75%110)/171.36 QR1.36-0.920.44;QD0.22,3.方差,方差 (variance)也称均方差(mean square deviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。,样本方差为什么要除以(n1),与自由度(degrees of freedom)有关。 自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就
4、只有(nk)个自由度了。计算标准差时, n个变量值本身有n个自由度。但受到样本均数的限制,任何一个“离均差”均可以用另外的(n1)个“离均差”表示,所以只有(n1)个独立的“离均差”。因此只有(n1)个自由度。,4.标准差,标准差 (standard deviation)即方差的正平方根;其单位与原变量X的单位相同。,标准差的计算,5. 变异系数,变异系数(coefficient of variation,CV),适用条件:观察指标单位不同,如身高、体重 同单位资料,但均数相差悬殊,变异指标小结,1极差较粗,适合于任何分布 2标准差与均数的单位相同,最常用,适合于近似正态分布 3变异系数主要用于单位不同或均数相差悬殊资料 4平均指标和变异指标分别反映资料的不同特征, 常配套使用如 正态分布:均数、标准差; 偏态分布:中位数、四分位半间距,第四节 正态分布,正态分布的通俗概念: 如果把数值变量资料编制频数表后绘制频数分布图(又称直方图,它用矩形面积表示数值变量资料的频数分布,每条直条的宽表示组距,直条的面积表示频数(或频率)大小,直条与直条之间不留空隙。),若频数分布呈现中间为最多,左右
5、两侧基本对称,越靠近中间频数越多,离中间越远,频数越少,形成一个中间频数多,两侧频数逐渐减少且基本对称的分布,那我们一般认为该数值变量服从或近似服从数学上的正态分布。,正态分布的概念,下面我们以第一节某地13岁女孩118人的身高(cm)资料,来说明身高变量服从正态分布。 频数分布表:,频数分布图一(又称直方图),正态分布的数理统计学概念: 如果随机变量(X)的概率密度函数为: -x+ 则该随机变量服从正态分布。 式中为总体标准差;为总体均数;为圆周率,即3.14159;e为自然对数的底,即2.71828。,若某一随机变量的概率密度函数(频率曲线方程)为上式,则称该变量X服从参数为和的正态分布,记为:XN(,2)。 函数方程中为位置参数,为形状参数。 在不变的情况下,函数曲线形状不变,若变大时,曲线位置向右移;若变小时,曲线位置向左移。 在不变的情况下,函数曲线位置不变,若变大时,曲线形状变的越来越“胖”和“矮”;若变小时,曲线形状变的越来越“瘦”和“高”。,正态分布曲线由两个参数决定,即总体均数和总体标准差。在不变的情况下,函数曲线形状不变,若变大时,曲线位置向右移;若变小时,曲线位置
6、向左移,故称为位置参数。在不变的情况下,函数曲线位置不变,若变大时,曲线形状变的越来越“胖”和“矮”;若变小时,曲线形状变的越来越“瘦”和“高”,故称为形态参数或变异度参数。,N(,12)、N(,22)、N(,32),N(1 ,2)、N(2 ,2),正态分布的特征及其面积规律,正态分布曲线位于横轴上方,呈钟形。 正态分布曲线以均数所在处最高,且以均数为中心左右对称。,正态曲线下面积分布有一定的规律性。 对于服从正态分布的随机变量(X),随机变量值出现在某一区间(x1,x2)的概率与正态分布概率密度曲线与横轴在该区间所围成的区域的面积大小相对应(相等)。 正态分布概率密度曲线与横轴围成的区域的总面积恒等于1。 正态分布概率密度曲线下横轴上一定区间的面积可应用数学知识求出。 在实际应用中,由于所有正态分布都可以通过变量变换转变为标准正态分。,若某一随机变量X,其总体均数=0,总体标准差=1,即XN(0,1),则称变量X服从标准正态分布。习惯把服从标准正态分布的变量用字母U或Z表示,此时,我们把U或Z称为标准正态变量。 标准正态分布是正态分布中的一个典型分布,数理统计上证明:对一服从正态分布
7、的随机变量(X),若进行特定的变量变换,可将任何一服从正态分布的随机变量(X)转变成服从标准正态分布的随机变量(U或Z),这种变量变换过程称为变量的标准化,也称为U或Z变换。 式中符号意义如前述。,标准正态分布,标准正态分布曲线下对称于0的区间,面积相等,各占50%,即左右各为0.5。 标准正态分布曲线的纵坐标与面积关系图 u值查表所对应的面积是区间(-,u)所对应的面积,即(u)。 若u=-1.96,那么(-1.96)则表示从移到1.96所对应区域的面积,通过查标准正态分布曲线面积分布表得到(-1.96)=0.025。,当有一随机变量X服从正态分布N(,2),若要求某一区间(x1,x2)的曲线与横轴围成的面积时,无须运用积分学知识求从x1移到x2所对应区域的面积大小来得到这一区间所对应的面积。此时,我们可以通过变量变换,把X转变成u,即把一般的正态分布变换为标准正态分布,通过求标准正态分布区间(u1,u2)所对应的面积来间接求得一般正态分布区间(x1,x2)所对应的面积。 当随机变量的参数和未知时,若来自该总体的样本含量n很大时,可分别用样本均数和样本标准差作为和的估计值来计算u值。,
《《统计描述》ppt课件-2》由会员tia****nde分享,可在线阅读,更多相关《《统计描述》ppt课件-2》请在金锄头文库上搜索。