应用统计学教案-统计整理.ppt
30页单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,第二节 统计整理,一、统计整理的意义,统计整理:,根据统计研究目的和任务,对调查阶段收集到的大量资料(原始或加工)进行科学分类汇总,为统计分析提供能描述现象总体数量特征资料的工作过程意义:,中间环节起承前启后的作用,统计调查的继续,统计分析的前提,二、统计整理的基本步骤,制定统计整理方案,对调查资料进行审核订正,数 据 处 理,编制统计表绘制统计图,统计整理,主要任务,资料审核、分组、,汇总、制表、制图等分组,频数分布,统计表,统计图,三、统计整理的基本方法统计分组,统计分组:,根据统计研究需要,将所有总体单位按一定统计标志分为若干个性质不同但有联系的部分相对总体是“分”,组间差异,相对个体是“合”,组内同质,作用:,划分社会经济现象类型,反映社会经济现象内部结构和比例关系,揭示社会经济现象间相互依存关系,特点:,原则:,科学性原则:,从研究目的出发,正确选择最能说明现象本质特征的分组标志,正确划定分组界限,保证组间差异、组内同质完备性原则:,任何一个总体单位或原始数据都能归属于某一个组,而不会遗漏在外。
互斥性原则:,任何一个总体单位或原始数据在一种统计分组中只能归属于某一个组,而不能归属于两个或两个以上的组方法:,简单分组,按一个标志分组如:工业企业按经济类型分组可分为国有、集体、私营、其他企业国有企业,集体企业,复合分组,按两个或以上标志多层次分组如:按经济类型分:,按规模分:,大型企业,中型企业,小型企业,大型企业,中型企业,小型企业,分组标志的选择与分组形式,关键:服从研究任务需要,反映总体本质特征,形式,按分组标志性质分,品质标志分组,数量标志分组,按分组标志个数分,简单分组,复合分组,分组体系,四、统计整理结果的表现形式(,1,234,),分布数列,将总体各单位按一定标志分成若干组,列出各组总体单位数(次数/频数)或各组总体单位数在总体中所占的比重(频率),排列而成的数列称为分布数列(分配数列、次数分布、频数分布)意义,反映总体单位在各组间分布状况表明总体内部构成、平均水平及变异程度频数分布(分布数列),是一种重要的分组资料,反映总体单位在各组的,分布状态基本形式:,分组,单位数,频率,合计,100,频数分布,频率分布,分类,品质数列,变量数列,单项数列,组距数列,等距数列,异距数列,例,例,例,例,变量数列的编制,1计算极差,2确定形式,单项数列:离散型且取值不多。
组距数列:离散型且取值多或连续型3组距数列:组距;组数;,4计算各组频数,频率,累计频数,累计频率等5组中值的计算:闭口组;开口组,统计表,构成,总表题,横行标题:统计研究的对象也称主词纵栏标题:说明主词的指标名也称宾词数字资料,分类,主词,简单表,分组表,复合表,宾词,平行形式,交叉形式,编制规则:,分布数列基本要素,标志及标志表现,各组频数或频率,按标志性质分类:,品质分布数列,(表1),变量分布数列,(表2),表1 某市2000年工业企业构成表,经济类型,单位数(个),比重(%),国有企业,集体企业,其他企业,942,4892,132,15.79,82.00,2.21,合 计,5966,100.00,分类,表2 某企业三月份工人日产量表,日产量(件),工人人数(人),比重(%),3,4,5,6,7,10,15,30,40,20,8.7,13.0,26.1,34.8,17.4,合 计,115,100.0,变量分布数列按各组变量值多少及取值范围:,单项数列,(,表2,),组距数列,(表3),表3 某县2001年家庭平均收入表,家庭年收入(元),户数(户),比重(%),6000,元以下,60007000,70008000,80009000,900015000,15000元以上,3410,4360,2890,1440,650,630,25.5,32.6,21.6,10.8,4.8,4.7,合 计,13380,100.0,组距数列按各组组据是否相等:,等距数列,(表4),异距数列,(,表3,),表4,某班第二学期统计学成绩表,成绩(分),人数(人),比重(%),5060,6070,7080,8090,90100,2,4,9,11,4,6.7,13.3,30.0,36.7,13.3,合 计,30,100.0,组距数列基本概念,组限,各组两端变量值,上限,各组最大值,下限,各组最小值,组距,各组上下限之差,全距,数列中最大变量值与最小变量值之差,组中值,各组上下限和的一半,开口数列,闭口数列,开口组,开口组组距,开口组组中值,首末两组上下限齐全的数列,首组缺下限或末组缺上限,上限或下限不齐的组,以相邻组距近似代替,上限-邻组组距/2,(缺下限),下限+邻组组距/2,(缺上限),组距数列的编制,1、按数值大小顺序排列,2、确定组数、组限和组距,组数不宜过多也不宜过少,组限和组距确定要体现组与组间质的区别,要体现组内同质组间差异,3、,连续型变量,邻组上下限必须重叠,离散型变量,邻组上下限可重叠也可不重叠,组限重叠时,按“上组限不在内”原则,达到上限值的单位数计入下一组,4、可等距、可异距,累计分布数列,各组频数或频率逐组累计相加,表明总体在某一标志值的水平上总共包含的频数或频率。
如:,表4,中,成绩不到80分的有多少?80分以上的有多少?,向上累计,变量值小的组向变量值大的组逐组累计,表明各组上限以下总共包含的频数或频率,向下累计,变量值大的组向变量值小的组逐组累计,表明各组下限以上总共包含的频数或频率,(见表5),表5 某班第二学期统计学成绩表,成绩,人数,比重(%),人数,比重(%),5060,6070,7080,8090,90100,2,6,15,26,30,6.7,20.0,50.0,86.7,100.0,30,28,24,15,4,100.0,93.3,80.0,50.0,13.3,合计,向上累计,向下累计,统计表,将统计调查得来的数据资料经过整理汇总,按一定结构顺序系统排列在一定表格内,此表格即统计表分类:,按用途不同,调查表,整理表,分析表,(原始数据),(分布数列),(指标分析),按分组情况,简单表,(,表6、7,),简单分组表,(,表8,),复合分组表,(,表9,),表6 某公司所属企业2000年产值表,企 业 名 称,产值(万元),甲,乙,:,1 000,1 300,:,合 计,:,表7 我国近年地方财政收入统计表,年 份,财政收入(万元),1995,1996,:,2 985.6,3 746.9,:,合 计,:,表8 某班学生按性别分组统计表,性 别,人 数(人),男,女,30,28,合 计,58,表9 2000年某市工业企业总产值,工 业 企 业,总产值(万元),一、国有企业,大型,小型,二、集体企业,大型,小型,:,9 500,8 350,8 590,6 570,:,合 计,:,统计表的结构,表10 1997年我国三大产业总产值,产业,总产值(亿元),比重(%),第一,第二,第三,13 969,36 770,24 033,18.7,49.2,32.1,合计,74 772,100.0,总标题,横行标题,纵栏标题,数字资料,主词,宾词,统计表编制规则,1、标题应简明确切,总标题应注明具体时间空间;,2、必须注明计量单位,全表只有一种计量单位时在表的右上方;需分别注明计量单位时,横行的专设“计量单位”一栏,纵栏的与纵栏标题在一起;,3、数字为0或忽略不计的要以“0”表示;无数字的要以“”表示;缺乏资料的以“”表示;,4、表式一般是开口式,统计图,用统计图形表示分布数列。
分类:,按形状,直方图:,折线图:,曲线图:,钟型分布,U 型分布,J 型分布,横轴为组限,纵轴为频数,直方图各长方形顶端中点连线,向上累计,从首组下限起,各组累计频数落在各组上限,向下累计,从末组上限起,各组累计频数落在各组下限,极限描绘曲线,统计图,直方图,等距数列:(变量,频数),异距数列:(变量,频数密度),折线图,曲线图,等距数列:(组中值,频数),异距数列:(组中值,频数密度),单项数列:(变量,频数),向上累计分布:(变量上限,累计频数),向下累计分布:(变量下限,累计频数),变量的组数无限增多时,折线,便趋于一条光滑的曲线五、统计误差,统计误差,:,统计数据与客观事物实际数值之间的差距分类:,按误差来源,登记性误差,代表性误差,按误差性质,偶然性误差,系统性误差,按产生原因,无意误差,有意误差,统计误差大部分由主观因素造成,可通过主观努力控制并消除;抽样误差是代表性误差中的偶然误差或称随机误差,不能消除,但可事先计算并控制。





