
社会经济统计学第3章统计数据的整理与显.ppt
27页第3章 统计数据的整理与展示 3.1 统计数据整理概述 3.2 统计分组 3.3 次数分布 3.4 统计整理数据的显示3.1 统计数据整理概述一、统计整理的含义:对原始统计数据进行加工汇总,使之系 统化、条理化、科学化、反映数据分布规律的工作过程三、统计整理的意义:统计调查的继续,统计分析的前提四、统计数据的审核:统计数据的检查和处理 1、完整性审核 2、准确性审核:逻辑检查;计算检查 3、适用性和时效性审核(二手数据)二、统计整理的内容:审核;分组;汇总加工;编制图表;系统积累3.2 统计分组一、统计分组的概念与原则1、概念:按照某个或若干标志将总体划分为若干部分;其中每个部分成为组 例如,按照性别,人口可以分为男、女两组2、原则:(1)组间差异性(分)、组内同质性(合);(2)互斥原则、穷尽原则二、统计分组的作用 1、划分现象类型; 2、揭示现象内部的结构; 3、研究现象之间的数量依存关系三、分组标志的选择 1、根据研究目的选择; 2、选择最能反映现象本质特征的标志; 3、根据现象所处的具体历史条件或经济条件选择四、统计分组的分类 1、按分组标志类型:品质标志分组;数量标志分组。
2、按分组标志数量和排列方式:简单分组;复合分组;平行分组男女90 以上男女80 — 90男女70 — 80男女60 — 70男女60 以下男女90 以上80 — 9070 — 8060 — 7060 以下3.3 次数分布一、次数分布的概念和构成要素1、概念:分组及总体中各单位在各组间的分布(次数)按一定顺序形成的排列,也称为次数分布数列,简称分布数列2、要素:分组;次数按性别分组次数(频数)男30女20合计50频率(%)6040100次数分布表二、次数分布数列的分类 1、品质分布数列 2、变量分布数列(1)离散型: 单项、组距(等距、不等距);(2)连续型: 等距、不等距单词按字母数分组单词数0 — 2183 — 5146 — 8159 — 11212 — 141合计50学生按成绩分组学生人数50 — 60560 — 701370 — 801880 — 901290 — 1002合计50工人平均日产量(件)工人人数1521331841252合计50人口按年龄分组人口数(万人)1岁以下11— 7岁67 — 17岁1217 — 55岁24.655以上8.1合计51.7单项数列 等距数列 不等距数列 三、组距数列的编制 1、基本概念(1)组限 组的最小值(下限); 组的最大值(上限);(2)组距 = 上限 - 下限(组限重叠) 组距 = 相邻两组限之差(组限重叠、不重叠)(3)组中值 闭口组:组中值 = (下限 + 上限)/ 2 缺下限:组中值 = 该组上限 – 相邻组组距 / 2 缺上限:组中值 = 该组下限 + 相邻组组距 / 2学生按成绩分组学生人数60以下560 — 701370 — 801880 — 901290以上2合计502、编制步骤(以等距数列为例)(1)排序,计算全距: 全距 = 最大值 – 最小值; 例,全距 = 99 – 56 = 43; (2)确定组数K,计算组距 d : 组数根据数据多少、经验、 习惯等确定,5 — 20 组; 组距 = [ 全距 / 组数 ] 的调整; 例,K = 5 , [ 43 / 5 ] = 9, 取 d =10; 8988769974608260898693999482777997789592878479659867597284855681777365668363797056596060636565666770727374767777787979798182828384848586878889899293949597989999某班40位同学统计学成绩(3)确定组限: 最小组下限小于等于最小值; 最大组上限大于等于最大值; 组限选方便的数或 引起事物质变的界限; 连续型变量分组组限重叠; 离散型变量分组组限不重叠; 56596060636565666770727374767777787979798182828384848586878889899293949597989999某班40位同学统计学成绩(4)计算频数,编制变量数列: 56596060636565666770727374767777787979798182828384848586878889899293949597989999某班40位同学统计学成绩按成绩分组人数比重(%)50 —602560 — 70717.570 — 801127.580 — 90123090 — 100820合计40100某班学生统计学成次数分布表3、组距数列编制原则(1)适合于连续变量或离散变量取值较多场合;(2)组数根据数据多少、经验、习惯等确定,5 — 20 组;(3)组距或组限使用方便的数,或体现质变的临界值;(4)数据分布均匀,使用等距分组;不均匀,使用不等距分组; 根据需要拆分、合并组,或使用开口组;(5)连续型变量分组组限重叠,上限不在本组内; (不重不漏)(6)离散型变量分组组限不重叠,下限、上限都在本组内;(7)频数合计与原始数据个数相等。
【【例例】】某50名居民月纯收入资料如下表所示,试对数据进行分组,并编制次数分布表 1500356012801480193046074018501710132015501140169022302400210015701200190022005801850160027501670250026004000500290068010502300335014201870200085013601750182010001240175016302000165011901730310046085012001420160017101850200023002900500100012401480163017301850200024003100580105012801500165017501870210025003350680114013201550167017501900220026003560740119013601570169018201930223027504000解:(1)排序,计算全距:R = 4000 – 460 = 3540; (2)确定组数,计算组距: 取 K = 9,则 [ 3540 / 9 ] = 392,故取 d = 400; (3)确定组限:400 - 800, 800 – 1200,1200 – 1600, 1600 – 2000,2000 – 2400, 2400 – 2800, 2800 – 3200, 3200 – 3600, 3600 – 4000; 46085012001420160017101850200023002900500100012401480163017301850200024003100580105012801500165017501870210025003350680114013201550167017501900220026003560740119013601570169018201930223027504000(4)计算频数, 编制变量数列, 并形成次数分布表: 按收入分组人数比重(%)400 — 800510800 — 12005101200 — 160010201600 — 200015302000 — 24006122400 — 2800482800 — 3200243200 — 3600243600 — 40001261211221836918481246085012001420160017101850200023002900500100012401480163017301850200024003100580105012801500165017501870210025003350680114013201550167017501900220026003560740119013601570169018201930223027504000(5)调整:组的合并、拆分与重组。
按收入分组人数比重(%)400 — 800510800 — 12005101200 — 160010201600 — 200015302000 — 24006122400 — 2800482800 — 3200243200 — 3600243600 — 400012按收入分组人数比重(%)400 — 10001000 — 15001500 — 20002000 — 28002800 — 32003200 — 4000不等距变量数列 【【课课堂堂练练习习】】某车间同工种的40名工人完成个人生产定额百分数如下: 9788123115119158112146117108105110107137120136125127142118103871151141171241291381001039295113126107108105119127104试根据上述资料,编制变量分配数列3.4 统计整理数据的显示一、统计图 1、直方图工人按加工零件数分组人数80 — 90390 — 1007100 — 11013110 — 1205120 — 1302合计30某车间工人加工零件数直方图2、折线图某车间工人加工零件数直方图零件数工人数频率密度次数分布的主要类型对称分布对称分布对称分布右偏分布右偏分布右偏分布左偏分布左偏分布左偏分布正正正J J J型分布型分布型分布反反反J J J型分布型分布型分布U UU型分布型分布型分布3、累计次数分布工人按加工零件数分组人数较小制累计较大制累计80 — 90390 — 1007100 — 11013110 — 1205120 — 1302合计30某车间工人加工零件数累计次数分布表较小制累计较大制累计33010272320287302——某车间工人加工零件数累计次数分布图零件数累计工人数809010011012013005101520253035较小制累计较大制累计累计次数(或累计频率)的应用:洛伦茨曲线•20C初,美经济、统计学家洛伦茨根据意大利经济学家帕累托(V. Pareto)提出的收入分配公式绘制而成;•分析该国家或地区分配的平均程度。
AB累积的人口百分比累积的人口百分比 累累积积的的收收入入百百分分比比 •20C初,意经济学家基尼(G. Gini):基尼系数G = A / A + B;•基尼系数小于0.2,表明分配平均;•基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;•基尼系数在0.4为警戒线,超过了0.4应该采取措施缩小这一差距 AB二、统计表1、形式构成:总标题、横行标题、纵列标题、数值资料;2、内容构成:主词、宾词;按经济类型分组工业企业数增加值(亿元)国有企业1362238集体企业1958105中外合资6486其他企业3580合计34195092009年某市各类工业企业的增加值 主词(总体分组或总体单位) 宾词(指标及其数值)3、分类:简单表、分组表、复合表按经济类型分组工业企业数增加值(亿元)国有企业1362238集体企业1958105中外合资6486其他企业3580合计34195092009年某市各类工业企业的增加值地区GDP(亿元)北京1615.73天津1101.40上海2902.20湖北2970.20我国某年GDP。
