统计学基础 第2章 数据的图表展示 贾俊平编著课件
数据分析(方法与案例),作者 贾俊平,统计学基础,Fundamental Statistics,第 2 章 数据的图表展示,2.1 数据的预处理 2.2 品质数据的整理与展示 2.3 数值型数据的整理与展示 2.4 合理使用图表,Display,学习目标,数据预处理的内容和目的 分类和顺序数据的整理与显示方法 数值型数据的整理与显示方法 用Excel作频数分布表和形图 合理使用图表,2012年,2.1 数据的预处理 2.1.1 数据审核 2.1.2 数据排序 2.1.3 数据筛选 2.1.4 数据透视表,第 2 章 数据的图表展示,2.1.1 数据审核,2.1 数据的预处理,数据审核原始数据(raw data),完整性审核 应调查的单位或个体是否有遗漏 所有的调查项目或变量是否填写齐全 准确性审核 数据是否有错误 数据是否存在异常值,2012年,数据的审核二手数据(second hand data),适用性审核 弄清楚数据的来源、数据的口径以及有关的背景材料 确定数据是否符合自己分析研究的需要 时效性审核 尽可能使用最新的数据,2012年,2.1.2 数据排序,2.1 数据的预处理,数据排序,分类数据的排序 字母型数据,排序有升序降序之分,但习惯上用升序 汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分 数值型数据的排序 递增排序:设一组数据为x1,x2,xn,递增排序后可表示为:x(1)x(2)x(n),2012年,2.1.3 数据筛选,2.1 数据的预处理,数据筛选(data filter),当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选 数据筛选的内容 将某些不符合要求的数据或有明显错误的数据予以剔除 将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除,2012年,用Excel进行数据筛选,8名学生的考试成绩数据,数据筛选(data filter),【例2.1】8名学生4门课程的考试成绩数据。找出统计学成绩等于75分的学生,英语成绩最高的前3名学生,4门课程成绩都大于70分的学生,2012年,2.1.4 数据透视表,2.1 数据的预处理,数据透视表(pivot table ),可以从复杂的数据中提取有用的信息 可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图 形成一个符合需要的交叉表(列联表) 在利用数据透视表时,数据源表中的首行必须有列标题,2012年,数据透视表(pivot table ),【例2.2】在某大学随机抽取30名学生,调查他们的性别、家庭所在地、平均月生活费支出、平均每月购买衣物支出和购买衣物时所考虑的首要因素等,得到的数据如表24所示。试建立一个数据透视表,在表的行变量中给出性别和购买衣物首选因素,在列变量中给出学生的家庭所在地,对平均月生活费支出和月平均购买衣物支出进行交叉汇总。,2012年,数据透视表(用Excel创建数据透视表),第1步:在Excel工作表中建立数据清单 第2步:选中数据清单中的任意单元格,并选择【数据】菜单 中的【数据透视表和数据透视图】 第3步:确定数据源区域 第4步:在【向导3步骤之3】中选择数据透视表的输出位置 。然后选择【布局】 第5步:在【向导布局】对话框中,依次将”分类变量“拖至 左边的“行”区域,上边的“列”区域,将需要汇总的“变 量” 拖至“数据区域” 第6步:然后单击【确定】,自动返回【向导3步骤之3】对 话框。然后单击【完成】,即可输出数据透视表, 用Excel创建数据透视表,2012年,2.2 品质数据的整理与展示 2.2.1 分类数据的整理与图示 2.2.2 顺序数据的整理与图示,第 2 章 数据的图表展示,数据的整理与显示(基本问题),要弄清所面对的数据类型 不同类型的数据,采取不同的处理方式和方法 对分类数据和顺序数据主要是作分类整理 对数值型数据则主要是作分组整理,2012年,2.2.1 分类数据的整理与图示,2.2 品质数据的整理与展示,分类数据的描述统计量,频数(frequency) :落在某一特定类别(或组)中的数据个数 频数分布(frequency distribution):数据在各类别(或组)中的分配 比例(proportion) :某一类别数据个数占全部数据个数的比值 百分比(percentage) :将对比的基数作为100而计算的比值 比率(ratio) :不同类别数值个数的比值,2012年,生成频数分布表(分类数据),1.列出各类别,3. 生成频数分布表,2012年,生成频数分布表(定性数据),【例2.3】为研究不同类型的软饮料的市场销售情况,一家市场调查公司对随机抽取的一家超市进行调查。下面的表21是调查员随机观察的50名顾客购买的饮料类型及购买者性别的记录。生成频数分布表,观察饮料类型和消费者性别的分布状况,并进行描述性分析,制作频数分布表,Excel,2012年,使用Excel数据透视表计数 (pivot table),第1步:选择【数据】菜单中的【数据透视表和数据透视图】 第2步:确定数据源区域(在操作前将光标放在任意数据单元格 内,系统会自动选定数据源区域) 第3步:在【向导3步骤之3】中选择数据透视表的输出位 置,然后选择【布局】 第4步:在【向导布局】对话框中,依次将“饮料类型”拖至左 边的“行”(或列)区域,将“顾客性别”拖至 “列”(或 行)区域,将“饮料类型”拖至“数据”区域。 第5步:单击【确定】,自动返回【向导3步骤之3】对话 框。单击【完成】,用数据透视表生成分类数据的频数分布,Excel,2012年,生成频数分布表(列联表Excel),不同类型饮料和顾客性别的频数分布,绿色 健康饮品,2012年,分类数据的图示条形图(bar Chart),用宽度相同的条形的高度或长短来表示数据多少的图形 条形图纵置时也称为柱形图(column chart) 条形图分为简单条形图、复式条形图,2012年,分类数据的图示复式条形图(bar Chart),饮料类型和顾客性别的条形图 (SPSS的输出),2012年,分类数据的图示帕累托图(pareto chart),按各类别数据出现的频数多少排序后绘制的柱形图 用于展示分类数据的分布,2012年,分类数据的图示简单饼图 (pie Chart),用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例用于研究结构问题,2012年,2.2.2 顺序数据的整理与图示,2.2 品质数据的整理与展示,顺序数据的整理(可计算的统计量),1. 累积频数(cumulative frequencies):将各有序类别或组的频数逐级累加起来得到的频数 2. 累积频率(cumulative percentages):将各有序类别或组的的百分比逐级累加起来,2012年,顺序数据的频数分布表(例题分析),【例2.4】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?” 1非常不满意;2不满意;3一般;4满意;5非常满意。,2012年,顺序数据的频数分布表 (例题分析),2012年,顺序数据的图示累计频数分布图 (例题分析),甲城市家庭对住房状况评价的累积频数分布,2012年,环形图(doughnut chart),与饼图类似,但又有区别 环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示;饼图中间是“实心”的 环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环;饼图只能显示一个总体或样本各部分所占的比例;用于结构比较研究,2012年,环形图 (例题分析),2012年,2.3 数值型数据的整理与展示 2.3.1 数据分组 2.3.2 数值型数据的图示,第 2 章 数据的图表展示,2.3.1 数据分组,2.3 数值型数据的整理与展示数据,2012年,数据分组与分组数据,数据分组:根据统计分析的需要,将原始数据按照某种标准划分成不同的组别 分组数据:分组后的数据,数据分组的方法,分组方法,2012年,单变量值分组(要点),定义:将每一个变量值作为一组 适合于离散变量 适合于变量值较少的情况,2012年,组距分组 (几个概念),1.组距分组:将全部变量值依次划分为若干个区 间,并将这一区间的变量值作为一组 2.下限(low limit) :一个组的最小值 3.上限(upper limit) :一个组的最大值 4.组距(class width) :上限与下限之差 5.等距分组:各组组距相等 6.不等距分组:各组组距不相等,如:人口年龄 7.组中值:下限与上限之间的中点值,2012年,组距分组 (步骤),1.确定组数 5K15 2.确定各组的组距 等距分组:组距=(最大值-最小值)组数 为便于计算,组距宜取5或10的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值 3.计算各组的频数,形成频数分布表 遵循“不重不漏”的原则,即每个组的数据满足ax<b(上限值不在内) 注:Excel的计数规则是a<xb,2012年,频数分布表的编制(例题分析),【例2.5】某电脑公司2005年前四个月各天的销售量数据(单位:台)。试对数据进行分组,2012年,等距分组表(上下组限重叠),2012年,等距分组表(上下组限间断),2012年,等距分组表(使用开口组),2012年,2.3.2 数值型数据的图示,2.3 数值型数据的整理与展示数据,分组数据直方图(histogram),用于展示分组数据分布的一种图形 用矩形的宽度和高度来表示频数分布 本质上是用矩形的面积来表示频数分布 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图,2012年,分组数据的图示(直方图的绘制),某电脑公司销售量分布的直方图,我一眼就看出来了,销售量在170180之间的天数最多!,2012年,分组数据直方图(直方图与条形图的区别),条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义 直方图的各矩形通常是连续排列,条形图则是分开排列 条形图主要用于展示分类数据,直方图则主要用于展示数值型数据,2012年,未分组数据茎叶图(stem-and-leaf plot),用于显示未分组的原始数据的分布 由“茎”和“叶”两部分构成,其图形是由数字组成的 以该组数据的高位数值作树茎,低位数字作树叶 树叶上只保留最后一位数字 5. 茎叶图类似于横置的直方图,但又有区别 直方图可观察一组数据的分布状况,但没有给出具体的数值 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息 直方图适用于大批量数据,茎叶图适用于小批量数据,2012年,未分组数据茎叶图(例题分析),某电脑公司销售量分布的茎叶图,2012年,未分组数据茎叶图(扩展的茎叶图),2012年,未分组数据箱线图(box plot),用于显示未分组的原始数据的分布 箱线图是由一组数据的最大值(maximum)、最小值(minimum)、中位数(median)、两个四分位数(quartiles)这5个值绘制而成的 中位数是一组数据排序后处于中间位置上的变量值 四分位数是一组数据排序后处在数据25%位置和75%位置上的两个分位数值 绘制方法 首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU) 连接两个四分位数画出箱子,再将两个极值点与箱子相连接,2012年,未分组数据箱线图(箱线图的构成),中位数,