好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

统计学 统计数据的描述.ppt

147页
  • 卖家[上传人]:工****
  • 文档编号:590369599
  • 上传时间:2024-09-13
  • 文档格式:PPT
  • 文档大小:1.88MB
  • / 147 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 统计学统计学第2章   统计数据的描述 第第1章章 回顾回顾l知识点l统计学内涵l统计学概念及含义l要求l掌握统计学的涵义l了解统计学产生与发展l掌握统计学几个概念是一门收集、整理、是一门收集、整理、显示和分析统计数据显示和分析统计数据的科学,其目的是探的科学,其目的是探索数据内在的规律性索数据内在的规律性•总体•变量•样本•参数•统计量 第第2章章 统计数据的描述统计数据的描述l2.1数据的计量尺度l2.2统计数据的来源l2.3统计数据的质量l2.4统计数据的整理l2.5分布集中趋势的测度l2.6分布离散程度的测度l2.7分布偏态与峰度的测度l2.8茎叶图与箱线图l2.9统计表与统计图数据整理数据分析数据显示结果 2.1 数据的计量尺度一、列名尺度一、列名尺度二、顺序尺度二、顺序尺度三、间隔尺度三、间隔尺度四、比率尺度四、比率尺度 2.1 数据的计量尺度数据的计量尺度l分类方法(4种计量尺度):列名尺度、顺序尺度、间隔尺度和比例(率)尺度列名尺度列名尺度顺序尺度顺序尺度间隔尺度间隔尺度比例尺度比例尺度精精确确程程度度良好良好19801980134134公斤公斤休斯顿火箭休斯顿火箭俱乐部:健康状况:出生年份:体重: 1、列名尺度列名尺度(Nominal Scale)l例如:性别、民族、职业l数据表现为“类别” l各类之间无等级次序 l各类别可以用数字代码表示l根据列名尺度得到的数据为分类数据。

      2、顺序尺度(Ordinal Scale)l例如健康状况、质量等级l数据表现为“类别”l可对等级、大小等排序l未测量出类别之间的准确差值l根据顺序尺度得到的数据为顺序数据 3、间隔尺度   Interval Scalel例如年份、摄氏温度l数据表现为“数值”l可以进行加减运算l“0”是只是尺度上的一个点,不代表“不存在”l根据间隔尺度得到的数据为间隔数据 4、比例尺度  Ratio Scalel例如体重、身高l数据表现为“数值”l可以进行加减、乘除运算l“0”表示“没有”或“不存在”l根据比例尺度得到的数据为比例数据 间隔尺度与比例尺度的区别间隔尺度中“0”表示一个具体数值,不表示“没有”或“不存在”,比例尺度中“0”表示“没有”或“不存在” 间隔尺度间隔尺度  - 273.15℃℃ -123.15 ℃℃ 0 ℃℃ 26.85℃℃比例尺度比例尺度 0KM 150KM 300KM 课堂练习下列数据中哪些采用了间隔尺度?下列数据中哪些采用了间隔尺度?海拔海拔88488848米米 960960万平方公里万平方公里 100100元元 北纬北纬3838度度 四种计量尺度的比较四种计量尺度的比较l1、四种尺度所包含的信息量是依次递增的。

      l2、根据较高层次的计量尺度可以获得较低层次的计量尺度 四种计量尺度的比较:数学性质四种计量尺度的比较:数学性质“√”表示该尺度所具有的特性四种计量尺度的比较四种计量尺度的比较列名尺度列名尺度 顺序尺度顺序尺度 间隔尺度间隔尺度 比例尺度比例尺度 分分类( = ,,≠ ) 排序排序( < ,,> ) 间距距( + ,,- ) 比比值( × ,,÷ ) √√ √√ √ √√ √ √ √ 数据和变量类型数据的类型数据的类型分类数据顺序数据定性数据定量数据间隔数据比例数据品质变量AttributeCategorical数量变量Numerical变量类型 变量的类型 l变量变量是用来描述现象某种令人感兴趣的特是用来描述现象某种令人感兴趣的特征的概念征的概念l品质变量品质变量是描述现象有关属性特征的变量,本是描述现象有关属性特征的变量,本质上不能用数字来表示例如性别质上不能用数字来表示例如性别l数量变量数量变量是描述现象有关数量特征的变量,都是描述现象有关数量特征的变量,都是用数字来表示的例如人数,年龄等是用数字来表示的例如人数,年龄等l离散型变量离散型变量指的是有限个数值或诸如指的是有限个数值或诸如0,,1,,2……之之类无限可列值的变量。

      类无限可列值的变量 l如果某一变量可以取某一区间或多个区间中任意数值,如果某一变量可以取某一区间或多个区间中任意数值,则该变量称为则该变量称为连续型变量连续型变量 2.1 例子例子l请判断下列数据分别属于什么类型?l灯炮使用寿命l将产业划分为三类l广州市8月份各天的气温记录l将服务质量分为五个等级:好、较好、一般、差、较差分类数据顺序数据比例数据间隔数据 2.2 统计数据的来源一、间接获取的数据一、间接获取的数据 二、直接获取的数据二、直接获取的数据 间接取得的数据间接取得的数据 间接取得的数据间接取得的数据InternetInternethttp//http//WWW.WWW.中国统计年中国统计年中国统计年中国统计年鉴鉴鉴鉴20012001中中中中国国国国人人人人口口口口统统统统计计计计年年年年鉴鉴鉴鉴中中中中国国国国市市市市场场场场统统统统计计计计年年年年鉴鉴鉴鉴世世世世界界界界发发发发展展展展报报报报告告告告世世世世界界界界经经经经济济济济年年年年检检检检工工工工业业业业普普普普查查查查数数数数据据据据中国统计出版社1.统计部门和政府部门公布的有关资料,如各类统计年鉴2.各类经济信息中心、信息咨询机构、专业调查机构等提供的数据3.各类专业期刊、报纸、书籍所提供的资料4.各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料5.从互联网或图书馆查阅到的相关资料  提供统计数据的部分政府网站提供统计数据的部分政府网站中国政府及相关机构中国政府及相关机构 网址网址数据内容数据内容国家统计局统计年鉴、统计月报等国务院发展研究中心信息网宏观经济、财经、货币金融等 中国经济信息网经济信息及各类网站华通数据中心国家统计局授权的数据中心中国决策信息网决策知识及案例三农数据网三农信息、论坛及相关网站 提供统计数据的部分政府网站提供统计数据的部分政府网站美国政府机构美国政府机构 网址网址数据内容数据内容人口普查局http://www.census.gov人口和家庭等联邦储备局http://www.bog.frb.fed.us货币供应、信誉、汇率等预算编制办公室http://www.whitehouse.gov/omb财政收入、支出、债券等商务部http://www.doc.gov商业、工业等 直接取得的数据直接取得的数据 普查普查(census) 1.为特定目的专门组织的非经常性全面调查2. 通常是一次性或周期性的3. 一般需要规定统一的标准调查时间4. 数据的规范化程度较高5. 应用范围比较狭窄总体总体 抽样调查抽样调查(sampling survey) l1. 从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法 总体总体总体总体随机样本随机样本随机样本随机样本 2. 具有经济性、时具有经济性、时 效性强、适应面广、效性强、适应面广、准确性高等特点准确性高等特点 2.3数据的质量数据的质量l非抽样误差:由于调查过程中各有关环节工作失误造成的。

      l调查方案有关规定或解释不明确导致填报错误、抄录错误、汇总错误、不完整抽样框导致的误差,调查中不回答产生的误差l人为干扰:隐瞒、虚报l从理论上看,这类误差可以避免l加强培训l掌握获取完整抽样框的方法,科学抽样的方法与技术l抽样误差:利用样本推断总体时产生的误差l不可避免l可以计量、可以控制抽样框全部总体单元或范围 2.3 统计数据的质量 数据的误差数据的误差 抽样误差抽样误差(sampling error)1.由于抽样的随机性所带来的误差 2.所有样本可能的结果与总体真值之间的平均性差异 3.影响抽样误差大小的因素l样本容量的大小l总体的变异性 非抽样误差非抽样误差(non-sampling error)1.相对于抽样误差而言2.除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异3.存在于所有的调查之中4.有抽样框误差、回答误差、无回答误差、调查员误差、测量误差 数据来源与数据质量数据来源与数据质量l1936年,罗斯福和兰登竞选总统《文学摘要》调查了240万人,预测兰登以57%对43%获胜;Gallup(盖洛普)调查了50000人,结论是罗斯福以56%获胜实际结果是罗斯福以62%获胜。

      l1952年至1988年,Gallup公司在每次调查中只抽取3439至8144人,实际预测误差在0.2至4.4 个百分点之间 数据来源与数据质量数据来源与数据质量l第二次世界大战期间,美国国家民意调查中心(The National Opinion Research Center)派两组调查人员对一个南方城市的500名黑人进行提问,一组调查人员由白人组成,另一组由黑人组成 3个问题:l问题一:“如果日本占领美国,你认为黑人的境况会得到改善还是变得更糟?”l黑人调查组中,9%的被调查者回答“变好” ,25%回答“变坏”;l白人调查组中, 2%回答“变好”,45%回答变坏l问题二:用“纳粹分子”代替“日本”,两组的结果大体相同l问题三: “你认为目前致力于打败轴心国比在本国内进一步推进民主更重要吗?”l黑人调查组中,选择“打败轴心国”的比例是39%,l而白人调查组则是62%l是什么原因造成了调查结果的差异呢?  误差的控制误差的控制1.抽样误差可计算和控制2.非抽样误差的控制l调查员的挑选l调查员的培训l督导员的调查专业水平l调查过程控制l调查结果进行检验、评估l现场调查人员进行奖惩的制度 2.4 统计数据的整理一、统计数据的分组一、统计数据的分组 二、次数分配二、次数分配三、次数分配直方图三、次数分配直方图 四、洛伦茨曲线四、洛伦茨曲线 统计数据的分组统计数据的分组 2.4数据的整理数据的整理——统计数据的分组统计数据的分组l按照统计研究目的,将数据分别列入不同的组内。

      l按品质标志分组:列名尺度和顺序尺度l按数量标志分组:间隔尺度和比例尺度 2.4 数据的整理数据的整理——次数分配次数分配l次数分配是观察值按其分组标志分配在各组内的次数分组目的:找出数据分布的规律l步骤:l分多少组?确定组数l每一组的范围?确定组距=(Max.-Min.)/组数l等组距分组、不等组距分组l开口组l经验:组数不少于5组,也不应多于15组l原则:“不重不漏”、上组限(一个组的最大值)不在内l累积次数分配l向下累积:由表的上方向表的下方累加l向上累积:由表的下方向表的上方累加 组距分组组距分组 (步骤步骤)1. 确定组数:组数的确定应以能够显示数据的分布特征和规律为目的2.  确定组距:组距(class width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即l组距=组距=( 最大值最大值 - 最小值最小值)÷ 组数组数3.统计出各组的频数并整理成频数分布表     频数(frequency) :每个组中的数据个数,也称次数     频率(relative frequency) :频数/总数据个数 补充补充Sturges 提出的经验公式:分组组数K应满足其中n 为数据的个数(总体单位数或样本数),一般对结果取整数。

      组距分组组距分组 (几个概念几个概念)l1. 下限下限(low limit) ::一个组的最小值l2. 上限上限(upper limit) ::一个组的最大值l3. 组距组距(class width) ::上限与下限之差l4. 组中值组中值(class midpoint) ::下限与上限之间的中点值下限值下限值+上限值上限值2组中值组中值 = 次数分配表的编制次数分配表的编制(例题分析例题分析)【【【【例例例例】】】】某某车车间间3030名名工工人人每每周周加加工工某某种种零零件件件件数数如如右右表表试试对对 数数 据据 进进 行行分组   Max=128Min=84 频数分布表频数分布表Max=128Min=84(Max-Min)/5=(128-84)/5=8.8≈10上组限(一个组的最大值)不在内90、100、110、120这几个数究竟属于哪一组? 课堂练习:课堂练习:某月啤酒公司某月啤酒公司60个销售点的销量个销售点的销量l48 71 52 53 36 41 69 58 47 60 53 29   l41 72 81 37 43 58 68 42 73 62 59 44l51 53 47 66 59 52 34 49 73 29 47 16l39 58 43 29 46 52 38 46 80 58 51 67 l54 57 58 63 49 40 54 61 58 66 47 50l                                        单位:桶Max=81Min=16(Max-Min)/8=(81-16)/8=8.125≈9 啤酒销售量的频数分布•销售桶数销售桶数 销售点数销售点数 频率频率(%)•10—19 1 1.7•20—29 3 5.0•30—39 5 8.3•40—49 16 26.7•50—59 20 33.3•60—69 9 15.0•70—79 4 6.7•80—89 2 3.3• 合计合计 60 100.0频数/次数 次数分配直方图次数分配直方图Excel 直方图直方图 (histogram)1.在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图2.用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面面积积来表示各组的频数分布 分组数据的图示分组数据的图示(直方图的绘制直方图的绘制)某车间工人周加工零件直方图某车间工人周加工零件直方图某车间工人周加工零件直方图某车间工人周加工零件直方图 我我一一眼眼就就看看出出来来了了,,周周加加工工零零 件件 在在 100100~~110110之之 间间 的的 人人数最多数最多! ! 折线图折线图 (frequency polygon)1.折线图也称次数多边形图2.折线图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉3.折线图的两个终点要与横轴相交,具体的做法是l第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴lS直方图=S折线图,二者所表示的频数分布是一致的 分组数据的图示分组数据的图示(折线图的绘制折线图的绘制)SS直方图直方图直方图直方图=S=S折线图折线图折线图折线图某车间工人周加工零件折线图某车间工人周加工零件折线图某车间工人周加工零件折线图某车间工人周加工零件折线图 次数分布曲线次数分布曲线l次数分布曲线:当观察次数越多,组距越小且组数越多,所给出的折线图就会越光滑,然后直方图抹掉,就只剩一条光滑的曲线,用于反映数据或统计量的分布规律。

      l正态分布曲线l偏态曲线lJ形曲线lU形曲线 次数分配的类型次数分配的类型对称分布对称分布对称分布右偏分布右偏分布右偏分布左偏分布左偏分布左偏分布正正正J J J型分布型分布型分布反反反J J J型分布型分布型分布U UU型分布型分布型分布几种常见的频数分布几种常见的频数分布几种常见的频数分布几种常见的频数分布 洛伦茨曲线与基尼系数洛伦茨曲线与基尼系数 洛伦茨曲线洛伦茨曲线20世纪初美国经济学家、统 计 学 家 洛 伦 茨(M.E. Lorentz)根据意大利经济学家帕累托(V.  Pareto)提出的收入分配公式绘制而成描述了收入和财富分配性质的,这条曲线用于分析某国家或地区收入分配的公平程度  AB累积的人口百分比累积的人口百分比 累累积积的的收收入入百百分分比比 绝对公平线绝对公平线 基尼系数基尼系数1.20世纪初意大利经济学家基尼(G. Gini)根据洛伦茨曲线计算出一个数值,用这个统计指标可以衡量收入分配的平等程度2.A表示实际收入曲线与绝对平均线之间的面积3.B表示实际收入曲线与绝对不平均线之间的面积4.如果A=0,则基尼系数=0,表示收入绝对平均5.如果B=0,则基尼系数=1,表示收入绝对不平均6.基尼系数在0 和1之间取值AB<0.2,分配平均0.2~0.4,分析适当=0.4,警戒线>0.4,分配不公 洛伦茨曲线与基尼系数计算步骤:洛伦茨曲线与基尼系数计算步骤:假假设一个国家有一个国家有100100个人,个人,计算算这个国家的基尼系数分个国家的基尼系数分为下面下面四步:四步: 1.1.将将这100100人按收入从低往高排列,第一名是收入最低的,人按收入从低往高排列,第一名是收入最低的,第一百名是收入最高的;第一百名是收入最高的; 2.2.画一个画一个边长为一的正方形,并将左下角与右上角的一的正方形,并将左下角与右上角的对角角线相相连;; 3.3.依次依次计算前十名,前二十名,前三十名算前十名,前二十名,前三十名…………一直到前一直到前九十名所九十名所拥有的收入占整个有的收入占整个100100人的收入的比人的收入的比值;; 4.4.以正方形的左下角以正方形的左下角为原点,用水平原点,用水平边标记累累计人口,人口,垂直垂直边标记累累积的收入比,将在上面的收入比,将在上面计算出的累算出的累计收入比收入比值,,在正方形中在正方形中标出。

      然后,将出然后,将这些点同原点以及正方形的右上些点同原点以及正方形的右上角角连接,就可以得到一条曲接,就可以得到一条曲线 这条曲条曲线被称被称为洛洛伦茨茨曲曲线 基尼系数就是基尼系数就是对角角线与与洛洛伦茨茨曲曲线之之间的面的面积,与,与对角角线以下的三角形的面以下的三角形的面积之比 各国基尼系数的比较各国基尼系数的比较l美国 40.8% 英国 36.1% 法国 32.7% 俄罗斯 31.0% 韩 国 31.6% 德 国 30% 意大利 27.3% 匈牙利 26.9% 瑞典 25% 日 本 24.9%<0.2,分配平均0.2~0.4,分析适当=0.4,警戒线>0.4,分配不公 1978-2005中国基尼系数变化情况中国基尼系数变化情况 亚行揭露:中国基尼系数扩大到亚行揭露:中国基尼系数扩大到0.473,,己达到拉美平均水平,勇夺亚洲冠军己达到拉美平均水平,勇夺亚洲冠军l2007年8月8日,亚洲开发银行发表了《减少不平等,中国需要具有包容性的增长》的新闻稿并公布了《亚洲的分配不均》的研究报告l在22个纳入亚行研究范围的国家中,中国勇夺贫富差距之冠,在衡量分配不平等的两个常见指标中,收入最高的20%人口的平均收入与收入最低的20%人口的平均收入的比率,中国是11倍,高出其它国家一大截;l基尼系数,2004年中国的数值是0.4725,仅比尼泊尔的0.4730低微小,远远高于印度、韩国、台湾。

      l亚行指出,从1993到2004年,中国的基尼系数从0.407扩大到0.473,己达到拉丁美洲的平均水平,不得不让人怀念“公平的增长”的典范:韩国和台湾(地区) l贫富差距排名贫富差距排名l国家    最高20%人口收入/最低20%人口收入    基尼系数 l l中国                11.37倍                                 0.4725l尼泊尔             9.47倍                                  0.4730l菲律宾             9.11倍                                  0.4397l土库曼斯坦        8.33倍                                0.4302l泰国                  7.72倍                                 0.4196l马来西亚           7.7倍                                 0.4033l柬埔寨              7.04倍                                0.3805l斯里兰卡           6.83倍                               0.4018l越南                  6.24倍                               0.3708l台湾                   6.05倍                              0.3385l阿塞拜疆           5.95倍                               0.3650l哈萨克斯坦         5.61倍                              0.3383l印度                    5.52倍                              0.3622l印度尼西亚         5.52倍                              0.3430l韩国                   5.47倍                              0.3155l蒙古                  5.44倍                              0.3284l老挝                    5.4倍                               0.3463l塔吉克斯坦         5.14倍                              0.3263l亚美尼亚           5.08倍                              0.338l文莱                   5.03倍                              0.3408l巴基斯坦           4.46倍                              0.3118l吉尔吉斯           4.43倍                              0.303  2.5 分布集中趋势的测度一、一、众数(mode)二、二、中位数(median)三、四三、四分位数四、四、均值(mean)五、五、几何平均数(geometric mean)六、六、切尾均值(trimmed mean)七、众数、中位数和均值的比较七、众数、中位数和均值的比较 集中趋势集中趋势l常用的集中趋势的测度指标:l算术平均数l调和平均数l几何平均数l中位数l众数l集中趋势:一组数据向其中心值靠拢的倾向和程度。

      l集中趋势测度:寻找数据水平的代表值或中心值 众数众数 众数众数 Mo (mode)1.一组数据中出现次数最多的变量值2.适合于数据量较多时使用3.不受极端值的影响4.一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和数值型数据 众数众数(不惟一性不惟一性)l无众数无众数原始数据:       10    5    9   12    6    8一个众数一个众数原始数据:         6    5 9    8    5 5多于一个众数多于一个众数原始数据:      25   28 28 36   42 42 众数(众数(mode))Mol数据按大小顺序排队形成次数分配后,在统计分布中有明显集中趋势的数值l正态分布和一般偏态分布中,分布的最高峰点所对应的数值就是众数l是一种位置代表值 众数众数l对于分组数据来说,计算众数的近似公式为:其中:lL:表示众数所在组的下组限lΔ1:表示众数组次数与下一组次数之差lΔ2:表示众数组次数与上一组次数之差li:表示众数所在组的组距 众数的计算:分组资料众数的计算:分组资料* ,例子,例子l1、众数所在的组:80-90。

      l2、或者:众数等于众数所在组的组中值85成绩频数60以下360-70870-801280-901590以上4合计42 【例】【【例例】】一一家家市市场场调调查查公公司司为为研研究究不不同同品品牌牌饮饮料料的的市市场场占占有有率率,,对对随随机机抽抽取取的的一一家家超超市市进进行行了了调调查查调调查查员员在在某某天天对对5050名名顾顾客客购购买买饮饮料料的的品品牌牌进进行行了了记记录录,,如如果果一一个个顾顾客客购购买买某某一一品品牌牌的的饮饮料料,,就就将将这这一一饮饮料料的的品品牌牌名名字字记记录录一一次次 右边就是记录的原始数据右边就是记录的原始数据绿色绿色绿色绿色健康饮品健康饮品健康饮品健康饮品 例题分析结果例题分析结果MMo o=可口可乐=可口可乐=可口可乐=可口可乐用用Excel求出求出 Mo插入插入插入插入————函数函数函数函数 modemode 中位数中位数 中位数中位数 Me (median)1.排序后处于中间位置上的值MMe e50%50%2.不受极端值的影响不受极端值的影响3.主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能用于分类数据用于分类数据4.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即 中位数中位数 (位置的确定位置的确定)原始数据:原始数据:分组数据:分组数据: 数值型数据的中位数数值型数据的中位数【【例例】】 9个家庭的人均月收入数据原始数据原始数据: 1500  750  780  1080  850  960  2000  1250  1630排排 序序: 750  780  850   960  1080 1250 1500 1630  2000位位 置置:      1    2     3     4     5      6      7     8     9中位数中位数  1080 数值型数据的中位数数值型数据的中位数【【例例】】::10个家庭的人均月收入数据排排 序序: 660 750  780  850   960 1080  1250 1500 1630  2000位位 置置:      1   2    3     4     5 6      7     8     9     10   中位数的计算:分组资料中位数的计算:分组资料*l对分组资料的一种计算方法: 中位数的计算:例子中位数的计算:例子l根据考试成绩的数据计算考试成绩的中位数。

      42合合计42490以上以上381580-90231270-8011860-703360以下以下累计频数累计频数频频数数成成绩第第21个个数所在数所在的组的组分组数据:分组数据: 四分位数四分位数 四分位数四分位数 (quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响3.主要用于顺序数据,也可用于数值型数据,但不能用于分类数据L LMMU U25%25%25%25% 四分位数四分位数 (位置的确定位置的确定)原始数据:原始数据:分组数据:分组数据: 数值型数据的四分位数数值型数据的四分位数【【例例】】::9个家庭的人均月收入数据原始数据原始数据: 1500  750  780  1080  850  960  2000  1250  1630排排 序序: 750  780 850   960  1080  1250 1500 1630  2000位位 置置:      1    2 3     4     5      6      7 8     9 数值型数据的四分位数数值型数据的四分位数【【例例】】::10个家庭的人均月收入数据排排 序序: 660 750 780  850   960  1080  1250 1500 1630  2000位位 置置:      1   2 3     4     5     6      7     8 9     10  位置 2 2.75 3 数值 750 7800.75×(780-750) 分位数分位数l与中位数性质相似。

      l四分位数、十分位数、百分位数l十分位数(Decile):  D1  D2 ………D9l百分位数(percentile):P1  P2  …………P99 均值均值 均值均值 (mean)1.集中趋势的最常用测度值2.一组数据的均衡点所在3.体现了数据的必然性特征4.易受极端值的影响5.用于数值型数据,不能用于分类数据和顺序数据 算术平均数算术平均数设设一组数据为:一组数据为:        x x1 1 ,,x x2 2 ,,… … ,,x xn n总体均值总体均值总体均值总体均值样本均值样本均值样本均值样本均值 加权均值加权均值 (weighted mean)设设一组数据为:一组数据为:        x x1 1 ,,x x2 2 ,,… … ,,x xn n相应的频数为:相应的频数为:          f f1 1 ,,   f f2 2 ,,… … ,,f fk k总体均值总体均值总体均值总体均值样本均值样本均值样本均值样本均值 加权均值加权均值 (例题分析例题分析)l    均值均值 (数学性质数学性质)l1. 各变量值与均值的离差之和等于零 2.  各变量值与均值的离差平方和最小 几何均值几何均值 几何均值几何均值 (geometric mean)1. n 个变量值乘积的 n 次方根2.适用于对比率数据的平均3.主要用于计算平均增长率4.计算公式为5. 5. 可看作是均值的一种变形可看作是均值的一种变形 几何均值几何均值 (例题分析例题分析)【【例例】】一位投资者购持有一种股票,在2000年、2001年、2002年和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。

      计算该投资者在这四年内的平均收益率是多少?算术平均:算术平均:算术平均:算术平均:   几何平均:几何平均:几何平均:几何平均: 切尾均值切尾均值 切尾均值切尾均值 (trimmed Mean)1.去掉大小两端的若干数值后计算中间数据的均值2.在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用3.计算公式为n n 表示观察值的个数;;α α表示切尾系数,, a=0, 切尾均值=算术平均数a1/2,切尾均值=中位数 切尾均值切尾均值 (例题分析例题分析)【【例例】】某次比赛共有11名评委,对某位歌手的给分分别是: 经整理得到顺序统计量值为经整理得到顺序统计量值为经整理得到顺序统计量值为经整理得到顺序统计量值为去掉一个最高去掉一个最高去掉一个最高去掉一个最高分和一个最低分和一个最低分和一个最低分和一个最低分,分,分,分,a a 取取取取1/111/11 众数、中位数和均值的比较众数、中位数和均值的比较 一个故事一个故事l周先生开办了一个小工厂周先生开办了一个小工厂•管理人员:周先生、他的弟弟和六个亲戚管理人员:周先生、他的弟弟和六个亲戚•工作人员:工作人员:5个领工和个领工和10个工人。

      个工人•工厂经营得很顺利,现在需要招聘一个新工人工厂经营得很顺利,现在需要招聘一个新工人•现在周先生正在面试王先生现在周先生正在面试王先生•周:我们这里报酬不错周:我们这里报酬不错平均薪金平均薪金是每周是每周300元你在学徒期间每周得学徒期间每周得75元,不过很快就可以加工资元,不过很快就可以加工资•王先生工作了几天之后,要求见厂长王先生工作了几天之后,要求见厂长•王:周厂长你欺骗我!我已经找其他工人核对过了没王:周厂长你欺骗我!我已经找其他工人核对过了没有一个人的工资超过每周有一个人的工资超过每周100元平均工资怎么可能是元平均工资怎么可能是一周一周300元呢?元呢?•周:啊,王先生,不要激动平均工资真的是周:啊,王先生,不要激动平均工资真的是300元我要向你证明这一点我要向你证明这一点 周先生每周付出的酬金如下:周先生每周付出的酬金如下:l我得我得2400元元l我弟弟得我弟弟得1000元元l我的六个亲戚每人得我的六个亲戚每人得250元,元,250*6=1500l五个领工每人得五个领工每人得200元,元,10个工人每人个工人每人100元,元,共共2000l总共是每周总共是每周6900元,付给元,付给23个人个人周先生拿出了工资表周先生拿出了工资表平均工资:平均工资:6900/23=3006900/23=300元元 对话继续:对话继续:王:?你是对的,平均工资是每周王:?你是对的,平均工资是每周300元。

      可好像你还是蒙元可好像你还是蒙骗了我周:我不同意!你实在是不明白我把工资表都告诉你了,周:我不同意!你实在是不明白我把工资表都告诉你了,看,工资的中位数是看,工资的中位数是200元,可这不是平均工资,而是中元,可这不是平均工资,而是中等工资王:每周王:每周100元又是怎么回事呢?元又是怎么回事呢?周:那是众数,是大多数人挣的工资老弟,你的问题是出周:那是众数,是大多数人挣的工资老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别在你不懂平均数、中位数和众数之间的区别王:好,现在我可懂了我辞职,我要先去学习统计了王:好,现在我可懂了我辞职,我要先去学习统计了……?????? 众数、中位数和均值的关系众数、中位数和均值的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值 = = = 中位数中位数中位数中位数中位数中位数 = == 众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值 众数、中位数、均值的众数、中位数、均值的特点和应用特点和应用1.众数l不受极端值影响l具有不惟一性l数据分布偏斜程度较大时应用2.中位数l不受极端值影响l数据分布偏斜程度较大时应用3.均值l易受极端值影响l数学性质优良l数据对称分布或接近对称分布时应用 2.6 分布离散程度的测度一、极差一、极差二、内距二、内距三、方差和标准差三、方差和标准差四、离散系数四、离散系数 极差极差 R (range)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7 7 8 8 9 910107 7 8 8 9 9 1010 R = max(xi) - min(xi)5.计算公式为计算公式为 内距内距 ((Inter-Quartile Range,IQR))1.也称四分位差2.上四分位数与下四分位数之差l              内内 距距= Q3 – Q13.反映了中间50%数据的离散程度4.不受极端值的影响5.可用于衡量中位数的代表性 方差和标准差方差和标准差 方差和标准差方差和标准差 (Variance and Standard deviation)l1.离散程度的测度值之一l2.最常用的测度值l3.反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4  6  8  10 124  6  8  10 12 x x = = 8 8 总体方差和标准差总体方差和标准差 (Population variance and Standard deviation)l未分组数据:组距分组数据组距分组数据组距分组数据组距分组数据::未分组数据未分组数据未分组数据未分组数据::::组距分组数据组距分组数据组距分组数据组距分组数据::方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式 样本方差和标准差样本方差和标准差 (simple variance and standard deviation)l未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:注意:样本方差用自样本方差用自样本方差用自样本方差用自由度由度由度由度nn-1-1去除去除去除去除!! 样本方差样本方差 自由度自由度(degree of freedom)1.一组数据中可以自由取值的数据的个数2.当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。

      当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值4.样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差σ2时,它是σ2的无偏估计量 例:方差和标准差例:方差和标准差l某工会随机调查了5名工人上月的加班时间如下表,计算数据的方差和标准差加班小时数绝对离差离差平方13130018185251212111515247 7636合计合计1466 离散系数离散系数 离散系数离散系数 (coefficient of variation)1.  标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5.   计算公式为 离散系数离散系数 (例题分析例题分析)某管理局所属某管理局所属8家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)x1销售利润(万元)销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【【 例例 】】某某管管理理局局抽抽查查了了所所属属的的8 8家家企企业业,,其其产产品品销销售售数数据如表。

      试比较产品销售额与销售利润的离散程度试比较产品销售额与销售利润的离散程度 离散系数离散系数 (例题分析例题分析)结结论论:: 计算结果表明,v1

      l对30名工人的调查表明平均收入= $32,000,标准差 = $5,000l离散系数:l经理人员:l工人:l虽然经理人员收入的绝对离散程度远远大于工人,但经理人员收入的相对离散程度小于工人 数据的特征和测度数据的特征和测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众 数数中位数中位数均均 值值离散系数离散系数方差和标准差方差和标准差峰峰 度度四分位距四分位距极差极差偏偏 态态LocationDispersionShape数据的特征和测度数据的特征和测度 2.7 茎叶图与箱线图一、茎叶图一、茎叶图二、箱线图二、箱线图 茎叶图茎叶图 (stem-and-leaf display)1.用于显示未分组的原始数据的分布2.由“茎”和“叶”两部分构成,其图形是由数字组成的3.以该组数据的高位数值作树茎,低位数字作树叶4.树叶上只保留一位数字5.茎叶图类似于横置的直方图,但又有区别l直方图可观察一组数据的分布状况,但没有给出具体的数值l茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息 茎叶图茎叶图 (例题分析例题分析) 茎叶图茎叶图(扩展的茎叶图扩展的茎叶图) 例:地区1 高三男生身高数据的茎叶图HEIGHT Stem-and-Leaf Plot Frequency Stem & Leaf 9.00 15 . 001223344 17.00 15 . 55666667778899999 20.00 16 . 01112222223333333444 35.00 16 . 55555666666667777788888888888999999 25.00 17 . 0000000011112222233333344 24.00 17 . 555666677777777777888899 13.00 18 . 0111111122333 11.00 18 . 55667788899 4.00 19 . 2333 2.00 19 . 56 3.00 Extremes (>=198) Stem width: 10.00 Each leaf: 1 case(s) 箱线图箱线图 (box plot)1.用于显示未分组的原始数据的分布2.箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成3.箱线图的绘制方法l首先找出一组数据的5个特征值,即最最大大值值、最最小小值值、中中位位数数Me和两个四四分分位位数数(下四分位数QL和上四分位数QU)l连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接  箱线图箱线图 (箱线图的构成箱线图的构成)中位数中位数QUQLLX最大值最大值X最小值最小值4681012简单箱线图简单箱线图简单箱线图简单箱线图 箱线图箱线图 (例题分析例题分析)最小值最小值最小值848484最大值最大值最大值128128128中位数中位数中位数105105105下四分位数下四分位数下四分位数969696上四分位数上四分位数上四分位数10910910980      85       90       95      100    105     110     150     120     125   13080      85       90       95      100    105     110     150     120     125   13080      85       90       95      100    105     110     150     120     125   130周加工零件数的箱线图周加工零件数的箱线图周加工零件数的箱线图周加工零件数的箱线图 分布的形状与箱线图分布的形状与箱线图 对称分布对称分布对称分布对称分布对称分布对称分布Q L LL中位数中位数中位数中位数中位数中位数 Q U UU左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布Q L LL中位数中位数中位数中位数中位数中位数 Q U UU右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布Q L LL 中位数中位数中位数中位数中位数中位数 Q U UU不同分布的箱线图不同分布的箱线图不同分布的箱线图不同分布的箱线图 未分组数据未分组数据——多批数据箱线图多批数据箱线图 (例题分例题分析析)【【【【例例例例】】】】 从从某某大大学学经经济济管管理理专专业业二二年年级级学学生生中中随随机机抽抽取取1111人人 ,, 对对 8 8门门 主主要要课课程程的的考考试试成成绩绩进进行行调调查查,,所所得得结结果果如如表表。

      试试绘绘制制各各科科考考试试成成绩绩的的批批比比较较箱箱线线图图,,并并分分析析各各科科考考试试成成绩绩的的分分布布特特征征11名学生各科的考试成绩数据名学生各科的考试成绩数据课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济学西方经济学市场营销学市场营销学财务管理财务管理基础会计学基础会计学统计学统计学计算机应用基础计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177 未分组数据未分组数据—多批数据箱线图多批数据箱线图 (例题分析例题分析)8 8门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图 1111名学生名学生名学生名学生8 8门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图min-max25%-75%median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据未分组数据——多批数据箱线图多批数据箱线图 (例题分例题分析析) 2.9 统计表与统计图一、统计表一、统计表二、统计图二、统计图 统计表统计表l统计表是显示统计数据的基本工具。

      l表头l行标题l列标题l数字资料l下方:表外附加l三线表 统计表的构成统计表的构成 表表 3-1 2003年我国就业基本情况年我国就业基本情况 项目项目20012002 2003经济活动人口   (万人)就业人员合计    (万人)城镇登记失业人数(万人)城镇登记失业率    (%)  74432730256813.6 75360737407704.0 76075744328004.3  资料来源:2004年统计年鉴中国统计出版社注:1990年至2000年,就业人员总计、城镇和乡村就业人员小计资料根据第五次全国人口普查资料重新调整,2001年及以后资料根据人口变动抽样调查资料推算,因此分地区、分类型、分行业的分项资料相加不等于总计行行标标题题表头表头列列标标题题数数字字资资料料附加附加 统计图统计图l统计图是统计数据的直观表现形式 如何用图形来表示数据? 常用统计图常用统计图数据类型数据类型品质数据品质数据定量数据定量数据条条形形图图饼饼 图图线线 图图茎茎叶叶图图箱箱线线图图直直方方图图 条形图(条形图(Bar Chart)l用宽度相同的条形高度或长短来表示数据变动的图形,条形的排列可以横排,也可以纵排。

      条形图有单式、复式等形式2003我国就业人员情况 圆形图圆形图 (Pie Chart)l也叫饼图,它是用圆形及圆内扇形的面积来表示数值大小的图形主要用于总体内部的结构,各组成部分所占比例等2003年我国国内生产总值中各产业比重 线图线图(Line Chart) l利用线形的升降起伏来表现描述的变量在一段时期内的变动情况,主要用于显示时间数列的数据,以反映事物发展变化的规律和趋势1996年-2003年城乡居民人民币储蓄存款年底余额 雷达图雷达图l适合多维数据即多个变量的图示,在显示或对比各变量的数值总和时十分有用l可用于研究多个样本之间的相似程度 2003年我国城镇和农村居民家庭平均每人全年消费性支出构成年我国城镇和农村居民家庭平均每人全年消费性支出构成 绘制统计图时的注意事项绘制统计图时的注意事项l1、通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息l时间一般绘在横轴,指标数据绘在纵轴l长宽比例要适当 ,其长宽比例大致为10:7l一般情况下,纵轴数据下端应从“0”开始数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断 绘制统计图时的注意事项绘制统计图时的注意事项l2、图形要尽量简明。

      图形应该突出所要传达的信息,不必要的标签、背景、网格线、等会分散读者的注意力l3、图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等l4、反复加工和修改是获得优秀统计图形的重要步骤统计软件给出的统计图形没有多少可以不加修改而直接应用 下图增长速度惊人下图增长速度惊人上图增长速度缓慢上图增长速度缓慢不恰当的统计图形举例:纵横比例不恰当的统计图形举例:纵横比例       不必要的三维效果:三维图形可能比二维图形更能吸引读者的注意,但只能用来反映变化的趋势,不能用来进行精确的比较不恰当的统计图形举例:三维效果不恰当的统计图形举例:三维效果 不恰当的统计图形举例:图形类型不恰当的统计图形举例:图形类型1960: $1.001970: $1.601980: $3.101990: $3.80Minimum Wage不好的图形不好的图形好的图形好的图形Minimum Wage0241960197019801990$ 不恰当的统计图形举例:压缩纵轴不恰当的统计图形举例:压缩纵轴Quarterly Sales不好的图形不好的图形0100200Q1Q2Q3Q4$好的图形好的图形Quarterly Sales02550Q1Q2Q3Q4$ 不恰当的统计图形举例:纵轴无零点不恰当的统计图形举例:纵轴无零点好的图形好的图形Monthly Sales不好的图形不好的图形36394245JFMA M J$Monthly Sales 0394245JFMAMJ$36 本章小结本章小结l知识点l描述性统计的方法l要求l分布集中趋势的测度l分布离散程度的测度l学习运用工具制作统计图 作业作业l课后思考与练习:练习题1-14l统计学实验一: 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.