
盒形图(box plot).doc
3页盒形图盒形图(box plot)又名:盒形-虚线图( box-and-whisker plot) 概述概述盒形图实际上是以图形来概括频数分布的最重要的统计特征,以便更容易地理解和对比数 据从图中可以看到数据下降的位置及分布情况盒形图是一个非常有用的工具,因为其绘制 简便且提供大量的信息 适用场合适用场合·当分析或交流数据的总体特征而不是数据细节时;·当对比两组或更多数据时;·当没有足够的数据做直方图时;·概括另一张图代表的数据时,例如控制图或趋势图 实施步骤实施步骤1 按从小到大的顺序列出所有的数值,把所有数值的个数记为 n按顺序这样排号:X1是 最小的数,X2是次小的数,直到最大的数 Xn2 中位数:把数据分成两半,找到中位数——一半数值大于它、一半数值小于它的那个点·如果整个数值的个数(n)是奇数:中位数就是中间的那个从一端数到第(n+1)/2 个数中位数=X(n+1)/2·如果整个数值的个数(n)是偶数:中位数是中间两个数的均值从一端数到第 n/2 和 n/2+1 个数,求这两个数的均值: 中位数=[Xn/2 +X n/2+1]/23 四分位数( Hinges):把数据分为四个部分。
找到四分位数——一半数据的中位数·如果整个数值的个数是偶数,中位数即是 Xn/2和 X n/2+1的均值按照步骤 2 再找出从 1 到 Xn/2的这些数值的中位数,这就是第 1 四分位数·如果整个数值的个数是奇数,中位数是 X(n+1)/2按照步骤 2 再找出从 1 到中位数这些 数值的中位数这就是第 1 四分位数按照相同的方法在较大的数值部分找到第 3 四分位数4 四分位距(H-spread):计算两个分位数之间的距离,又叫四分位距: 四分位距=第 3 四分位数-第 1 四分位数5 内部范围(Inner fences):区分属于特定分布和分布之外的数值内部范围的上限处在高 于第 3 四分位数 1.5 倍四分位距的位置,下限则处在低于第 1 四分位数 1.5 倍四分位距的位置内部上限=第 3 四分位数+1.5×四分位距 内部下限=第 1 四分位数-l 5×四分位距6 外部范围(Outer fenccs):处在该范围的数据远远在分布之外,很值得特别注意外部范 围的上限是处在高于内部上限 1.5 倍四分位距的位置,下限则处在低于内部下限 1.5 倍四分位 距的位置 外部上限=内部上限+1.5×四分位距 外部下限=内部下限-1.5×四分位距7 画盒形图。
首先画一条水平轴,根据数据的范围选择合适的尺度·以四分位数值为边界画一个盒子;·在盒子上中位数的位置画一条线;·在每个内部范围处画一条线;·从盒子边界到内部范围中的第一个数之间画一条虚线;·在每个值处画一条垂线;·画一个小圈代表任何出现在内部范围之外但在外部范围之内的异常值;·画两个圈代表出现在外部范围之外的数值点8 如果对比几组数据,重复进行分析一组数据的步骤9 分析这个图寻找:·中位数的位置;·数据的分布:四分位数和范围距中位数多远;·分布的对称性;·异常点的存在 示例示例假设有两个保龄球队,分别是复仇队( avengers)和公牛犬队(bulldogs),图表 5.1l 中显示的 是他们的得分,比较一下,哪个队更好呢?1 分数已经按从小到大的顺序排好,每组有 14 个得分,因此 n=142 中位数:因为这里有偶数个得分,所以中位数是中间两个数的均值我们必须从一端数 到第 n/2 和 n/2 十 1 个数 n/2=14/2=7,n/2+l=8在每组中数出第 7 个和第 8 个得分,并求它们的均值 中位数 A=(149+150)/2=149. 5 中位数 B= (155+159)/2=1573 四分位数:我们必须找到两个中位数,一个是从第 1 个数到第 7 个数的中位 数,另一个是从第 8 个到第 14 个数的中位数。
一半是 7 个值,所以是奇数类,因此真 接从一端数到第(7+1)/2=4 个数 A 的第 1 四分位数=142 A 的第 3 四分位数=160 B 的第 1 四分位数=152 B 的第 3 四分位数=1634 四分位距四分位距=第 3 四分位数第-1 四分位数 A 的四分位距=160-142=18 B 的四分位距=163-152=115 内部范围 内部上限=第 3 四分位数+1.5×四分位距 A 的内部上限=160 十 1.5×18=160+27=187 B 的内部上限=163+1.5×11=163+16. 5=179.5 内部下限=第 1 四分位数-1.5×四分位距 A 的内部下限=142-27=115B 的内部下限=152-16.5 =135.56 外部范围 外部上限=内部上限+l.5×四分位距 A 的外部上限=187+27=214 B 的外部上限=179. 5+16.5=196 外部下限=内部下限-1.5×四分位距 A 的外部下限=115-27=88 B 的外部下限=135. 5-16.5=119图表 5.12 是两队得分的盒形图可以看出,复仇队有一个明星队员,公牛犬队 右一个技术差的队员,而对于总体来说,公牛犬队经常得高分,比复仇队的成绩稳定。
方法演变方法演变盒形图是由约翰·W·丢克(John W. Tukey)最早创建的目前很多盒形图的计算、画法和 使用都是从这里演变过来的不管什么时候你使用基本盒形图的演变时,在分位数外画上实线 以表明你不再遵守丢克的规则一些演变如下所示:··简单盒形图简单盒形图(Simple box plot):在此图中,不再计算和画那些范围和异常值,只是从盒子 的边界画到最大的数值和最小的数值··修改的盒形图修改的盒形图(Modified box plot):计算所有数值的算术平均值,并在盒形图上用一点来 代表它这个平均值越接近中位数,则分布就越对称··修改宽度的盒形图修改宽度的盒形图(Modified-width box plot):当使用两个或两个以上的盒形图对比几组 数据时,盒子的宽度要与数据样本大小成比例·可以在盒形图上画括号代表 95%的置信水平 ··魔鬼盒形图或盒形控制图魔鬼盒形图或盒形控制图(Ghost box plot or box-plot control chart):—个盒形图可以采用 点线直接画在控制图上,或画在用个别点概括整个数据的图上当几个图代表相连续数据的子 组时,这种演变是非常有用的。
例如,在一个过程改变之前的 15 个数据点中间画一个盒形控 制图,在改变之后的 15 个数据点中间画另一个盒形控制图。












