
数据、模型与决策课件:第二章数据特征的展示和概括.ppt
95页第二章第二章 数据特征的展示和概括数据特征的展示和概括授课目的:了解数据特征的展示和概括授课目的:了解数据特征的展示和概括要求:要求:1.熟悉如何整理不同类型的数据熟悉如何整理不同类型的数据 2.熟悉不同数据特征的图形展示熟悉不同数据特征的图形展示 3.学会运用学会运用描述量数严格地刻画频数分布数列的特征描述量数严格地刻画频数分布数列的特征 本章要点不同类型数据的整理、分组、汇总不同数据特征的图形展示描述量数本章要点联系图数据分组和汇总计数型分组与汇总计量型分组与汇总描述量数质别分组量别分组单值式分组组距式分组集中趋势量数离散趋势量数第一节第一节 数据的分组和汇总数据的分组和汇总p计数型汇总计数型汇总p计量型汇总计量型汇总p复合分组与交叉分组复合分组与交叉分组p量别属性数据(定比数据及定距数据)向质别属性数据(定量别属性数据(定比数据及定距数据)向质别属性数据(定秩数据)的转化秩数据)的转化计数型汇总数据整理(organizing data)的目的是使散在的原始数据编排成架构清晰、标识醒目的表格,列出小组计值,突出数据分布特征。
数据整理的具体任务是分组与汇总,这是一个问题的两个方面分组(classification)是按一定的规则把数据拆分成若干组,而汇总(compilation)是把数据中相应的数值单元配属到适当的组内若汇总是把个体数值的数目——频数(frequency,也称次数)配属到适当的组内,属于计数型汇总若汇总是把个体数值的合计值配属到适当的组内,属于计量型汇总计数型汇总的成果表现为一个频数分布表频数分布表(frequency distribution table,也称次数分布表),它的基本列有两个:左列是组别标识,依据具体分组方案标写各组的标示,或为文字,或为数值;右列是组频数,即分别填写满足左列各组标示的待分组数据的单元数目表2.1 频数分布表的一般形式变量分量分组频数(数(f fi i))第1组标识f1第2组标识f2第3组标识f3︰︰︰︰︰︰第k组标识fk合 计Σfi排序——数据整理的初步探索对数据的整理主要是分组与汇总,但是排序能起到初步探索的作用对于单变量数据进行升序或降序排列,可以迅速找到该组数据的最小值和最大值对于多变量的矩阵型数据,如果只关注某一变量,则可以上面所说简单排序简单排序的方式;如果关注一个以上变量,则需要进行多级排列多级排列。
定名数据的分组和汇总..\例题数据\例1-1.xls例1-1按性别分组形成的频数分布表(见表2.2)表2.2 20名调试工的性别分布表2.2告诉我们,20名调试工的性别分布不均衡,男性多达13人,女性只有7人性性 别频数(人)数(人)男13女 7合 计20定名数据的分组和汇总如果我们想展示两性比率,则可以在频数列之右再派生出一列相对频数相对频数(relative frequency,也称频率)表2.3 20名调试工的性别频数及其比率性性 别频数(人)数(人)相相对频数(数(%))男1365女 735合 计20100定秩数据的分组和汇总可以用与定名数据的分组和汇总相同的方法进行定秩数据的分组与汇总因为定秩数据的分组具有方向性,所以其派生列除相对频数外,还可以表列其累计频数累计频数(cumulative frequency,也称累积频数)累计频数分组标识的递推方向有正向累计和逆向累计之分将累计与相对的概念结合,又生成累计相对频数例2-1某公司新近研发了两种洗涤用品:产品A和产品B为了了解它们的市场前景,公司随机抽取了一些用户,其中男性83人,女性76人,请他们免费试用产品A和产品B。
一段时间过后,公司以问卷形式调查了使用者对两种洗涤用品的满意度调查将为公司最终把确定其中哪种产品作为主打产品的决策提供参考依据..\例题数据\例2-1.xls定标数据的分组和汇总定名数据和定秩数据的组别标识一般都是在数据采集时即已确定的,而定标数据的组别标识却是在分组时根据分组变量的数值情况确定的定标数据的分组和汇总如果分组变量是离散型变量且数值表现为较少几个值,就以这几个值为组别标识如果分组变量是连续型变量,或者虽然是离散型变量但数值表现为很多个值,只能将数值划分成若干区间作为组别标识单值式分组(单值式分组(single-value classification))组距式分组(组距式分组(interval classification))每个区间的两端值称为组限组限(class limit),其中最小值称为下限下限(lower limit),最大值称为上限上限(upper limit)单值式分组单值式分组的组别标识每组只有一个单一数值,类似于定名数据和定秩数据的分组,处理较为简单..\例题数据\例2-2.xls组距式分组组距式分组方案的确定,要一并考虑两个互相依赖的要素:组数和组距。
组距(class interval)即组的跨度异距分组的组距往往根据变量的内在成长规律和研究需要确定一旦组距确定,组数也就相应确定了在异距分组中,常在首组或(和)末组敞开一端,这称为开口组开口组(opened class)组距式分组所有的组跨度都相等适用于分组变量的数值较为均匀的情况如人的身高、体重等自然现象变量,或者工程技术方面的变量,如零件的尺寸、商品的实际重量等组跨度不相等适用的情况比较复杂社会、经济、商务中一些现象呈由密渐疏或者由疏渐密的变化规律,需要进行异距分组才能展现其分布规律 等距分组(等距分组(classification based on an unique interval))异距分组(异距分组(classification based on un-unique intervals))异距分组的组距往往根据变量的内在成长规律和研究需要确定一旦组距确定,组数也就相应确定了在异距分组中,常在首组或(和)末组敞开一端,这称为开口组开口组(opened class)等距分组如何确定组距和组数比较复杂由原始数据整理成组距式频数分布数列,究竟要分成几组,这与数据所含的数值项数多寡有关,也与数据分布的态势——集中程度、偏斜程度如何——有关。
确定所分组数没有严格的规定,很多情况下是凭经验,甚至是反复试分组才可确定等距分组有几个需要掌握好的分寸:一是组数不能太少也不能太多,否则达不到整理的目的,即为了使杂乱的原始数据变得条理清晰,分布特征突出通常分为5~8组二是组限的确定尽可能取整十整五的数值三是频数栏一般不能出现0的断续现象,最好呈现较有规律的排列至于是先确定组距和组限,还是先确定组数,并没有死规则,可以视情况而定分组的方案可能要经过一次以上的试分组才能确定斯特吉思提出下列公式可供参考:组数 = 1 + 3.322logN式中N为数据的项数有了组数,则可进一步确定组距,公式如下:组距 = (Xmax – Xmin)/ 组数式中Xmax和Xmin分别代表数据的最大值和最小值..\例题数据\例2-3.xls计量型汇总计量型汇总的成果表现为分组合计表与频数分布表一个显著的不同之点,右列为满足各组标识的待分组数据的单元数值合计数在第1行标写“总计”和所有各组加总数计量型汇总的分组变量也可以是定名变量、定秩变量和定标变量在计量变量汇总出来后,也可以产生派生列——占比(所占比重的简称)分组合计表的一般形式变量分量分组计量量变量量总 计所有各所有各组加加总数数第1组标识第1组合计数第2组标识第2组合计数第3组标识第3组合计数︰︰︰︰︰︰第k组标识第k组合计数复合分组与交叉分组复合分组——按两个或多个定名或(和)定秩变量对数据进行多层次的分组。
交叉分组——同时按两个定名或(和)定秩变量对数据进行分组和汇总,可以观察在两个变量各种状态交叉情况下的数据分布态势,整理的结果称为交叉表交叉表(cross table)相对于交叉表的只按一个变量分组和汇总的即是单向表(one-way table)复合分组低层次组别嵌套在高层次组别之内,使各层次分组的关系和不同层次的组频数展示得非常清晰相对于复合分组,只按一个变量层次分组即是简单分组与简单分组一样,复合分组既可以汇总频数,也可以汇总计量值交叉分组与单变量分组一样,交叉分组既可以汇总频数,也可以汇总计量值前一种表格还有另一个名称,叫作列列联表联表(contingency table)对频数和汇总计量值都可以进一步计算百分比率,以各行合计值为基的百分比率称行百分比(row percent),以各列合计值为基的百分比率称列百分比(column percent),以总计为基的百分比率称总百分比(total percent)在每个交叉格内,从上而下依次为频数、行百分比、列百分比和总百分比量别属性数据(定比数据及定距数据)向质别属性数据(定秩数据)的转化根据数据分析的需要,可以将量别属性数据(定标数据)转化为质别属性数据(定秩数据),这在数据处理上叫变量转换。
利用EXCEL可以很容易地实现我们的转换目的,并按所转换的新变量进行分组汇总第二节第二节 数据特征的图形展示数据特征的图形展示p时间数列线形图时间数列线形图p条型图和扇型图条型图和扇型图p直方图和频数多边形直方图和频数多边形p频数曲线与分布形态频数曲线与分布形态数据整理结果形成统计表,但要明快地展示数据的特征,还需要使用统计图不同的图形适用于不同类型的数据和分布数列统计图尽管形状各异,但都是以与数据成比例的几何图形来表现数据的态势统计图还可以辅助我们发现数据的特点,以便进一步对其展开研究时间数列线形图时间数列线形图以直角坐标系的横轴表示时间,以纵轴表示所研究的变量数据坐标系内一点即代表与某一时段或时点相联系的一个变量值将坐标系内所有点按时间顺序连接起来的折线,即是线形图例图——花神饮品公司2006年1-12月咖啡销售量线形图时间数列线形图需要指出的是,时间单位无论长短,在坐标轴上都表现为一个区间(时段),而非一点,绘图时将所研究的变量值与区间的中点相对应对于快速发展的数据,还可以使用一种特殊的线形图来展示其态势,横轴仍代表时间,纵轴取原数据的常用对数,绘制出来的线形图近似与一条直线,直线倾斜程度就表示原数据逐年发展的倍数。
例图——我国邮电营业额的普通线性图和对数线性图条形图和扇形图条形图和扇形图都用来展示质别数据生成的截面数列扇形图以整圆代表全部数据的总和,以圆形分割出来的各个扇形代表各分组部分比重(相对频数)条形图的横轴表示质别数据的分类,纵轴代表所研究的数据还可以使用分段条形图和分段比例条形图分别展示交叉分组的频数分布和相对频数分布例图——一车间员工学历分布的扇形图和条形图条形图和扇形图还可以使用分段条形图和分段比例条形图分别展示交叉分组的频数分布和相对频数分布例图展示一车间以不同学历为基础的分性别的频数分布例图展示一车间以不同学历为基础的分性别的相对频数分布直方图和频数多边形量别数据的分布态势可以用直方图(Histogram)和频数多边形(Frequency polygon)来展示例图——烟花装药直方图直方图直方图是以一组无间隔的直立的矩形直方图置于直角坐标系内,纵轴表示频数,横轴表示变量分组每个矩形的高度应它的组频数,而矩形的宽度表示组距通常作等距分组,组成直方图的所有矩形宽度相等ü对称分布(Symmetric distribution)ü右偏分布(Right-skewed distribution)或正偏(Positive skewness)。
ü左偏分布(Left-skewed distribution)或负偏(Negative skewness)例图——一车间员工工资直方图直方图例图展示的是滨河市晨光机电公司一车间员工工资分布,工资高峰出现在左数第2组(21000—39000元),该组以左,只有1 组,矩形高度陡然下降至6;右有4组,矩形高度陡然下降至6后,再逐渐下降这是一个典型的自左向右的偏斜态势,统计学上称为右偏分布(Right-skewed distribution)或正偏(Positive skewness)如果一个分布的高峰出现在右侧,而向左侧逐渐下降,则称为左偏分布(Left-skewed distribution)或负偏(Negative skewness)频数多边形频数多边形顾名思义首先是由若干个点连接而成的多边形,而这些点与频数有关在由频数分布表的数据生成频数多边形之前,我们需要做一点修饰——在首组之前和末组之后各虚增一组,所谓“虚增”指它们的频数为零,不会影响整个数据分布态势,因此这样增添的组叫“虚组”(Extra classes)频数多边形以各组的组中值为横坐标,频数为纵坐标,在直角坐标系内确定出若干点(点的数目相当于原分组数目加2),依次连接这些点形成的折线与横轴就围成了我们欲绘制的频数多边形。
频数多边形比直方图更能鲜明地展示数据的分布态势例图——频数多边形频数多边形数据的分布态势,除了以上我们讨论过的向何部位集中,是否偏斜及向何方偏斜外,还有两个问题值得注意:ü一是与集中态势相反相成的偏离中心的趋势;ü再一个就是集中部分是较为尖锐还是较为平坦的问题偏离中心的趋势在统计学中称为离散欲比较离散,宜通过两套数据对比来看例2—4)例2-4滨河市晨光机电公司二车间原有22名装配工人,装配同一部件后来生产规模随需求的扩大而扩大装配工增至59名为提高生产效率,在扩大产量的同时,改进了部件的设计,使之有利于缩短单位装配时间..\例题数据\例2-4.xls频数曲线与分布形态当频数分布数列的观察值非常多,且组数无限增多时,频数多边形的折线就趋近于一条平滑的曲线这样的称为频数曲线(frequency curve)的平滑曲线可以用来刻画总体数据的分布态势ü中央分布üU形分布üJ形分布中央集中分布绝大多数的总体数据分布,属于中央集中分布,其频数曲线中央隆起,两边低些,宛如一口古钟这种分布有对称与偏斜之分,扁平与高耸之分,相对集中与相对离散之分居民收入、市场价格、农作物产量等,均属此类分布。
中央集中分布U形分布U形分布是一种少见的分布,其特点是靠近中间的数据少,而靠近两端的数据多其曲线形如拉丁字母的U,故称U形分布人口死亡率依年龄组分布,低龄组和高龄组的死亡率都很高,而中龄组的死亡率较低,是U形分布的一例对某些社会问题的态度,如果经过辩论,形成两种倾向,此时若将态度按1~100分打分,然后按持不同态度的人数列成频数分布,也是反对者和拥护者人数较多,中间态度不明朗者人数较少,这是U形分布的又一例U形分布J形分布J形分布是另一种少见的分布,其特点是分布频数自低变量值(或高变量值)起逐渐增多或减少,绘成曲线,形成拉丁字母的J字(或反写的J字)人口总体按年龄大小分布,一般是反J形顾客人数按在某一商场逗留时间分布,也可以看成是J形分布而股票交易处于“牛市”时,需求量按价格分布,则可视为正J形曲线J形分布第三节第三节 数据趋势的量数数据趋势的量数p集中趋势量数集中趋势量数p离散趋势量数离散趋势量数p关于三种集中趋势量数的讨论关于三种集中趋势量数的讨论p偏态系数和峰度系数偏态系数和峰度系数p定标数据的相对位置和奇异值的识别定标数据的相对位置和奇异值的识别⑴集中趋势(central tendency)⑵离散趋势(dispersion)⑶偏态(skewness)⑷峰度(kurtosis)以上四种态势或曰分布特征中,前两种是基本的,是数据分析的重点;后两种是辅助性的。
我们不仅需要通过统计图形象地展示频数分布数列的特征,还需要使用描述量数(descriptive measurement)来严格地刻画频数分布数列的特征集中趋势量数频数分布数列的集中趋势可以从三个不同审视标准来刻画第一个审视标准是数值出现的频繁程度,将数列中频数最高的变量值称为众数(众数(mode))第二个审视标准是数值出现的顺序位置,将数列中排在中间位置的变量值称为中位数(中位数(median))第三个审视标准是数值本身的均衡状态,具体来说就是将数列中所有数值总和除以数列项数所得之商,它是我们在算术中即已熟悉的概念——算术平均数算术平均数((arithmetic mean))众数众数是数列中出现次数最多的数值需要指出的是,确定众数要求“多数”要达到一定程度,而不是简单的相对多数众数对于定名数据,众数就是分组整理后频数最大的类别名称或其代码对于定秩数据,众数就是分组整理后频数最大的序列名称或其代码对于不分组的量别数据或单值式分组数据,以出现频次最大的数值为众数对于组距式分组的频数分布数列,一般只需按频数最大原则确定众数所在的组——众数组(modal class)即可。
中位数对于一个按自小而大的顺序排列的数列,能把它分成项数相等的前后两段的数值叫做中位数显然,中位数适用于定秩数据和量别数据,不适用于定名数据,因为它们无所谓数值大小中位数对于未分组的数列,可以将各项数值排序后直接确定如果数列的项数(n)为奇数,中位数就是位次居中的那一项——第{〔﹝n-1〕/2 }+1}项——的数值;如果数列的项数为偶数,项数相等的前后两段的前段末项——第﹝(n-2)/2 〕项和后段首项第(n/2)项的数值之和的一半才是中位数对于单值式分组的数列或是组距式分组的数列,以累计第(n/2)项所在的那一组为中位数所在组,该组的变量值即是中位数算术平均数算术平均数,简称平均数,按其定义为数列中所有数值总和除以数列项数所得之商我们需要区别所研究的数据是总体还是样本在数据不分组的情况下样本平均数计算公式是:其中: X代表数列中各数值; Σ为求和符号,ΣX表示诸X值的和; n代表数列的项数 算术平均数对于已分组的样本数据,样本平均数计算公式是:式中所用符号除X需要特别解释外,f代表频数,其他的都与前面所作的说明一致。
对于单值式分布数列,X代表各组的变量值;对于组距式分布数列, X代表各组的组中值 算术平均数EXCEL和其他专业统计分析软件都有从不分组数据直接计算算术平均数(中位数和众数)的功能我们这里给出分组数据算术平均数的公式有两点目的:其一是在管理决策中我们接触到的数据可能是已分组的,这就必须使用此公式其二是我们需要熟悉这样的列表计算的过程,这在以后用得上我们用以下公式来定义总体数据的算术平均数:以μ代表总体平均数,以N代表总体总量,X代表总体中各数值离散趋势量数如果说集中趋势量数反映数据中个体的共性、集中性,则离散趋势量数反映的是它们的差异性、分散性我们仍然可以循认识集中趋势量数的路线来认识离散趋势量数,即先考察数值出现的频繁程度,再考察数值间的位势差异,最后考察数值的全面差异状况ü异众比率(non-modal relative)ü全距(range)和四分位距(inter-quartile range)ü方差(variance)和标准差(standard deviation)ü变异系数异众比率(NON-MODAL RELATIVE)异众比率是除众数组之外的其他各组相对频数之和,直接涵义是非众数组所占比重。
这个量数越小,说明数据的离散程度越小,集中程度越大;反之,这个量数越大,说明数据的离散程度越大,集中程度越小异众比率是刻画定名数据离散趋势的唯一量数全距(RANGE)和四分位距(INTER-QUARTILE RANGE)对于定秩数据和比它等级更高的量别数据,我们可以使用全距和四分位距来刻画其离散程度全距的概念——数据的最大值与最小值之差——在讨论分组的组距如何确定时就出现过,用公式表示为: 如果是已分组的数据,就以末组上限与首组下限之差为全距的约值全距(RANGE)和四分位距(INTER-QUARTILE RANGE)全距非常容易受极端值的干扰,它的用途可能更多地使用在其他场合——如我们前面计算分组的组距——而非刻画离散程度如果排除数列两端的极端值,用这样的两个数值之差来刻画离散程度仍不失为一种方法,于是就引入了四分位距的概念全距(RANGE)和四分位距(INTER-QUARTILE RANGE)我们已经知道,中位数将数列划分成前后所含项数相等的两段我们还可以用同样的方法找到数列前半段和后半段各自的中位数数列前半段的的中位数相对于整个数列就叫做第一四分位数,用Q1代表。
数列后半段的的中位数相对于整个数列就叫做第三四分位数,用Q3代表Q1、Me和Q3把数列划分成所含项数相等的四段,因此统称为四分位数(quartile)Q3与Q1之差称为四分位距Riq,就是一个适当的离散趋势量数Riq = Q3 – Q1 全距(RANGE)和四分位距(INTER-QUARTILE RANGE)EXCEL和其他专业统计分析软件都有从原始数据中确定Xmin,Q1,Me,Q3和Xmax的功能这五个量数都是依据它们在数列中的位次确定的,统称为五大位次量数它们不仅可以用来刻画集中趋势和离散趋势,还可以刻画偏态,做数据的探索性研究方差(VARIANCE)和标准差(STANDARD DEVIATION)离差(Deviation)指数列中数值与数列的算术平均数之差,它反映单个数值与算术平均数差距,用公式表示为 或简写成 我们把所有数值与算术平均数差距综合考虑,再加以适当地处理,就得到方差和标准差方差是平均离差平方和,而标准差是方差的算术平方根。
这次我们先给出总体方差σ2和标准差σ的公式方差(VARIANCE)和标准差(STANDARD DEVIATION)样本方差公式与总体公式相比,分母有所不同在抽样获取数据后,总体方差有待于用样本方差去估计,而要达到无偏估计的效果,样本方差s2需要按下列公式去计算:上式适用于不分组数据如果是已分组数据,按下列公式去计算样本方差s2:方差(VARIANCE)和标准差(STANDARD DEVIATION)截止到这里,我们看到无论是平均数还是方差、标准差,都有两套公式,一套用于总体,一套用于样本它们之间的关系将在以后谈论此处仅提出一对概念:刻画总体数据分布特征的量数称为总体参数(Population parameter),简称为参数;刻画样本数据分布特征的量数称为样本统计量(Sample statistic),简称为统计量变异系数我们已经有了描述变量数列离散程度的指标标准差,但是当对两个变量数列的离散程度进行对比时会发现,有其它若干因素仍然制约着可比性,如数列计量单位不同,数据总体水平不同为了排除上述因素的影响,增强离散程度的可比性,可以用标准差对平均数的比值来作离散趋势量数,称为离散系数(Coefficient of variation),公式是: V= 关于三种集中趋势量数的讨论适用对象优缺点位置关系适用对象定名数据众数定秩数据众数/中位数定标数据三种集中趋势量数都可以使用。
三种集中趋势量数的使用与数据测度等级直接有关系,但是需要注意的是,U形和J形分布的数据,计算其中位数和平均数没有意义优缺点众数和中位数是按位势确定的量数,不受极端值的干扰;而平均数是全部个体数值都投入运算得到的,易受极端值的干扰反之,由于全部个体数值都投入运算,平均数较众数和中位数含有更丰富的信息;由于平均数是严格运算得到的,也适于做进一步推导和运算众数和中位数则不具有这样的优点优缺点在明显存在极端值的情况下,一般使用众数或中位数刻画集中趋势如果需要使用平均数,得变通计算:从两端各去掉一个数值,对其余数值进行平均,所得结果称为变通平均数;从两端各去掉5%的数值,对其余数值进行平均,所得结果称为截尾平均数以上关于三种集中趋势量数适用对象和优缺点的讨论,同样也可以用于标准差、四分位距和异众系数的比较位置关系在理论上,对称分布的数据的三种集中趋势量数位置重合实际观测到的数据若没有明显的偏斜,三种集中趋势量数在数值上出入不大,其相互位置关系不明确分布偏斜较为强烈的数据,平均数总是被极端值拉向长尾一方,众数总是出现在高峰处,而中位数总是处于平均数和众数之间,大致位于靠近平均数的1/3分点。
偏态系数和峰度系数偏态的刻画峰度的刻画偏态的刻画偏态系数是对分布偏斜方向和程度的刻画对于量别数据通常使用α偏态系数,其公式如下:当分布对称时,α=0;分布为右偏时,α﹥0;分布为左偏时,α﹤0峰度的刻画对于量别数据通常使用β峰度系数,其公式如下: 当β=3时,属中常峰度;β﹥3时,属尖顶分布;β﹤3时,属平顶分布定标数据的相对位置对定标数据进行排序,直接看到的是各个单元数值的绝对位置,比如说某个数值排在第几号这个“号位”所标明的位置受以下一些因素的影响:ü⑴数据规模(总体总量或样本容量);ü⑵数据离散程度为了较为科学地衡量各个单元数值中的位置,需要采用相对排位这里介绍百分相对排位和标准分数排位两种方法百分位数百分位数将一个按顺序排列的数列分成单元数值项数比为p﹕(100-p)的数值称为第p百分位数(p-th percentile)这样,某个数值在数列中的位置就可以标示为它在第p百分位数上标准分数标准分数按以下公式计算某单元数值在总体或样本的相对位置,所得结果称为标准分数(standard score)标准分数接近于零,表明该数据居中标准分数大于零,表明该数据靠上位。
标准分数小于零,表明该数据靠下位标准分数的绝对值越大,表明该数据越远离中心奇异值的识别奇异值的识别将数据排序后,可能发现某一(几)个数值特别大或特别小,远离其他数值这种数值称为奇异值或离群值(outlier)一个数列出现奇异值,可能出于以下三种原因:ü⑴数据采集过程或录入过程出错;ü⑵该奇异值来自另一个总体,这是作业总体涵盖有误;ü⑶无论是数据采集过程、录入过程或者调查设计都没问题,该奇异值的出现反映数据分布的异常这里介绍两种识别奇异值的方法:四分位距法和标准分法四分位距法四分位距法将下四分位数以外1.5倍四分位距的点称为内栏,具体分为下内栏和上内栏,用公式表示为:ü下内栏ü上内栏将下四分位数以外3倍四分位距的点称为内栏,具体分为下内栏和上内栏,用公式表示为:ü下内栏ü上内栏落在外栏以外的数值肯定属于奇异值落在内栏以外、外栏以内的数值属于潜在的奇异值,有待讨论标准分法标准分法若某数值的标准分数绝对值大于3,确认其为奇异值与本章有关的EXCEL功能的实现途径排序排序“数据”条 → 排序 → 指定第一、二、三关键词;指定升序还是降序分组和汇总(单一变量分组)分组和汇总(单一变量分组)“数据”条 → 数据透视表和图表报告 → 拖动分组变量到位,拖动计数或计量的变量到位,指明计数还是计量。
分组和汇总(交叉分组)分组和汇总(交叉分组)“数据”条 → 数据透视表和图表报告 → 拖动分组横向变量到位,拖动分组纵向变量到位,拖动计数或计量的变量到位,指明计数还是计量与本章有关的EXCEL功能的实现途径分组和汇总(组距分组)方法之一分组和汇总(组距分组)方法之一 使用排序方法:先将待分组数据排序,然后按分组标识(即下限和上限)对各段数值的个数计数,得到频数分组和汇总(组距分组)方法之二分组和汇总(组距分组)方法之二 使用逻辑函数,先将待分组数据换成写有分组标识的文字变量,再使用分组和汇总(单一变量分组)的方法分组和汇总(组距分组)方法之三分组和汇总(组距分组)方法之三直接使用“FREQUENCY”函数需要注意的是该函数的分组数值点(BINS)与上限的区别与本章有关的EXCEL功能的实现途径条形图条形图“图表向导” → 柱形图饼图饼图 “图表向导” → 饼图直方图直方图 “图表向导” → 柱形图 → 将矩形间距减至0频数多边形频数多边形加设虚组(频数为0) → “图表向导” → 折线图散点图散点图“图表向导” → XY散点图与本章有关的EXCEL功能的实现途径算术平均数算术平均数 粘贴函数fx —— average(数据向量)总体方差总体方差 粘贴函数fx —— varp (数据向量)总体标准差总体标准差 粘贴函数fx —— stdevp (数据向量)样本方差样本方差 粘贴函数fx —— var (数据向量)样本标准差样本标准差 粘贴函数fx —— stdev (数据向量)众数众数 粘贴函数fx —— mode (数据向量)最小值最小值 粘贴函数fx —— min (数据向量) quartile (数据向量,0)与本章有关的EXCEL功能的实现途径下四分位数下四分位数 粘贴函数fx —— quartile (数据向量,1)中位数中位数 粘贴函数fx —— median (数据向量,2) quartile (数据向量)上四分位数上四分位数 粘贴函数fx —— quartile (数据向量,3)最大值最大值 粘贴函数fx —— quartile (数据向量,4) max (数据向量)数列求和数列求和 粘贴函数fx —— sum(数据矩阵)多变量数据质别分组计算量数多变量数据质别分组计算量数“数据”条 → 数据透视表和图表报告 → 拖动分组变量到位,拖动计量的变量到位,指明量数名称(平均数/标准差/方差/最大值/最小值)。












