
质量工程师中级讲义第二章常用统计技术.doc
12页第二章 常用统计技术第二章 常用统计技术 【【考试趋势考试趋势】】 单选单选4-54-5题,多选题,多选6-86-8题,综合分析题,综合分析7-87-8题总分值题总分值30-4030-40分总分170170分占比20%20%左右 【【大纲考点大纲考点】】 一、方差分析一、方差分析 (一)方差分析基本概念 1.掌握因子、水平和方差分析的三项基本假定 2.熟悉方差分析是在同方差假定下检验多个正态均值是否相等的统计方法(难点) (二)方差分析方法 1.掌握单因子的方差分析方法(平方和分解、总平方和、因子平方和、误差平方和,自由由 度、f 比、显著性) (重点) 2.了解重复数不等情况下的方差分析方法 (难点) 二、回归分析二、回归分析 主要研究定量因子,也就是变量分析 (一)散布图与相关系数 1.掌握散布图的作用与做法 2.掌握样本相关系数的定义、计算及其检验方法 (重点,难点)(二)一元线性回归 1.掌握用最小二乘估计建立一元线性回归方程的方法 (重点,难点) 2.掌握一元线性回归方程的检验方法(重点,难点) 3.熟悉一元线性回归方法在预测中的应用 (三)了解可化为一元线性回归的曲线回归问题 @#三、试验设计 三、试验设计三、试验设计 (一)基本概念与正交表 1.了解试验设计的必要性 2.熟悉常用正交表及正交表的特点 (二)正交试验设计与分析 1.熟悉使用正交表进行试验设计的步骤 2.掌握无交互作用的正交试验设计的直观分析法与方差分析法 3.熟悉贡献率的分析方法 4.了解有交互作用的正交试验设计的方差分析法 5.熟悉最佳水平组合的选取 【【考点解读考点解读】】 三种统计技术的特点:新版教材第三种统计技术的特点:新版教材第7474页。
页第一节 方差分析 第一节第一节 方差分析方差分析一、方差分析一、方差分析1、三项基本假定、三项基本假定-(掌握掌握 p75)为什么要方差分析?目的和用途方差分析不是简单分析方差,通过方差分析因子的显 著与否方差只是手段对结果的影响是否显著要用到假设检验零假设,备择假设 但是假设检验的前提条件是:正态分布,等方差,观测相互独立也就是大纲里讲的三 项基本假定2、方差分析的统计检验、方差分析的统计检验-(掌握掌握 p76)那么如何在同方差假定下检验多个正态均值是否相等呢?其实统计检验的问题大家想 一下,零假设,备择假设是什么? 同一个因子,有不同水平,每个水平重复多次试验就得到一个分布有几个水平就有几 个分布,方差分析是看分布的均值是否相等相等,说明因子变动对结果没影响,相差越大 就越显著!3、单因子的方差分析、单因子的方差分析-(掌握掌握 p76-79)因子 a,有 r 个水平,也就是取值的情况,在试验中每个水平被重复 m 次那么总共可 以得到多少个结果观测值呢?n=r*m 个 每个水平的和,以及均值,分别共有 r 个总和为 t,总均值为 y 离差平方和,通俗来讲,就是每个值离开平均值的平方和。
先平方,再求和能反映离 散程度,波动情况 那么,什么因素造成观测值的波动呢?如果解释因子的离差平方和能够和结果的离差平 方和很一致,那么这个因子就是显著的@#这里, 这里,因子平方和的计算很有讲究首先,组间方差,也就是平方和,是用每个水平的 均值与总均值相比较来求因每个水平被重复试验 m 次,还要乘以 m 总平方和的求解概念上很简单,但计算量比较大因此,有个简便计算公式,每个观测的平方,求和;总和 t 平方,除以 n=r*m;然后两 者相减大家看一下,教材78页的公式是不是这样?,=同样,因子平方和的计算也有简便公式可以这样来理解,每组的(每个水平)的均值 平方,因每个水平被重复试验 m 次,故 m 次求和;总和 t 平方,除以 n=r*m;然后两者相 减一般地,总平方和、因子平方和不会相等之间的差额就是误差平方和当然,为了验 证平方和分解,还要计算一下误差平方和 为了能使用 f 分布进行统计检验,还需要用到自由度的概念来构造符合 f 分布的统计值@#自由度 自由度(degree of freedom, df),在数学中能够自由取值的变量个数,如有3个变量 x、y、z,但 x+y+z=18,其自由度等于2。
在统计学中,自由度指的是计算某一统计量时, 取值不受限制的变量个数通常 df=n-k其中 n 为样本含量,k 为被限制的条件数或变量个 数,或计算某一统计量时用到其它独立统计量的个数电子游戏中也有自由度这个概念 这个,我就不清楚了统计学上的自由度是指当以样本的统计量来估计总体的参数时, 样本中独立或能自由变化的资料的个数,称为该统计量的自由度 统计学上的自由度 包括两方面的内容: 首先,在估计总体的平均数时,由于样本中的 n 个数都是相互独立的,从其中抽 出任何一个数都不影响其他数据,所以其自由度为n 在估计总体的方差时,使用的 是离差平方和只要 n-1个数的离差平方和确定了,方差也就确定了;因为在均值确定 后,如果知道了其中 n-1个数的值,第 n 个数的值也就确定了这里,均值就相当于一 个限制条件,由于加了这个限制条件,估计总体方差的自由度为n-1例如,有一个 有4个数据(n=4)的样本, 其平均值 m 等于5,即受到 m=5的条件限制 , 在自由确定 4、2、5三个数据后 , 第四个数据只能是 9, 否则 m≠5因而这里的自由度 υ=n-1=4- 1=3推而广之 ,任何统计量的自由度 υ=n-限制条件的个数。
其次,统计模型的自由度等于可自由取值的自变量的个数如在回归方程中,如果 共有 p 个参数需要估计,则其中包括了p-1个自变量(与截距对应的自变量是常量 1) 因此该回归方程的自由度为 p-1这个解释,如果把 “样本”二字换成“总体”二字 也说得过去这个根本解释不了在统计学中,自由度的概念在一个包含n 个个体的 总体中,平均数为 m知道了 n-1个个体时,剩下的一个个体不可以随意变化为什么总体方差计算,是除以 n 而不是 n-1呢?方差是实际值与期望值之差平方的期望值, 所以知道总体个数 n 时方差应除以 n,除以 n-1时是方差的一个无偏估计@#这里 这里,自由度也有分解式其中,总自由度和因子自由度容易求,二者之差可以求 其三平方和与自由度之比,得均方差,ms 用 msa/mse=f,构造出 f 统计量并计算统计值然后与临界值,门槛值或者阈值,比 较如果大于阈值,拒绝原假设,因子显著!这个,阈值,教材上叫分位数1- 分位数f 分位数又有2个参数,即分子和分母的自由度最后,列出方差分析表 (平方和分解、总平方和、因子平方和、误差平方和,自由度、f 比、显著性) 如果显著,要找出最好的水平,根据均值最好的水平确定。
还可以用均值水平图直观显示 最后,还要估计我们统计检验的误差大小即误差方差,估计值用均方差 mse@#4、重复数不4、重复数不等情况下的方差分析、重复数不等情况下的方差分析-(掌握(掌握 p79-80))原理一样,做法稍有调整主要把公式中 的,换乘即可最本质的是这也是许多考生常常疑惑的地方,这里给出解答教材上是没有的,但是又非常影响情 绪和记忆效果的第二节 回归分析 第二节 回归分析1、、 散布图与相关系数散布图与相关系数散布图的做法与用途p81. 相关系数的定义(掌握 p82) 其实可以联想一下协方差的概念一个变量 x 的方差是 v(x)=,那么两个变量之间的协 方差呢?可以比照方差的公式这是理解的心法! cov(x)=. 协方差除以两个变量的标准差乘积就是相关系数 相关系数的计算方法公式很有规律其实是方差公式的主要部分2、样本相关系数的检验、样本相关系数的检验-(掌握(掌握 p83))有专门的检验表,教材上有统计值与临界值比较@#3、最小二乘估计 GLS-(掌握 P85)3、最小二乘估计、最小二乘估计 gls-(掌握(掌握 p85))这个可能大家都很熟悉了这里简略讲一下 基本思想是方程的估计值与实际观测值的之间的残差平方和最小,所以英文名叫 gls. 一般最小二乘法。
残差平方和,离差平方和,回归平方和,,下标 r 表示回归,英文名regression 同学看一下,上面3个公式哪个是固定的?哪个是可调的?哪个是要求最小的? 三者之间存在方差分解关系对求最小值如何求呢?求偏导数的方法@#调整调整中两个参数的不同取值,一直到残差最小所以,ab 是变量所以对其求导数乘以,,乘以 n解方程组,得,@#4、显著性检验-(掌握 P85)4、显著性检验、显著性检验-(掌握(掌握 p85))方差分析方法来检验关键是构造 f 统计量 残差平方和,离差平方和,回归平方和,,下标 r 表示回归,英文名regression 同学看一下,上面3个公式哪个是固定的?哪个是可调的?哪个是要求最小的? 三者之间存在方差分解关系和自由度分解关系其中,为自变量个数,= - ,=n-自变量个数@#5、模型预测-(掌握 P86-87)5、模型预测、模型预测-(掌握(掌握 p86-87))两个步骤1,代入方程得到的估计值2,给出预测精度,即置信区间由于假定了作为随机变量,服从正态分布所以预测精度可用预测误差来表示预测误差 预测误差一般服从 t 分布,即学生分布当30时,预测误差近似正态分布。
查表即可6、曲线回归问题、曲线回归问题-(掌握(掌握 p87-91))主要是变量转换,化为一元线性回归问题求得系数后,再还原到非线性方程对于不同形式的方程,选优的标准有两个:判定系数和标准残差第三节 试验设计 第三节 试验设计 但在实际工作中,常常需要同时考察3个或3个以上的试验因素,若进行全面试验,则试 验的规模将很大,往往因实验条件的限制而难于实施如有10个因子,各有2个水平的话, 需要1024次试验,各有3个水平的话,59049次试验正交试验设计就是高效率安排多因素试 验、寻求最优水平组合的一种试验设计方法当然,试验设计的方法有多种,正交试验是其 中一种一、基本概念与正交表一、基本概念与正交表 1.了解试验设计的必要性.了解试验设计的必要性 正交试验设计是利用正交表来安排与分析多因素试验的一种设计方法它是由试验因素 的全部水平组合中,挑选部分有代表性的水平组合进行试验的,通过对这部分试验结果的分 析了解全面试验的情况,找出最优的水平组合@#例如 例如,一个三因素三水平试验,各因素的水平之间全部可能组合有27种全面进行试验 可以分析各因素的效应,也可以选出最优水平组合。
但全面试验包含的水平组合数数多,工 作量大在有些情况下无法完成若试验的主要目的是寻求最优水平组合,则可利用正交表 来设计安排试验正交试验设计的基本特点是:用部分试验来代替全面试验,通过对部分试 验结果的分析,了解全面试验的情况如对于上述3因素3水平试验,可利用正交表 l9(34) 安排,试验方案仅包含9个水平组合,就能反映试验方案包含27个水平组合的全面试验的情 况,找出最佳的生产条件 教材第91-92页对正交表 l9(34)的描述非常基础也很重要@#2.熟悉常用正交表及正交表的特点2.熟悉常用正交表及正交表的特点.熟悉常用正交表及正交表的特点 由于正交设计安排试验和分析试验结果都要用到正交表,因此,我们先对正交表作一介绍常用的正交表已由数学工作者制定出来 l4(23)列号 试验号1231111212232124221 @#正交表记号为 正交表记号为 la(bc) ,其中 l 代表正交表,a 表示试验的次数即行数,b 表示因素的水 平数,c 表示因素的个数即列数 正交性 任一列中,各水平都出现,且出项的次数相等; 任两列之间各种不同水平的所有可能组。
