好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

分析化学中的数据处理 7.1 标准偏差(标准差或均方误差) 7.2.ppt

58页
  • 卖家[上传人]:cn****1
  • 文档编号:606681211
  • 上传时间:2025-05-23
  • 文档格式:PPT
  • 文档大小:1.53MB
  • / 58 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,*,,第7章 分析化学中的数据处理 7.1 标准偏差〔标准差或均方误差〕 7.2 随机误差的正态分布 7.3 少量数据的统计处理 7.4 误差的传递 7.5 回归分析 7.6 提高分析结果准确度的方法,,几个概念〔术语〕 1、总体〔母体〕 所研究对象的某特性值的全体 2、个体 总体中的每一个单元,指全体中的一个单位或某一次测定 3、样本〔子样〕 从总体中随机抽出的一组测量值或指总体的一个局部 4、样本容量〔样本大小〕 指样本中个体的数目,或样本中测量值数目总体、个体、样本、样本容量间的关系,,当,n,→∞时:,,,又∵,,n,<,20,次,,有限次,测量,且无系统误差,,当,n,→∞时:,n,>,20,次,,无限次,测量,且无系统误差,个体,,样本平均值,,样本容量,总体平均值,样本平均偏差,总体平均偏差,,7.1 标准偏差〔标准差或均方误差〕  总体标准偏差σ 当n→∞时:测量值x对总体平均值μ的偏离用σ表示。

      〔此式应用于n→∞,μ= xT;无系统误差〕 式中: ——差方和 〔它能更好地说明数据的分散程度〕,,7.1.2 样本标准偏差S 〔n为有限值,一般<20且无系统误差〕 同样:式中 ——差方和〔即偏差的平方和〕 S与σ比较:〔1〕用 代替了μ;〔2〕用n-1代替了n 式中:n-1 = f ——自由度 标准偏差的计算: ∵ 〔等效式,可直接利用测量数据计算〕 ∴,,7.1.3 相对标准偏差〔变异系数或变动系数〕 相对标准偏差 = 〔或1000‰〕 标准偏差σ〔或s〕与平均偏差δ(或 )的异同点 1、不必考虑偏差的正负号 2、σ〔或s〕增强了大偏差数据的作用 如P243-二组数据: 可见: S> 3、δ与σ的关系 统计学证明: 当n→∞时,〔即σ>δ〕,或4δ=3σ 〔但有的书中也有 = 0.8 S 或 4 = 3S〕。

      X,min,X,max,,S,数据1,-,0.4,+0.4,0.24,0.28,数据2,-0.7,+0.5,0.24,0.33,,,平均值的标准偏差,,统计学上证明:,,,,〔无限次测量〕,,,或: 〔有限次测量〕,,可见: 〔1〕 且是S的 倍,即:平 均值的误差按测定次数的比例减小; 〔2〕上式的意义: 〔3〕增加测定次数n,可以提高测 定结果的精密度,但事实上增加n 所取得的效果是有限制的即:,4次测量时: 是S的1/2倍,,9次测量时: 是S的1/3倍,酬答依次减小,,25次测量时: 是S的1/5倍,,,同理: 单次测量的 〔δ〕与平均值的 间也有: 〔无限次测量〕 〔有限次测量〕,,7.2,随机误差的正态分布,,频数分布,,频数〔ni〕——每组中出现的数据个数,,,——相对频数〔或频率〕,,,——频率密度,,,以频数〔或频率密度〕 ~组值范围,,作图,得频数〔或频率密度〕分布,,直方图。

      〔见P245-图7-1〕,,正态分布〔高斯分布〕 对上述分析数据进行整理时,数据具有以下特性: ①向某中心值集中的趋势;②偏离此中心值的倾向 为明确表达数据的特性,我们通常 用两个特性参数来表征一组数据:  〔1〕 ——数据的集中趋势 〔2〕 ——数据的离散倾向 1、正态分布曲线,,式中: y——相当于测量值x出现的频率密度 〔或概率密度〕 μ——相当于总体平均值 相当于曲线最高点对应的横坐标值,表征数据的集中趋势 σ——总体标准差 相当于μ到曲线两拐点之一的距离,表征数据的分散程度 x〔自变量〕——个别测量值 x-μ——代表测量值对μ的偏离〔表征随机误差〕,,随机误差有以下规律: 〔1〕单峰性 当x=μ时(无系统误差时μ=xT),ymax表达了测量值的集中趋势,或μ( )是最正确值或最可信赖值; 〔2〕对称性 曲线以x=μ为对称轴,呈钟形对称,说明正负误差出现的机率相等; 〔3〕有界性 当x→+∞或x→-∞时,曲线以x轴为渐近线,即:大误差出现机率小,小误差出现机率大; 〔4〕当x=μ时 —— 概率密度 ——测量值落在μ±dx 范围内的概率,,①当σ↑时,数据分散,分布曲线 平坦〔矮胖〕;当σ↓时,数据集 中,分布曲线锋利〔高瘦〕。

      ②当σ相同,μ不同时,曲线形状 一致,而位置发生左〔或右〕移, 所以μ的大小代表数据集中于何处 〔5〕所以只要μ、σ确定之后, 分布曲线便确定下来,这种分布曲线 记作:,,2、标准正态分布曲线 为一方便求出某区间的概率,将横坐标进行变量代换 定义: 〔即:以σ为单位来表征随机误差〕 那么: ∴ ——概率 即 这样的曲线称之标准正态分布曲线,记作N〔0,1〕,,标准正态分布曲线的特征是: 〔1〕当X=μ时,y有极值, 当σ=1时 〔2〕正负误差出现的时机均等; 〔3〕大误差出现的概率小,小 误差出现的概率大随机误差的区间概率 实际分析工作中,对误差有两类问题需答复: 〔1〕某一给定范围的测定,这些测定出现的时机是多少? 〔2〕为保证测定有一定把握,这些测定的误差可以要求在什么范围内? 以上这些问题的答复都要知道误差的区间概率,〔即概率密度的积分〕,,∵正态分布曲线,y,与横轴所夹面积表示全部数据出现的概率的总和,显然:,,曲线与横轴间所夹面积=正态分布密度函数在-∞<,x,<+∞区间的积分值,,它代表了各种大小偏差的本样值出现概率的总和。

      或:某范围内测量值出现的概率=该局部面积/总面积 或:取不同u值对 积分得到 P248-表7-2为: 的积分值即 概率——单边值注意: 〔1〕表中积分值的上下限为0~u〔单边〕,假设考虑±|u|时,应将积分值×2〔双边〕,同样: 假设考虑±|u|以外的概率=1-2P〔双边〕 或>u的概率-P 〔2〕由此表可计算随机误差或测量值出现在某区间内〔或外〕的概率 〔3〕此表的另一个应用:可以从概率倒过来找误差界限〔范围〕,,∵ 可见:随机误差超过±3σ的测量值出现的概率很小〔仅0.3%〕,一般这样的极端值可舍弃〔所以常将3σ称之随机误差的极限值〕随机误差出现的区间(双边),测量值(,x=,μ,±,σu,)出现的区间(双边),概,,率,=,±,1,x=,μ±,1,σ,0.3413×2=0.6826,=,±,1.96,x=,μ±,1.96,σ,0.95,=,±,2,x=,μ±,2,σ,0.4773,×,2=0.955,=,±,2.58,x=,μ±,2.58,σ,0.99,=,±,3,x=,μ±,3,σ,0.4987,×,2=0.997,,例1:某年全国参加高考的学生化学成绩平均值为μ=75分,σ=10分,假设总分值为100分,总分为120分,计算:高于100分和不及格〔低于60分〕学生的概率。

      解:∵ x =μ±σu ∴ x =100时: x =60时: 查P248-表7-2知:|u时, |u时, 高于100分学生概率为:0.5000-0.4938=0.062 低于60分学生概率为:,,例2:求测量值落在区间〔μ-σ,μσ〕的概率 解: ∵ , ∴ x=μ±uσ 当 u时,查P248-表7-2知:P=0.2580 ∴ 求得其概率 P = ×2=0.5160=51.6% 例3:求测量值落在〔μ-σ,μσ〕区间的概率 解:|u1时,查P248-表7-2知: P=0.1554 |u2时,查P248-表7-2知:P=0.3413 求得其概率 P = 〔49.67%〕 可见:当两区间宽度相等时,测量值落在对称区间的概率大于不对称区间的概率,这种现象对正态分布来说是普遍的。

      例4:某班学生117个数据根本遵从正态分布N(,()2),求测量值落在〔~〕中的概率 解:∵μ,σ,而 ∴当 x1时, ,查得P1=0.4773 当 x2时, ,查得P2 ∴ P 〔96.34%〕 同理:落在~以外的概率=1-96.34%=3.66%(≈4%) 理论上约有117×3.66%=4.28=4个数据落在上述范围以外〔事实也如此〕,故:这批数据确实符合正态分布7.3 少量数据的统计处理 只有当n→∞时, ,这时才能准确无误地找到μ,显然,这是做不到的,实际工作中,涉及的测量数据通常不多,此时得到的 总带有一定的不确定性,由于xT不知,所以σ是算不出来的假设以 代替xT,以S代替σ,而又按理论上的正态分布来处理实际问题,是不合理的,甚至可能得到错误的判断为了解决用统计方法处理有限次测量数据,并能合理的地推断总体的特性问题,英国统计学家兼化学家戈塞特〔〕以笔名“student〞发表了其研究工作,提出在统计处理少量实验数据时,为了补偿以S代替σ带来的误差,可以根据测量数据的多少,用另一数值“t〞代替“u〞,这一代替和补偿的方法称之“t分布〞或“学生氏t〞法。

      7.3.1 t 分布曲线 在进行有限次测量时,用S代替σ所带来的误差,用一新的量“t〞来补偿 t 值的定义为: 〔对应 〕 注:有些书中定义: 在t分布曲线中: 纵坐标——概率密度 横坐标——t值可见: 当n→∞时,t分布→正态分布同理:t分布曲线下某区间的面积也表示随机误差在该区间内的概率t分布中,t值随概率和f值变化 〔不同概率和f值对应的t值,见P250-表7-3〕 注意: 〔1〕表中:P——置信度〔置信概率〕,它表示在某t值时,测量值x落在μ±ts范围内的概率〔或代表我们相信测量值x的误差不超过±ts的把握〕; 〔2〕α——显著性水准〔危险率〕:它表示测量值x落在μ±ts以外的概率,显然:α=1-P; 〔3〕当f→∞时,t→u〔当f=20时,t与u已很接近〕平均值的置信区间 ∵分析测量结果可表示为: 〔或:μ=x±ts〕 ∴ μ= x±ts 或 μ=x±uσ 表示: 在一定置信度时,以测量值x为中心的,包括总体平均值在内的可靠性范围——置信区间。

      而 或 表示: 在一定置信度下,以样本平均值为中心的,包括总体平均值在内的可靠性范围——平均值的置信区间 以上关系式也说明了平均值〔或xT〕与总体平均值的关系,即:说明了平均值的可靠性例1:钢中铬百分含量的测定,先测两次:,,再测三次:,,试计算按两次和五次测定的数据来表示平均值的置信区间〔〕 解:两次测定: 〔%〕,〔%〕 ∵ ,∴ 三次测定: 〔%〕,〔%〕 ∵ ,∴ 可见:同一置信度下n↑〔f↓〕,置信区间↓;S↓,置信区间↓,平均值的可靠性↑例2:P251-例5 解:时,μ=(47.60±0.09)% 时,μ=(47.60±0.13)% 可见P↑,置信区间↑ 时,μ=(47.60±0.23)% 所以置信概率越高,置信区间就越宽,判断失误的时机就越小。

      反之,那么判断失误的可能性上升 统计意义上的推断通常不把P定为100%,而通常将P定为95%或90% 注意: 对平均值的置信区间必须正确理解如例1中:(1.13±0.03)%表示“在此区间中包括总体平均值的把握为95%〞,假设理解为“在未来测定中,实验平均值有95%落在〔〕%区间内〞是错误的显著性检验 在定量分析中,当我们取得一系列数据后,必须对这些数据进行正确的评价,要肯定地答复这些数据是否全部有效,是否存在系统误差,对于比较两种分析方法或两实验室的分析结果,或进行各种测定条件下试验等实验结果作出合理的判断所谓“显著性检验〞就是利用统计的方法来检验被处理的问题是否存在统计上的显著性差异即:“假设检验〞1、t 检验法 〔1〕平均值与标准值的比较 方法:如一批数据:n, ,S,f = n-1,并标准值μ ①计算: ; ②查P250-表7-3得 ; ③比较:假设 , 那么有显著性差异〔存在系统误差〕; 假设 , 那么无显著性差异〔不存在系统误差〕,,此类t检验法可应用于以下几个方面: ①μ〔如标样的标准值〕; ②其理论值,且误差是正态分布的,所以此理论值视为μ; ③常规分析中,产品规格所定的值视作μ; ④已作过一组n>20的数据,其 可视作μ,那么另一组n值较少的数据可与之比较。

      例:某厂生产复合维生素丸,要求每50g维生素丸中含Fe2400mg,从某次生产中随机抽取局部试样测定五次,得铁含量如:2372,2409,2395,2399,2411,问此产品是否合格? 解: n=5,f=4, 查P250-表7-3知: , ∴ ∴无显著性差异,故此产品合格〔2〕两组平均值的比较 方法:先进行F检验,证明两组数据的精密度间无显著性差异;再用t检验,证明两平均值间无显著性差异 设:两组测定结果 ①计算: ; ②查P253-表7-4的F表; ③比较:假设F<F表,无显著性差异,反之,F>F表,有显著性差异; ④用t检验法〔检验 与 间有无显著性差异〕: 计算t值:,,式中: ——合并标准偏差 ⑤比较:t 与 〔f=n1+n2-2〕 :有显著性差异; :无显著性差异〔 与 间差异由随机误差引起〕,,2、F检验法 此法通过计算两组数据的方差S2之比来检验它们之间在精密度上是否存在显著性差异。

      如: 假设 ,那么相应地 计算 〔F值总是大于1〕 比较F与F表 注意: 〔1〕进行F检验时,应确定属于单边或双边检验问题〔表中单边P=95%,双边P=90%〕; 〔2〕任何结论都是相对、有条件的例1:为鉴定一分析方法的准确度,取含量为100mg的某基准物进行了五次测定:,,,,如何评价此组数据 解: 查表 , ∴ 无显著性差异 讨论:<〔低〕,但S =0.45 ,且仅测5次,∴判断此法不存在负系统误差的证据缺乏 〔此时t=1.5≈P=80%,即:随机误差出现的时机有20%〕,,例2:在上例根底上又补充五次测定:,,,,此时结果如何? 解: ∴存在显著性差异〔即存在系统误差〕,,异常值的取舍〔或可疑值的取舍或过失误差的判断〕 1、 法〔四倍法〕 〔1〕原理:依正态分布,偏差大于3σ的值出现的概率小于0.3%,所以认为该偏差属过失误差所致〔属小概率事件〕,因为3σ=4δ,所以偏差大于4δ的值是属过失误差所致,在有限次测量中,4δ近似为4 ,所以偏差大于4 的值应舍去。

      〔2〕方法: ①除去可疑值〔异常值〕后,求其余数据的 及 ; ②判断:假设 ,那么x异应弃去,反之那么保存2、Grubbs法 方法: 〔1〕将数据由小至大依次排列:x1,x2,……xn-1,xn 〔2〕计算 ,S〔全部数据的〕 〔3〕计算 〔4〕查表:Tαn〔P256-表7-5〕 〔5〕判断:当T≥Tαn,那么X异应舍弃,反之那么应保存3、Q检验法〔舍弃商法〕 方法: 〔1〕将数据依小至大排列:X1,X2,……Xn-1,Xn 〔2〕计算极差:R=xmax-xmin,即R=xn-x1 〔3〕计算舍弃商Q: 〔 或 ) 〔4〕查表:Q表〔P257-表7-6〕 〔5〕判断:当Q≥Q表,那么X异应舍弃,反之应保存说明: 〔1〕 法较简单,不需表值,易为人们所接受,但此法数据上不严格,因为在 以内或以外测定出现的时机是多少是不明确的,要找出 的分布也很困难;判断中没有联系n值,且先将X异排除在外,然后检验,所以极易将有效数据舍弃〔因为可疑限得较低〕,因此,目前使用不多,仅在要求不高,n=4~8次时使用。

      〔2〕Q法符合统计原理,具直观、计算方便的优点,所以常采用,但此法将可疑限订得太高,所以有时会过多保存异常值〔仅适于3~10次测定〕 〔3〕Grubbs法是目前最合理,舍取效果最好,使用最普通的方法,但计算麻烦〔 ,S〕,当其他方法与Grubbs法发生矛盾时,以后者为主7.4 误差的传递 系统误差的传递 1.加减法 和、差的绝对误差=各测量值绝对误差的和差 如: 那么: 积、商的相对误差=各测量值相对误差的和差 如: 那么: 3.指数关系 分析结果的相对误差=指数倍的测量值的相对误差 如: 那么: 4.对数关系 分析结果的绝对误差=0.434×系数倍的测量值的相对误差 如: 那么:,,随机误差的传递 1.加减法 分析结果的方差=各测量值方差的总和 如: 那么: 分析结果的相对标准差的平方=各测量值相对标准差平方的总和 如: 那么: 分析结果的相对标准偏差=指数倍的测量值的相对标准偏差 如: 那么: 分析结果的相对标准偏差=0.434×系数倍的测量值的相对标准偏差 如: 那么:,,极值误差〔极限误差或极差误差法〕 如: 那么: 〔∈——极值误差〕 如: 那么:,,例1:用一台停点的标准差为的分析天平进行重量分析,称取含银试样,得AgCl沉淀,问在求Ag%时,由于称量时观察停点所带来的标准差是多少? 解:∵ 而测定中:试样称量读两次停点;沉淀称量读四次停点〔随机误差传递〕 ∴ ∴,,例2:,某滴定分析用去标液体积为,其体积测量的标准差为,,,称量试样,其称量,标准差,为,标液,浓度的相对标准偏差,为,0.1%,,试计算,分析结果,的相对标准偏差 。

      解:,∵,,∴,,∴,,,例3:电位法测定某一价金属离子的活度,假设电势测定的标准差为10-3,求分析结果的SC/C 解:∵ 〔当a为氧化态时取+,当a为复原态时取-〕 ∴,,7.5 回归分析 7.5.1 一元线性回归方程 如:一元线性方程 〔即回归方程〕 回归线:利用最小二乘法确立的最正确直线称之〔线上所有测量值y的偏差平方和最小〕 回归系数:a、b 1、回归系数确实定 ∵ x——自变量(准确的或可精确测量,严格控制的),误差较小 y——因变量〔测量值〕,总带有误差,设其为e〔偏差〕 回归线模型: n次测定后得〔xi,yi〕,i=1,2,3……n,,令:y的偏差平方和为Q〔总误差〕 〔1〕 ∵回归线是所有直线中差方和Q最小的一条直线∴对〔1〕中的a、b分别求偏微分并令其=0。

      ∴ 〔2〕 〔3〕 ∴求得,,∴由一组〔xi,yi〕求得的a、b值称之参数a、b的估计量〔用 表示〕,它们一旦确定,回归方程便确定,即: ——回归直线(不是任意直线) 2、回归直线的特点 〔1〕它必定通过〔 〕点——牢记 〔2〕对所有实验点而言,此线的误差最小 〔3〕它也许不过任何一个实验点〔与直尺作图习惯不同〕,,3、求解回归方程的中应注意的几个问题 〔1〕不要过早修约数字,应在获得a、b具体值后再合理修约(否那么 会使有效数字减少很多); 〔2〕b的有效数字位数应与x相等,a与y相等〔最多多一位〕; 〔3〕回归计算较烦易错,所以最好验算: 公式,,相关系数,1、相关系数,定义:,,,r的物理意义:,,〔1〕当r=1时,所以点都在回归直线上,此时称y与x完全相关,实验误差=0; 〔2〕当0<|r|<1时〔大多如此〕,x与y间有相关关系:r>0时正相关;r<0时负相关。

      r|越接近1,y与x相关关系越好,点越靠近直线; 〔3〕当r=0时,回归线平行于x轴的直线,此时b=0,y与x无关,即回归直线无意义〔y的变化不随x而变化〕 注意: 〔1〕在r定义式中:分子永远小于分母,所以r的取值范围:0<|r|<1; 〔2〕r表示y与x间的线性相关关系,所以当r很小或r=0时,并不表示y与x间不存在其它相关关系2、相关系数的显著性检验 判断变量x与y间是否存性关系或说线性关系好不好是相对的,它也可以借用显著性检验来判断 在一定置信度下,只有当r>r表时,线性关系才有意义〔P264-表7-7r表〕,,7.6 提高分析结果准确度的方法 1、选择适宜的分析方法 2、减小测量误差 3、减小随机误差:适当增加测定次数 4、消除系统误差:对照试验;空白试验;仪器校准;结果校正天平称量,①重量、滴定,:,∵相对误差≤,0.1%,,即天平称量误差±,0.0001mg,,∴至少应称0.2g,,②光度法: 相对误差,=2%,,若称取,0.5g,样,,,只需称准至,2%,×,0.5=0.01g(0.001g),则可滴定法,相对误差≤,0.1%,,而读数,0.01ml,,所以至少消耗体积,= 20,~,30ml,光度法,A=0.2,~,0.8,,。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.