
气象统计方法第三章选择最大信息的预报因子.ppt
83页气象统计方法,主讲:温 娜,南京信息工程大学 大气科学学院 2014年9月,本课件主要参考南信大李丽平老师的课件,第三章 选择最大信息的预报因子,本章主要内容,概率、条件概率及预报指标 定量数据的指标 高自相关变量间的相关系数及其检验,第一节 概率和条件概率以及预报指标,一、概率 1.事件:自然界中的一切现象 2.频率:衡量事件出现可能性大小的数量 指标n次观测次数中,事件A出现m次, 则事件A的频率为,,3.概率: 观测次数n足够大,P(A)稳定接近某个常数,这就是概率 概率是事件的总体特征,频率是事件的样本值二、条件概率和天气预报指标 1.概念 在事件B已经发生的条件下计算事件A的概率,称为事件A在事件B已出现条件下的条件概率,记为P(A/B) 若事件A、B同时出现的概率为P(AB),则有,,条件概率是统计预报的基础 统计天气预报中,往往将A取为所要预报的具体内容,而将B取为事件A以前 时刻的某个前期气象条件举例: 用事件A表示长江中下游五站当年 6月平均降水小于250mm的情况,事件B代表长江中下游五站当年1月平均降水小于22mm的情况 若已知1885-1980年共96年资料统计得: P(A)=69/96=0.72 P(A/B)=13/14=0.93 则当1月份观测五站平均降水小于22mm时,可预报6月降水小于250mm,2.条件概率作为天气预报指标必须满足两个经 验性的条件 (1)P(A/B)P(A)或者P(A/B)P(A) (差异至少在0.2以上) (2)P(A/B)----1或P(A/B)-----0,A/B之间有一定联系,预报指标有一定准确率,3.事件的独立性 如果事件B的出现与否不影响事件A出现的概率,则称事件A对于事件B是独立的,满足: P(A)=P(A/B) 或者 P(AB)=P(A)*P(B),注意: 要圆满地回答A和B是否相互独立的问题,应知道计算频率时所用的观测资料的次数,使用统计检验理论。
三 天气预报指标的统计检验 1.二项分布 (1)二分类预报:只预报事件A出现或 者不出现( ),又称为正反预报 这类预报,可有不少预报指标,但其可靠程度如何?回答这个问题,需要涉及它们的概率分布设 两个互逆事件,P(A)=p, , p+q=1 问题:求n次独立试验中,事件A出现m次的概率 定义一个事件B,它在n次试验中,前m次出现A,后面n-m次出现 ,则有:,(2)符合二项分布的三个条件: 第一:每次试验只有两个结果; 第二:试验条件不变,每次试验均有 P(A)=p, ; 第三:试验的独立性 符合这三个条件可用二项分布计算相应概率,,,2.二项分布在天气预报中的应用 1)计算天气现象出现的概率,特别是小概率事件2)天气预报指标的检验 天气预报指标的检验实际上是反面来检验该预报指标的可靠程度,历史拟合的准确率从正面说明该指标的可靠程度用二项分布检验天气预报指标,是检验某一条件概率所指示的事件是属于偶然性还是具有规律性的一种方法某事件A出现的概率是p,而在条件B时,事件A出现的频率是m/n,则,Q的含义 即作用?,当Q值小于0.05或0.01时,认为事件具有“超偶然”的统计规律,指标可用。
当Q值大于某上限值时,偶然性过大,指标不可用. 当Q值小于0.05或0.01时, A事件在n次中出现m次的事件是小概率事件,在一次试验中不可能,但在条件B影响下发生了,说明B起的作用小概率事件,概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件. 一般多采用0.01~0.05两个值,即事件发生的概率在0.01以下或0.05以下的事件称为小概率事件,这两个值称为小概率标准由于发生的可能性极小,而忽视了它的存在,其实利用小概率事件可以解决一些看似很难的问题.因此有必要对小概率事件作全面而正确的认识 这个随机事件A以很小的概率发生,该事件称为小概率事件.,设Ho为一原假设,H1为一与其对立的备择假设(对立假设),构造一个随机事件A,当原假设成立时随机事件A以很小的概率发生该事件称为小概率事件 一般来说在一次试验中小概率事件不应发生,若发生了,则否定原假设H0,接受与其对立的备择假设H1第二节 定量数据时的指标,状态要素:可以用条件概率选择预报因子并且用二项分布检验预报因子的可靠程度 定量数据要素:主要用相关系数选择预报因子或因子集,并用t检验方法检验其可靠性自然界中各现象间存在普遍的关系。
关系可分为两种: 确 定 性关 系:数学上的函数关系 非确定性关系:统计上的相关关系 相关系数:度量各现象(各要素)间相关程度的量;,下面学习的主要内容,1.简单相关系数 2.相关系数的检验-t检验 3.自相关系数/落后交叉相关系数 4.偏相关系数,,相关关系(类型),相关关系的描述与测度,一、简单相关系数(pearson相关系数) 1. 概念 描述两个变量线性相关的统计量,一 般简称为相关系数或者点相关系数,用r表 示它也作为两总体相关系数ρ的估计2.表达式,设有两个变量x,y,观测值分别为: 相关系数的几种表示方式:,,,,,,,(1)原始资料:,(2)距平(均值为0),,,(3)标准化距平(标准化后资料均值为0,均方差为1) 此刻,相关系数就是协方差,3. 几点重要理解: (1)相关系数是标准化变量的协方差 (2) (3) 绝对值越大,表示变量之间关系越密 切当r0,表明两变量呈正相关,越接近1.0,正 相关越显著;当r0,表明两变量呈负相关,越接 近-1.0,负相关越显著;当r=0,则表示两变量相互独立 计算出的相关系数是否显著,需要经过显著性检验取值及其意义,(4)相关系数的校正 根据统计学中大样本定理,样本量大于30才有统计意义。
当样本量较小时,计算所得相关系数可能会离总体相关系数甚远这时,可以用计算无偏相关系数加以校正4. 相关系数的检验(huang and weip36)--- 样本相关是否意味着总体相关? 正态总体的相关检验实质上是两个变量间或不同时刻间观测数据的独立性检验 所谓相关检验,就是检验 ρ=0的假设是否显著 在假设总体相关系数ρ=0成立条件下,构造统计量(相关系数r的函数)是t分布的密度函数于是,就可以用t检验法来检验1)t 检验 在原假设ρ=0的条件下,统计量 符合自由度为n-2的t分布. 给定信度α 和样本相关系数r,根据自由度查 出 ,若 否定ρ=0,总体相关 接受ρ=0,总体非相关2)相关系数表 在气象统计预报中,选择因子往往需要计算很多相关系数,逐个如上法检验很麻烦 实际上,在样本量固定情况下,可以计算统一判别标准的相关系数 ,若 ,则通过显著性的t检 验 的计算过程如下:,,,,由 计算出 : 样本容量固定时,通过检验的t值应该至少等于 ,故有 式中, 就是通过检验的相关系数临界值 实际应用中,若已知自由度(n-2)和显著性水平,查相关系数表即可。
t检验,,,相关系数 表检验,,,,,,思考:置信度(置信水平)/显著性水 平的区别?,,,,,,,举例:,,,,t分布表,相关系表,Monte Carlo 检验方法,,,n=100000,,,Monte Carlo Check,Student-’t’ 分布,N=13 N=28 N=58 N=118,t分布概率密度函数,二、自相关系数(huangP16,补充例子),1.概念 衡量气象要素不同时刻之间的关系密切程度的量是自协方差和自相关系数2.表达式 设一时间序列 t t =1,2,…,n, r(j):时间间隔长度为j=t2-t1(t2t1)的自相关系数;s(j):自协方差; 落后相关系数:j为正数时;(后一个x比前一个 落后j) 超前相关系数: j为负数时相对概念),,,,其中, 、s为样本(容量n)的平均值和 标准差3)u检验----自相关系数(wei附表1b) 遵循N(0,1)的正态分布(wei书中有表)当样本容量足够大时,用u检验对于小样本量,可用t检验通过检验可以判断气候变量是否具有持续性举例,2月,1月,12月,计算步骤:,计算12月、1月、2月气温各自落后自相关系数,,,,,12月,拉萨站降水的自相关分析,El Nino Index region,,,99%,,三、落后交叉协方差和相关系数,1.概念 衡量两个变量不同时刻之间的相关密切程度的量,常用落后交叉协方差和落后交叉相关系数表示。
2.表达式 设 和 (t=1,2,…,n),分别为两个时 间序列,则对时间间隔 j 的落后交叉协方差为: 相应的落后交叉相关系数为 交叉协方差的分母也可以为n举例:**,12月的气温与落后1年的1月气温交叉相关系数,1,12,12月,1月,2月,,,,,冬季(NDJ)El Nino指数,冬季El Nino与次年夏季 我国降水的相关关系(1958-2006),Red shaded: 90% significance Monte Carlo check: V=0.228,四、 偏相关系数,1.概念 当存在三个以上变量互相影响时(如考虑y和x1、x2 之间的关系),需要考虑消除了x1(x2)影响后,x2(x1)与y 的相关关系,这时候的相关系数称为偏相关系数,记为 一般的表达为:,,,R为m个预报因子和预报对象的单相关系数组成的矩阵,对角线元素为1根据m个预报因子与y的相关矩阵,则偏相关系数表示为:,相关矩阵去掉第m+1行、第i列后的代数余子式,,例:,,,,,,计算偏相关系数:,,,,,,,第三节 高自相关变量间的相关系数 及其统计检验,(1)两个变量无持续性(非高自相关) ---------t检验 (2)两变量本身有强持续性或高自相关,t检验的自由度不能用,需要计算有效自由度 ,其中,,,其中, 分别是变量x、y的自相关系数,j为滞后时间,j通常取到n的一半,*表示标准化。
海表温度和南方涛动指数都具有很强的持续性,计算相关时需要调整自由度T=3.43,有效自由度 n/T=33,,,,,课堂实践,用超前滞后相关方法分析降水和海温自身变化特征再分别用相关和合成方法,分析江苏省夏季降水与赤道太平洋Nino3区冬季海温异常之间的联系,江苏省夏季降水资料(1978-2007),热带太平洋冬季Nino3.4区标准化海温异常(1977-2006),。
