
统计学公式.pdf
18页统计学公式 1 一、用统计量描述数据 一、水平的度量: 1.简单平均数: 1231 n i ni X xxxx x nn . 2.加权平均数: 1 1221 12 k ii kki k M f M fM fM f x fffn .(如果原始数据被分成k组,各 组的组中值分别用 12k MMM,, ,表示,各组的频数分别用 12k fff, , ,表示,则得到 样本平均数计算公式) 3.中位数( e M) : 1 2 1 22 1 2 n e nn xn M xxn 为奇数 为偶数 . 4.四分位数: (1)定义算法: L(25%) U(75%) 4 3 4 n Q n Q 位置 位置 , (2)较准确算法: L U 1 4 3(1) 4 n Q n Q 位置 位置 , (3) 1 1 2 2 n Q 位置 (其中[ ]表示中位数的位置取整。
这样计算出的四分位数的位置, 要么是整数,要么在两个数之间 0.5 的位置上) , (4)Excel 给出的四分位数位置的确定方法: 3 4 L n Q 位置 , 31 4 U n Q 位置 (如果位置不是整数,则按比例分摊位置两侧数值的差值) 二、差异的度量: 1.极差(R)= 一组数据的最大值-最小值. 2.四分位差( d Q): 75%25%d Q. 3.总体方差( 2 ):(1)未分组数据: 2 2 1 () N i i x N , 统计学公式 2 (2)组距分组数据: 2 2 1 () K ii i Mf N . 4.总体标准差():(1)未分组数据: 2 1 () N i i x N , (2)组距分组数据: 2 1 () K ii i Mf N . 5.样本方差( 2 s):(1)未分组数据: 2 2 1 () 1 n i i xx s n , (2)组距分组数据: 2 2 1 () 1 k ii i Mxf s n . 6.样本标准差:(1)未分组数据: 2 1 () 1 n i i xx s n , (2)组距分组数据: 2 1 () 1 k ii i Mxf s n . 7.标准分数(z): i i xx z s . 8.离散系数( s v): s s v x . 三、分布形状的度量: 1.偏态(SK): 3 (1)(2) nxx SK nns . 2.峰态系数(K): 2 4 (1)3(1) () (1)(2)(3)(2)(3) i xxn nn K nnnsnn . 统计学公式 3 二、概率分布 一、度量事件发生的可能性: 1.事件 A 发生的概率: A ( ) m P Ap n 事件 发生的次数 重复试验次数 . 二、随机变量的概率分布: 1.离散型随机变量X的期望值: 1 ()( ()( n ii i ii i E Xx pX E Xx pX 取有限个值) 取无穷个值) . 2.离散型随机变量X的方差: 2 2 ()() ii i D Xxp . 3.离散型随机变量X的标准差:或()D X. 4.概率密度函数为( )f x的连续型随机变量,期望值:()( )dE Xxf xx ,方差: 22 ()()( )dD Xxf xx . 5.二项分布( ~( , )XB n p )设X为n次重复试验中出现成功的次数,X取x的概率为: ! !()! (0,1,2,, ) xxn x n n x Cn x nx P XxC p qxn 式中: ,二项分布的期望:(),E Xnp方差: 2 ()D Xnpq. 6.泊松分布 (~( )XP) ,对于Xx时有 e (0,1,2,,0) ! x P Xxx x 式中,—给定的时间间隔、长度、面积、体积内“成功”的平均数;e= 2.71828;x— 给定的时间间隔、长度、面积、体积内“成功”的次数。
期望值:()E X,方差: ()D X. 统计学公式 4 7.超几何分布(~( ,,)XH n N M), 对于Xx时有: ()1,2,, xn x MN M n N C C P Xxxl C ,式中,min(, )lM n,n为试验次数;N为总体 元素个数;M为总体中代表成功的元素的个数 8.概率密度函数: 2 2 1 2 2 1 ( )e, 2π x f xx . ( )f x= 随机变量 X 的频数;= 正态随机变量X的均值; 2 = 正态随机变量X的方差;= 3.1415926;e= 2.71828; x= 随机变量的取值()x . 9.标准正态分布:(1)随机变量具有均值为 0,标准差为 1 的正态分布; (2)任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布: ~(0,1) X ZN ; (3)标准正态分布的概率密度函数: 2 2 1 ( )e, 2π x xx ; (4)标准正态分布的分布函数: 2 - 2 1 ( )( )ded 2π t xx xxtt . 三、样本统计量的概率分布: 1.样本均值分布: 2 ~xN n ,~(01) x N n ,. 2.样本均值的期望值和方差:( )E x; 2 2 x n . 3.总体比例: 01 1 NN NN 或. 4.样本比例: 01 1 nn pp nn 或. 5. 当样本容量很大时,样本比例的抽样分布可用正态分布近似, 即: (1) ~,pN n . 统计学公式 5 6.样本方差的分布:对于来自正态总体的简单随机样本,则比值 2 2 (1)ns 的抽样分布服从 自由度为(1)n的 2 分布,即 2 2 2 (1) ~(1) ns n . 7.统计量的标准误差: 样本均值和样本比例的标准误差分别为 x n ; (1) p n . 8.估计的标准误差:样本均值:ˆx s n . 四、Excel 中的统计函数: BINOMDIST——计算二项分布的概率 NORMDIST——计算正态分布的概率 NORMINV——计算正态分布的区间点(临界值) NORMSDIST——计算标准正态分布的概率 NORMSINV——计算标准正态分布的区间点(分位数) CHIDIST——计算 2 分布的右尾概率 CHIINV——计算给定 2 分布的右尾概率的临界值 FDIST——计算 F 分布的右尾概率 FINV——计算给定 F 右尾概率的临界 TDIST——计算给定 t 值的分布概率 TINV——计算给定概率的 t 值 三、参数估计 一、一个总体参数的区间估计: 1.总体均值在1置信水平下的置信区间可一般性地表达为:x(分位数值x的标准 误差) 2.大样本的估计 (1)假定条件: 总体服从正态分布,且方差( 2 ) 已知; 如果不是正态分布,可由正态分布来近似 (30n). (2)使用正态分布统计量z:~(0,1) x zN n . 统计学公式 6 (3)总体均值 在 1- 置信水平下的置信区间为 22 () s xzxz nn 或未知. 3.小样本的估计 (1)假定条件: 总体服从正态分布,但方差( 2 ) 未知; 小样本 (30n). (2)使用t分布统计量:~ (1) x tt n sn . (3)总体均值 在 1-置信水平下的置信区间为: 2 s xt n . 3.总体比例的区间估计 (1)假定条件: 总体服从二项分布; 可以由正态分布来近似; np(成功次数)和(1)np(失败次数)均应该大于 10. (2)使用正态分布统计量z:~(0,1) (1) p zN n . (3)总体比例在 1-置信水平下的置信区间为: 2 (1- )pp pz n . 样本比例±分位数值×样本比例的标准误差 4.总体方差的区间估计 (1)估计一个总体的方差或标准差; (2)假设总体服从正态分布; (3)总体方差 2 的点估计量为 2 s,且 2 2 2 1 ~1 ns n ; 统计学公式 7 (4)总体方差在 1- 置信水平下的置信区间为 22 2 22 212 11 11 nsns nn . 5.样本量的确定 (1)估计一个总体均值时样本量的确定:令E代表允许的估计误差,可以推导出所需样本 量的计算公式: 22 2 2 ()z n E . (2)估计一个总体比例时样本量的确定:令E代表允许的估计误差,可以推导估计总体比例 时所需样本量的计算公式: 2 2 2 ()(1)z n E . 四、假设检验 一、一个总体参数的检验 1.大样本的检验 (1)在大样本的情况下,样本均值的抽样分布近似服从正态分布,其抽样标准差为/n. 采用正态分布的检验统计量.设假设的总体均值为 0 ,当总体方差 2 已知时,总体均值检验 的统计量为: 0 / x z n . (2)当总体方差 2 未知时,可以采用样本方差 2 s来代替,此时总体均值检验的统计量为: 0 / x z sn . 2.小样本的检验 在小样本(30n)情形下,检验时首先假定总体服从正态分布.检验统计量的选择与 总体方差是否已知有关。
统计学公式 8 (1)当总体方差 2 已知时,即使是在小样本的情况下,样本均值经过标准化后仍然服从标 准正态分布,此时可按 0 / x z n 对总体均值进行检验. (2) 当总体方差 2 未知时,需要用样本方差 2 s代替 2 ,此时 0 / x z n 给出的检验统计 量不在服从标准正态分布,而是服从自由度为1n的t分布.因此需要采用t分布进行检验. 检验统计量为: 0 / x t sn . 3.总体比例的检验(总体均值检验类似) 检验统计量(大样本,p服从正态分布): 0 00 (1) p z n . 4.总体方差的检验(总体服从正态分布) 检验统计量: 2 2 2 0 (1)ns . 五、分类变量的推断 一、一个分类变量的拟合优度检验 1.期望频数相等 拟合优度检验又称一致性检验.使用 2 分布. 计算公式: 2 2 () oe e ff f 统计学公式 9 式中, o f为观察频数; e f为期望频数,统计量服从自由度为1k 的 2 分布;k为类别个 数.如果统计量 2 等于 0,表明观察频数与期望频数完全一致;如果显著不同于 0,则表明 观察频数与期望频数之间存在显著差异, 2 值越大差异就越显著. 2.期望频数不相等 用期望比例乘以观察频数(即样本量)即得期望频数. 二、两个分类变量的独立性检验 1.列联表与 2 独立性检验 对列联表中的两个分类变量。
