
统计学重点整理[教学].doc
10页参数(parameter):描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值所关心的参数主 耍有总体均值、标准差、总体比例等总体参数通常用希腊字母表示统计fi(statistic):用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数 所关心的样本统计虽冇样本均值(x)、样本标准差(s)、样本比例(p)等样本统计量通常用小写英文字母表示1、概率抽样:简单随机抽样(SRS)、系统抽样(SYS)、分层抽样(STS)、整群抽样(STS)、多阶段抽(MSS) 简单随机抽样(SRS)特点:总体中每一个样木点均有相同机率被抽中、抽出某个样本后不影响另一个样本抽岀的机率(独立性)、经 常先列样本名册后用计算机产牛随机数或随机表抽选放回和不放冋:放回(重复)抽样;无放回(不重复)抽样系统抽样(SYS)等距抽样:将所有样本列册以序号排列,先随机抽取第一个样本,接着每隔K个样本抽取下一个样本;间隔K 的求法:Population size/ Sample size;常用于抽样 (类似于简单随机抽样)分层抽样(STS)将总体区分为数个层(strata):层之间互斥且周延、层内性质相近、层与层之间差异明显从每一层中简单随机抽取若干样本作为该层的代表,再将所有层总结集合整群抽样(STS)将总体区分为多个样集clusters:群集间互斥且周延、群集与群集间差异小、样集内类似总体随机抽取数个clusters将抽中的群集内每个样本均调查多阶段抽样(MSS)第一阶段:分群——整样抽样第二阶段:分层——分层抽样第三阶段……整群抽样的优点是实施方便、节省经费;整群抽样的缺点是往往由于不同祥Z间的差异较人,由此而引起的抽样误怎往往大于简单随机抽样。
抽样方法优点缺点简单随机抽样操作简便易行,总体个数多时,工作量太大系统抽样操作便简易行,可以提高效率如不了解样本总体,抽出的样本有偏差分层抽样充分保证样本结构与总体的一致整体差异不明显时不适用,在使用时提高样本的代表性需要与其他抽样方法综合使用2、抽样所产牛.的误差:抽样误差(sampling error)和非抽样误差(non-sampling error) 抽样误差(理论上不可避免):由于抽样的随机性所带來的误差(偶然性) 所有样本可能的结果与总体真值之间的平均性差异 影响抽样误差大小的因索:样本量的大小、总体的变异性 普杳无抽样谋差,但是普查误差可能比抽样误差大 非抽样误差:除抽样误差之外的,山于英他原因造成的样本观察结果与总体真值之间的差界存在于所有的调杳之中:概率抽样,非概率抽样,全面性调杳包括:抽样框误差、回答误差、无回答误差、调查员误差、测量误差冋答谋差:理解谋差、记忆误差、有意识误差无回答课差:应答率的问题:酒吧打架致死事件,90%是被打死的那个人先动手的误差的控制抽样误差可计算和控制非抽样误差的控制:合理选样抽样框、改良问卷、调杳过程控制(调查结果进行检验、评估;现场调杳人员进行 奖惩的制度)茎叶图Stem-and-leaf plot for YEAR(结婚年龄)(唯一一个没有丢失原始数据的统计表)3、 画表的一般原则:合理安排统计表的结构、总标题内容应满足3W要求、数据计量单位相同时,可放在表的右上角标明,不同时 应放在每个指标后或单列出一列标明、表中的上下两条横线-•般用粗线,其他线用细线、通常情况下,统计表的 左右两边不封口、表中的数据一般是右对齐,冇小数点时应以小数点对齐,而月•小数点的位数应统一、对于没冇 数字的表格单元,一般用"一”表示、必要时可在表的下方加上注释4、 集中趋势表示:均值、中位数、众数、几何平均数众数:出现次数最多的变最值不受极端值的影响、一组数据町能没冇众数或冇几个众数、主要川于定性数据,也可川于定量数据未分组数据:无众数(原始数据:1 2 3 4 5 6 7 )、一个众数(原始数据:1 2 3 3 3 4 5 )、多于一个众数(原始数据:1 23 3 4 4 5 ,此时众数为二者平均3.5)分组数据:先在次数表中找出次数最多的那一组,称为「众数组」,一般以Mo来表示。
若取众数组的组中点为众数,则称为粗众数Czuber插补法—二5——x CA 1 ■*" A 2中位数(median):将一组数字山大排至小,位居中间的数值为该组数字的中位数一般以Me来表示马內诙姐ET69中位效折在组豹组眩各观察值与中位数差异的绝对值总和为最小 以下列公式求出中位数:均值(mean):集中趋势的最常用测度值、一组数据的均衡点所在事实上,各个观察值与平均数差的总和为0、各个观察值与平均数差的平方和为最小几何平均数(geometric mean): n个变量值乘积的n次方根数据必须为正值才能计算儿何平均数主要用于计算平均百分比(percentages)比率(ratios)、指数(indexes)>成长率(growth rates)的计算分位数:除了将数据作半切割外,我们也可以将数据切成四等分、I•等分、或一百等分 切尾均值(trimmed Mean): i掉大小两端的若干数值后计算中间数据的均值离散趋势:极差(四分位距)、方差(总体方差样本方差)、标准差(总体标准差、样本标准差)、离散系数 四分位距(Interquartile Range):也称为内距上四分位数与下四分位数之羌(TQR = Q3 - Q1)反映了中间5()%数据的离散程度。
不受极端值的影响离散系数(coefficient of variation C V):标准差与其相应的均值之比—X LUi分布偏度与峰度的测度偏度(skewness): Pearson于1895年首次捉出数据分布偏斜程度的测度:偏态系数=()为对称分布 偏态系数v ()为左偏分布 偏态系数>()为右偏分布峰度(kurtosis) : Pearson于1905年首次提出数据分布扁平程度的测度峰态系数=0扁平峰度适中 峰态系数v0为扁平分布 峰态系数>0为尖峰分布 统计量的分布就是抽样分布标准误(error):统计量的标准差.样本均数的标准差5、影响区间宽度的因素总体数据的离散程度,用s来测度样木容量置信水平(1・a),影响z的大小抽样组织形式抽样方法计算题eMKM 01.B3jBsa*, si e*Z丄J如-T±Z. ・07/r用 s你・n ■和牛訴:as生卡)fJ右we总 >tx=-V¥-Mib.・ ■ ■ ■斬介总体比申(*l-v2)〜, FA *3-^ 叶“垃詁亍耳十_ M1-l6、如何正确理解置信区间由样本估计量所构造的总体参数的估计区间称为置信区间统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区问用一个貝体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产牛•的区间是否包含总体参数的真值。
我们只能是希望这个区间是人量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值 的区间中的一个置信区间又称为估计区间,是用来估计参数的适用范围的其值是一个变量本身所具有的真实值置信区间展 现的是这个参数真值有一定概率落在测量结呆的周围的程度置信区间给出的是被测量参数的测量值的可信程 度7、 抽样n需要考虑的因素(1)研究对彖的变化程度、(2)所要求或允许的误差大小(即精度要求)、(3)要求推断的置信程度也就是说,当所研究的现象越复杂,差异越人时,样本容量要求越人;当要求的精度越高,可推断性要求越高时, 样木量越大样木容量n与总体方差2、边际误差E、可靠性系数Z或tZ间的关系为8、 第一类错误(弃真错误):原假设为真时拒绝原假设第一类错误的概率为c(a,即显苦性水平;(1 — w ) 则置信水平第二类错谋(取伪错谋),原假设为假时没有拒绝原假设第二类错谋的概率为pb(Beta)在其他条件不变的情况下,减少犯第一类的町能性势必增加犯第二类错误的町能性,反Z必然原假设:研究者想收集证据了以反对的假设总是有等号==, <=或冶3备择假设:研究者想收集证据予以支持的假设总是有不等号:扣,«或>9、P 值:如果原假设为真,P-值是抽样分布中大于或小于样木统计量的概率左侧检验时,P-值为Illi线上方小于等于检验统计量部分的面积右侧检验时,P-值为曲线上方大于等于检验统计量部分的面积P值常常作为观察到额数据域原假设不一致程度的度量。
统计量检验采用事先确定显著性水平a,來控制犯笫一 类错误的上限,P值可以有效的补充a提供的关于检验对靠性的有限信息P值检验的优点在于,他提供了更多的信息,让人们可以选择一定的水平来评估结果是否具有统计上的显苦性如果P值越小,则我们可以拒绝原假设计算题漏]n.("誹HL冷7 f-ftHL pffl△:0MMKWUMa*曲2= /®鼻M细EL|il >p2△:00)»呵Hi空'0HIKtttt#■»7 L* Z1 =w1毗冋 HIM0 »: gP)皿哪 Bl:心4,=(爲Rpl-|QHE AM△:4■tut1■ ■订■■八丨■Wl HI• ■■■MWni|^51一 Pl■丹HL fl 打2庶BLP1 >P2△:0Pl■l+»lil注 HL 11 <124010、相关与回归的关系相关分析与回归分析区别:(1) 相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称 为自变量,用于预测因变呆的变化(2) 相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是 随机变量,也可以是非随机的确定变量(3) 相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变最x对变冕y的彩响 大小,还町以由回归方程进行预测和控制相关分析与回归分析联系(1) 理论和方法具有相似性;(2) 无相关就无回归,相关程度越高,回归越好(3) 线性|叫归时,相关系数和回归系数方向一致,可以互相推算回归系数含义是说当其他因素不变时自变量的以单位变化引起的因变量的变化程度计算题可决系数(coefficient of determination)可决系数越人,说明在总变处中由模型作出了解释的部分占的比重越人,模型拟合优度越好。
反Z可决系数小, 说明模型对样本观测值的拟合程度越差町决系数是测定多个变量间相关关系密切程度的统计分析指标,它也是反映多个自变量对因变量的联合的影响程 度对决系数越大,口变量对因变量的解釋程度越高,口变星引起的变动占总变动的百分比高判定系数为可解釋变异量占总变异量的比例,表示X对Y的变异Z解釋能力R2愈大,表示X对Y的解释能 力愈强可决系数有如下特点:1 •可决系数是非负的统计量2•可决系数的取值范围:0<二匸2<二13.可决系数是样本观测值的函数,可决系数旷2是随机抽样而变动的随机变量为此,对可决系数 的统计。
