
第九章--资料的统计分析1--单变量分析.ppt
30页第九章 资料的统计分析(1)单变量分析本章主要内容:1、单变量描述统计2、单变量推论统计第一节 单变量描述统计n一、频数分布与频率分布n所谓频数分布(frequency distribution),就是指一组数据中取不同值的个案的次数分布情况,它一般以频数分布表的形式表达n频数分布表的作用有两方面,一是简化资料,即将调查所得到的一长串原始数据,以一个十分简洁的统计表反映出来二是从频数分布表中,可以更清楚的了解调查数据的众多信息第一节 单变量描述统计n一、频数分布与频率分布n所谓频率分布(percentages distribution),就是指一组数据中不同取值的频数相对于总数的比率分布情况,这种比率在社会调查中经常是以百分比的形式来表达n频率分布表除了频数分布表的优点之外,还有一个重要的优点就是十分方便地用于不同总体或不同类别之间的比较第一节 单变量描述统计n一、频数分布与频率分布n注意的是,对于一项有一定规模的调查样本来说,一般不宜对如年龄、收入、时间等定比变量做频数分布表或频率分布表因为,此时类别很多,而每一类别中个案数不多,所得结果繁杂不适用第一节 单变量描述统计n二、集中趋势分析n集中趋势分析(centeral tendency analysis)指的是用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。
最常见的集中趋势分析包括平均数(均值)、众数和中位数n1、平均数(mean):总体各单位数值之和除以总体单位数目所得之商第一节 单变量描述统计n1、平均数(mean):总体各单位数值之和除以总体单位数目所得之商第一节 单变量描述统计n2、众数(mode):是指一组数据中出现次数最多的那个数值n3、中位数(median),把一组数据按值的大小顺序排列起来,处于中央位置的那个数值就叫中位数它所描述的是定序变量以上层次的变量第一节 单变量描述统计n中位数和平均数的比较n平均数比中位数利用了更多的数据信息,对总体的描述更全面和准确n平均数很容易受到极端值变化的影响,而中位值不会受到这种影响n对于抽样调查来说,平均数是一种比中位数更为稳定的量度,它随样本的变化比较小第一节 单变量描述统计n三、离散趋势分析n离散趋势分析(dispersion tendency analysis),指的是用一个特别的数值来反映一组数据相互之间的离散程度常见的离散量数统计量有全距、标准差、异众比率、四分位差等标准差、异众比率、四分位差分别与平均数、众数、中位数相对应,判定和说明平均数、众数、中位数代表性的大小第一节 单变量描述统计n1、全距(range)n又叫极差,它是一组数据中最大值与最小值之差。
n其意义在于一组数据的全距越大,在一定程度上说明这组数据的离散量数越大,而集中量数统计量的代表性越低反之,一组数据的全距越小,则说明这组数据的离散量数越小,而集中量数统计量的代表性越高第一节 单变量描述统计n2、标准差(standard deviation)n一组数据对其平均数的偏差平方的算术平均数的平方根用S表示第一节 单变量描述统计n2、标准差(standard deviation)n对于单值分组数据资料,计算标准差的公式为第一节 单变量描述统计n3、异众比率(variation ratio)n指的是一组数据中非众数的次数相对于总体全部单位的比率用VR表示n其意义是指众数所不能代表的其他数值在总体中的比重异众比率越大,则众数代表性越小;异众比率越小,则众数代表性越大第一节 单变量描述统计n4、四分位差(interquartile range)n指的是将一组数据按大小排序,然后将其4等分,去掉序列中最高的四分之一和最低的四分之一后,中间的一半数值之间的全距用Q表示第一节 单变量描述统计n5、离散系数(coefficient of variation)n变差系数,它是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数统计量进行比较,或对两个不同总体中的同一离散量数统计量进行比较。
定义为:标准差与平均数的比值,记为CV第二节 单变量推论统计n一、区间估计(interval estimation)n其实质就是在一定的可信度(置信度)下,用样本统计值的某个范围(置信区间)来“框”住总体的参数值范围的大小反映的是这种估计的精确性问题,而可信度高低反映的则是这种估计的可靠性或把握性问题n区间估计中的可靠性或把握性是指用某个区间去估计总体参数时,成功的可能性有多大对于同一总体和同一抽样规模来说,所给区间的大小与作出这种估计所具有的把握性成正比反过来说,区间的大小所体现的是估计的精确性问题,二者成反比n在精确度与把握性之间寻找平衡,在社会统计中,一般常用的置信度分别为90%、95%和99%计算中,置信度常用1-来表示第二节 单变量推论统计n1、总体均值的区间估计n2、总体百分数的区间估计第二节 单变量推论统计n二、假设检验n假设检验实际上就是先对总体的某一参数作出假设,然后用样本的统计量去进行验证,以决定假设是否为总体所接受其所依据的是概率论中的小概率原理,即“小概率事件在一次观察中不可能出现”的原理n假设检验的基本步骤是:n1、建立虚无假设和研究假设,通常是将原假设作为虚无假设;n2、根据需要选择适当的显著性水平(即小概率的大小),通常有=0.05, =0.01等;n3、根据样本数据计算出统计值,并根据显著性水平查出对应的临界值;n将临界值和统计值进行比较,以判定是接受虚无假设,还是接受研究假设。
n(1)总体均值的假设检验n例:某单位职工上月平均收入为210元,本月调查了100名职工,平均月收入为220元,标准差为15元,问该单位职工本月平均收入与上月相比是否有变化?n(2)总体百分比的假设检验n例:一所大学全体学生中抽烟的比例为35%,经过学习和戒烟宣传后,随机抽取100名大学生进行调查,结果发现抽烟者为25名,问戒烟宣传是否收到了成效?本章思考题n1、名词解释:频数分布、频率分布、众数、中位数、全距、标准差、异众比率、离散系数、区间估计n2、课后练习题。
