您所在位置：网站首页 > 高等教育 > 研究生课件 > 社会调查研究方法10统计分析

社会调查研究方法10统计分析.ppt

53页

卖家[上传人]：M****1

文档编号：568710526

上传时间：2024-07-26

文档格式：PPT

文档大小：346.31KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20金贝

下载

/ 53 举报版权申诉马上下载

文本预览

下载提示

常见问题

第十章调查资料的统计分析•第一节统计分析概述•第二节单变量统计分析•第三节双变量统计分析•第四节推论统计第一节统计分析概述一、统计分析的含义与作用二、统计分析的特点一、统计分析的含义与作用•统计分析，就是指运用统计学的方法，对调查所得资料的数量特征进行描述，并用各种数学模型揭示调查资料中所隐含的关系、规律及发展趋势•统计分析就是从量的方面来分析事物之间的相互关系和相互作用，并通过对事物量的规定性的分析，来把握和认识事物质的规定性•事实说明，正确恰当的统计分析，已成为现代社会调查研究中不可缺少的一个环节，成为人们认识社会现象的一种重要分析手段•统计分析的作用：1．统计分析能为社会调查研究提供一套精确的形式化语言2．统计分析使抽样调查成为可能3、统计分析有助于揭示社会现象的规律4、统计分析有助于我们较为精确地预测社会现象的发展趋势二、统计分析的特点 1．统计分析要以定性分析为基础 2．统计分析必须与理论分析方法相结合•统计分析的内容可分为两个大的方面，即描述统计和推论统计–描述统计的主要目的在于用最简单的概括形式反映出大量数据资料所容纳的基本信息。

它的基本方法包括集中趋势分析、离散趋势分析、相关分析、回归分析等–而推论统计的主要目的，则是要用从样本调查中所得的数据资料来推断总体的情况它的基本内容包括区间估计和假设检验两部分第二节单变量描述统计一、频数分布与频率分布二、集中趋势分析三、离散趋势分析一、频数分布与频率分布•所谓频数分布，就是指一组数据中取不不同同值值的个案的次次数数分分布布情况，它一般以频数表的形式表达•例如，某班有25名学生，其年龄情况如下：20， 19，18， 19，18，20， 21， 17， 18， 18， 19，19， 20，19，19， 17， 18， 20， 19， 19，21，21，19，20， 19则该班学生的年龄分布则为下表（见表1）•频数分布表的作用主要有两方面：–一是简化资料，即将调查所得到的一长串原始数据，以一个十分简洁的统计表反映出来；–二是从频数分布表中，我们可以更清楚地了解调查数据的众多信息•所谓频率分布，则是指一组数据中不不同同取取值值的的频频数数相相对对于于总总数数的的比比率率分分布布情况，这种比率通常以百分比的形式表达，而频率分布情况同样以频率表的形式出现下表2就是上例对应的频率分布表。

•频率分布表除具备频数分布表的优点外，还能反映各类所占的比重，便于不同总体或不同类别之间的比较这种分布的应用更为普遍二、集中趋势分析•所谓集中趋势分析，指的是用一个典型值或代代表表值值来反反映映一一组组数数据据的的一一般般水水平平，或向这个典型值集中的情况•最常见的集中趋势统计量有平平均均数数、众众数数和中位数中位数三种1．平均数（算术平均数）是用总体各单位数值之和除以总体单位总数的商平均数又称为均值或均数以下是计算公式及应用举例–①由原始数据计算平均数设总体单位总数为n，总体各单位的数值为xi（i=1, 2, … , n)，则计算公式为： –②由单值分组资料计算平均数首先要将每一个组的量值乘以所对应的频数（得出各组的数值之和）；然后将各组的数之和全部相加，最后除以单位总数（也即各组频数之和∑f）得出平均数其计算公式为： –③由组距分组资料求平均数先计算出各组的组中值Xm ，然后再按照单值分组资料计算平均数的公式计算也就是说，用组距分组资料求平均数的公式与用单值分组资料求平均数的公式基本相同，只是需要事先将组距转化成单值。

计算公式为：•例题–例1 某班10名学生的年龄分别为20岁、21岁、19岁、19岁、20岁、20岁、21岁、22岁、18岁、20岁，求他们的平均年龄–例2 调查某年级150名学生的年龄，得到下列结果（左表），求平均年龄19.33）–例3 调查某厂100名职工的收入情况如下（右表），求他们的平均收入212） 2．众数众数是一组数据中出现次数最多(即频数最高)的那个数值通常用M 众数与平均数一样，也可用来概括反映总体的一般水平或典型情况根据不同资料,众数的求法分为以下两种形式：–①由单值分组资料求众数由于单值分组资料中已将各标志值及其所对应的频数都一一列出，故我们只需采用直直接接观观察察的的方方法法就可求得众数具体做法是，首先在频数一栏中找找出出最最大大的的频频数数，假定为 fm；然后根据fm找到它所对应的标志值 Xm，则众数即为 Xm–②由组距分组资料求众数由组距分组资料求众数的方法有两种：一种是组中值法，另一种是摘补法前者比较简单，后者较为复杂由于众数在社会调查研究中的使用远不象平均数那样广泛。

故我们只需了解组中值法即可用组中值法求众数分为三步：首先也是通过直接观察找出最高的频数；然后根据最高的频数找到它所对应的组；最后求出该组的组中值即是众数•需要说明的是，求众数往往要求数据具备一定的条件，即只有当当总总体体单单位位数数目目较较多多且且其其数数据据有有明明显显的的集集中中趋趋势势时时才才能能计计算算众众数数而当总体数目较少，或总体数目虽多但无明显集中趋势时，不宜计算众数•举例：—以前面例2为例，首先我们在人数（频数）一栏中找出最大的频数50，再从50找到所对应的年龄19岁则例2资料中的众数为19岁•需要注意的是，众数是最大的频数所对应的众数是最大的频数所对应的那个那个标志值标志值，而不是最大的，而不是最大的频数本身频数本身—又，若以前面例3为例来求众值，我们首先在职工数（即额数）一栏中，找到最大的频数40；然后找到40所对应的组：180～220；最后计算该组的组中值，计算结果为200元因此，该例中的众数为200元3．中位数•什么是中位数呢？当我们把一组数据按值的大小顺序排列起来，处于中央位置的那个数值就叫中位数中位数通常用Md表示，它将整个数据资料一分为二，其中一半的数值比它大，而另一半的数值比它小。

当数据为偶数个时，取中间两数的平均数•需要注意的是，计算中位数时常常要求数据是定距以上的变量而对定序的或定类的变量通常不用来计算中位数•关于计算方法（参见教材）三、离散趋势分析•与集中趋势分析相反，离散趋势（又称离中趋势）分析指的是用一个特定的数值来反映一组数据相互之间的离散程度•作用：它与集中趋势一起，分别从两个不同的侧面描述和揭示一组数据的分布状况，共同反映出资料分布的全面特征；同时，它还对集中趋势的统计量（如平均数、众数、中位数）的代表性作出补充说明•为了理解离散趋势分析的这两种作用，我们先来看看下面的例子•例4 某校三个系各选5名同学，参加智力竞赛，他们的成绩分别如下：中文系： 78 79 80 81 82 X＝80 数学系： 65 72 80 88 95 X＝80 政治系： 35 78 89 98 100 X＝80–无论是从团体总分来看，还是从平均得分来看，这三个系代表队的成绩都是相同的因此，如果仅以集中趋势统计量（平均数）来衡量，那么，三个系代表队的水平一样高，不存在什么差别但从直观上我们不难发现，三个代表队中五名队员的成绩相互之间的差跟程度（离散程度）很不一样。

中文系成绩十分接近；数学系成绩比较分散；而政治系队成绩则相差十分悬殊–不难理解，这个80分对中文系队同学的代表性最高，而对政治系队同学的代表性最低•因此，离散趋势的各种统计量，一方面揭示出一方面揭示出数据相互分离的程度；另一方面又对相应的集数据相互分离的程度；另一方面又对相应的集中趋势统计量的代表性作出判断中趋势统计量的代表性作出判断•结论：集中趋势统计量的代表性与所对应的离散趋势统计量是反比关系，即离散趋势统计量越大，则所对应的集中趋势统计量的代表性就越小；反之，则越大•离散趋势统计量有全距、标准差、异众比率、四分位差、离散系数等其中，标准差、异众比率、四分位差分别与平均数、众数、中位数相对应 1．全距•也叫极距，它是一组数据中最大值与最小值之差•全距是离散趋势统计量中最简单的一种–在原始数据资料条件下，只需将全部数据按大小颀序排列，然后用最大值减去最小值即可如上面所举例6，三个代表队成绩的全距分别为：中文系：82－78＝4（分）数学系：95 － 65=30（分）政治系：100 － 25=65（分）–在组距分组资料的条件下，只需将最大组的上限减去最小组的下限即可。

如前面例3中的全距九300－100＝200（元）•全距的意义在于，一组数据的全距越大，在一定程度上说明这组数据的离散趋势越大，而集中趋势统计量的代表性越低反之，一组数据的全距越小，则说明这组数据的离散趋势越小，集中趋势统计量的代表性就越高从上面三个代表队的例子中，我们不难认识到这一点•应该注意到，由于全距仅仅依靠两个极端值，因而带有很大的偶然性，它对于大量的处于两个极端值之间的数值分布情况．以及在中心点周围的集中情况，都无法提供任何信息•比较粗糙2．标准差•标准差的定义是：一组数据对其平均数的偏差平方的算术平均数的平方根它是用得最多、也是最重要的离散趋势统计量通常用符号S来表示，其计算公式根据资料的形式不同而稍有差别–①由原始数据计算标准差公式为：例4的结果：S中文=1.414，S数学=10.8，S政治=23.8由此可见，标标准准差差大大，，离离散散程程度度就就大大，，反反之之，，就就小–②由单值分组资料计算标准差公式为：这里f为X所对应的频数–③由组距分组资料计算标准差其方法与上述单值分组资料计算标准差的方法相似，唯一不同的是需要先计算出各组的组中值，然后采用下述公式：3．异众比率•所谓异众比率，指的是一组数据中非非众众数数的的次次数数与总体全部单位数的比率。

公式为：这里fmo为众数的次数在例2中，众数的次数为50，总体单位的总数为150，故异众比率为：VR=（150－50）/150=67%•异众比率的意义是指众数所不能代表的其他数值（即非众数的数值）在总体中的比重因此，异异众众比比率率越越大大，即众数所不能代表的其他数值的比重越大，则众数在总体中所占的比重自然就越小，这样众数的代表性也就越小众数的代表性也就越小4、四分位差•四分位差是先将一组数据按大小排列成序，然后将其四等分，去掉序列中最高的四分之一和最低的四分之一，仅就中间的一半数值来测定序列的全距•四分位差的符号通常用Q表示Q=Q3—Q1 而Q1 、Q3分别表示第一个四分位点和第三个四分位点如下图所示：5．离散系数•上述各种离散趋势统计量都属于绝对量测量，其单位与原资料的单位相同这种特征对调查研究中进行比较带来了一定的困难离散系数离散系数则是一种相对的离散趋势统计量，它使我们能够对两种不同单位对两种不同单位的离散趋势统计量，或者对两个不同总体不同总体的离散程度进行比较•离散系数的定义是：标准差与平均数的比值，用百分比表示其计算公式为： •在平均数不为零的条件下，离散系数越大，表明数据的离散程度越大，而所对应的集中趋势统计量的代表性就越小；反之，则数据的离散程度越小，集中趋势统计量的代表性就越大。

•应用举例：1）一项调查得到下列结果，某市人均月收入为92元，标准差为17元；人均住房面积7．5米’，标准差为1．8米’试比较该市人均收入和住房情况哪一个差异程度比较大计算结果：人均收入的离散系数为18.5%，人均住房面积的离散系数为24% 可见人均住房面积的差异情况比人均收入的差异情况要大–以上是同一总体不同指标间的比较，下列则是同一指标不同总体间的比较2）某校学生的平均年龄为20岁，标准差为2岁；该校教师的平均年龄为28岁，标准差为4.5岁试比校学生年龄与教师年龄哪一个差异程度更大–计算结果：学生年龄的离散系数为10%，教师年龄的离散系数为11.8%可见教师年龄间的差异程度更大一些第三节双变量统计分析•前节所介绍的单变量描述统计•在社会调查研究中，我们常常要讨论两个甚至多个因素或现象之间的关系问题，因此，本节介绍两两个个变变量量统统计计分分析析的基本内容一、交互分类二、相关与回归一、交互分类 1．交互分类的定义与作用所谓交互分类，简单地说，就是将将一一组组数数据据按按照照两两个个不不同同变变量量的的类类型型进进行行综综合合的的分分类类交互分类的结果通常以交交互互分分类类表表（又称列联表）的形式反映出来。

下面是一个例子：•上表是对总数为300人的调查对象按照年龄和文化程度两个变量的标准进行交互分类的结果每一个被调查者按这两种标准被划分到某一个格内即格内数字就是分类的结果•作用：通过对各种不同类型格内的频数或相对额数（即百分比）的分析，来研究和探讨变量之间是否存在关系比如说从上表中我们可以看出，老年人中文化程度低的比重很大，中年人次之，年轻人比重最小；而在高中及大专以上颇高文化程度中，年轻人比重最大，中年人次之，老年人最低结论：即被调查者的文化程度与他们的年龄有关，并呈现出年龄越低，总体文化程度越高的状况•交互分类方法的适用对象适用对象主要是定类与定序层次的变量，而在社会调查研究中的绝大部分变量正好又是这两个层次的因此，交互分类的方法对于大量社会调查资料的相关分析有着十分重要的作用，我们应该熟悉这种方法2、χ2检验通过实例讨论何为χ2检验–表中显示，年龄与对待老年人再婚问题的态度存在关系，随着年龄的下降，较多的人反对老年再婚•上述结论通常只是在所调查的样本范围内成立而我们进行调查的目的常常又不仅仅是描述或说明样本的情况，更重要的是要通过样本的情况来反映和说明总体的情况因此，要保证我们从样本中得出的结果具有统计意义，保证样本中所体现的变量间关系也反映了总体的情况，我们必须有一个保证的办法。

这就是要对它们进行χ2检验（卡方检验）•Χ2检验的原理及公式的证明略去•下面我们主要介绍χ2检验的计算公式及检验步骤•χ2检验的计算公式–f0为交互分类表中每一格的观察频数；–fe为交互分类表中f0所对应的期望频数具体的计算方法是用每一个f0所在的行总数乘以所在的列总数，再除以全部总体数•Χ2值的计算f11=120*80/260=37 f12 =46 f13= 37 f21 =43 f22=54 f23=43χ2=（60-37）2/37+……=42.6χ2检验的具体步骤（以上表为例）：–①建立两变量间无关系的假设，即设年龄及对某事件的态度两变量相互独立，互不相关–②计算出χ2值–③根据自由度 df=(r一1)(c－1)和给出的显著性水平，即 P值，查χ2分布表，得到一临界值自由度计算公式中的r和c分别为交互分类表的行数和列数，因此，本例的自由度为：df＝(2－1)(3－1)=2；显著性水平通常为P=0.05；χ2分布表可查得临界值为5.991)–④比较χ2值与临界值–⑤判断：a)若χ2值≥临界值，拒绝两变量无关系的假设 b)若χ2值<临界值，接受两变量无关系的假设。

3、关系强度的测量以上讨论的是两个变量间是否存在关系的问题当χ2检验表明，两变量间存在关系时，是否就意味着这种关系是一种强关系，或重要关系呢？这不一定，因为变量关系的强弱和变量间是否存在关系是两个完全不同的问题•关系强度的测量方法（参见教材）二、相关与回归•交互分类主要处理的是定定类类(或定序）变量问的关系问题，对于定定距距及及定定比比变变量量来说，则有另一些方法来探讨•这里主要简单介绍一下相相关关系系数数的的计计算算方法及一元线性回归模型一元线性回归模型1、相关系数例子：调查10名工人的工龄与工资情况如下表：–这10名工人的工龄与工资是否相关？可通过定量计算说明，称为相关系数计算公式为：•即相关系数r是表明两个定距或定比变量间关系程度的量数，其取值范围在-1到+1之间•当 r为负值时，说明变量 X与变量Y的变化方向相反即当X增大时，Y减少；X减少时，Y增大•当 r为正值时，说明两变量的变化方向相同•|r|=1时，称 X与 Y完全相关； r= 0时，则称二者完全不相关•越接近|r|= 1，说明关系强度越大，越接近0，则说明关系强度越小–上一例子中， r =0.986，有较强的正相关关系。

2、回归分析•相关分析的目的在于了解两个变量之间的关系强度，即用相关系数r来描述X和Y两个变量之间的共变特征它并不指出X和Y哪个是原因，哪个是结果，或者说，它并不涉及两变量之间有无因果关系•回归分析则是对有相关关系的现象，根据其关系的形态找出一个合适的数学模型，即建立回归方程，来近似地表达变量间的平均变化关系，以使依据回归方程对未知的情况进行估计•即回回归归分分析析增增加加了了因因果果性性，并具有了预测的功能，因此，它比相关分析作用更大•回归分析的中心问题是建立回归方程，一元线性回归方程的建立使用最小二乘法–首先，依据理论分析或根据研究的需要确定两变量中何为自变量，何为因变量在本例中，我们确定工龄为自变量（X），工资为因变量（Y）–其次，以自变量为X轴，因变量为Y轴作出表中资料的散点图，以判明是否为线性相关–给一组数据（X，Y），称为样本数据–计算公式：设y=a+bx第四节推论统计•由于在社会调查中我们经常地是作抽样调查，所以，在对调查结果进行描述、对变量关系进行探讨时，往往都是使用样本的资料，直接得到的也都是有关样本的结果•然而，抽样调查（从总体中抽取一部分对象进行调查）的目的，并不是为了描述这个样本的情况，而是希望通过样本来了解总体的特征和状况。

推论统计所要解决的正是这方面的问题•推论统计就是利用样本的统计值对总体的参数值进行估计的方法推论统计的内容主要包括两个方面：一是区间估计区间估计，一是假设检验假设检验第四节推论统计•由于在社会调查中我们经常地是作抽样调查，所以，在对调查结果进行描述、对变量关系进行探讨时，往往都是使用样本的资料，直接得到的也都是有关样本的结果•然而，抽样调查（从总体中抽取一部分对象进行调查）的目的，并不是为了描述这个样本的情况，而是希望通过样本来了解总体的特征和状况推论统计所要解决的正是这方面的问题•推论统计就是利用样本的统计值对总体的参数值进行估计的方法推论统计的内容主要包括两个方面：一是区间估计区间估计，一是假设检验假设检验一、区间估计一、区间估计•区间估计的思想：区间估计的思想：–区间估计的实质就是在一定的可信度（置信度）下，用样本统计值的某个范围（置信区间）来“框”住总体的参数值换句话说，估计总体参数时，用的是一个范围，而不一个点值，称为“区间”，也称为置信区间置信区间这样较为科学–同时，给出一个数值来说明这个“区间”框住参数值有多大的可靠程度，称为“置信度置信度”（可信度）•区间的大小反映的是这种估计的精确性问题，而可信度高低反映的则是这种估计的可靠性或把握性问题。

•区间估计的结果通常可以采取下述方式来表述： “我们有95％的把握认为：全市职工的月平均工资收入在182元至218元之间或者“全省人口中，女性占50%至 52 %的可能性为99%”•下列表述是不妥的全市职工的月平均工资收入在200元”（假如抽样100人计算出的平均月工资为200元的话）•置信度置信度表明(即可信度，把握性，可靠性)推断成功的可能性有多大(用百分数表示1-a,a是允许的误差)；总体的平均数变成了区间(范围),表示若重复抽样，能有多少次落入这个“置信区置信区间间”•置信区间：总体参数值落入的范围，根据样本统计量算出1、总体均值的区间估计•公式：–x是样本均值，s是标准差，Z（1-a）是置信度为1-a的Z值，n是样本规模–例：900名工人，月平均工资186元，标准差为42元，在95%的置信度下，全行业月平均工资的置信区间是多少？(183.26, 188.74)；99%置信度时(182.39,189.61)•区间的大小体现精确性，置信度是可靠程度二者相互制约，提高精确度，则降低可靠性2、总体百公比的区间估计•公式：这里，P为样本中的百分比，其他同上二、假设检验•假设检验是推论统计的又一基本内容，它是先对总体的某一参数作出假设，然后用样本的统计量去进行验证。

•以下通过一个例子说明假设检验的基本思路–某单位职工上月平均收入为210元，这个月的情况与上月没有什么变化，我们设想平均收入还是210元为了验证这一假设是否可靠，我们抽取了100人作调查，结果得出月平均收入为220元，标准差为15元显然样本的结果与总体结果之间出现了误差这个误差是由于我们假设错误引起的呢？还是由于抽样误差引起的呢？如果是抽样误差引起的，那么我们就应该承认原来的假设；而如果是假设错误所引起的，显然我们就应该否定原假设–研究时可将原假设作为虚无假设，用H0表示，而将与之完全对立的假设作为研究假设，用H1表示；然后用样本的数据计算统计量，并与临界值比较，当临界值大于统计值时，则接受虚无假设，否定研究假设；当临界值小于、等于统计值时，则拒绝虚无假设，接受研究假设具体步骤是：–1、建立虚无假设和研究假设，通常是将原假设作为虚无假设；–2、根据需要选择适当的显著性水平a（即小概率的大小），通常a=0.05,0.01等；–3、根据样本数据计算出统计值，并根据显著性水平查出对应的临界值；–4、将临界值与统计值进行比较，若临界值大于统计值，则接受虚无假设；反之，则接受研究假设•仍用上例说明这一过程。

点击阅读更多内容