
中级经济师考试工商管理预习讲义(15).doc
23页中级经济师考试工商管理预习讲义(15) 第四节 数据分析 一、基础统计分析 (一)描述统计分析 1.集中趋势的测度 集中趋势是指一组数据向其中心值靠拢的倾向,测度集中趋势就是确定数据一般水平的代表值或中心值集中趋势的测量有三个常用的指标: (1)众数,是一组数据中出现次数最多的变量值 对数据确定众数时,只需把数据整理后列出频数(出现次数)分布表,频数最多的那一组为众数从分布图形来看,众数应对应于图形最高点有些情况下数据分布可能表现为双众数,甚至多l 100 80 95 87 99 79 80 95 92 95 众数:95(出现3次) 中位数: 79 l 99 100 (92+95)2=93.5(如果数据是奇数个,则中位数就是中间那个数据) 平均数: (79+80+80+87+92+95+95+95+99+100)/10=90.2 2.离散程度的测度 数据的离散程度是数据分布的另一重要特征,它是指各变量值远离其中心值的程度,所以也叫离中趋势。
离中趋势是经过综合与抽象后对数据一般水平的概括性描述,它对数据的代表性取决于数据的离散程度,离散程度小代表性就好,反之代表性就差 (1)极差,也称全距,是一组数据中最大值与最小值之差 极差是描述数据离散程度的最简单的方法,表明数据的分布范围它计算简单,易于理解但是极差由两端数值所决定,不能反映中间数据的分布离散状况 (2)平均差,也叫平均离差,是各变量值(Xi)与其均值( )离差绝对值的平均数: 平均差反映了所有数据与均值的平均距离平均差越小,说明数据离散程度越小 (3)方差和标准差方差是一组数据中各变量值与均值离差平方的平均数方差的平方根叫标准差方差与标准差是描述数据分布特征的重要的统计量,它们是反映数值型数据离散程度最主要、最常用的方法 根据总体数据和样本数据计算方差及标准差时,计算公式略有不同 式中Xi是数值序列中的单个数值, 是这组数值的平均值,N是总体数值的个数,n是样本数值的个数 计算样本方差与标准差时之所以与总体不同,是因为计算样本方差或标准差时,是要把它作为总体方差或标准差的估计量,统计上对估计量要求满足一些条件(一致性、无偏性、有效性),为满足无偏性条件,样本方差计算时,分母要用n-1,而不是n。
【例题10单选题】(2009年)某产品在5个地区的销售量分别为1500、2000、1000、3000、5000则该销售量的极差为( ) A.1000B.1500C.2000D.4000 [答疑编号716030501] 『正确答案』D 『答案解析』极差也称全距,是一组数据中最大值与最小值之差本题中最大值为5000,最小值为1000,所以极差=5000-1000=4000 来源:教育联展-经济师 3.相关分析 所谓相关分析,是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法 变量之间的相关关系主要有线性相关和非线性相关、正相关和负相关等几种形式 对两个变量间线性相关程度的测量称为简单相关系数样本相关系数定义公式为: 式中,r为样本相关系数,COVXY为协方差,Sx、Sy分别是变量x和y的标准差注意:公式中分子分母求和表达式中应该是i=1到n,而不是n=1到n) 相关系数r的取值范围在-1~+1之间 r=1或r=-1时,表明变量间的关系为完全正相关或完全负相关,这是两种极端的情况,实际上表明两个变量之间是线性关系; r=0时,表明变量间不存性相关关系,可能是无相关,也可能是非线性相关; 01时,表明变量间存在正相关关系; p -l0时,表明变量同存在负相关关系。
p |r|愈接近于l,变量间相关程度愈高,|r|愈接近于0,相关程度愈低 在一般情况下,总体相关系数p是未知的,一般是用样本相关系数r作为总体相关系数P的估计值但由于存在样本抽样的随机性,样本相关系数并不直接反映总体相关程度,因而,计算出来的样本相关系数在多大程度上值得信赖,需要进行检验 |r|自由度(df)为(n-2)的t统计量t(n-2)、显著性为a(10%;5%)的相关系数(查相关系数表),其相关性是显著的所谓显著水平或r=0,指的是很少会发生的概率 (教材这句话是错误的,正确的表达为: 在实际中,因为研究目的、变量类型的不同,采用的相关分析也不同比较常用的相关分析有二元定距变量的相关分析、二元定序变量的相关分析、偏相关分析和距离分析等 (二)推论统计分析 推论统计是在随机抽样的基础上,根据部分资料(数据)推断总体的方法,也即利用样本资料对抽出样本的总体做出推论的方法 1.单个样本的参数估计 参数是指总体的某一特征值,如均值、方差等,往往是未知数;而根据样本数据计算出来的均值、样本标准差、样本比例一般称为样本统计量参数估计是根据样本统计量对总体未知参数进行某种估计推断。
(1)点估计当总体分布的形式已知,但其中的一个或多个参数未知时,如果从总体中抽取一个样本,用该样本对未知参数作一个数值点的估计,称为参数的点估计 例如:假设对北京1800万人的工资水平进行调查,一般情况下,需要进行抽样调查,假设抽取1000个样本,得出的平均工资为2500元每月,这个2500就是样本的平均值,用 来表示,方差为200,所谓的点估计就是直接用样本的均值和方差来表示总体的均值和方差,即北京1800万人的平均工资就是2500元,方差为200 点估计有多种方法,如矩法、最大似然法、最小二乘法等 (2)区间估计区间估计是用一个区间估计总体未知参数设x1,xn是来自总体的一个样本,对于给定的(01),若有两个统计量1 (x1,,x2)和2 (x1,,xn),使得:P(12)=1,则称1为信度(或置信度、置信概率),(12)是的信度为1的置信区间,称为显著性水平 置信区间给出了区间估计的精确程度,区间越小精确度越高置信概率给出了区间估计的可靠性 例如1800万人的工资进行区间估计时,取为10%,置信区间为(2300,2700),就表示北京1800万人的平均工资有90%的概率落在2300到2700元之间。
或者说进行100次估计时,有大约90次是位于2300到2700之间,有大约10次位于2300到2700之外 ①总体方差2已知时,总体均值的区间估计(采用Z统计量) 置信度为l一时,总体均值的置信区间为: 即: ,那么 是区间信度下的临界点,称可靠性系数信度越高,可靠性系数越大 是区间估计时已知n和,对应一定的信度的置信区间的半径,也就是估计时的最大允许误差 ②总体方差2未知时,总体均值的区间估计(采用t统计量) 如果总体服从正态分布,但2未知,可以用样本标准差S代替建立置信区间此时统计量不是服从标准正态分布,而是服从自由度(df)为n-1的t分布 此时,总体均值在置信度为1-下的置信区间为: 2.单个样本的假设检验 参数估计和假设检验是统计推断的重要组成部分,它们都是利用样本信息对总体状况做出某种推断(判断),但是推断的角度不同 参数估计是用样本统计量估计总体参数,估计前总体参数是未知的例如,对北京市1800万人平均工资进行调查,参数估计就是指在调查之前不知道平均工资是多少,然后采用抽样调查,抽取1000个样本进行调查,这1000人的平均工资是2500,就认为1800万人的平均工资是2500) 假设检验则是先对总体参数的值提出一个假设,然后利用样本信息,根据抽样分布的原理去检验原先提出的假设是否成立。
例如,对北京市1800万人平均工资进行调查,假设检验就是指在调查之前假设这1800万人的平均工资是3000,然后采用抽样调查,抽取1000个样本进行调查,利用这1000人的平均工资数来判断3000的假设对不对) 进行假设检验时,通常经过以下步骤: (1)提出原假设和替换(备择)假设预先所设的这一假设称为原假设,用H0表示与原假设相对的假设是替换假设,它是原假设经检验不成立被拒绝接受时,所应接受的与原假设相对立的情况,用H1表示 (2)确定并计算检验统计量 总体方差2已知时,应用Z统计量(服从正态分布),计算公式为: 总体方差2未知时,应用t统计量(服从t分布),计算公式为: 式中: 为样本均值,0为原假设的参数值,(S)为总体(样本)标准差 (3)规定显著性水平,并确定接受域与拒绝域的临界值通常可取=0.05或=0.01,查出 或者 的值,即接受域与拒绝域的临界值 (4)做出统计决策 总体方差已知,用Z统计量检验: 如果|Z| ,则检验统计量的值位于接受域,接受原假设,拒绝替换假设; 如果|Z| ,则检验统计量的值位于拒绝域,拒绝原假设,接受替换假设。
总体方差未知,用t统计量检验: 如果|t| ,则检验统计量的值位于接受域,接受原假设,拒绝替换假设; 如果|t| ,则检验统计量的值位于拒绝域,拒绝原假设,接受替换假设 二、多元统计分析 (一)多元回归分析 多元线性回归是简单线性回归的推广,指的是多个因变量对多个自变量的回归其中最常用的是只限于一个因变量但有多个自变量的情况,也叫多重回归 设随机变量Y与一般变量x1,x2,xp,的线性回归模型为: y=0+1x1+2x2+pxp+ 其中,0,1,2,,p是p+1个未知参数,0称为回归常数,1,2,,p称为回归系数y称为被解释变量,而x1,x2,xp是P个可以精确测量并可控制的一般变量,称为解释变量,称为随机干扰项 当P=1时,即为一元线性回归模型对一个实际问题,如果我们获得n组观测数据 (xi1,xi2,xip;yi),i=1,2,n,则线性回归模型可表示为: 例如,一个企业的销售量视为y,。












