管理数量方法与分析习题.doc
120页管理数量方法与分析习题第1章 数据分析的基础思考与练习1.什么是数据分组?它有哪些种类,各在什么情况下应用?所谓数据分组,就是对某一变量的不同取值,按照其自身变动特点和研究需要划分成不同的组别,以便更好地研究该变量的分布特征及变动规律根据变量的类型可分为:⑴单项分组,若变量是离散型变量,且取值不多时采用;⑵组距分组,若变量是连续型变量、或者是取值较多的离散型变量时采用2.什么是变量数列?如何编制变量数列?在对变量取值进行分组的基础上,将各组不同的变量值与其变量值出现的次数排列成的数列,称为变量数列组距数列的编制过程:⑴确定组数若变量的取值变动不均匀,如急剧增大、变小,变动幅度很大时,应采用异距分组;若变量的取值变动均匀,应采用等距分组等距分组便于比较和分析处理,实践中应尽量采用等距分组究竟分为多少组比较合适,可采用斯特吉斯公式计算:M = 1 + 3.322 * LgN,N为变量值的个数,m为组数⑵确定组距确定了分组的组数之后,接下来就需要确定出分组的组距等距分组的组距可根据变量值的取值范围和已确定的组数确定,下式可计算组距的最小值:d = (max(Xi) – min(Xi)) / m,d为组距,Xi为观测变量中的第i个变量值,m为组数。
⑶确定组限在确定了分组的组数和组距之后,就需要确定各组的组限各组的组限应尽量用整数,特别是5和10的倍数来表示用小于或等于变量最小值的整数作为最低一组的下限,然后依次每增加一个组距就是一个组限,直到组限值增加到比变量的最大值还大时即为最高组上限组限的表示方法随着变量的不同也有所不同若变量是离散变量,则相邻两组中数值较小一组的上限和数值较大一组的下限可分别用相邻的两个整数值表示;若变量是连续变量或是即可取整数又可取非整数的离散变量,则相邻两组中较小一组的上限和数值较大一组的下限只能用同一数值表示为了不违反分组的互斥性原则,在后一种情况下,一般规定上限不包含在本组之内,称为上限不在内原则⑷计算各组的次数(频数)在确定了各组的组限以后,接着就需要计算出所有变量值中落入各组之内的变量值的个数,每组所分配的变量值的个数也就是该组的次数,又称频数⑸编制变量数列当各组变量值的变动范围和各组的次数确定之后,接下来就可以将各组变量值按照从小到大的顺序排列,并列出相对应的次数,就形成变量数列3.测度变量分布中心有何意义?测度指标有哪些,各有什么特点?均值、中位数和众数之间有什么关系?揭示变量的分布中心有着十分重要的意义:⑴变量的分布中心是变量取值的一个代表,可以用来反映其取值的一般水平。
一个变量往往有许多个不同的取值,假若要用一个数值作为它们的代表,反映其一般水平,分布中心值无疑是一个最合适的数值⑵变量的分布中心可以揭示其取值的次数分布在直角坐标系上的集中位置,可以用来反映变量分布密度曲线的中心位置,即对称中心或尖峰位置测度指标有:⑴算术平均数,又称均值,它是一组变量值的总和与其变量值的个数的比值,是测度变量分布中心最常用的指标算术平均数的计算方法有:简单算术平均数、加权算术平均数算术平均数容易受到极端变量值的影响⑵中位数,是指将某一变量的变量值按照从小到大的顺序排成一列,位于这列数中心位置上的那个变量值中位数表明在顺序排列的变量值中,小于中位数的变量值的个数与大于中位数的变量值的个数是相等的因此,用中位数来代表所排列变量值的一般水平能够避免受到这些变量值中出现的极端变量值的影响,在某些特定条件下它更具有代表性⑶众数,是指某一变量的全部取值中出现次数最多的那个变量值在特殊的应用条件下,使用众数作为变量的一般代表值既简便又具有代表性在许多场合只有众数才适合作为某一变量取值的代表值三者之间的关系:算术平均数、中位数和众数三者之间在数量上的关系取决于变量值在数列中的分布状况。
⑴在正态分布的情况下,变量值的分布是以算术平均数为中心,两边呈对称型,这时算术平均数、中位数和众数在数量上完全相等在偏态分布的情况下,由于变量值中出现特别大或特别小的极端数值使其分布曲线在图形上呈现出不对称的情形⑵当有极大变量值出现时,是正偏分布(又称右偏分布),此时众数 < 中位数 < 算术平均数;⑶当有极小变量值出现时,是负偏分布(又称左偏分布),众数 > 中位数 > 算术平均数4.测度变量取值的离散程度有何意义?测度指标有哪些,各有什么特点?有了极差、平均差和标准差,为什么还要计算离散系数?意义:⑴通过对变量取值之间离散程度的测定,可以反映出各个变量值之间的差异大小,从而也就可以反映分布中心指标对各个变量值代表性的高低⑵通过对变量取值之间离散程度的测定,可以大致反映变量次数分布密度曲线的形状测度指标:⑴极差,又称全距,是指一组变量值中最大值与最小值之差,用来表示变量的变动范围它计算简单,意义明了由于极差的确定只根据两个极端变量值计算,不受中间变量值的影响,所以不能全面反映变量值的差异情况⑵四分位全距,是指将一组由小到大排列的变量数列分成四等分,可得到三个分割点Q1、Q2、Q3,分别称为第一个、第二个、第三个四分位数;然后用第一个四分位数Q1减去第三个四分位数Q3所得差的绝对值|Q1-Q3|,即为四分位全距。
它其实是指一组由小到大排列数据的中间50%数据的全距,所以它不像极差那么容易受极端变量值的影响,但仍然存在没有充分利用所有数据信息的缺点⑶平均差,是变量各个取值偏差绝对值的算术平均数它反映了变量的各个取值离其算术平均数的平均距离其意义明确,计算简单,但在运算上不方便平均差的计算分为简单平均法和加权平均法两种⑷标准差,又称根方差,是变量的各个取值偏差平方的平均数的平方根通过离差平方和的运算不但可以消除离差正负项的差别,而且强化了离差的信息,使其在数学性质上也有许多明显的优越性标准差的计算方法分为简单平均法和加权平均法两种,即简单标准差和加权标准差⑸方差,标准差的平方称为方差计算离散系统是因为:极差、平均差和标准差都是衡量变量各个取值之间绝对差异程度的指标,都具有一定的量纲这些指标的数值大小不仅取决于变量各取值之间的差异程度,而且取决于变量取值水平即数量级的高低显然,对于不同的变量,其变量值的绝对差异程度指标并不便于直接比较,这就需要在这些绝对差异指标的基础上构造出反映变量各取值之间的相对差异程度的无量纲指标变异系数主要用于不同变量的各自取值之间差异程度的比较例如,对于两个给定的变量,若要比较二者算术平均数对各自变量值一般水平代表性的高低,或比较二者各自内部变量值之间差异程度的大小,由于二变量的极差、平均差和标准差各自有不同的数量级和不同的量纲,难以直接对比,所以就需要计算各自的变异系数,用变异系数进行比较。
5.测度偏度和峰度有什么意义?测度指标各有哪些?意义:⑴可以加深人们对变量取值的分布状况的认识,如可以使人们清楚了解变量的取值是否对称,或非对称程度有多大,以及变量的取值是否有特别的集聚,集聚程度有多高,等等⑵人们还可以将所关心的变量的偏度指标值和峰度指标值与某种理论分布的偏度指标值和峰度指标值进行比较,以判断所关心的变量与某种理论分布的近似程度,为进一步的推断分析奠定基础偏度的测度指标:⑴直观偏度系数,它是利用描述变量分布中心的不同指标之间的直观关系而确定的测度变量分布偏斜程度的指标主要有:①皮尔逊偏度系数,是算术平均数与众数之间的离差对标准差的比率,其数值在[-3,+3]的范围之内②鲍莱偏度系数,它是上四分位数与中位数的距离对中位数与下四分位数的距离的差值与上四分位数与下四分位数的差值的比率⑵矩偏度系数,就是利用变量的矩来确定的变量分布偏斜程度的指标峰度的测度指标:峰度系数,是变量的四阶中心矩与其标准差的四次方的比率6.抽样调查某地区50户居民的月消费品支出额数据资料如下(单位:元)9678959219788219246518509269469388008649198639819168189008938909541006926900999886112090586681697810009181040854110090092810279469999508641050927949852928886要求:⑴试根据上述资料编制变量数列;①确定组数共有41个变量值,因此根据斯特吉斯公式:组数m = 1 + 3.322 * LgN = CEILING(1+3.322*LOG10(41),1) = 7②确定组距组距d = (max(Xi) – min(Xi)) / m = CEILING((1120 – 651) / 7, 10) = 70③确定组限最低组的下限为650,最高组的上限为1140。
④计算各组的频数⑤编制变量数列月消费品支出金额户数(户)比率向上累计频数向上累计频率向下累计频数向下累计频率650-72012%12%50100%720-79000%12%4998%790-860714%816%4998%860-9302346%3162%4284%930-10001224%4386%1938%1000-1070510%4896%714%1070-114024%50100%24%合计50100% ⑵编制向上和向下累计频数、频率数列;⑶绘直方图和拆线图7.为了了解农民工每月工资收入的情况,某市在全市农民工中随机抽取了300名进行调查,调查得样本资料如下表所示:按月生活费支出分组(元)人数(人)500以下10500-55030550-600120600-650100650-70025700以上15根据表中的样本数据计算下列各种分布特征测度指标:⑴农民工月工资收入的算术平均数、中位数和众数;组中值x(元)人数f(人)频率(%)xf向上累计(人)向下累计475103.33%4750103005253010.00%157504029057512040.00%6900016026062510033.33%62500260140675258.33%1687528540725155.00%1087530015合计300100.00%179750 算术平均数-x = ∑(x * f) / ∑f = 179750 / 300 = 599.17(元)根据300 / 2 = 150和累计人数确定中位数的位置应在组距数列第三组。
按下限公式计算中位数:中位数m = L + (∑f / 2 – Sm-1) / fm * d= 550 + (300 / 2 – 40) / 120 * (600 – 550) = 595.83(元)由表可以很明显地看出,农民工每月工资收入出现次数最多的是第三组,所对应的变量值在550-600元之间按下限公式计算:众数m = 550 + (120 – 30) / ((120 – 30)。





