电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

SAS软件与统计应用教程 教学课件 ppt 作者 汪远征 徐雅静 ch4

115页
  • 卖家[上传人]:E****
  • 文档编号:89184020
  • 上传时间:2019-05-20
  • 文档格式:PPT
  • 文档大小:919.50KB
  • / 115 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、第四章 相关分析与回归分析,4.1 简单相关分析 4.2 回归分析 4.3 非线性回归,4.1 简单相关分析 4.1.1 相关分析的基本概念 4.1.2 用INSIGHT模块作相关分析 4.1.3 用“分析家”作相关分析,4.1.1 相关分析的基本概念 1. 散点图 散点图是描述变量之间关系的一种直观方法。我们用坐标的横轴代表自变量X,纵轴代表因变量Y,每组数据(xi,yi)在坐标系中用一个点表示,由这些点形成的散点图描述了两个变量之间的大致关系,从中可以直观地看出变量之间的关系形态及关系强度。,图4-1就是不同形态的散点图。 (a) (b) (c) (d) 就两个变量而言,如果变量之间的关系近似地表现为一条直线,则称为线性相关,如图4-1(a)和(b);如果变量之间的关系近似地表现为一条曲线,则称为非线性相关或曲线相关;如图4-1(c);如果两个变量的观测点很分散,无任何规律,则表示变量之间没有相关关系,如图4-l(d)。,2. 相关系数 相关系数是对变量之间关系密切程度的度量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为;总体相关系数的计算公式为: 其中COV(X,Y

      2、)为变量X和Y的协方差,D(X)和D(Y)分别为X和Y的方差。,若相关系数是根据样本数据计算的,则称为样本相关系数(简称为相关系数),记为r。样本相关系数的计算公式为: 一般情况下,总体相关系数是未知的,我们通常是将样本相关系数r作为的近似估计值。,相关系数r有如下性质: 相关系数的取值范围:1 r 1,若0 r 1,表明X与Y之间存在正线性相关关系,若1 r 0,表明X与Y之间存在负线性相关关系。 若r = 1,表明X与Y之间为完全正线性相关关系;若r = 1,表明X与Y之间为完全负线性相关关系;若r = 0,说明二者之间不存在线性相关关系。,相关系数r有如下性质: 当1 r 1时,为说明两个变量之间的线性关系的密切程度,通常将相关程度分为以下几种情况:当| r | 0.8时,可视为高度相关;0.5 | r | 0.8时,可视为中度相关;0.3 | r | 0.5时,视为低度相关;当| r | 0.3时,说明两个变量之间的相关程度极弱,可视为不相关。但这种解释必须建立在对相关系数进行显著性检验的基础之上。,3. 相关系数的显著性检验 相关系数的显著性检验也就是检验总体相关系数是否显著

      3、为0,通常采用费歇尔(Fisher)提出的t分布检验,该检验可以用于小样本,也可以用于大样本。检验的具体步骤如下: 1) 提出假设:假设样本是从一个不相关的总体中抽出的,即 H0: = 0;H1: 0,1) 提出假设:假设样本是从一个不相关的总体中抽出的,即 H0: = 0;H1: 0 2) 由样本观测值计算检验统计量: 的观测值t0和衡量观测结果极端性的p值: p = P| t | | t0 | = 2Pt |t0| 3) 进行决策:比较p和检验水平作判断:p ,拒绝原假设H0;p ,不能拒绝原假设H0。,4. 置信椭圆 可以生成两类置信椭圆: 均值置信椭圆:预测两变量均值的置信区域; 预测值置信椭圆:预测两变量分布个别观测值的置信区域。 关于预测值置信椭圆的两点说明: 1) 作为置信曲线,表示数据以设定的百分率(置信水平)落入的椭圆区域; 2) 作为相关性指标。若两个变量不相关,椭圆应该为圆;两个相关的变量有拉长的椭圆,可以用椭圆长短轴之比来衡量相关的程度。,4.1.2 用INSIGHT模块作相关分析 【例4-1】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国

      4、家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。表4-1就是该银行所属的25家分行2002年的有关业务数据。,表4-1 某商业银行2002年的主要业务数据 银行想知道,不良贷款是否与贷款余额、应收贷款、贷款项目的多少、固定资产投资等因素有关?如果有,是一种什么样的关系?关系强度如何?,设表4-1中数据已经存放在数据集Mylib.bldk中。 1. 制作散点图 首先制作变量之间的散点图,以便判断变量之间的相关性。步骤如下: 1) 在INSIGHT模块中,打开数据集Mylib.bldk; 2) 选择菜单“Analyze(分析)”“Scatter Plot (Y X)(散点图)”; 3) 在打开的“Scatter Plot (Y X)”对话框中选定Y变量:Y;选定X变量:x1、x2、x3、x4; 4) 单击“OK”按钮,得到变量的分析结果。,从各散点图中可以看出,

      5、不良贷款(Y)与贷款余额(x1)、应收贷款(x2)、贷款项目多少(x3)、固定资产投资额(x4)之间都具有一定的线性关系。但从各散点的分布情况看,与贷款余额(x1)的线性关系比较密切,而与固定资产投资额(x4)之间的关系最不密切。,2. 相关系数计算 1) 在INSIGHT模块中,打开数据集Mylib.bldk; 2) 选择菜单“Analyze(分析)”“Multivariate (Y X)(多变量)”; 3) 在打开的“Multivariate (Y X)”对话框中选定Y变量:Y;选定X变量:x1、x2、x3、x4; 4) 单击“OK”按钮,得到分析结果。,结果显示各变量的统计量和相关(系数)矩阵,从相关矩阵中可以看出,在不良贷款Y与其他几个变量的关系中,与贷款余额(x1)的相关系数最大,而与固定资产投资额(x4)的相关系数最小。,5) 为了检验各总体变量的相关系数是否为零,选择菜单:“Tables”“CORR p-values”,得到相关系数为零的原假设的p值,如图4-6所示。 基于这些p值,拒绝原假设,即不良贷款与其他几个变量之间均存在着显著的正相关关系。,3. 置信椭圆 继续上

      6、述步骤。 6) 选择菜单:“Curves”“Scatter Plot Cont Ellipse”“Prediction:95”,得到不良贷款与其他几个变量的散点图及预测值的置信椭圆,如图所示。 变量Y和x1间散点图上的这个椭圆被拉得很长,表明变量Y和x1之间有很强的相关性。,4.1.3 用“分析家”作相关分析 【例4-2】通常用来评价商业中心经营好坏的一个综合指标是单位面积的营业额,它是单位时间内(通常为一年)的营业额与经营面积的比值。对单位面积营业额的影响因素的指标有单位小时车流量、日人流量、居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分。这几个指标中车流量和人流量是通过同时对几个商业中心进行实地观测而得到的。而居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分是通过随机采访顾客而得到的平均值数据。表4-2为从某市随机抽取的20个商业中心有关指标的数据,试据此说明变量间的相关程度。,表4-2 20个商业中心有关指标的数据 设表4-2数据已保存在数据集Mylib.jyzk中。,1. 相关分析的设置 在“分析家”中作相关分析的步骤如下: 1)

      7、在“分析家”中打开数据集Mylib.jyzk; 2) 选择主菜单“Statistics”“Descriptive(描述性统计)”“Correlations(相关)”,打开“Correlations”对话框,按图4-8 设置分析变量及内容。,2. 结果分析 显示结果首先给出各个变量的描述性统计量,包括观测总数、各变量的均值及标准差等。然后给出变量的相关系数矩阵(分析变量中任两者之间的相关系数),以及原假设为H0:Rho = 0(即H0: = 0)的检验结果(仅给出p值),如图4-9所示。,从相关系数的取值来看,单位面积营业额(Y)与居民年消费额(x3)、日人流量(x2)接近高度相关;单位面积营业额(Y)与每小时机动车流量(x1)、对商场环境的满意度(x4)、对商场设施的满意度(x5)为低度相关;单位面积营业额(Y)与商场商品丰富程度满意度(x6)则属于中度相关。 从相关系数的假设检验结果来看,单位面积营业额(Y)与居民年消费额(x3)、日人流量(x2)、商场商品的丰富程度满意度(x6)、对商场设施的满意度(x5)的相关系数显著不为0(p = 0.05);另一方面,不能拒绝单位面积营业额(

      8、Y)与每小时机动车流量(x1)、对商场环境的满意度(x4)相关系数为0的假设。,3. 置信椭圆 在分析家窗口的项目管理器中依次双击“Scatter Plots”下的“Confidence ellipse:YX1”“Confidence ellipse:YX6”项,得到各变量与单位面积营业额的散点图如图4-10。,图4-10 Y与x1、x2、x3、x4、x5、x6的散点图及置信椭圆 从图4-10可以看出单位面积营业额指标(Y)与各指标均呈正相关关系。根据散点的分散程度可以看出居民年消费额(x3)与单位面积营业额的相关关系较强,置信椭圆较扁长;而顾客对商场设施的满意度(x4)与单位面积营业额的相关程度较小,置信椭圆接近于圆。,4.2 回归分析 4.2.1 回归分析的基本概念 4.2.2 用INSIGHT模块作回归分析 4.2.3 用“分析家”作回归分析 4.2.4 使用REG过程作回归分析,4.2.1 回归分析的基本概念 1. 回归模型 变量Y与其他有关变量X1,X2,Xk的关系 Y = f (X1,X2,Xk) + 称为“回归模型”,其中为均值为0的随机变量。 当f为线性函数时,回归模型

      9、: Y = 0 + 1X1 + 2X2+ kXk+ 称为线性回归模型,本章主要讨论线性回归模型。特别地,当k = 1时称为一元线性回归模型。,2. 回归分析的内容与目的 建立变量Y与X1,X2,Xk的经验公式(回归方程,预测公式),即从一组样本数据出发,确定出变量之间近似的数学关系式; 对经验公式的可信度进行检验; 判断每个自变量Xi(i = 1,2,k)对Y的影响是否显著; 对经验公式进行回归诊断(诊断经验公式是否适合这组数据); 利用合适的经验公式,根据自变量的取值对因变量的取值进行预测。,3. 线性回归模型(Line Regression model) 线性回归模型的一般形式为: Y = 0 + 1X1 + + kXk + 其中0,1,k,是未知的参数,是不可观测的随机变量,称为误差项,假定 N(0,2)。 如果有n次独立的观测数据(xi1,xi2,xik;yi)i = 1,2,n,则线性回归模型可以表示成如下形式: 其中1,2,n相互独立且服从N(0,2)分布。,上式可以简写成如下矩阵形式: Y = X + 其中 , , ,,,,,,,,4. 参数与2的估计 若X的秩rank(X) = k + 1 n,参数的最小二乘估计为 可以证明, 为的无偏估计。 当给出 的估计 后,将其代入回归模型并略去误差项,得到的方程 称为回归方程。利用回归方程可由自变量1,k的观测值求出因变量Y的估计值(预测值)。,称 为残差向量,简称残差,其中I为n阶单位矩阵。 称 为残差平方和。 若rank(X) = k + 1 n,均方残差(MSE): 即为误差的方差(也是实测值Y的方差)2的无偏估计,均方残差有时也称为均方误差。,5. 有关统计量及回归方程的拟合优度 给定因变量Y

      《SAS软件与统计应用教程 教学课件 ppt 作者 汪远征 徐雅静 ch4》由会员E****分享,可在线阅读,更多相关《SAS软件与统计应用教程 教学课件 ppt 作者 汪远征 徐雅静 ch4》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结 2022年家长会心得体会集合15篇
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.