电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

统计建模与r软件-第一讲-(2017)

49页
  • 卖家[上传人]:F****n
  • 文档编号:88225817
  • 上传时间:2019-04-21
  • 文档格式:PPT
  • 文档大小:1.45MB
  • / 49 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、,统计建模与R软件 郭广报 统计计算,课程意义,统计学的目的:解释数据! 统计计算的关键是,拥有自己的code 一些特殊研究机构: 阿里研究院 百度研究院 腾讯研究院 光启研究院,2,课程教材和参考书目, ,薛毅,陈立萍.统计建模与R软件.清华大学出版社, 2007 Kabacoff著,高涛,肖楠等译. R语言实战(R in Action:Data analysis and graphics with R).人民邮 电出版社,2013 何晓群.多元统计分析(第三版).中国人民大学出版 社,2012,课程教材和资料, ,吴喜之.统计学-从数据到结论(第4版).中国统计 出版社,2013 吴喜之.复杂数据统计方法基于R的应用.中国人 民大学出版社,2012,统计之都http:/cos.name/,5,经管之家,6,课程内容与进度,序号 1 2 3 4 5 6 7 8 9,内容 统计建模概论 R软件的使用 数据描述性分析 参数估计 假设检验 回归分析 方差分析 应用多元分析 计算机模拟 7,第一讲 概论, ,统计建模的概念及特点 统计建模的步骤 统计建模常用软件 统计建模大赛,一、统计建模的

      2、概念及特点,统计学:收集、分析、展示和解释数据的科学。 统计建模:以计算机统计分析软件为工具,利用各 种统计分析方法对批量数据建立统计模型和探索 处理的过程,用于揭示数据背后的因素,诠释社 会经济现象,或对经济和社会发展做出预测或判 断。,中国统计教育学会,统计建模的意义,随着计算机和网络技术的发展,我们面对着 数据和信息爆炸的挑战,如何迅速有效地将数据 提升为信息、知识和智能,是统计工作者面临的 重要课 题。,统计建模将统计方法、计算机技术完美结合,,带动以数据分析为导向的统计思维,发现和挖掘数 据背后 的规律,为经济社会的发展提供更好更多的 统计信息。,统计建模的特点, ,1. 模型只能是对客观世界的一种近似,是现实的 简单化或理想化。统计建模的宗旨,就是设法建 立 “有用的” 模型,而不是所谓“绝对正确的 ”模型。 Box(1976) “有用的”模型能抓住并凸显现象中与分析目的 最相关之主要特征,因此统计建模的成功与对主 题领域的了解密切相关。 例如:边际消费倾向(或乘法-加法模型) Ct yt,统计建模的特点, ,2. 建模者应根据目的来寻找合适的数据和建模方 法 。 数据:数

      3、据的来源;数据的真实性;数据所含信 息;数据是否适合建模。 方法:同一个问题,可采用多种方法,也可能需 要多种方法。 一个好的建模(统计学实证文章)的三要素:, ,idea data model,统计建模的特点, ,3.统计建模是一个学习与实践的过程 统计学:统计学基础、多元统计分析、非参数统 计、贝叶斯统计 计量经济学:时间序列、面板数据、微观计量、 非参数 时间序列分析:一元、多元、波动建模、非线性 专业领域背景知识 统计分析软件 :Matlab、R、SPSS、SAS,统计建模的注意事项, ,避免只用一种方法(未比较其他模型和交叉验证), 应该避免没有根据或比较地任意假定模型形式。 不要过度夸大一个模型的功能,即使是诺贝尔经济 奖获得者也无法预测出任何一次经济危机? 任何一个现成模型必须得经受最新数据的考验,否 则必须被替代或修改:例如,线性非线性;一 元多元;水平二阶矩偏度和峰度 经验:模仿权威文献,适当引入自己变量!,统计的本质,观测/实验 数据,理论/假说 /模型,p2,明确问题,数据收集,数据预处理,撰写论文 结果分析 模型检验 模型估计 模型构建,二、统计建模的步骤,1.

      4、明确问题, ,许多数理统计杂志喜欢发表没有任何数据背景的 有关数学模型的文章; 许多统计毕业生只会推导和证明各种模型,却不 擅长处理真实的问题和数据; 许多人面对着有限样本,也假装是大样本,并且 不经验证,据此得到结论; 一些人不从数据出发,在学习或者构建了一个新 模型后,就生搬硬套,寻找“适合”的数据来“ 证明”自己的模型有意义。,长假期间高速免费?节假日火车票免费?火 车梯形退票费问题;高铁票价问题;小微企业相 继倒闭;沿海民工荒问题;富二代问题;二胎问 题;企业税负减免问题;人民币贬值问题;收入 差距扩大问题;大学排行榜问题,明确问题:以问题和数据为导向,明确问题:以问题和数据为导向,可以搜集哪些变量? 哪些是控制变量?,哪些是无法掌控的变量?,哪些是需要重点研究的变量? 适合构建什么模型?,模型结果与理论是否吻合?,预测精度怎样?未来的变化趋势怎样? 有何政策含义?,统计建模已经帮这个世界解决许多真实且实际 的问题(农业、医学、遗传、工业、商业等)。 各个领域都靠统计解决许多问题,所以统计是 问题导向,人们在“没有标准答案的问题”中寻,求近似可靠稳定的模型提供解决方案!,明确问

      5、题:以问题和数据为导向,2.数据收集, ,一手数据:调查、实验观察 二手数据:书籍、网络、年鉴 基准数据 统计建模时,一定要写清数据来源!,数据收集,1.政府统计数据, ,统计局网站或年鉴 国家各部委,例如人民银行、国税总局、商务部等,2.国际组织, ,世界银行世界发展指数数据库 国际货币基金组织IMFIFS 数据库 世界贸易组织WTO贸易统计年鉴 国际清算银行、亚洲开发银行、泛美开发银行、联合国 世界粮农组织、联合国环境署、联合国教科文组织等,数据收集,3.权威商业机构统计数据库, ,全球银行、金融机构信息库BvD 全球市场信息数据库GMID 亚洲经济数据库(CEIC ASIA) 英国路透(Reuters)数据库 中经网统计信息数据库,4.非政府组织的抽样调查数据:大学、科研院所组织 的调查统计,美国北卡莱罗纳大学和中国疾病控制与预防中心联合主 办的 “中国健康与营养调查(CHNS),高校常用数据库, ,1.国家统计局官网 2.中经网统计数据库 3.国研网统计数据库 4.CCER统计数据库 5.Wind数据库 6.BvD数据库,如果有些数据库找不到,请与其它高校的 同学或者朋友联系,

      6、或者国外同学联系,国家统计局,28,国内常用微观数据库,1. CHIP数据,中国社会科学院经济研究所收入分配课题组(李实、赵人 伟老师主持,福特基金会赞助)于1988年、1995年和 2002年,进行的全国调查中的中国农村和城市居民家庭 收入分配调查得到的。 1995年的调查覆盖19个省(市、自治区),调查了6931户 城镇家庭和7998户农村家庭,分别涉及21696位城镇居民 和34739位农村居民; 2002年的调查覆盖22个省(市、自治区),调查了6835户 城镇家庭和9200户农村家庭,分别涉及20632位城镇居民 和37969位农村居民。,国内常用微观数据库, ,2. CHNS(中国健康与营养调查) 3.CHARLS(中国健康与养老追踪调查) http:/ 4.CFPS(中国家庭动态调查):向北京大学全校 师生公开发布。 5.CHFS(China Health and Fertility Survey ) 这些通常需要先注册,通过邮件获得密码、 ID之类的才能继续下载,所以可能需要点耐心。 其中CFPS还需要寄信函到北京才能取得密码和 ID。 注意保密!禁止传播!,3.数据预

      7、处理, ,缺失值(例如,一月份的工业增加值数据) 异常值(例如,国税数据某直辖市为负数) 不一致(例如,名义值实际值、季节调整、人 民币美元转换、时间长度不一致等) 这些工作很可能非常费时而且极其琐碎,但必 须去做,否则后续的分析是不可能的。,数据缺失怎么办?, ,删除 用同一变量其他值的均值或中位数填补 在各个变量之间建立模型(比如回归模型,最近 邻方法等)来填补。 R包:missForest。专门用于填补缺失值。采用 随机森林的方法,同时自动填补定量变量和分 类变量。,4. 模型构建, ,第一步:探索性分析。利用图形(例如散点 图)、各种统计量(均值、标准差、最大值、 最小值、负值等)、或者稍微复杂的探索方法 来查看数据的关联性、线性性、异方差性、多 重共线性、聚类特征、分布形状等。 第二步:寻找适合的模型,例如,统计模型、 计量经济模型、时间序列模型、多元统计分析。,当 代 计 量 经 济 模 型 体 系,单位根检验,ARIMA(时间序列)模型,SARIMA(季节时间序列)模型,PANEL(面板数据)模型、空间计量模型,DS(离散选择)模型、有序响应、计数模型 LDV(受限因变量

      8、)模型(删失、截断模型),线性时间序列,时 间 序 列 模 型 回 归 模 型,单 序,列 模 型 向 量 序 列 模 型,时间序列的加法、乘法模型,X12 季节调整,组合模型,截面数据回归 蒙特卡罗模拟技术,非线性时间序列 波动模型 单位根检验 时间序列回归,GAR(广义自回归)、BL(双线性)模型 TAR、STAR(门限自回归、平滑转移)模型 ARCH、GARCH(自回归条件异方差)模型 SV(随机波动)模型 ACD、SCD(自回归、随机条件久期)模型 研究 VAR、VEC(向量自回归、误差修正)模型 单方程(线性、可线性化非线性)回归模型 联立方程模型(结构、简化型、递归模型) 分位数回归模型 单位根检验, ,各种统计方法层出不穷,学习永无止境,怎么 办? (基本思想) 针对不同类型的数据,如何选取合适的模型? 遇到没学过的模型,怎么办? (基本类型) 谷歌和百度!论坛或者QQ群!,5.模型估计,不同的模型有不同的估计方法和检验方法。常见,的模型估计方法包括: 最小二乘(OLS)法, 极大似然估计(MLE)法 广义矩(GMM)法 分位数回归方法 贝叶斯方法 (与经验的结合),6.

      9、模型检验 各种检验准则:, ,经济意义检验:定性检验 统计学检验:t检验、F检验、拟合优度检验 计量经济学检验:异方差、自相关、多重共线 性等检验 预测精度检验,比较模型的标准, ,算法模型交叉验证(cross validation):拿一 部分数据作为训练集(training set),得到模型, 再用另一部分数据(称为测试集,testing set)来看 误差是多少。有时需要进行k折交叉验证(k-fold cross validation),即把数据分成k份,每次拿k- 1份作为训练集,用剩下的一份作为测试集,重 复k次,得到k个误差作出平均,以避免仅用一 个测试集可能出现的偏差。 显然,交叉验证的方法也适用于传统模型之间 或者在传统模型和算法模型之间的比较。, ,选择模型不是最终目的,最终目的是解释模型 所产生的结果,而结果必须是应用领域的结果, 必须有实际意义。 仅仅用统计术语说某个模型较好、某个变量显 著之类的话是不够的。 例如,恩格尔定律、边际消费倾向。,7.结果分析,三、常用统计建模软件, ,统计软件的种类很多。有些功能齐全,有些价 格便宜;有些容易操作,有些需要更多的实践 才能掌握。还有些是专门的软件,只处理某一 类统计问题。网上可以获得的统计或者计量软 件起码有多达几百种。面对太多的选择往往给 决策带来困难。这里介绍最常见的几种。 SPSS、EXCEL、SAS、Eviews、R语言、 Matlab、Statistics,统计软件,统计软件的种类很多。差

      《统计建模与r软件-第一讲-(2017)》由会员F****n分享,可在线阅读,更多相关《统计建模与r软件-第一讲-(2017)》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结 2022年家长会心得体会集合15篇
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.