好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

《应用统计分析》北大光华管理学院.ppt

99页
  • 卖家[上传人]:文***
  • 文档编号:61500703
  • 上传时间:2018-12-02
  • 文档格式:PPT
  • 文档大小:1.02MB
  • / 99 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 应用统计分析,1,课程介绍,主要内容:多元统计为主 讲授方式:数据分析 + 基础理论 考 试: 平时作业、测验 + 期中 期末考试 1—16周,2,参考教材 Applied Multivariate Methods for Data Analysis, by Dallas E. Johnson, Higher Education Press, 2005. 实用多元统计分析 陆璇 ,叶俊译清华大学出版社,2008 从数据到结论 吴喜之 中国统计出版社 多元统计分析引论 张尧庭 方开泰 科学出版社,3,统计基本概念回顾,4,随机性和 规律性,5,现实中的随机性和规律性,中学时,就知道自然科学的许多定律,例如物理中的牛顿三定律,物质不灭定律以及化学中的各种定律等等 但是在许多领域,很难用如此确定的公式或论述来描述一些现象比如,人的寿命是很难预先确定的一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一个很少得病、生活习惯良好的人活得长 因此,可以说,活得长短是有一定随机性的(randomness)这种随机性可能和人的经历、基因、习惯等无数说不清的因素都有关系6,现实中的随机性和规律性,从总体来说,我国公民的预期寿命却是非常稳定的。

      而且女性的预期寿命也稳定地比男性高几年这就是规律性 一个人可能活过这个寿命,也可能活不到这个年龄,这是随机的 但是总体来说,预期寿命的稳定性,却说明了随机之中有规律性这种规律就是统计规律7,概率和机会,你可能经常听到概率(probability)这个名词最常见的是在天气预报中提到的降水概率大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨 因此,从某种意义说来,概率描述了某件事情发生的机会 显然,这种概率不可能超过百分之百,也不可能少于百分之零换言之,概率是在0和1之间的一个数,说明某事件发生的机会有多大8,有些概率是无法精确推断的,比如你对别人说你下一个周末去公园的概率是百分之八十但你无法精确说出为什么是百分之八十而不是百分之八十四或百分之七十八 其实你想说的是你很可能去,但又没有完全肯定 实际上,到了周末,你或者去,或者不去;不可能有分身术把百分之八十的你放到公园,而其余的放在别处9,有些概率是可以估计的,如掷骰子只要没有人在骰子上做手脚,你得到任何点的概率都应该是六分之一 这反映了掷骰子的规律性 但掷出骰子之后所得到的结果还只可能是六个数目之一。

      这体现了随机性 如果你掷1000次骰子,那么,大约有六分之一的可能会得到6;这也说明随机结果也具有规律;而且有可能通过试验等方法来推测其规律10,变量,做任何事情都有对象比如一个班上注册的学生有200人,这是一个固定的数目,称为常数(constant)或者常量 但是,如果猜测今天这个班有多少人会来上课,那就没准了这有随机性可能有请病假或事假的,也可能有逃课的这样,将要来上课的人数是个变量(variable) 另外对某项政策同意与否的回答,也有“同意”、“不同意”或者“不知道”三种可能值;这也是变量,只不过不是数量而已11,变量,当变量按照随机规律所取的值是数量时该变量称为定量变量或数量变量(quantitative variable);因为是随机的,也称为随机变量(random variable) 象性别,观点之类的取非数量值的变量就称为定性变量或属性变量或分类变量(qualitative variable,categorical variable) 这些定性变量也可以由随机变量来描述,比如男性和女性的数目,同意某政策人数的比例等等只有当变量用数量来描述时,才有可能建立数学模型,才可能使用计算机来分析。

      12,数据,有了变量的概念,什么是数据呢? 拿掷骰子来说,掷骰子会得到什么值,是个随机变量;而每次取得1至6点中任意点数的概率它在理论上都是六分之一(如果骰子公平)这依赖于在掷骰子背后的理论或假定; 而在实际掷骰子过程中,如果掷100次,会得到100个由1至6点组成的数字串;再掷100次,又得到一个数字串,和前一次的结果多半不一样这些试验结果就是数据 所以说,数据是关于变量的观测值.,13,数据,通过数据可以验证有关的理论或假定, 比如通过多次掷骰子验证得到每个点的概率是不是1/6 顾客是否喜欢某种饮品?事先不易猜测顾客喜欢与否的概率在问了1000人之后,可能有364人说喜欢,而480人说不喜欢,其余的人可能不回答,或说不知道,或从来没有喝过这种饮料当然,它仅仅反映了1000个被问到的人的观点;但这对于估计整个消费群体的观点还是有用的 从该数据可以估计喜欢该饮料的人占大约0.364左右14,统计和计算机,人们越来越依赖计算机了最早使用计算机的统计当然更离不开计算机了 事实上,最初的计算机仅仅是为科学计算而建造的大型计算机的最早一批用户就包含统计而现在统计仍然是进行数字计算最多的用户 计算机现在早已脱离了仅有计算功能的单一模式,而成为百姓生活的一部分。

      计算机的使用,也从过去必须学会计算机语言到只需要“傻瓜式”地点击鼠标结果也从单纯的数字输出到包括漂亮的表格和图形的各种形式15,统计软件,统计软件的发展,也使得统计从统计学家的工具变成了大众的游戏只要你输入数据,点几下鼠标,做些选项,马上得到漂亮结果 是否傻瓜式的统计软件的使用可以代替统计课程了? 数据的整理和识别,方法的选用,计算机输出结果的理解都不象使用傻瓜相机那样简单可靠16,统计软件,统计软件的种类很多有些功能齐全,有些价格便宜;有些容易操作,有些需要更多的实践才能掌握还有些是专门的软件,只处理某一类统计问题面对太多的选择往往给决策带来困难这里介绍最常见的几种17,统计软件,SPSS:很受欢迎;容易操作,输出漂亮,功能齐全,价格合理它也有自己的程序语言,但基本上已经“傻瓜化”它对于非专业统计工作者是很好的选择 Excel:严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算功能而且凡是有Microsoft Office的计算机,基本上都装有Excel对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”,需要使用函数,甚至根本没有相应的方法了。

      多数专门一些的统计推断问题还需要其他专门的统计软件来处理18,统计软件,SAS:这是功能非常齐全(不如R齐全)的软件;尽管价格相当不菲,许多公司,特别是美国制药公司,还是因为其功能众多和某些美国政府机构认可而使用尽管现在已经尽量“傻瓜化”(远不如SPSS“傻”),但仍然需要一定的训练才可以进入也可以对它编程;但对于基本统计课程则不那么方便19,S-plus:这是R出现之前统计学家最喜爱的软件不仅由于其功能齐全,而且由于其强大的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和方法它也在进行“傻瓜化”以争取顾客但仍然以编程方便为顾客所青睐 R软件:这是一个免费的,由志愿者管理的软件其编程语言与S-plus所基于的S语言一样,很方便还有不断加入的各个方向统计学家编写的统计软件包同时从网上可以不断更新和增加有关的软件包和程序这是发展最快的软件,受到世界上统计师生的欢迎包括网上程序资源是方法最齐全的软件是用户量增加最快的统计软件由于易学,它没有“傻瓜化”20,统计软件,Minitab:这个软件是很方便的功能强大而又齐全的软件,也已经“傻瓜化”,在我国用的不如SPSS与SAS那么普遍 Statistica:也是功能强大而齐全的“傻瓜化”的软件,在我国用的也不如SAS与SPSS那么普遍。

      Eviews:一个主要处理回归和时间序列的软件 FORTRAN:这是应用于各个领域的历史很长的非常优秀的数学编程软件,功能强大,也有一定的统计软件包计算速度比这里介绍的都快得多但需要编程和编译操作不那么容易 MATLAB:这也是应用于各个领域的以编程为主的软件,在工程上应用广泛编程类似于S和R但是统计方法不多21,统计软件,当然,还有其他的软件,没有必要一一罗列其实,只要学会使用一种“傻瓜式”软件,使用其他的仅仅是举一反三之劳;最多看看帮助和说明即可22,问 题,举出你所知道的统计应用例子 举出日常生活中随机性和规律性的例子 你使用过统计软件或者利用过其他软件中的统计功能吗?你有什么经验和体会?,23,数据的收集,24,二手数据,报纸、电视和杂志提供各种数据比如高速公路通车里程、物价指数、股票行情、外汇牌价、犯罪率、房价、流行病的有关数据(确诊病例、疑似病例、死亡人数和出院人数等等);当然还有国家统计局定期发布的各种国家经济数据、海关发布的进出口贸易数据等等从中可以选取对自己有用的信息 这些间接得到的数据都是二手数据25,第一手数据,获得第一手数据并不象得到二手数据那么轻松 某些在华的外资企业每年至少要花三四千万元来收集和分析数据。

      他们调查其产品目前在市场中的状况和地位并确定其竞争对手的态势; 调查不同地区,不同阶层的民众对其产品的认知程度和购买意愿以改进产品和服务来争取顾客 收集各地方的经济交通等信息以决定如何保住现有市场和开发新市场 市场信息数据对企业是至关重要的他们很舍得在这方面花钱因为这是企业生存所必需的,绝不是可有可无的26,观测数据和试验数据,上面所说的数据是在自然的未被控制的条件下观测到的,称为观测数据(observational data) 而对于有些问题,比如在不同的医疗手段下某疾病的治疗结果有什么不同、不同的肥料和土壤条件下某农作物的产量有没有区别、用什么成分可以提高某物质变成超导体的温度等等这种在人工干预和操作情况下收集的数据就称为试验数据(experimental data)27,试验数据有助于找出必要 的因果关系,28,总体和样本,29,总体和样本,要想了解北京市民对建设北京交通设施是以包括轨道运输在内的公共交通工具为主还是以小汽车为主的观点,需要调查; 调查对象是所有北京市民,调查目的是希望知道市民中对这个问题的不同看法各自占有的比例 显然,不可能去问所有的北京市民,而只能够问一部分;并根据这部分观点来理解整个北京市民的总体观点。

      30,总体和样本,在这个例子中,单个北京市民的观点称为个体(element , unit 或 individual), 而称所有北京市民对这个问题的观点为一个总体(population),总体是包含所有要研究的个体的集合 而调查时问到的那部分市民的观点(也就是部分个体)称为该总体的一个样本(sample),是总体中选出的一部分 当然,也有可能试图调查所有的人(比如人口普查),那叫做普查(census) 普查就一定比抽样准吗?,31,随机样本,在从有限总体抽取样本时,如果总体中的每一个体都有同等机会被选到样本中,这种抽样称为简单随机抽样(simple random sampling), 而这样得到的样本则称为随机样本(random sample)32,随机样本,就北京交通问题的调查为例,在随机抽样的情况下,如果样本量(sample size,也就是样本中个体的数目)在总体中的比例为1/5000,那么,无论在东城区或者在延庆县,无论在白领阶层还是蓝领阶层被问到的人的比例都应该大体是1/5000 也就是说,这种比例在总体的任何部分是大体不变的33,随机样本,抽样就像从一锅八宝粥中舀出一勺 如果粥和匀了,那么一勺中的各种成分比例应该和锅中的比例类似。

      就如一个抽样调查随机样本所包含的各种人群比例应该和总体类似 一个非随机的抽样就像从没有和匀的八宝粥中舀出的一勺一样34,方便样本,实践中,得到随机样本不容易很多搞调查的人就采取简单的办法 假定按照随机选出的号码进行调查,肯定节省时间和资源,但就不是一个随机样本了 如果按照随机选择的数字(无论号码本上有没有)打,那很多电。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.