2013统计软件统计方法复习.ppt
16页复习:串讲,主要内容: 1、R的基本操作和使用 2、描述性统计和R作图 3、统计模拟 4、假设检验 5、方差分析与正交试验 6、回归分析,,1、R的基本操作和使用,,掌握如下内容,1. R中的环境设置,如options, getwd, setwd, .Last.value, history 等 2. 信息检索 help, RSiteSearch,等 3. 数据读取 数据库,Excel, 剪贴板,文本文件 等 4. 数据类型及转换 向量、矩阵、列表、数据框、因子等 5. 频数统计 cut, table, apply, tapply,1、R的基本操作和使用,,掌握如下内容,6. 基本操作 all, any, ==, !=, which.max,which.min sort, order, NA数据的处理, 矩阵、数据框的多种访问方式等 7. 函数等程序设计 分支结构、循环结构、命名参数、二元运算符定义、程序运行时间、内存空间清理等 8. R的可视化操作 基于windows的对话框函数, R Studio IDE,2、描述性统计和R作图,,掌握如下内容,1. 基本统计函数 mean, min,max, range, median,sd,var fivenum,quantile,sum,cor,apply等 2. 基本作图 plot, matplot, par(mfrow=) hist,density,norm,line,boxplot, barplot,stars,legend,axis, title, text, outer, persp,image, dev.new,dev.off,dev.next, split.screen, screen(i), layout, polygon,,3、统计模拟,,掌握如下内容,1. 随机数生成 rnorm,runif,rbinom,rexp,… mvrnorm,sample,rpois,rchisq,rt,rf 2. bootstrap方法及应用 bootstrap样本,估计均方误差,非参数型区间估计等 3. monte carlo方法及应用 随机点法,平均值法,误差及收敛讨论, 高维积分的实现,pi的估计等等,4、假设检验,,掌握如下内容,1. 分布性检验 pearson卡方检验,ks, shapiro 等 2. 独立性检验 3. 非参数秩检验 对称中心检验,配对检验,多总体均值检验 方差齐性检验等,5、方差分析与正交试验,,掌握如下内容,1. 单因素方差分析 2. 双因素方差分析 3. 正交表生成及选择 4. 无交互作用的正交试验 5. 有交互作用的正交试验+表头设计 注意:直观分析,极差分析和方差分析,6、回归分析,,掌握如下内容,1. 一元回归模型 线性最小二乘、线性最小一乘、非参数、非线性、 单调、分段、多项式回归等 2. logistic回归 掌握模型背景及其应用 3. 多元回归模型 线性最小二乘,线性最小一乘,非线性, 最优回归,逐步回归, 岭估计,lasso回归,,模拟题目的范畴:,,1. 根据一个算法描述,编写程序及其案例分析 2. 根据给定数据,完成指定的回归模型,或者构建合适的回归模型,估计模型中的参数等。
3. 根据要求确定正交试验,数据分析 4. 根据给定的数据,绘制正确的统计图形,并直观表达统计意义 5. 对于给定问题和数据,完成相关的检验 注意:绝大部分都需要编写R程序,以便分析数据练习题,,1. 通过剪贴板读取如下数据到变量A中 1.5/2.5/3.4/4.5/5/5.5/3.4/3.8/3.9/4.5/4.8/6.1/5.2/4.0 [1] 计算均值、方差、中位数等 [2] 将其中介于4.5到5.5之间的数据用N(5,0.1)的随机数替代 [3] 绘制直方图,箱线图 [4] 对数据进行正态性检验 [5] 给出均值的置信度为95%的置信区间 [6] 构造方法求中位数的置信度为95%的区间估计 [7] 求数据的经验分布函数,并估计P(X=5) 2. 请构造例子,分析sample函数的效率和统计性能 3. 对于数据 [1]构建线性回归,非线性回归,非参数回归 [2]单调回归,最小一乘回归,练习题,,4. 有因子水平表 假定试验结果是 11,13,15,14,13,12,16,12.5 选择合适的正交表[顺序用默认产生的],完成 [1] 直观分析 [2] 极差分析 [3] 正交分析 如果考虑部分AXB,AXC交互作用又怎么处理?,参考,,1. 读取数据函数scan, 注意使用其中的sep参数,读取有指定分隔符的数据 a=scan('clipboard',sep='/') 关于数据替换的做法有很多种,其中之一是采用多种条件来指定数据范围,然后再替换,注意使用 & ,| 等符号 a[a4.5 & a4.5 & a5.5)==TRUE),5,1) 直方图绘制中需要注意是频率还是频数直方图,并且如何用直方图进行密度描述,同时如何绘制制定分组数和分组区间的直方图。
另外绘图要给出比较详细的标题,刻度,图例,范围等元素 hist(a,breaks=c(1,3,5,7),freq=F) legend(7,0.3,c(‘1-3',‘3-5',‘5-7'),col=c('red','blue','green'),lty=1:3),参考,,关于正态性检验的函数较多,比如chisq.test, shapiro.test, norm,line,ks.test; 还可以通过图形,特征指标等方式加以佐证 norm(a); ks.test(a,’pnorm’,4,1); shapiro.test(a) 关于置信区间的实现,通常可以通过相关的检验函数完成本例中没有给出分布的类型,故适合采用 [1]未知总体方差的t分布及其检验(经过正态性检验) ~N(4,1) ? t.test(a, mu=4,conf.level=0.95,alternative=‘two.sided’) [2]非正态型的区间估计 构造足够多的bootstrap样本,然后根据非参数方式取得置信区间估计如果此时能够再现整个过程及结果,该如何处理? 在每一个bootstrap样本生成中考虑使用set.seed(),参考,,关于经验分布函数 Fn=ecdf(a), 实际上可以将Fn看成一个函数。
可以绘制一下经验分布函数图,plot(Fn,verticals=TRUE) 2. 分析sample的性能和效率,这是个开放的问题,合理即可可以从随机性,频率与概率的关系等方面入手 比如比较sample与rbinom(n,1,p) 0-1分布 3. 对于一维数据的回归建模,应从直观分析入手,如先画图,从图形中看待数据的空间分布,然后再确定合适的模型[1] 似乎可用线性模型 [2] 也可用非线性模型,如多项式,lnx等 [3] 还可用非参数模型 [4] 单调回归 [5]可比较最小一乘和最小二乘准则,参考 [考虑交互作用],,参考,,install.packages(‘DoE.base’); library(DoE.base) LT=oa.design(nfactors=6,nlevels=2,factor.names=c()),randomize=F) responses=c(3150,3030,3100,2830,3160,2950,2910,2520,2670) # 变量名必须取名为 responses L9=add.response(LT,responses) #加上一个响应变量, 完整的正交+试验表 aov.L9=aov(responses~, data=L9); summary(aov.L9) #发现时间因素的均方和小于空列(误差均方和),故将时间因素与空列合并成误差 aov.L9=aov(responses~, data=L9); summary(aov.L9),。





