好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

SAS统计分析介绍ppt课件.ppt

36页
  • 卖家[上传人]:cl****1
  • 文档编号:567624873
  • 上传时间:2024-07-21
  • 文档格式:PPT
  • 文档大小:428.50KB
  • / 36 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • SAS统计分析过程 1.统计方法的选择2.SAS过程步常用语句3.常用SAS过程t检验 MEANS过程 UNIVARIATE过程 卡方检验 FREQ过程方差分析 ANOVA过程 秩和检验 FREQ过程 NPAR1WAY过程4.小结及帮SAS协助窗口的运用编写程序、分析数据的一些好习惯查错:怎样知道本人分析的结果有没有问题?〔统计知识技艺要素、编写SAS程序技术要素、数据本身的要素〕协助窗口的运用:熟习根本框架,查询关键词 ——“找路〞阅读和了解例子 ——“学习〞模拟实验 ——“演练和运用〞 目 录 1.统计方法的选择——“巧妇难为有米之炊〞 1.1 统计方法的选择——需〔依次〕回答以下问题1.手头资料类型 〔已有调查/研讨的数据〕2.研讨目的〔本研讨拟回答的问题类型〕3.变量类型、对比组数、样本含量……4.选择适宜的统计方法〔能否需求统计学检验?〕5.选择适宜的SAS过程步 横断面研讨?队列研讨?病例对照研讨?干涉研讨?生态学研讨?某目的的分布?某程度〔目的〕的影响要素?某几个要素之间的相关或因果关系?定性资料?有序分类资料?定量资料?T检验,卡方检验,方差分析,秩和检验,多要素分析……FREQ, MEANS,ANOVA…… 1.2 统计方法的选择——by 因变量和自变量类型因变量因变量〔吸烟率,超重〔吸烟率,超重率,血压程率,血压程度度…………〕〕自变量自变量( (性别、年龄、地域、受教育程度性别、年龄、地域、受教育程度……)……)数值变量数值变量分类变量分类变量有序变量有序变量数值变量数值变量相关分析相关分析多要素回归分析多要素回归分析t t检验检验方差分析方差分析协方差分析协方差分析多要素回归分析多要素回归分析相关分析相关分析多要素回归分析多要素回归分析分类变量分类变量t t检验检验方差分析方差分析logisticlogistic回归分析回归分析判别分析判别分析聚类分析聚类分析c2c2检验检验logisticlogistic回归分析回归分析c2c2检验检验有序变量有序变量方差分析方差分析logisticlogistic回归分析回归分析判别分析判别分析聚类分析聚类分析c2c2检验检验logisticlogistic回归分析回归分析相关分析相关分析c2c2检验检验生存时间生存时间  生存分析生存分析   资资资资料料料料类类类类型型型型数据数据数据数据特征特征特征特征单组设计单组设计单组设计单组设计完全随机设计完全随机设计完全随机设计完全随机设计配对或配伍设计配对或配伍设计配对或配伍设计配对或配伍设计两组两组两组两组多组多组多组多组两组两组两组两组多组多组多组多组定定定定量量量量资资资资料料料料正态、正态、正态、正态、方差齐方差齐方差齐方差齐样本与总样本与总样本与总样本与总体均数比体均数比体均数比体均数比较的较的较的较的t t检验检验检验检验两样本两样本两样本两样本t t检验检验检验检验单要素方差分析单要素方差分析单要素方差分析单要素方差分析配对配对配对配对t t检验检验检验检验随机区组设随机区组设随机区组设随机区组设计方差分析计方差分析计方差分析计方差分析非正态非正态非正态非正态和和和和/ /或方或方或方或方差不齐差不齐差不齐差不齐WilcoxonWilcoxon符号秩和符号秩和符号秩和符号秩和检验检验检验检验 t’ t’检验、检验、检验、检验、WilcoxonWilcoxon秩和秩和秩和秩和检验检验检验检验Kruskal-Wallis HKruskal-Wallis H秩和检验秩和检验秩和检验秩和检验WilcoxonWilcoxon符号符号符号符号秩和检验秩和检验秩和检验秩和检验FriedmanFriedman秩秩秩秩和检验和检验和检验和检验定定定定性性性性资资资资料料料料无序无序无序无序二项分布二项分布二项分布二项分布直接计算直接计算直接计算直接计算概率法、概率法、概率法、概率法、正态近似正态近似正态近似正态近似法法法法(Z(Z检验检验检验检验) )c2c2检验、检验、FisherFisher确切概确切概率法率法R*CR*C表表表表c2c2检验检验检验检验FisherFisher确切概率法确切概率法确切概率法确切概率法配对四格表配对四格表配对四格表配对四格表c2c2检验检验检验检验配对配对配对配对R*RR*R列列列列联表联表联表联表c2c2检验检验检验检验有序有序有序有序________WilcoxonWilcoxon秩和秩和秩和秩和检验检验检验检验Kruskal-Wallis HKruskal-Wallis H秩和检验秩和检验秩和检验秩和检验WilcoxonWilcoxon符号符号符号符号秩和检验秩和检验秩和检验秩和检验1.3 统计方法的选择——单变量资料 by 研讨设计类型 数据特征数据特征数据特征数据特征分析方法分析方法分析方法分析方法相相相相关关关关分分分分析析析析 定量资料定量资料定量资料定量资料x x、、、、y y服从双变量正态分布服从双变量正态分布服从双变量正态分布服从双变量正态分布直线相关分析直线相关分析直线相关分析直线相关分析x x、、、、y y不服从双变量正态分布不服从双变量正态分布不服从双变量正态分布不服从双变量正态分布SpearmanSpearman秩相关秩相关秩相关秩相关 定性资料定性资料定性资料定性资料〔〔〔〔 R*C R*C表表表表〕〕〕〕双向无序双向无序双向无序双向无序c2c2检验检验双向有序、属性不同双向有序、属性不同双向有序、属性不同双向有序、属性不同SpearmanSpearman秩相关、线性趋势检验秩相关、线性趋势检验秩相关、线性趋势检验秩相关、线性趋势检验双向有序、属性一样双向有序、属性一样双向有序、属性一样双向有序、属性一样一致性检验一致性检验一致性检验一致性检验(kappa(kappa系数的假设检验系数的假设检验系数的假设检验系数的假设检验) )回回回回归归归归分分分分析析析析应变量为延续型定量变量,服从正态分应变量为延续型定量变量,服从正态分应变量为延续型定量变量,服从正态分应变量为延续型定量变量,服从正态分布布布布一个应变量,一个自变量:直线回归分析一个应变量,一个自变量:直线回归分析一个应变量,一个自变量:直线回归分析一个应变量,一个自变量:直线回归分析一个应变量,多个自变量:多重线性回归一个应变量,多个自变量:多重线性回归一个应变量,多个自变量:多重线性回归一个应变量,多个自变量:多重线性回归分析分析分析分析应变量为定性变量应变量为定性变量应变量为定性变量应变量为定性变量LogisticLogistic回归分析回归分析回归分析回归分析应变量为含有截尾数据的生存时间应变量为含有截尾数据的生存时间应变量为含有截尾数据的生存时间应变量为含有截尾数据的生存时间CoxCox比例风险回归分析比例风险回归分析比例风险回归分析比例风险回归分析1.4 统计方法的选择——双/多变量资料的关联性分析方法〔相关、回归〕 利用慢病监测数据所发表文章中出现过的统计方法 单纯描画,不做统计学检验!单纯描画,不做统计学检验!采用某一种或几种统计方法采用某一种或几种统计方法卡方检验卡方检验t t检验检验LogisticLogistic回归分析回归分析秩和检验秩和检验方差分析方差分析利用慢病监测数据所发表文章中出现过的统计方法 2.SAS过程步常用的语句 VAR ——VAR ——指定分析变量指定分析变量BY, CLASS——BY, CLASS——指定分层变量指定分层变量WHERE——WHERE——限定分析范围等限定分析范围等OUTPUT——OUTPUT——输出输出 LABEL,—— LABEL,——设置变量标签设置变量标签FORMAT——FORMAT——输出格式等输出格式等2.SAS过程步常用的语句 VAR语句在很多过程中用来指定分析变量。

      在VAR后面给出变量列表:VAR 变量名1 变量名2 … 变量名n; 变量名列表可以运用省略的方式,如X1-X3,math-chinese等 假设数据集中有几个变量依次为math,english,chinese,那么var math-chinese 与var math english chinese 等价⑴VAR语句 BY语句和CLASS语句BY语句在过程中普通用来指定一个或几个分组变量,根据这些分组变量值把观测分组,然后对每一组观测分别进展本过程指定的分析在运用带有BY语句的过程步之前普通先用SORT过程对数据集排序如:(本例中数据曾经按sex排序了)〔2〕BY句和CLASS语句 Data score;input name $ sex $ math english chinese;cards;李明 男 92 83 76王思明 男 86 72 64张聪 男 74 79 92刘颍 女 95 82 95张红艺 女 85 98 83;run;proc print data=score; by sex;run; 在一些过程〔如方差分析〕中,运用CLASS语句指定一个或几个分类变量。

      而在另一些过程〔如MEANS〕中,CLASS语句作用与BY语句类似,可以指定分类变量,把观测按分类变量分类后分别进展分析运用CLASS时不需求先按分类变量排序 用WHERE语句可以选择输入数据集的一个行子集来进展分析,在WHERE关键字后指定一个条件比如:where math>=60 and chinese>=60; 表示指定只分析数学、语文成果都及格的学生〔3〕 WHERE语句 在过程步中经常要将指定输出结果存放到数据集不同过程中把输出结果存入数据集的方法各有不同,其中OUTPUT语句是用得最多的一种,其普通格式为:OUTPUT OUT=输出数据集名 关键字=变量名 关键字=变量名 …;其中用“OUT=〞给出了要生成的结果数据集的名字,而用“关键字=变量名〞的方式指定了输出哪些结果〔关键字的例子比如MEANS过程中的MEAN,VAR,STD等等〕,等号后面的变量名指定了这些结果在输出数据集中叫什么名字〔4〕 OUTPUT语句下一页 例如,proc means data=score; var math; output out=result n=n mean=meanmath ;run;proc print data=result; run; LABEL语句为变量指定一个标签,很多过程可以运用这样的标签。

      其格式为 :LABEL 变量名='标签' 变量名='标签' …;例如 :proc print data=score label; id name; var math english chinese; label name=‘姓名’ math=‘数学’ english=‘英语' chinese=‘语文’;run;〔5〕 LABEL语句和FORMAT语句 FORMATFORMAT语句可以为变量输出规定一个输出格式,比如语句可以为变量输出规定一个输出格式,比如proc print data=score; proc print data=score; format math 5.1 chinese 5.1;format math 5.1 chinese 5.1;run;run; 使得列出的数学、语文成果宽度占使得列出的数学、语文成果宽度占5 5位,带一位小数位,带一位小数 现实上,在生成数据集的现实上,在生成数据集的DATADATA步中也可以用步中也可以用FORMATFORMAT语句规语句规定变量的输出格式,用定变量的输出格式,用LABEL LABEL 语句规定变量的标签,用语句规定变量的标签,用LENGTHLENGTH语句规定变量的存贮长度,用语句规定变量的存贮长度,用ATTRIBATTRIB语句同时规定变量的各属语句同时规定变量的各属性。

      在数据步中规定的变量属性是附属于数据集本身的,是永性在数据步中规定的变量属性是附属于数据集本身的,是永久的;在过程步中规定的变量属性〔标签、输出格式等〕只用久的;在过程步中规定的变量属性〔标签、输出格式等〕只用于此过程的本次运转于此过程的本次运转 3.常用SAS过程步引见MEANSMEANS过程过程 TTESTTTEST过程过程UNIVARIATEUNIVARIATE过程过程FREQFREQ过程过程ANOVAANOVA过程过程 NPAR1WAYNPAR1WAY过程过程 4.PROC MEANS 〔延续性变量的“均数〞〕proc means data=ncd.stat n mean max min range std fw=6;output out=ncd.out1; var h w cir; class urd; by gender;run;统计量变量标签N均值最大值最小值极差规范差h身高3645160.4193104898.509w体重364562.771453311211.57cir腰围364482.411333010310.35 4.PROC TTEST 〔t检验〕——单样本检验proc ttest data=ncd.stat h0=170 sides=2; var h; where gender=1; by urd;run;单侧还是双侧?H0假设TTEST 过程变量: h (身高)N均值规范差规范误差最小值最大值1573166.57.25620.183104193均值95% CL 均值规范差95% CL 规范差166.5166.1166.87.25627.01127.519自在度t 值Pr > |t|1572-19.28<.0001 4.PROC TTEST 〔t检验〕——两样本检验proc ttest data=ncd.stat ; var h; class urd;where gender=1;run;urdN均值规范差 规范误差最小值 最大值1733168.46.3642 0.2351 148.0189.02840164.87.5661 0.2611 104.0193.0差 (1-2)3.6064 7.0317 0.3554方法方差自在度t 值Pr > |t|汇总等于157110.15<.0001Satterthwaite不等于1568.910.27<.0001 proc univariate data=ncd.stat ; var h;run;主要主要产产出出结结果:果:均数、中位数、众数、均数、中位数、众数、最小最小值值、最大、最大值值、极差、四分位数、极差、四分位数间间距距〔 〔四分位数极差四分位数极差〕 〕规规范差、方差范差、方差偏度系数偏度系数〔 〔skewness〕 〕0——正正态态分布;分布;<0——左偏左偏态态〔 〔负负偏偏态态,峰靠左,峰靠左〕 〕>0——右偏右偏态态〔 〔正偏正偏态态,峰靠右,峰靠右〕〕 〕〕峰度系数峰度系数(kurtosis)〔 〔>0 峰尖峭峰尖峭 <0 峰平峰平阔阔 〕 〕5.PROC UNIVARIATE 〔延续性变量的单变量分析〕 5.PROC UNIVARIATE 〔延续性变量的单变量分析〕UNIVARIATE PROCEDURE变量: h (身高)矩N3645权重总和3645均值160.4153观测总和584713.9规范差8.50893方差72.40189偏度-0.01955峰度0.56804未校平方和94060909 校正平方和263832.5变异系数5.304312 规范误差均值0.140937根本统计测度位置变异性均值160.4153规范差8.50893中位数160方差72.40189众数160极差89 四分位极差11.6位置检验: Mu0=0检验统计量p 值Student tt1.203Pr > |t|<.0001符号检验M1822.5Pr >= |M|<.0001符号秩检验S3322418Pr >= |S|<.0001分位数〔定义 5〕分位数估计值100% 最大值19399%179.595%17590%17275% Q3166.150% 中位数16025% Q1154.510%1505%147.51%1420% 最小值104极值观测最小值最大值值观测值观测1041410183.4152115.8112218580116.13105185.5829126.532841894131.52046193750 proc univariate data=ncd.stat normal ; var h;run;5.PROC UNIVARIATE 〔正态性检验〕正态性检验检验统计量p 值Kolmogorov-Smirnov D0.030851Pr > D<0.0100Cramer-von MisesW-Sq0.558394Pr > W-Sq<0.0050Anderson-DarlingA-Sq3.539205Pr > A-Sq<0.0050 proc univariate data=ncd.stat noprint; histogram h; class urd ;run;proc univariate data=ncd.stat noprint; histogram h; class urd gender;run;5.PROC UNIVARIATE 〔画直方图〕 3.PROC FREQ 〔卡方检验〕proc freq data=ncd.stat;tables region*obe2/expected nocol nopercent chisq;run;FREQ 过程频数表 - region * obe2期望regionobe2行百分比01合计122575300252.7947.2137525225643299251.9447.05685.6214.38329026316266.2749.73191.778.23合计771144915频数缺失 = 1表“obe2-region〞的统计量统计量自在度值概率卡方233.2623<.0001似然比卡方检验233.2399<.0001Mantel-Haenszel 卡方132.4702<.0001Phi 系数0.1907列联络数0.1873Cramer V0.1907有效样本大小 = 915频数缺失 = 1 3.PROC ANOVA 〔方差分析〕proc anova data =ncd.stat; class urd; model h=urd;run;ANOVA 过程因变量: h源自在度平方和均方F 值Pr > F模型1624.5311624.53119.30.0024误差91465.8767.12896校正合计91561980.4R 方变异系数根 MSEh 均值0.0100765.1188918.193227 160.0586源自在度Anova SS均方F 值Pr > Furd1624.531624.5319.30.0024 3.PROC NPAR1WAY 〔秩和检验〕proc anova data =ncd.stat; class urd; model h=urd;run;NPAR1WAY 过程Kolmogorov-Smirnov 检验- 变量 w按以下变量分类:urdurdN最大值最大值处处的 EDF均值的偏向14500.631111-0.5303824660.6802580.521197合计9160.656114第 541 个观测发生最大偏向“w〞的最大值 = 66.20Kolmogorov-Smirnov 双样本检验〔渐近〕KS0.024569D0.049146KSa0.743607Pr > KSa0.6379Cramer-von Mises 检验- 变量 w按以下变量分类:urdurdN均值的偏向总和1450 0.0785312466 0.075835Cramer-von Mises 统计量〔渐近〕CM0.000169CMa0.154366Kuiper 检验- 变量 w按以下变量分类:urdurdN均值的偏向1450 0.0278972466 0.049146Kuiper 双样本检验〔渐近〕K0.077043Ka1.1657 Pr > Ka0.5865 4.小结•编写程序、分析数据的一些好习惯•会不会查错——怎样知道本人分析的结果有没有问题?•协助窗口的运用 •“死记硬背〞一些根本数字•统计学的最根本数字、正反方向:1.96、2.58,其他例子?•关于数据库的根本“数字〞:样本量、变量数•给文件、变量起名字的本卷须知•独一•系统〔一致前缀、对各种东西层次的梳理在先〕•特征性•必要时标注日期4.1 编写程序、分析数据的一些好习惯 4.2 如何查错——怎样知道本人分析的结果有没有问题? 三个步骤:熟习协助窗口的根本框架,查询关键词 ——“找路〞阅读和了解例子 ——“学习〞模拟实验 ——“演练和运用〞4.3 SAS协助窗口的运用 THANKS!THANKS! 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.