电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

stata中变量的生成与处理..

29页
  • 卖家[上传人]:101****457
  • 文档编号:89391644
  • 上传时间:2019-05-24
  • 文档格式:PPT
  • 文档大小:246.50KB
  • / 29 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、第四章 变量的生成与处理,导论,Stata 对数据的处理是以变量为前提的 若没有需要分析的变量,则Stata将一无用处 熟悉变量的内容和分布、生成新变量、改变旧变量等是处理数据的第一步,4.1. 新变量的生成、规则及注意事项,Stata的变量类型,Stata软件生成三类变量:numeric(数值型)变量,string(字符型)变量(相当于定性变量)和date(日期)变量。虽然日期变量以数值型变量的技术记录、存储,但二者的用途却不同 数值型变量包括定距和定比变量。可以是整数、小数、负数和正数。数值型变量可以有多种存储方式( Storage Types) 用str类型保存的定性等分类变量也可区分为多种形式,从str1-str244,Stata的日期变量,日期(date)变量是数值型变量的一个特例。它们通常以字符的形式输入(如: 01JAN1992 or 01/01/92),但必须以数值型数据存储才能有用 Stata有几个命令可以工作于日期和时间依赖(time-dependent)数据 Stata将所有的日期保存为从1960年1月1日以来的天数或月份、季节等。此前的日期是负值,此后的是正值。

      2、SAS使用同样的日期方式,但其起始时间是1582年的10月14日。Excel使用1900年1月1日为默认起始日。如果读入Excel数据,则以字符型变量输入日期,并重新格式日期,生成变量的路径,Data Create or change variables,生成变量的窗口,Data Create or change variables Create new variable,基本命令,Stata有四个基本的生成和修改变量的命令:gen、egen、replace和recode . gen和egen分别是generate和extended generate的缩写,它们用于生成新变量 . replace和recode用来改变现存变量的属性或数值 . replace需要与gen一起使用;二者的区别在于,gen用于生成新变量,replace用于重新定义已经存在的变量 . recode也可以与gen一起使用,基本语法,. gen 变量名 = 表达式1 . replace 变量名 = 表达式2 if 条件 :生成新变量或替代现存变量取值的基本命令 :新变量或其取值将被替换的变量的名称 :在gen命令的

      3、取值不同于在replace命令的取值 :替换原有变量的取值必须满足if指定的条件,*yr of schooling recoded(这是一个注释;*代表注释) gen edu=0 replace edu=1 if yrsch=11 replace edu=2 if yrsch=12 replace edu=3 if yrsch=13 replace edu=4 if yrsch=14 replace edu=5 if yrsch=15 replace edu=6 if yrsch=16 replace edu=7 if yrsch=21 replace edu=8 if yrsch=22 replace edu=9 if yrsch=23,replace edu=10 if yrsch=24 | yrsch=27 replace edu=11 if yrsch=25 | yrsch=28 replace edu=12 if yrsch=26 | yrsch=29 replace edu=13 if yrsch=31 replace edu=14 if yrsch=32 replace

      4、edu=15 if yrsch=33 replace edu=16 if yrsch=34 replace edu=17 if yrsch=35 replace edu=18 if yrsch=36 replace edu=. if yrsch=. | yrsch=-9 tab1 yrsch edu *查看变量的生成是否成功,变量生成的规则(I),生成新变量、重新定义旧变量时需遵循的一些基本规则: 变量的名称可长达32个字符,必须以字母、汉字或字符(,_,#,$等)开头(不能使用空白字符或!、?等特殊字符)。变量最后一个字符不能是句号 变量的名称必须唯一,不能有两个相同的变量名 Stata区分大小写,对大写、小写敏感:Variable 不能写成 variable,反之亦然 使用描述性的变量名字:“变量a”这个名称没有任何意义。调查问题是变量名称的很好选择,变量生成的注意事项,尽量避免使用同一变量名称。换言之,不要使用新变量取代旧变量。保持原始变量有助于检验我们的命令是否正确 充分了解原始变量的分布以及每个数值代表的含义 遵循不重不漏(exhaustive and mutually ex

      5、clusive)原则(详见“生成分组变量”一节) 在变量生成后,将原始变量和新变量的取值进行对比,检查是否有误 注意原始变量的缺失值,4.2利用系统变量或下划线变量(_n和_N)生成新变量 Stata有几个下划线变量(_variables,读为“underscore variables”),因包含下划线而得名。这类变量并不出现在Stata的Variables(变量)窗口中,故又称系统变量。其中,经常使用的有_n 和_N。系统变量_n 和_N对于数据的管理和处理十分有用,尤其是与特殊选项by同时使用时,系统变量 _n,_n 是指当前的观察值,即独一无二的观测序号,从1到_N(_N=总样本) _n是Stata系统内部独特的辨识器,标志从第一个观察值开始直到最后一个观察值(_N)的序列 _n=1为第一个观测,_n=2为第二个观测,_n=_N是最后一个观测 该系统变量适于(1)指示观察值;(2)生成系列数值;(3)生成其他变量,使用系统变量_n指示观察值,系统变量_n表示每个观察值的位置(numbering observations)。其原则是: 当前观察值: _n 总观察值(最后一个观察值_

      6、n): _N 第一个观察值: 1 最后一个观察值: _N 滞后一个(lag)观察值: _n-1 前移一个(lead)观察值: _n+1 第27个观察值: 27,假如现有以下数据: +-+ | province personid homesize age girl siblings | (省份) (个人ID)(家庭规模)(年龄)(女孩)(姊妹数量) |-| 1. | 21 2106018504 50 5 girl 1 | 2. | 35 3505154103 100 18 boy 0 | 3. | 32 3205093703 246 8 boy 0 | 4. | 37 3708156203 60 9 boy 0 | 5. | 45 4452082404 20 6 girl 3 | 6. | 35 3501117305 25 13 girl 2 | 7. | 45 4526057606 90 10 girl 3 | 8. | 32 3209163903 25 2 boy 0 | 9. | 37 3702093304 68 7 boy 1 | 10. | 37 3704057503 80 2

      7、0 boy 3 | +-+ 现在想看看每个孩子在省内的排序,使用系统变量_n生成新变量,步骤1:对province(即“关键变量”)进行排序 . sort province 步骤2:生成感兴趣的变量 . by province: gen order =_n :按province的分类进行排序和计算 :生成新变量的基本命令 :新变量的名称 :新变量的取值等于同一province内观察值的序次 步骤3:使用频数分布查看生成的结果是否正确 . tab order,使用系统变量_N生成新变量,系统变量_N代表样本总数。最后一个样本_n即是_N 使用前面的数据,看看每个省共有几个孩子在样本中 步骤1:对province进行排序 步骤2:生成感兴趣的变量。其命令是: . by province: gen ceb=_N 步骤3:查看结果正确与否 . tab ceb,生成滞后(lag)变量或移前变量(lead),在分析某些类型数据(包括常用的家庭成员数据和纵向数据)的过程中,常常需要根据研究问题将一个样本的取值转移到上一个(或下一个)观察值中。 . gen a = b_n-1 . gen a = b_

      8、n+1 :需要生成的新变量的名称 :现有变量的名称 :将现有变量的取值下移一行(_n-1)或前移一行(_n+1)的基本命令,. gen a = age_n-1 (1 missing value generated) . gen b = age_n+1 (1 missing value generated) . list +-+ | province personid homesize age girl siblings order a b | |-| 1. | 21 2106018504 50 5 girl 1 1 . 2 | 2. | 32 3209163903 25 2 boy 0 1 5 8 | 3. | 32 3205093703 246 8 boy 0 2 2 18 | 4. | 35 3505154103 100 18 boy 0 1 8 13 | 5. | 35 3501117305 25 13 girl 2 2 18 9 | 10. | 45 4526057606 90 10 girl 3 2 6 . | +-+,4.3生成数值型变量,使用recode, , gen命令生成新变量,. recode 原变量 (原变量取值 = 新变量取值) *= 其他取值, gen 新变量 :给变量重新赋值的命令 :现有变量的名称 :现有变量的取值 :新变量的取值;和是一个整体

      《stata中变量的生成与处理..》由会员101****457分享,可在线阅读,更多相关《stata中变量的生成与处理..》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结 2022年家长会心得体会集合15篇
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.