
属性数据建模分析优秀毕业设计(论文).docx
32页中文摘要 22英文摘要 31 01 言 一 3 一1. 1研究背景和意义 -3 -1.2数据来源和预处理 -4 -1. 3属性数据的相关概念 -5 -1. 3. 1属性数据的定义 -5 -1.3.2名义变量和有序变量的区别 -6 -1.4 SPSS 和 SAS 介绍 —6 -2 基本理论 -7 -2.1相关系数的定义 -7 -2.2相关系数的显著性检验 -8 -2. 3 Kendall的t相关系数的定义 -8-2.4聚类分析的定义 -9 -2.5聚类分析的统计量 -10 -2.5. 1距离系数 -10 -2.5.2聚类分析的方法 -13 -2.6用VARCLUS过程进行变量聚类 -14 -2.6. 1 VARCLUS 过程的原理 -14 -2. 6. 2 VARCLUS 过程的步骤 -14 -3 结果和分析 - 15 -3. 1相关性分析在SPSS中的实现 -15 -3.1.1相关性分析的结果分析 -15 -3.2聚类结果解释分析 -17 -3.2.1聚类分析的结论 -27 -4 总结 -27 -5 谢辞 -29 -6 参考文献 -30 -属性数据建模分析爲项调查数据的统计中文摘要扌商 要:木文的H的是通过对问卷调杳中的数据进行和关性分析和聚类分析, 以便探索出彩响女性健康的因素。
首先,本文把问卷中的20个问题作为 变量,并用SPSS软件计算它们的Kendall的丫相关系数其次,运用 SAS软件实现对这20个问题的聚类分析最终得出一些结论,如精神比 较衰弱的女性心慌气短和胸闷的可能性较大,泌尿系统受感染的患者一 般会有尿黄、尿频的症状等等因此相关性分析和聚类分析对医生诊断 以及开药都具有很大的指导性,故本文建议医生在诊断时要善于参考相 关性分析和聚类分析的结果关键词:属性数据;女性健康;相关性分析;聚类分析Attribute data modeling and analysis-statistical analysis of a survey data英文摘要Abstract: The task of this paper is to explore the factors that affect womens health, so it needs to the correlation analysis and cluster analysis of questionnaire data. First of all, 20 questions in the questionnaire as 20 variables, and it uses SPSS software calculate the Kendall t correlation coefficient. Secondly, it uses SAS software to achieve a cluster analysis of these 20 questions- Finally, it draws some conclusions^ such as,mentally weak women are more likely to feel chest tightness and shortness of breath, Urinary system of infected female patients usually have dark urine and frequent urination, and so on. Therefore, the correlation analysis and cluster analysis have a lot guidance for doctors to diagnose and prescribe medication, so this article suggests that doctors should refer to the results of correlation analysis and cluster analysis.Kewords: attribute data; womens health; correlation analysis; cluster analysis1.1研究背景和意义专门针对属性数据的分析方法起源于20世纪初的英国,20世纪早期,属性 数据领域的研究主要集中于变量间的关联性。
其后,Yule提出了属性变量关联性 的优势比度量同为统计学家和遗传学家的Fisher于1922年引入了刻画卡方分 布族特征的自由度,并于1934年引入了 Fisher精确检验针对属性数据的模型 最早出现在20世纪30年代,probit模型在处理莓理学中二分响应的应用中流行 起来1938年R.A.Fisher和Frank Yates提出了 log[兀(1・兀)]变换同是医师及统计 学家的Joseph Berkson于1944年为该变换引入了术语“logit”1951年,Jerome Cornfield通过该模型,在案例对照研究中使用优势比去近似相对风险,logistic 模型逐步流行起來20世纪50年代和60年代早期,出现了大量有关多向列联 表关联性和交互结构的工作,这激起了 1965至1975年间人们对对数线性模型的 研究近来,属性数据领域的研究焦点在于对聚簇关联响应数据拟合logistic冋 归模型这些研究一方面对聚簇关联数据的边缘进行建模,另一方面利用广义线 性混合模型进行建模近年来,随着计算机技术的迅猛发展,针对展性数据的特 殊统计方法的应用日益广泛,尤其是在生物医学和社会科学领域。
这个现彖一定 程度上反映了过去几十年里属性数据分析方法的发展,同时也反映了科学家和应 用统计学家方法论的R益精湛随着社会分工的日益复杂,人们的工作压力日益增大,由压力而引发的健康 问题也逐渐受人关注往往,疾病的产生是有迹象的,这种迹象就蕴藏在生活的 细节之中为此,我们对感到身体不适的女性患者做了详细的问卷调杳,H的是 通过一系列问题來探索出影响女性健康的因素我们的问卷遍布女性生活的各个 方而,比如有常见的问题1, “您会疲乏困倦吗? ”也有心理因素方而的问题17, “您会无缘无故叹气吗? ”对于这些问题的回答,我们设立5个单选项,分别 是从不、偶尔、有时,经常和总是对于这些选项,我们赋予了有序变量类型的 值,从1到5此外,我们也对被调查者的文化水平做了详细的记录,同时也赋 予有序变量类型,从1到5依次变高1代表“小学、初中、无”,2代表“高中、 中专、职高、中技、职工”,3代表“专科、大专、大学、大本、本科”,4代表 “研究生、硕士、硕研”,5代表“博士”因此,这篇文章主要分析问卷中问题 的相关性以及对问题的聚类分析1.2数据来源和预处理本文的实测数据来源于XXX,该数据为女性健康信息。
在统计学的研究中, 数据可以说是至关重要的对于庞人的数据,如何利用适合该数据的数据处理软 件是统计分析一开始必须做的工作适合数据类型的数据库可以大大简化统计分 析的过程,同时可以很方便地得到正确的结论因此,我们准备选用MS Excel 软件对数据进行初步处理Microsoft Excel是微软公司的办公软件Microsoft office的组件之一,是曲Microsoft为Windows和Apple Macintosh操作系统的电 脑而编写和运行的一款试算表软件Excel是微软办公套装软件的一个重要的组 成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于 管理、统计财经、金融等众多领域由于我们的数据的來源是调查问卷,因此我 们利用Excel强大的赋值和筛选功能可以大大简化我们的程序,使文字化的数据 变为属性数据为了简单起见,对有缺失值的数据通过Excel筛选功能直接删除, 最后将剩下的问卷中20个问题的的数据采集输入到Excel软件中具体数据情 况如表1.1所示表1. 1 Excel数据整理情况人员编 号文化程 度文化程 度赋值问题1问题19问题201硕士42112大心33223初中12114大专33225中专24226高中22117大专32228高中22119大专3223■■■■■■■■•••••••••••••1024硕士42• • •411025人学32• • •311026人733• • •231027大学32• • •31表1. 1显示了 Excel中数据井然有序的状态。
选择好整理数据的软件以后, 我们还要选择软件对数据进行统计学的分析,比如相关性分析和聚类分析同时, 为了便于分析类别,我们把这20个问题制成表2.1以供查阅表2.1问卷调查中的问题列表1您会疲乏困倦吗?2您会心慌气短(呼吸急促,接不上气)吗?3您患感冒的频率如何?4您喜欢安静、懒得说话(喜欢懒言)吗?5您稍一活动就出虚汗吗?6您感到全身或手脚怕冷吗?7您受冷、进冷食时拉肚子吗?8您口天尿多、色清吗?9您夜间小便2次以上吗?10您感到手脚心发热或手脚心出汗吗?11您感到口唇发干或口干喝水多吗?12您面部潮红或偏红吗?13您人便秘结或干燥吗?14您小便时尿道有发热感、或尿色深浓吗?15您感到情绪低沉或情感脆弱吗?16您会精神紧张、焦虑不安吗?17您会无缘无故叹气吗?18您月经前感到乳房胀痛吗?19您面部油腻或鼻部油腻吗?20您舌苔厚腻吗?1.3属性数据的相关概念1.3. 1属性数据的定义首先我们定义属性数据,属性变量是具有由类的集合纽•成的度量表例如, 政治哲学可分为“自由主义者”,“温和主义者”或“保守者”;住房类型的选择 可分为“独立住宅”,“套房”或“公寓”;对文化水平可分为“小学,“中学”,“人学”和“研究生”。
属性量表在调查态度和意见的社会学科中十分普遍,同 时,属性量表也经常出现在保健学、行为学、教育学、公共健康和动物学等领域 当被研究问题的结果能够按是否符合特定的标准而划分为不同的类别时,加性变 量就产生了1.3. 2名义变量和有序变量的区别属性数据⑶的度量量表主要有两种类型许多属性量表具有自然的顺序,例 如,治疗效果(很好,好,一般,差)、公司存货水平的评估(太低,合理,太 高)、感到焦虑症状的频率(从不,偶尔,经常,总是)等具有有序量表的属 性变量就称为有序变量非有序量表的属性变量则称作名义变量,例如,宗教信 仰(天主教徒,犹太教徒,新教教徒,其他)、喜爱的音怎类型(古典,乡村, 摇滚,爵士,民族)等对于名义变量,各类别的排序并不重要统计分析并不依赖于各个类的排列 顺序针对名义变量的分析方法所得的结果并不因为各类别排列顺序的改变而 异,针对有序变量的分析方法耍依赖各个类排序的顺序大多数情况下,各类别 由低水平到高水平排列还是由高水平到低水平排列并不会对结果造成影响,但若 按其它方式重新排列各个类别,结果便会改变适用于有序变量的分析方法并不适用于名义变量,因为名义变量并不具有。












