电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > DOCX文档下载
分享到微信 分享到微博 分享到QQ空间

产前大数据实训手册

  • 资源ID:157485206       资源大小:1.04MB        全文页数:18页
  • 资源格式: DOCX        下载积分:9.6金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要9.6金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

产前大数据实训手册

产前大数据实训手册目 录一、项目简述二、数据预处理及可视化2.1原始数据概况42.2数据清洗42.3数据可视化52.3.1属性分布直方图2.3.2分类属性散点图2.3.3分类属性占比直方图2.3.4样本降维可视化三、算法建模3.1逻辑回归预测模型133.2支持向量机预测模型143.3 BP网络预测模型143.4 Easyensemble预测模型153.5 XGBoost预测模型153.6 随机森林预测模型163.7 模型对比16四、 项目小结4.1 算法总结174.2 代码说明17产前大数据实训手册一、项目简述通过调取中信湘雅生殖中心接受胚胎移植的不孕患者的相关数据(例如:B超影像数据),本项目旨在根据B超检查获得的测量数据,通过机器学习方法,建立预测模型,预测受精卵移植后510周胚胎的发育情况(正常/异常),为B超影像科室的诊断提供决策支持。二、数据预处理及可视化2.1原始数据概况脱敏后的产前数据包含66706条病例样本(含正、异常病例),每个病人有64个登记指标(去掉姓名、编号等4项),具体如表2-1:表2-1 原始数据的特征列表年龄不育年限bmi移植日期周期不孕类型不孕原因女方因输卵排卵障碍子宫内膜异位女性免疫性男方少弱精畸精子症受精率30下严重的少、梗阻性无精无精症生精功能障碍精子顶体异常原因不明染色体病单基因相关遗传病促排方案末次月经取卵日期窦卵泡数右卵泡左卵泡fshlhe2prlPramhhcgem线助孕方式移植胚胎数移胚胎评级孕个数减胎否后妊娠数妊娠情况出生日期出生婴儿数分娩方式妊娠结果分娩周数新身儿体重新身儿体重2新身儿体重3出生情况次数宫腔积液距浆肌层近畸形子宫类型切口假腔ET天孕囊胚芽卵黄囊胎心原始数据中存在大量的缺失值、异常值、离散值,需要经过数据清洗、预处理才能输入模型进行学习和预测。2.2数据清洗原始数据中存在许多冗余特征,不能全部用于模型学习,经过与湘雅方面的医生专家讨论,筛选出9个属性(表2-1黄底属性),选择“妊娠结果”作为预测变量(表2-1红底属性),每个属性详细处理过程如下: 年龄:病人年纪从2046岁不等,主要集中在2830岁之间,该属性不需要特殊处理, em:子宫内膜厚度,存在大量缺失值,因为医院方面无法补齐,采用的是丢弃缺失值的处理方法。 线:该属性存在大量的各种形态的离散值,最终将其划分为五类:"线_", "线_", "线_-", "线_", "线_有积液", "线_欠清",考虑到效率问题,该属性处理主要是在excel上进行,之后导入pandas后再进行独热编码。 助孕方式:主要有:“IVF-ET”、“ICSI”、“PGD”、“冻胚”等方式,经研究前三种统一划分为“鲜胚”,之后导入pandas后再进行独热编码。 ET天:embryo transfer(胚胎移植)的简称,该属性指人工授精的移植过程完成后多少天进行的B超检查,其范围很广(3,100),由于目的是对孕早期的胚胎发育情况进行预测,因此考虑范围在20,70内的样本。 孕囊:长宽的形式,通过数据处理分成2列或者以乘积作为新的一列特征来代替原有特征,该有少量缺失值,丢弃处理。 胚芽:连续值,仅需要丢弃少量缺失值即可。 卵黄囊:连续值,仅需要丢弃少量缺失值即可。 胎心:连续值,但存在大量缺失值,最终采用的是分层随机采样的方法填补缺失值。数据处理前:数据处理后:在建模阶段,建立的逻辑回归模型输出了属性与预测值的相关系数,采用L1正则化发现“线”、“助孕方式”相关系数为0,“em”属性对模型预测结果影响不大,因此预测效果最佳的XGBoost和RandomForest模型实际上仅采用了6个特征值(ET天,胚芽,卵黄囊,胎心,孕囊体积,年龄)。2.3数据可视化2.3.1属性分布直方图 图2-1为年龄分布图病人年纪从2046岁不等,主要集中在2830岁之间。图2-1 年龄分布直方图 ET天分布图“ET天”属性主要集中在28天左右。图2-2 ET天分布直方图 助孕方式分布图图2-3 助孕方式分布直方图将四种助孕方式统一分为“鲜胚”和“冻胚”两种。该值为标称特征,采用独热编码分离成2维数据。 线分布图图2-4 线数据分布直方图原特征结构化程度低,多种自然语言描述的值,经讨论分为如图2-4的5类,同样为标称特征,分离为5维特征。后经Lasso logistic分析,去掉了所有线数据特征,未将其引入预测模型。2.3.2分类属性散点图 孕囊长正、异常样本散点图 孕囊宽正、异常样 胚芽正、异常样本散点图 卵黄囊正、异常样本散点图 孕囊长与ET天散点图 孕囊宽与ET天散点图 胚芽与ET天散点图 卵黄囊与ET天散点图2.3.3分类属性占比直方图 25ET天31时,两类样本的各属性占比直方图 41ET天47时,两类样本的各属性占比直方图2.3.4样本降维可视化 PCA降维方法正、异常样本二维可视化效果,两类样本有大量重叠区域。(黄色为异常样本) t-SNE流型降维方法正、异常样本分类情况较好,两类样本是非线性可分的。(黄色为异常样本)三、算法建模3.1逻辑回归预测模型主要参数:C:正则化系数,取C=1.0。Penalty:选择L1范式。Tol:停判标准,tol=1e-6模型代码展示:模型输出结果:标签PrecisionRecallF1-scoreSupport00.950.970.96724410.930.900.923831Avg/total0.940.940.94110753.2支持向量机预测模型主要参数:C:惩罚系数C=0.6Kernel:核函数,kernel=“rbf”模型代码展示:模型输出结果:标签PrecisionRecallF1-scoreSupport00.930.890.91242210.940.960.954571Avg/total0.940.940.9469933.3 BP网络预测模型主要参数:Activition:BP网络的激活函数,取activation=“relu”性能最好。模型代码展示:模型输出结果:标签PrecisionRecallF1-scoreSupport00.960.950.95724410.900.920.913831Avg/total0.940.940.94110753.4 Easyensemble预测模型集成模型easyensemble采用XGBoost作为及模型,主要参数:max_depth=7,learning_rate=0.07,gamma=0.4,n_estimators=100,nthread=4,min_child_weigh=3,subsample=1,colsample_bytree=0.65,objective=“binary:logistic”,scale_pos_weigh=1模型代码展示:模型输出结果:标签PrecisionRecallF1-scoreSupport00.960.950.95724410.900.920.913831Avg/total0.940.940.94110753.5 XGBoost预测模型主要参数取值:max_depth=12,learning_rate=0.1,gamma=0.4,n_estimators=1000,nthread=5,silent=True.colsample_bytree=0.8,objective=“binary:logistic”模型代码展示:模型输出结果:标签PrecisionRecallF1-scoreSupport00.940.940.94724410.950.950.953831Avg/total0.950.950.95110753.6 随机森林预测模型主要参数取值:n_estimators=3,criterion=gini, oob_score=False模型代码展示:模型输出结果:标签PrecisionRecallF1-scoreSupport00.950.950.95724410.950.950.953831Avg/total0.950.950.95110753.7 模型对比标签模型精确率(Precision)召回率(Recall)F1-值样本数0(正常妊娠病例)逻辑回归0.950.970.967244支持向量机0.930.890.912422BP网络0.960.950.957244Easyensemble0.960.950.957244XGBoost0.940.940.947244随机森林0.950.950.9572441(早期流产病例,异常)逻辑回归0.930.900.923831支持向量机0.940.960.954571BP网络0.900.920.913831Easyensemble0.900.920.913831XGBoost0.950.950.953831随机森林0.950.950.9511075从表格可以看到,采用了多种算法模型对本项目的二分类模型进行建模预测,基础模型的预测可达到92%的召回率,进一步引入集成模型,在样本均衡采样的前提下,最终可达到95%的精确率和召回率。四、项目小

注意事项

本文(产前大数据实训手册)为本站会员(mikl****sen)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.