电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

产前大数据实训手册

18页
  • 卖家[上传人]:mikl****sen
  • 文档编号:157485206
  • 上传时间:2020-12-23
  • 文档格式:DOCX
  • 文档大小:1.04MB
  • / 18 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、 产前大数据实训手册目 录一、项目简述二、数据预处理及可视化2.1原始数据概况42.2数据清洗42.3数据可视化52.3.1属性分布直方图2.3.2分类属性散点图2.3.3分类属性占比直方图2.3.4样本降维可视化三、算法建模3.1逻辑回归预测模型133.2支持向量机预测模型143.3 BP网络预测模型143.4 Easyensemble预测模型153.5 XGBoost预测模型153.6 随机森林预测模型163.7 模型对比16四、 项目小结4.1 算法总结174.2 代码说明17产前大数据实训手册一、项目简述通过调取中信湘雅生殖中心接受胚胎移植的不孕患者的相关数据(例如:B超影像数据),本项目旨在根据B超检查获得的测量数据,通过机器学习方法,建立预测模型,预测受精卵移植后510周胚胎的发育情况(正常/异常),为B超影像科室的诊断提供决策支持。二、数据预处理及可视化2.1原始数据概况脱敏后的产前数据包含66706条病例样本(含正、异常病例),每个病人有64个登记指标(去掉姓名、编号等4项),具体如表2-1:表2-1 原始数据的特征列表年龄不育年限bmi移植日期周期不孕类型不孕原因女方

      2、因输卵排卵障碍子宫内膜异位女性免疫性男方少弱精畸精子症受精率30下严重的少、梗阻性无精无精症生精功能障碍精子顶体异常原因不明染色体病单基因相关遗传病促排方案末次月经取卵日期窦卵泡数右卵泡左卵泡fshlhe2prlPramhhcgem线助孕方式移植胚胎数移胚胎评级孕个数减胎否后妊娠数妊娠情况出生日期出生婴儿数分娩方式妊娠结果分娩周数新身儿体重新身儿体重2新身儿体重3出生情况次数宫腔积液距浆肌层近畸形子宫类型切口假腔ET天孕囊胚芽卵黄囊胎心原始数据中存在大量的缺失值、异常值、离散值,需要经过数据清洗、预处理才能输入模型进行学习和预测。2.2数据清洗原始数据中存在许多冗余特征,不能全部用于模型学习,经过与湘雅方面的医生专家讨论,筛选出9个属性(表2-1黄底属性),选择“妊娠结果”作为预测变量(表2-1红底属性),每个属性详细处理过程如下: 年龄:病人年纪从2046岁不等,主要集中在2830岁之间,该属性不需要特殊处理, em:子宫内膜厚度,存在大量缺失值,因为医院方面无法补齐,采用的是丢弃缺失值的处理方法。 线:该属性存在大量的各种形态的离散值,最终将其划分为五类:线_, 线_, 线_-,

      3、线_, 线_有积液, 线_欠清,考虑到效率问题,该属性处理主要是在excel上进行,之后导入pandas后再进行独热编码。 助孕方式:主要有:“IVF-ET”、“ICSI”、“PGD”、“冻胚”等方式,经研究前三种统一划分为“鲜胚”,之后导入pandas后再进行独热编码。 ET天:embryo transfer(胚胎移植)的简称,该属性指人工授精的移植过程完成后多少天进行的B超检查,其范围很广(3,100),由于目的是对孕早期的胚胎发育情况进行预测,因此考虑范围在20,70内的样本。 孕囊:长宽的形式,通过数据处理分成2列或者以乘积作为新的一列特征来代替原有特征,该有少量缺失值,丢弃处理。 胚芽:连续值,仅需要丢弃少量缺失值即可。 卵黄囊:连续值,仅需要丢弃少量缺失值即可。 胎心:连续值,但存在大量缺失值,最终采用的是分层随机采样的方法填补缺失值。数据处理前:数据处理后:在建模阶段,建立的逻辑回归模型输出了属性与预测值的相关系数,采用L1正则化发现“线”、“助孕方式”相关系数为0,“em”属性对模型预测结果影响不大,因此预测效果最佳的XGBoost和RandomForest模型实际上仅

      4、采用了6个特征值(ET天,胚芽,卵黄囊,胎心,孕囊体积,年龄)。2.3数据可视化2.3.1属性分布直方图 图2-1为年龄分布图病人年纪从2046岁不等,主要集中在2830岁之间。图2-1 年龄分布直方图 ET天分布图“ET天”属性主要集中在28天左右。图2-2 ET天分布直方图 助孕方式分布图图2-3 助孕方式分布直方图将四种助孕方式统一分为“鲜胚”和“冻胚”两种。该值为标称特征,采用独热编码分离成2维数据。 线分布图图2-4 线数据分布直方图原特征结构化程度低,多种自然语言描述的值,经讨论分为如图2-4的5类,同样为标称特征,分离为5维特征。后经Lasso logistic分析,去掉了所有线数据特征,未将其引入预测模型。2.3.2分类属性散点图 孕囊长正、异常样本散点图 孕囊宽正、异常样 胚芽正、异常样本散点图 卵黄囊正、异常样本散点图 孕囊长与ET天散点图 孕囊宽与ET天散点图 胚芽与ET天散点图 卵黄囊与ET天散点图2.3.3分类属性占比直方图 25ET天31时,两类样本的各属性占比直方图 41ET天47时,两类样本的各属性占比直方图2.3.4样本降维可视化 PCA降维方法正、异

      5、常样本二维可视化效果,两类样本有大量重叠区域。(黄色为异常样本) t-SNE流型降维方法正、异常样本分类情况较好,两类样本是非线性可分的。(黄色为异常样本)三、算法建模3.1逻辑回归预测模型主要参数:C:正则化系数,取C=1.0。Penalty:选择L1范式。Tol:停判标准,tol=1e-6模型代码展示:模型输出结果:标签PrecisionRecallF1-scoreSupport00.950.970.96724410.930.900.923831Avg/total0.940.940.94110753.2支持向量机预测模型主要参数:C:惩罚系数C=0.6Kernel:核函数,kernel=“rbf”模型代码展示:模型输出结果:标签PrecisionRecallF1-scoreSupport00.930.890.91242210.940.960.954571Avg/total0.940.940.9469933.3 BP网络预测模型主要参数:Activition:BP网络的激活函数,取activation=“relu”性能最好。模型代码展示:模型输出结果:标签PrecisionRecal

      6、lF1-scoreSupport00.960.950.95724410.900.920.913831Avg/total0.940.940.94110753.4 Easyensemble预测模型集成模型easyensemble采用XGBoost作为及模型,主要参数:max_depth=7,learning_rate=0.07,gamma=0.4,n_estimators=100,nthread=4,min_child_weigh=3,subsample=1,colsample_bytree=0.65,objective=“binary:logistic”,scale_pos_weigh=1模型代码展示:模型输出结果:标签PrecisionRecallF1-scoreSupport00.960.950.95724410.900.920.913831Avg/total0.940.940.94110753.5 XGBoost预测模型主要参数取值:max_depth=12,learning_rate=0.1,gamma=0.4,n_estimators=1000,nthread=5,silent

      7、=True.colsample_bytree=0.8,objective=“binary:logistic”模型代码展示:模型输出结果:标签PrecisionRecallF1-scoreSupport00.940.940.94724410.950.950.953831Avg/total0.950.950.95110753.6 随机森林预测模型主要参数取值:n_estimators=3,criterion=gini, oob_score=False模型代码展示:模型输出结果:标签PrecisionRecallF1-scoreSupport00.950.950.95724410.950.950.953831Avg/total0.950.950.95110753.7 模型对比标签模型精确率(Precision)召回率(Recall)F1-值样本数0(正常妊娠病例)逻辑回归0.950.970.967244支持向量机0.930.890.912422BP网络0.960.950.957244Easyensemble0.960.950.957244XGBoost0.940.940.947244随机森林0.950.950.9572441(早期流产病例,异常)逻辑回归0.930.900.923831支持向量机0.940.960.954571BP网络0.900.920.913831Easyensemble0.900.920.913831XGBoost0.950.950.953831随机森林0.950.950.9511075从表格可以看到,采用了多种算法模型对本项目的二分类模型进行建模预测,基础模型的预测可达到92%的召回率,进一步引入集成模型,在样本均衡采样的前提下,最终可达到95%的精确率和召回率。四、项目小

      《产前大数据实训手册》由会员mikl****sen分享,可在线阅读,更多相关《产前大数据实训手册》请在金锄头文库上搜索。

      点击阅读更多内容
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.