电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

基于机器学习算法的泰坦尼克生还预测

28页
  • 卖家[上传人]:狼***
  • 文档编号:186651877
  • 上传时间:2021-07-19
  • 文档格式:DOCX
  • 文档大小:323.05KB
  • / 28 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、目录1引言11.1研究背景及意义11.1.1研究背景11.1.2研究意义11.2国内外研究现状21.2.1国内研究现状21.2.2国外研究现状41.2.3研究发展趋势41.3研究思路及方法51.3.1研究思路51.3.2研究方法51.4研究需要解决的问题62基于生还预测的机器学习模型72.1相关概念的界定72.1.1“机器学习算法”72.1.2随机森林的基本概念72.2生还预测模型82.2.1 随机森林82.2.2决策树92.2.3集成学习93泰坦尼克乘客数据集处理103.1数据的探索103.2变量的处理114生还预测模型与模型优化134.1特征工程134.1.1“姓名”变量存在什么?134.1.2“关联”和“亲人”变量是否一齐下沉或游泳?134.1.3其他变量的情况154.2缺失值的处理154.2.1合理价值估算154.2.2预测归责174.3相关特征创建185模型预测结果与评估195.1测试集和训练集195.2建立模型195.3特征重要性排序和预测206结论22致谢24基于机器学习算法的泰坦尼克生还预测摘要:本文以泰坦尼克乘客数据集为样本,基于机器学习算法进行随机森林模型的分析。首

      2、先,通过导入的数据集做观测变量的处理,并进行特征工程;其次,进行定量分析,考虑到数据集有缺失的情况,将选取合理的值替换缺失值,例如平均值、中值等数值,进行合理价值估算、预测归责和专题工程(第二轮);再次,预测泰坦尼克号乘客中的幸存者,为此,将依赖随机森林分类算法进行分析、预测。最后,通过建立随机森林模型,分析得出:乘客幸存率与变量Passenger Id、Pclass、Name、Sex、Age、SibSp、Parch、Ticket、Fare、Cabin、Embarked高度相关。基于以上分析和预测,随机森林模型应用到事故分析中是具有一定的可行性和有效性的。关键词:泰坦尼克号;机器学习算法;随机森林模型;幸存率Prediction of Titanics survival based on machine learning algorithmAbstract: In this paper, taking Titanic passenger data set as a sample, the random forest model is analyzed based on machine

      3、learning algorithm. Firstly, the imported dataset is used to process the observation variables and carry out feature engineering; secondly, For quantitative analysis, in consideration of the missing data set, reasonable values will be selected to replace the missing values, such as the average value, median value and other values, to carry out reasonable value estimation, prediction attribution and special project (the second round); thirdly, predict the survivors of Titanic passengers, for this

      4、 reason, the random forest classification algorithm will be relied on for analysis and prediction. Finally, by establishing a random forest model, the analysis shows that the passenger survival rate is highly correlated with the variables passenger ID, pclass, name, sex, age, sibsp, parch, ticket, fare, cabin and embanked. Based on the above analysis and prediction, the application of stochastic forest model to accident analysis is feasible and effective.Keywords: Titanic; Machine learning algor

      5、ithm; Stochastic forest model; Survival rate1引言1.1研究背景及意义1.1.1研究背景泰坦尼克号沉没事故是20世纪最为令人扼腕的一次海难事件。事件发生在1912年4月14日23时40分左右,行进中的泰坦尼克号与一座冰山相碰撞,两千两百余名船员及乘客中,逾一千五百余人丧生,其中仅有三百多具罹难者的遗体被寻回。这场轰动性的悲剧震惊了当时的国际社会,而且引发了后来者们对于这场悲剧的思索和探究,当然,更多的人希冀的是有更好更完善的相关政策法规促使大家能够避免这类事情的发生或者可以提高遭遇者在此类事件的存活几率。除了比较出名的泰坦尼克号沉没事故外,还有此后发生的诸多海难也是令人极度惋惜、悲痛不已,如1987年12月“杜纳巴兹号”在菲律宾和一艘油轮相撞事件、1993年2月17日凌晨的海地“内普图诺”号客轮沉没事件、1994年9月28日的塔林“埃斯托尼亚号”客轮沉没事件、2000年6月22日中国四川渡轮沉没事件、2002年9月26日的塞内加尔“乔拉号”客轮失事事件、2014年4月16日韩国客轮“岁月号”浸水失事等等事件,这些相类似的事件的缘由、结果等等,

      6、都是值得我们探寻、研究的。尽管在科技迅猛发展的今天,我们可以用科技的手段来解决很多的隐患,从而减少意外、不幸的降临,但我们谁都不知道的是意外和明天,谁会更快地来临,所以,对于一些海难沉船事故的研究,或者说不应该只是海难沉船等事故,更多的其他的灾难性事件的探究,将应该是不能减少的的!1.1.2研究意义随着科学技术的发展,沉船海难等事故的发生率虽说也在逐步地降低,这源于两个方面的举措,一方面是源于船舶的安全性能的增强、救生艇等自救举措、设施的完善,另一方面是由于当今各种运动的普及使得游泳这项技能也被越来越多的人学会,从而有可能使得人们在海难中的存活能力提高,但我们就应该仅仅依赖这两方面的因素就认为我们在水上、海上的行程就安稳无忧了吗?我们的社会在不断地前进,但我们对大自然的探索还是略显稚嫩的啊,特别是对于海洋这方面的灾难性事件的研究上。而且由于经济的迅猛发展、人们生活水平的不断提高,选择船舶这一交通工具出行、游玩的人也在逐渐地增多,但是只是单纯地依赖船舶的安全性、救生艇等举措就足够了吗?不,不是的,我们还应该知晓若是处于海难之中,除了有游泳技能的、可以坐上救生艇等工具能逃生的等等之外,还有

      7、哪些海难中的乘客是可以凭借某些因素存活下来的,假如将来我们面对相类似的海难事件时,我们是否能采用这类人的举措从而提高自身的存活率呢?这就是我们基于机器学习算法进行随机森林模型的分析以预测哪些乘客可能在沉船海难中幸存下来的研究的意义所在。1.2国内外研究现状1.2.1国内研究现状在互联网时代伴随下的大数据兴起和人工智能快速发展的当下,人们对于泰坦尼克号沉船事故等的大事件也有了更多不同的研究思路及方法。源于大部分人感慨现代交通救援速度的发展为什么远远比不上交通运输发展的状况呢?陈宇皓(2019)认为利用对大数据的分析,以更好地预测事件中的不同类型乘客的幸存率以协助救援的实施,应当是十分有效的方法;而且在对数据处理中实施的各种算法和进行算法学习的时候,陈宇皓更是运用了创新性的思维,以泰坦尼克号的有效数据集为例,选择了KNN(k-Neares Neighbor)模型,并且结合数据预处理、可视化分析等方法,对海难事故中乘客的幸存率进行了预测,同时对两种模型的优劣进行了对照,以优化实验的预测更具备实施性。1同时,王可晴(2019)在对机器学习算法的研究学习中,以泰坦尼克号失事事件为例,将机器学习算

      8、法中的不同分类模型方法,用来分析海难中乘客幸存的因素是运气因素、抑或是存在一定的规律性。2在其他角度的研究中,陈宇、郑迪(2014)从韩国客轮“岁月”号失事事件追溯到了“泰坦尼克”海难事件,分析了一个世纪以来的海难失事事故中,在职权梯度、群体思维、认知迟滞以及ISM规则的运行效果等人为因素影响下的海难事件幸存率的状况,还原了船只中的海员工作的复杂性、高危性和在面对突发事件时的巨大责任压力的种种状况, 以此探讨针对人为因素的海事调查,检讨现行国际公约对改变海难事件发生率的真实意义。3但又有部分学者认为海上环境和气候条件影响下的海运,出现意外的变故总是难以避免的。其中,高凡(2015)认为随着世界航运业的不断蓬勃发展, 海上船只的数量将与日俱增, 海上交通也会日益繁忙, 但与此同时,海上求生技能与海上求生知识也将越来越受到重视, 灵活运用海上求生的知识和技能,以此将面临的海上风险降到最低、最大限度地延长遇险人员的求生时间也显得更加重要。4孔祥生、朱金善、薛满福(2018)等则以2018年1月6日的“桑吉”轮与“长峰水晶”轮碰撞事件为例,在对中国、伊朗、巴拿马三国以及中国香港地区共同签署的事

      9、故安全调查报告的基础上,根据1972年国际海上避碰规则及STCW规则等法规,分析了两船的相遇局面、事故发生起因和双方的责任,并总结经验教训,供后来者参考研究。5王光源、刘建东、章尧卿、毛世超(2017)等人则结合海洋气象水文要素的特性,分析了海洋水文要素信息和遇险海域风压差、流压差的大小和方向变化规律,对海上遇险目标的受力情况进行了分析,研究建立了遇险目标海上漂移模型、风压模型和漂移位置模型,分析估算遇险目标的漂移位置信息,且在此基础上,利用总搜寻误差、搜寻安全系数估算出搜寻半径,进一步确定搜寻区域,为实施救援的研究提供了一定的借鉴意义。6程建国(2014)在对海难事故研究时认为海上船只发生火灾是常见的海难事故,面对火灾时,为降低损失,应当展开对遇难船舶的救助,尤其是在救助工作中,救援人员救助应当首先保证有效地救助失事船只上的遇险者的同时懂得自我保护和自救也是非常重要的。7苗水清、郑海英、白海涛(2019)等则认为将决策树算法运用在沉船事件的分析和研究,而后进行数据分类测试,对于事故分析是具有一定的可行性和有效性的。8另外一方面,王旭东(2011)则认为海难出现时,因为海水温度过低,若缺乏相应的保暖自救措施,大部分人都会被慢慢冻死,这是造成海难遇险人员大量死亡的最直接原因,所以遇到突发事故,落水人员在海上必须掌握正确的海上自救技能或者方法,才可能有更多的获救机会,因此海上冷水自救求生,也应当是研究的比较重要的海难课题方向。9秦雨晴、李贵强、陈婷婷(2019)等则认为在海难事件中,往往伴随有恶劣天气、设备损坏、值班人员作业疏忽、船只碰撞、搁浅、失火、海盗袭击等关键因素,不同的因素固然对海难事件有着不同的影响,一般大型的海难事件都是由多种因素造成的,但最重要的因素就是人为因素,他们利用SHELL模型分析人为因素是如何影响船只的航行安全的,从而希望

      《基于机器学习算法的泰坦尼克生还预测》由会员狼***分享,可在线阅读,更多相关《基于机器学习算法的泰坦尼克生还预测》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.