基于机器学习算法的泰坦尼克生还预测
28页1、目录1引言11.1研究背景及意义11.1.1研究背景11.1.2研究意义11.2国内外研究现状21.2.1国内研究现状21.2.2国外研究现状41.2.3研究发展趋势41.3研究思路及方法51.3.1研究思路51.3.2研究方法51.4研究需要解决的问题62基于生还预测的机器学习模型72.1相关概念的界定72.1.1“机器学习算法”72.1.2随机森林的基本概念72.2生还预测模型82.2.1 随机森林82.2.2决策树92.2.3集成学习93泰坦尼克乘客数据集处理103.1数据的探索103.2变量的处理114生还预测模型与模型优化134.1特征工程134.1.1“姓名”变量存在什么?134.1.2“关联”和“亲人”变量是否一齐下沉或游泳?134.1.3其他变量的情况154.2缺失值的处理154.2.1合理价值估算154.2.2预测归责174.3相关特征创建185模型预测结果与评估195.1测试集和训练集195.2建立模型195.3特征重要性排序和预测206结论22致谢24基于机器学习算法的泰坦尼克生还预测摘要:本文以泰坦尼克乘客数据集为样本,基于机器学习算法进行随机森林模型的分析。首
2、先,通过导入的数据集做观测变量的处理,并进行特征工程;其次,进行定量分析,考虑到数据集有缺失的情况,将选取合理的值替换缺失值,例如平均值、中值等数值,进行合理价值估算、预测归责和专题工程(第二轮);再次,预测泰坦尼克号乘客中的幸存者,为此,将依赖随机森林分类算法进行分析、预测。最后,通过建立随机森林模型,分析得出:乘客幸存率与变量Passenger Id、Pclass、Name、Sex、Age、SibSp、Parch、Ticket、Fare、Cabin、Embarked高度相关。基于以上分析和预测,随机森林模型应用到事故分析中是具有一定的可行性和有效性的。关键词:泰坦尼克号;机器学习算法;随机森林模型;幸存率Prediction of Titanics survival based on machine learning algorithmAbstract: In this paper, taking Titanic passenger data set as a sample, the random forest model is analyzed based on machine
3、learning algorithm. Firstly, the imported dataset is used to process the observation variables and carry out feature engineering; secondly, For quantitative analysis, in consideration of the missing data set, reasonable values will be selected to replace the missing values, such as the average value, median value and other values, to carry out reasonable value estimation, prediction attribution and special project (the second round); thirdly, predict the survivors of Titanic passengers, for this
4、 reason, the random forest classification algorithm will be relied on for analysis and prediction. Finally, by establishing a random forest model, the analysis shows that the passenger survival rate is highly correlated with the variables passenger ID, pclass, name, sex, age, sibsp, parch, ticket, fare, cabin and embanked. Based on the above analysis and prediction, the application of stochastic forest model to accident analysis is feasible and effective.Keywords: Titanic; Machine learning algor
《基于机器学习算法的泰坦尼克生还预测》由会员狼***分享,可在线阅读,更多相关《基于机器学习算法的泰坦尼克生还预测》请在金锄头文库上搜索。
文化视域下的幼儿园主题性活动建构的实践研究
政治与行政-网络政治参对我国政府行政管理的影响
探析社会工作视域下大学新生人际沟通能力提升
数码视觉艺术的现状与分析
教育生态视域下的高职大学生教育思想变革1
探析中学美术课堂中民间美术教学的重要性
教育生态视域下的高职大学生教育思想变革
提高高中物理教学有效性的实践与思考1
探析《欢乐颂》火爆的原因
政府发言人在危机事件处理中的作用
政府与非政府组织在突发事件中的地位与作用——以自然灾害为例
提升我国百货商店核心竞争力的对策探讨+——以银泰百货为例
教师职业倦怠的影响因素及应对策略研究
手机媒体对大学生的影响及其对策分析
探究《傲慢与偏见》中的女性思想
政府主导型展会革路径探讨
教育投入与经济增长的回归分析
散打中拳法与步伐在实战中运用的重要性
技术驱动背景下的西北地区图书馆资源建设与服务研究
政府和企业的社会责任与成本效益
2023-01-01 1页
2023-06-26 8页
2023-08-14 9页
2023-01-21 67页
2022-12-20 2页
2024-02-02 4页
2023-02-05 19页
2023-12-10 2页
2023-08-24 13页
2022-12-01 17页