
基于回归模型的奥运会奖牌预测分析.pdf
12页登峰杯初赛作品 基于回归模型的奥运会奖牌预测分析 学 校: 广东省 惠州市第一中学 班 级: 高二(20) 姓 名: 张 梓 扬 参赛编号: 440500027 基于回归模型的奥运会奖牌预测分析 摘 要 每四年一届的奥运盛会牵动着全世界人民的心弦 各个国家获得的奥运会奖 牌总数也直接反应该国的体育建设水平与人民的精神文明程度 本文根据相关网 站(国家统计局、联合国相关机构、国际奥委会等)提供的数据,采用一元线性 模型,以奥运奖牌历史成绩为样本对未来成绩的影响因素进行分析同时,针对 不同国家的 GDP、国内人口和社会制度建立多元非线性模型,对下一届奥运会奖 牌榜进行了预测,对影响奥运会的因素如国内生产总值,人口数量,历史成绩, 社会制度进行了分析 关 键 词 奥运奖牌预测; 多元线性回归; 网络爬虫 1.引言 奥林匹克运动会,是由国际奥林匹克委员会主办的每隔 4 年举行一届的国际 性运动会通过对奥运奖牌榜的观察,我们不难发现以下问题:(1)为何某些经 济发达国家或人口基数较大的国家总能保持在排行榜前列?(2)为什么中国今年 来奖牌数稳定攀升?有哪些因素决定着榜单的排名?而如今信息行业已进入大 数据时代,对数据的挖掘与特征分析成为人们应对海量信息的重要工具与手段。
各国奥运会的奖牌数也和各个国家的综合国力,人口总数息息相关,也代表着一 个国家公民的整体精神水平 基于该背景,本文旨在利用网络爬虫工具对历届奥 运会奖牌榜进行抓取, 获得历史数据以及其他的综合因素并进行研究,以便对结 果进行准确的预测 关于奥运会奖牌榜影响因素的研究,全球范围内已经有部分学者进行了尝 试比如:国外方面,Suen 运用“结构-行为-绩效(SCP)”研究范式,对 1992 年夏季奥运会的奖牌分布进行了实证研究,发现人口数量、 收入水平及政治体制 是其中的重要因素Johnson 和 Ali 以战后夏季奥运会奖牌分布为研究对象,发 现奥运会奖牌分布存在不可忽视的东道主效应:通过主办奥运会,在该国能激发 人们对体育的热情, 而运动员们的国家集体荣誉感也使得举办国往往能取得更多 的奖牌.他们同时亦发现人口规模和人均 GDP 与奥运会奖牌数显著正相关 [1] Bernard 和 Busse 对 1960-1996 年期间夏季奥运会奖牌榜的分析亦得到类似 结论,而且他们还发现社会主义国家有着更好的奥运会表现Hoffmann 等以悉 尼奥运会奖牌分布为样本, 发现虽然传统的经济与政治因素很重要, 但许多固有 国家或地区特征,如地理、人口与文化因素,对奥运会奖牌分布同样存在重要影 响。
Hoffmann 等对东盟国家在悉尼奥运会上成绩不佳的原因进行研究,发现除 其他因素以外,相对 GNP、东道主效应、政治体制、气候及相对人口规模等因素 综合决定了东盟国家在奥运会上的表现 2. 数据来源 本次研究选取数据源来自中国奥委会官方网站,人口数据来自 United Nations Population Division Department of Economic and Social Affairs ]6[ ,中国 GDP 来源:中华人民共和国国家统计局 ]7[ , 世界各国 GDP 来源: National Accounts Main Aggregates Database ]8[ . 通过利用Python语言编写的爬虫程序获取数据并将 其以 xml 格式的源文件呈现,导入 Excel 进行进一步分析 为了保证数据的准确性与代表性, 便于对结果进行精确研究,本次研究选取 了历届奥运会奖牌榜前十名的国家进行讨论medals_raw_data.xml 可在附件 中查看) 3. 问题求解 3.1 利用历史成绩进行预测 统计学中常用的两种方法为:1.时间序列预测法包括:简单序时平均数 法、加权序时平均数法、移动平均法、加权移动平均法、趋势预测法、指数平滑 法、季节性趋势预测法、市场寿命周期预测法等。
2.统计回归包括:一元线 性回归、多元线性回归、多元非线性回归,正交多项回归、差值回归等此处选 用统计回归的方法进行研究 以中国从 1984 年至 2012 年的奥运奖牌获得数(如 表 1-4 所示)作为纵坐 标, 年份为横坐标构建直角坐标系并绘制散点图, 构建回归模型 (1) , 利用 SPSS 软件求出趋势线及其方程 ]3[ (如图 1-1,表 1-1) 同时计算 R^2 的值 R^2 越接近 1, 说明模型的拟合效果越好 参见 表 1-1. 在表 1-2“Anova”中,满足 F 检验,Sig.为 0.001,小于 0.005,说明具有显著性 在表 1-3 中可得出,回归方程为: 奖牌数 = 年份 * 2.366 - 4668.036 奖牌数 = 年份 * 2.366 - 4668.036 (图 1-1) 表表 1-1 历史成绩预测模型汇总历史成绩预测模型汇总 b 模型 R R 方 调整 R 方 标准 估计 的误差 更改统计量 R 方更 改 F 更改 df1 df2 Sig. F 更改 1 .926a .857 .833 10.24550 .857 35.839 1 6 .001 a. 预测变量: (常量), Years。
b. 因变量: China 表表 1-2 历史成绩预测模型的历史成绩预测模型的 Anova 表表 平方和 df 均方 F Sig. 回归 3762.054 1 3762.054 35.839 .001a 残差 629.821 6 104.970 总计 4391.875 7 表表 1-3 历史成绩预测模型历史成绩预测模型 系数系数 a 非标准化系数 标准系数 t Sig. B 标准 误差 (常量) -4668.036 789.675 -5.911 .001 Years 2.366 .395 .926 5.987 .001 利用所给出的回归方程进行预测,2016 年中国奖牌数预测值:101.82. 而 真实值为:70. 说明该线性回归模型(1)偏差较大,考虑重新构建模型 对中国的历史成绩构建非线性模型(2),方程为: 101072165565263500070 234 E+x - E+ + x - x. + x.y = - 选用该非线性模型绘制散点图可得如下图像(如图 1-2),此时,2016 年中 国队夺得奖牌数预测值为 72,实际值为 70,预测值较准确,R^2 = 0.8802 大于 模型(1)中的 R^2 = 0.857. 说明模型(2)的拟合效果较模型(1)好。
故选 用模型(2) 其他国家的数据也依次类推,分别构建模型(1)与模型(2)(前者为线性 模型,后者为非线性模型)进行分析得到的汇总表格如 表 1-5 所示 表 1-4 各国 1984-2012 奖牌获得总计表 1-4 各国 1984-2012 奖牌获得总计 Country 1984 1988 1992 1996 2000 2004 2008 2012 China 32.00 28.00 54.00 50.00 59.00 63.00 100.00 89.00 United States 174.00 94.00 108.00 101.00 97.00 103.00 110.00 104.00 United Kingdom 37.00 24.00 20.00 15.00 28.00 30.00 47.00 65.00 Republic of Korea 19.00 33.00 29.00 27.00 28.00 30.00 31.00 28.00 Australia 24.00 14.00 27.00 41.00 58.00 49.00 46.00 35.00 Germany 59.00 102.00 82.00 65.00 57.00 48.00 41.00 44.00 France 28.00 16.00 29.00 37.00 38.00 33.00 40.00 34.00 Italy 32.00 14.00 19.00 35.00 34.00 32.00 28.00 28.00 Japan 32.00 14.00 22.00 14.00 18.00 37.00 25.00 38.00 数据来自:国家统计局和中国奥运会官方网站 图 1-2 中国 1984-2012 奥运会奖牌数散点/趋势图 表 1-5 2016 年巴西里约奥运会各国奖牌实际值/预测值比较 国家 实际值 预测值 1 预测值 2 R^2 中国 70 102 72 0.8802 美国 121 141 129 0.8775 英国 67 54 90 0.9742 日本 41 33 32 0.8734 韩国 21 31 26 0.3313 澳大利亚 29 54 32 0.6616 德国 42 34 44 0.8417 意大利 28 32 29 0.1164 注释:预测值 2 基于改进的模型(2),对于预测结果的小数部分进行“四舍五入”处理取整。
R^2 基于改注释:预测值 2 基于改进的模型(2),对于预测结果的小数部分进行“四舍五入”处理取整R^2 基于改 进的模型(2)计算得出进的模型(2)计算得出 综上所述,按照历史成绩估计,所选取分析的几个国家的排名应该依次为: 美国,中国,英国,德国,日本,澳大利亚,意大利,韩国与实际排名相符合 但纵观数据可以发现历史成绩并不是十分稳定,模型(1)中部分 Sig 值会大于 0.05,即无统计学意义重新构建一元多项式回归模型(即模型 2)并进行误差 修正后才能较为准确地预测但由于参数过多,模型(2)可能会发生过拟合问 题, 需要对多次项指数进行调整以解决问题 此外, 在针对某些国家 (如意大利, 澳大利亚,韩国等)进行建模与预测时,即使选用了最优的模型,也无法得到较 好的拟合效果因此,历史成绩仅能作为预测未来数据的一方面因素,不能完全 依赖其进行预测 3.2 利用国家综合因素进行预测 从综合实力的角度考虑进行数学建模,推测如下一个国家的国内生产总 值越高, 可以假设该国家有更多的资金去培养优秀的运动员,即能获得更多的奖 牌其次,一个国家的人口数越多,则会有更大的产生优秀运动员的可能性 综上,做出模型假设:一个国家的 GDP 与人口数量对该国家所获得奖牌数目 有影响。
建立数学模型: * c * b + xy = a + x21, 其中,x1 为国内生产总值,b 为 GDP 对奖牌数目的影响系数,x2 为人口数目,c 为人口对奖牌数目的影响系数, a 为随机误差 以澳大利亚为例,所建立的多元模型数据汇总如下: 表表 2-2 问题问题 2 针对澳大利亚奖牌模型针对澳大利亚奖牌模型 Anovab 平方和 df 均方 F Sig. 回归 1187.245 2 593.623 10.019 .018a 残差 296.255 5 59.251 总计 1483.500 7 a. 预测变量: (常量), Popult_AU, GDP_AU b. 因变量: Medals_AU 表表 2-3 问题问题 2 针对澳大利亚奖牌模型针对澳大利亚奖牌模型 系数系数 a 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 (常量) -198.914 54.385 -3.658 .015 GDP_AU -6.206E-11 .000 -2.011 -3.497 .017 Popult_AU .014 .003 2.445 4.250 .008 a. 因变量: Medals_AU 表表 2-4 问题问题 2 针对澳大利亚奖牌模型残差统计量针对澳大利亚奖牌模型残差统计量 a 极小值 极大值 均值 标准 偏差 N 预测值 13.6763 52.6802 36.7500 13.02330 8 残差 -9.67271 10.32367 .00000 6.50555 。
