
南非世界杯数据分析模型.pdf
34页1 南非世界杯球队综合实力评价模型研究摘 要2010 年南非世界杯已然落下帷幕,参赛的 32 支球队的表现不尽相同为了较为全面客观地评价参赛的 32 支球队的综合竞争力和技术水平,特建立参赛球队的综合竞争力评价模型本模型基于各球队比赛的相关数据 ( 如进球数,射门数、传球数、抢断数等 ) 并对数据加以统计分析,通过建模的方式解决了如下六个问题问题一 通过对相关场次胜负关系及技术指标数据的统计分析, 得出影响球队胜负的 14 个相关因素,为了找到最主要的几个因素,特建立因子分析模型,并利用 SAS 软件编程得出影响球队胜负的四个最主要因素,即 角 球 数 、 控 球 率 、 传 球 成 功 率 和 抢 断 成 功 率 问 题 二 首 先 对 球 队 的 历 史 交 战 记 录 进 行 量 化 处 理 , 结合数据显示的特征和 2010年世界杯的比赛情况,初步得出表面上看有运气成分的球队;然后根据问题一所获得的四个关键性因素,建立模糊综合评判模型,并找出 7 个运气较好的球队,分别为:墨西哥、乌拉圭、阿根廷、美国、塞尔维亚、巴拉圭、瑞士问题三 要对 32 支球队在球场上的综合表现进行排名,就要有一个体现球队综合实力的目标函数,并通过影响球队胜负的关键因子以及重要因素来确定目标函数的值,当目标函数取值越大,就认为它的综合实力最强,排名就越靠前。
对此在模型一的基础上,赋予四个关键因素不同的权重,计算得出 32 支球队的不同取值,从而得出了 32 支球队的综合实力排名,其中排名前三位的分别是意大利、巴西和阿根廷问题四 为了评价各洲的表现实力,首先确定相同的评价指标,并据此建立聚类分析模型,通过采用 SAS 软件求解,得出以下结果:南美洲和非洲实力相近;欧洲和北美洲实力相近;亚洲和其他州实力相差较大在众多球队中南美洲实力最强,亚洲实力最弱同时亚洲球队要想提高自己的综合竞争力,需在控球率、抢断、角球等技术因素方面加强训练,同时还要减少越位次数问题五 通过各个球队的历史交战记录并且结合问题三给出的相关排名, 我们模拟出南非世界杯的进程,并得出最后的冠军应为巴西队问题六 提取出八强赛球队球员的所有技术数据,并进行分类处理,依据门将的扑救数,前锋的进球数,中场的助攻以及射门数,后卫的造犯规数等因素得出最佳阵容如下:门将为卡西利亚斯;前锋为比利亚,弗兰;后卫为海因策,麦孔,普约尔,阿尔卡拉斯;中场为斯内德,伊涅斯塔,厄齐尔, K.博阿滕最后结合以上的分析和评价结果,对整个模型进行综合评价,并给出改进方案,力求使模型具有更高的可信度关键词 综合实力;评价模型;排名;因子分析模型;模糊综合评价2 1、问题的提出随着斗牛士举起大力神杯,如火如荼的南非世界杯落下帷幕,参赛的 32 支球队可以说各有不同的收获。
西班牙成了新科状元,荷兰继续着无冕之王,阿根廷让人大失所望,乌拉圭最后虽败犹荣这一切的成败,除了在有些场次的比赛中存在着一定的运气成分之外,更多的是由球员们在场上的表现来决定的按照惯例,国际足联和一些官方机构在赛后往往会通过一些门户网站向外公布所有场次的胜负关系及技术统计,如进球数,射门数、传球数、抢断数等请就本次世界杯所有场次比赛的结果,收集这些数据并进行合理的分析和建模,完成下面问题:1.你认为决定球队胜负关系最重要的技术因素有哪些?2.你认为是否有些场次胜负关系的运气成分比较大?如果有,请指出来3.根据 32 支球队在比赛中的综合表现,给出你认为比较合理的最终排名4. 你认为来自各大洲的球队在本次世界杯上表现出的实力是否一致?如果不一致,你认为亚洲球队在哪些方面急需改进?5.从小组赛开始,根据各球队历史战绩,请你来模拟一遍世界杯的进程,看看谁将会是最后的冠军6.附件 2 是国际足联给出的本次世界杯数据最佳阵容,保持阵型不变,如果让你根据八强参赛球员的表现来进行评选,你所评出的最佳阵容与前者是否一致?2、模型的假设(1) 忽略南非天气对球员水平发挥的影响(2) 球队的排名不考虑该球队球员名气及实力的因素(3) 对于影响球队胜败的因素都按统一的标准进行处理(4) 对赛程进行预测时忽略现有比赛结果对比赛安排的印象3、符号说明JQ: 角球KQL 控球率CQ : 传球成功率QD : 抢断成功率3 iX : 影响球队胜败的相关因子 , i = 1,2,3,4......14iijA : 因子载荷矩阵 1,2,3, 4i 1,2,3......22jijr 表示第支球队第各因素权重百分比ib : 表示反常球队的权重贡献和ijD : 表示相似性矩阵mF : 公共因子4、模型的求解4.1 问题一的求解4.11 问题的分析对于世界杯赛场上各支球队的胜负,虽然有些球队的胜出难免有些运气成分,但一般来说主要是由球队在球场上的表现决定的。
按照惯例,国际足联和一些官方机构在赛后往往会通过一些门户网站向外公布所有场次的胜负关系及技术统计, 如进球数、 传球、抢断、 控球率 我们通过对有关数据的查询分析与之相关的因素有如下几个方面: 进球、射门、射中、角球、传球、抢断、抢断成功率、控球率、失球、越位、犯规、黄牌、红牌为了找出最重要的影响因素,我们建立了因子分析模型:即用再错中复杂的影响因子中选出最少个数公共因子来简化变量的为数和结构,从而通过相关系数矩阵,来找到最能决定结果的少素几个因子4.1.2 模型的建立和求解要建立因子分析模型首先要找到相关因子的有关数据我们通过在 2010 世界杯官方网站查阅 13 个指标的相关数据,考虑到球队参加比赛场次不同,而导致传球、射门数、角球等多少不对等,故我们做如下处理:( 1) 进球、射门数、角球数、传球数、越位、犯规、黄牌、红牌均按每比赛平均数算( 2) 控球、传球数处理为相应的控球率、传球率( 3) 抢断分抢断平均数和抢断成功率两部分( 4) 传球分传球数和传球成功率两部分按以上规则我们得到处理后相关数据(见附录 1) 现我们选出一部分数据如下表 1 4 表 1 各项相关因素的数据球队 进球 射门 射正 角球 传球传球成功率抢断抢断成功率控球率失球犯规越位黄牌红牌西班牙1.1429 18 5 8 615.8571 82.40% 18 82.50% 66.30% 0.2857 11.7143 1.7143 1.1429 0 阿根廷 2 18.6 7.8 6.6 522.8 82.90% 22.8 76.30% 62.40% 1.2 13 2.4 1.4 0 巴西 1.8 17.8 6.2 6.8 479 81.10% 21.2 70.80% 59.70% 0.8 15.4 1.4 1.4 0.4 德国2.2857 15.1429 5.2857 6.2857 471.7143 78.80% 22.4286 75.20% 51.70% 0.7143 10.7143 3.2857 1.5714 0.1429 墨西哥 1 13.5 3.5 4.25 462 78.20% 25.75 78.60% 57.80% 1.25 20.75 3.5 2.25 0 接下来我们开始键立模型:设 ( 1,2,...,14)14ix i 个变量,表示为:1 21 2 ... ( 14)i i im m iXi a F a F a F m即 1 2, , ,... mX AF F F F 称为公共因子, 是不可观测的变量, ij 14 mA=(a ) 称为因子载荷阵,ija 表示第 i 个变量在第 j 个因子上的载荷, i 是特殊因子,是不能被前 m 个公共因子包含的部分,并且满足 ( , ) 0, ,Cov F F 不相关。
1. '1 2 14( , ,..., )x x x x 是可观测随即向量,且均值向量 ( ) 0E x ,协方差阵 cov( ) ,F 且协方差阵 与相关矩阵 R相等;2. '1 2( , ,..., )mF F F F , m p ,是不可预测的向量,其均值向量 ( ) 0E F ,协方差矩阵cov( ) 1F ,即向量 F 的各分量是互相独立的;3. '1 2 14( , ,..., ) 与 F 相互独立,且 ( ) 0E , 的协方差阵 是对角阵,即211222214 14..............0cov( ) ........0............说明 的各成分之间也是互相独立的,则模型5 2221 11 1 22 1 12 21 1 22 2 213 13 1 1 13 2 13..............m mm mm m px a F a F a Fx a F a F a Fx a F a F a F称为因子模型,它的矩阵形式为:x AF其中 '1 2( , ,..., )pix x x x ,'1 2( , ,..., )mF F F F ,'1 2( , ,..., )p11 12 121 22 213 1 13 2 13, .........., ............, ,...mmma a aa a aAa a a相关因子的符号说明如表 2 所示:表 2 相关因子的符号说明符号 符号说明JQ 进球数SM 射门数SZ 射正数JIAOQ 角球数CQ 传球数CQC 传球成功率QD 抢断数CQC 抢断成功率KQL 控球率SQ 失球数FG 犯规次数YW 越位次数HUANGP 黄牌次数HONGP 红牌次数利用 SAS 软件编程(见附录 2) ,求出结果如表 3 所示 : 6 表 3 SAS 求解结果表JQ SM SZ JIAOQ CQ CQC QD 0.9176695 0.9518433 0.8063619 0.9662925 0.9774484 0.8949144 0.9819358 QDC KQL SQ FG YW HUANGP HONGP 0.9409011 0.9826882 0.8782212 0.9029488 0.9639159 0.8423043 0.8833767 4.1.3 结果分析软件程序结果要求 4个比较大的因子作为关键因子, 因此将各种因子从高到低排列,取出前四的因子为关键因子,分别是 KQL 、 QD、 CQ、 JIAOQ;但是根据因子的参数,可以看出 YW 也是比较高的,而且在实际比赛中, 越位对球队的影响也是比较大的, 因此把 YW 也作为一个衡量球队实力的一个重要因素,但是不能作为关键因子。
4.2 问题二的求解4.2.1 问题的分析为了确定比赛中获胜球队中是否有有些球队获胜存在运气成分, 我们根据历史交战记录(见附录 3)交战两个球队之间的实力差距来判断,来选出我们认为此次比赛比较反常的球队即可能是侥幸获胜的然而一只球的当前实力不仅仅是历史记录完全决定它还与近期该球队是否通过引进明星队员、著名教练和短期集训等方式来提高球队实力,而使得该球队获胜不是侥幸从而被排除运气质疑这样我们根据交战球队以往交战记录和此次世界杯该交战球队战绩,初步的出反常球队,再根据问题一中求解得到的关键因子,建立队伍实力模糊综合评判模型来最终判断该球队是否有运气成分存在4.2.2 模型的建立与求解通过以上对问题的分析,我们首先要对球队的历史交战记录进行量化处理从其给出数据的特征我们对数据作如下处理,现我们只选取三个小组数据如表 4(完整数据见附录 4) 表 4 两球队交战的历史记录国家 交战场次 胜 平 负 得球 失球 净胜球 胜率荷兰 VS 日本 1 1 0 0 3 0 3 100.00%荷兰 VS 丹麦 27 11 10 6 55 36 19 64.71%荷兰 VS 喀麦隆 2 1 1 0 1 0 1 100.00%由上表处理结果我们需选出看似反常的球队组合, 如何选出反常球队我们根据以往惯例,有以下几种原则:( 1)两个交战队伍历史交战场次 10 场以上中实力差距较大,一方大胜属反常。
2)如果两个球队没有交战记录或交战中打平属实力接近的球队,此次胜负结果不做参考。












