不同方法得出结果不同:德国 vs 巴西

和往年一样,大家预测的冠军不尽相同,但目前争论的焦点集中在德国和巴西谁会夺冠上。

据媒体报道,几天前俄罗斯彼尔姆国立研究大学的大四学生制造的神经网络,预测 德国队将在 2018 年世界杯中夺冠,而世界杯前三名将是德国队、巴西队和阿根廷队。据说,这项预测的准确度超过 80%。

而瑞银则由一支 18 名分析师和编辑组成分析师团队,运用计量经济学,在衡量了球队实力,资格记录和往年世界杯表现等因素后,对比赛进行了 10000 次计算机模拟,预测了比赛的可能胜者。根据其 5 月 17 日发布的报告,瑞银预测今年世界杯冠军将花落德国,获胜可能性为 24%,其次是巴西 19.8%,西班牙 16.1%,而常年失利的英格兰以 8.5%的成绩排名第四,法国、比利时和阿根廷也被视为黑马

世界杯要来了,AI预测冠军哪家强?_java

搞笑的是,瑞银全球财富管理部门首席投资官 Mark Haefele 仍然坚持认为英国有成为冠军的潜力。2014 年世界杯,瑞银的预测团队中因为有英国队铁杆球迷的存在,把数据分析结果排名第十的英国队硬生生拗成了冠军。看来真的是英国队的死忠粉啊。

然而,也有人用机器学习得出截然相反的预测结果——巴西将赢得冠军。肯尼亚投资银行 Genghis Capital Investment Bank 的投资银行分析师 Gerald Muriuki,日前在 Medium 上公布了他使用机器学习预测 FIFA 2018 的结果。

逻辑回归方法

Muriuki 使用逻辑回归的方法,利用两个 Kaggle 数据集(https://www.kaggle.com/martj42/international-football-results-from-1872-to-2017/data ),以及 1930 年以来所有的参赛队伍的赛事数据结果,来进行赛事预测。

环境和工具:jupyter notebook、numpy、pandas、seaborn、matplotlib 和 scikit-learn。

首先,将需要的库和数据加载至数据框。

经过加载库、数据集、探索分析和特征工程、范围缩小至参加世界杯的球赛、创建数据框部署模型等步骤之后,这个模型就可以进行预测了。

这是小组赛的部分预测结果

世界杯要来了,AI预测冠军哪家强?_java_02

世界杯要来了,AI预测冠军哪家强?_java_03

世界杯要来了,AI预测冠军哪家强?_java_04

世界杯要来了,AI预测冠军哪家强?_java_05

这是 16 强的预测结果

世界杯要来了,AI预测冠军哪家强?_java_06

它还对四分之一决赛进行了预测

世界杯要来了,AI预测冠军哪家强?_java_07

半决赛预测:

世界杯要来了,AI预测冠军哪家强?_java_08

总决赛预测:巴西战胜德国

世界杯要来了,AI预测冠军哪家强?_java_09

但 Muriuki 坦诚这个模型还有改进的空间,如通过评测球队队员素质提高数据质量、用混淆矩阵分析模型预测问题所在,或者使用多个模型提高准确率。

统计学方法

KDnuggets 上一位球迷借鉴了 FiveThirtyEight 预测 2014 年世界杯的方法(https://fivethirtyeight.com/features/how-fivethirtyeights-world-cup-predictions-compare-to-other-ratings/ ),通过统计学得出了相反的预测结果:德国战胜巴西

  • FIFA 世界排名(https://www.fifa.com/fifa-world-ranking/ranking-table/men/index.html ):所有 211 支国家足球队的排名系统,得分基于 FIFA 认证过的所有国际赛事成绩。这不是最好的系统,但已经够用了。

  • Elo 排名:由 Dr. Arpad Elo 创建,原为 FIDE 国际象棋比赛而设计。这个复杂的矩阵基于比赛类型计分,并考虑到双方的目标分数差距,与 FIFA 的最大不同在于它考虑了友好比赛。

  • TransferMarkt 球队价值:这个总部位于德国的网站提供关于足球的所有信息,包括每个知名球员的价值,并列出了参赛国家球队及其价值。据该网站估计,所有在列表中的球队总价值约 106.4 亿欧元。

  • 投注赔率:使用投注比较网站 OddsChecker,采用每个国家最大赔率。

收集完这些信息之后,该球迷进行了预测:

四种方法预测 2018 世界杯结果

KDnuggets 预测结果

如果 KDnuggets 的预测准确,以下就是本届世界杯赛程的最终结果:德国、巴西、西班牙分别为前三名。

人肉预测

英国《电讯报》进行的一项调查显示,大多数人还是看好德国赢得冠军。

世界杯要来了,AI预测冠军哪家强?_java_10

Sporting life 没有预测谁会赢得冠军,但猜测了一把参赛国家队将在什么时候 out,比如认为英格兰会在四分之一决赛被淘汰。

机器学习、大数据... 预测有准头吗?

不管是用了什么方法,看起来多么复杂,预测结果准不准还得另当别论。因为事实证明,很多看起来靠谱、头头是道的预测结果往往抓瞎得很。比如华尔街最靠谱的高盛,预测 2014 年世界杯时便被啪啪打脸。当时高盛由大名鼎鼎高盛经济学家凯文·戴利(Kevin Daly)带领的量化分析师团队建立了自 1960 年以来正式国际足球比赛数据的模型,对其进行回归分析,通过一个叫“elo”的动态模拟系统“掷骰子”分析赛果,同时根据泊松模型(一种概率模型,用于预测进球而非预测胜负)预测小组赛的比分。结果呢,八强预测错了三个(哥斯达黎加、比利时和哥伦比亚),四强错了一个(西班牙),小组赛的赛果正确率只有 37.5%,还铁定押宝巴西会夺冠,让人哭笑不得。

彭博社的方法与高盛类似,是在各国国家队 FIFA 积分的基础上,模拟了 1 万次比赛结果,结果也与高盛类似,认为西班牙会在和阿根廷打平后点球进入决赛,最终输给巴西。然而尴尬了,西班牙早就在之前的比赛中已经 out 了......

德银的模型更离谱,它的模型据说综合了 FIFA 排名、历史战绩、球员构成和赌球赔率等因素,算出的夺冠概率前四名是巴西、德国、西班牙、法国,但是德银的分析师在建立模型时,综合了一个据说是“历史夺冠轮回”的理论,最终,他们计算出的结果是巴西无缘 8 强,而英格兰将夺冠。然而,英格兰也早早打铺盖回家了......

一众大佬在 2014 年世界杯预测中被无情打脸,然而,百度的预测却出乎意料地相对准确。据说,当时这家公司的数据科学家团队搜索了距当时 5 年内全世界 987 支球队(含国家队和俱乐部队)的 3.7 万场比赛数据,同时与中国彩票网站乐彩网、欧洲必发指数数据供应商 Spdex 进行数据合作,导入博彩市场的预测数据,建立了一个囊括 199972 名球员和 1.12 亿条数据的预测模型,并在此基础上进行结果预测。在大多数人预测巴西将夺冠的情况下,仍然坚持德国将胜出。结果巴西意外爆冷,奖杯被德国拿走。

根据以上分析来看,今年无论是机器学习还是大数据的方法,或多或少都借鉴了以往所使用过的方法,2014 年世界杯预测的结果大家也有目共睹。所以说,世界杯冠军到底将花落谁家将受到很多因素的影响,比如天气、球员状态、场地情况、任何意外事故,等等,如果真能料事如神,赌球的网站早就关门大吉了。而这也是世界杯的魅力和球迷为之疯狂的原因所在,不到最后一刻,谁也不知道会不会发生惊天逆转。

安静吃瓜看球的诸位球友们,你最看好哪支队伍夺冠呢?