世界杯,对于球迷来说意味着神圣,对于体彩迷来说,则意味着发家致富。
每次一到世界杯,各类专家、票圈锦鲤甚至动物都在做预测。不过,今年却有些许的不一样,因为AI也成为了预测大军中的一份子。
据说,AI猜球的准确率远远超出博彩公司。不过,滑铁卢难免会发生,来自德国科学家之手的AI模型就预测,西班牙的小组赛获胜几率排名第一,高达88.4%,远超葡萄牙的67.5%。
然而……
AI预测,根据为何?
AI要在预测战果上战胜专家,自然要做到专家们所做不到的事,首先就是变量多元化。
现有的AI预测模型几乎将方方面面都囊括其中。
第一是宏观因素,即从国家对足球产业发展的扶植力度窥视其实力,这种扶植无外乎财力与人力,一个国家对足球的建设资金越充足,拥有的足球人才储备越多,则越容易掌握一支优秀的球队。
第二是微观因素。
球队实力是重中之重。而这主要依靠国际足联排名、博彩赔率等既有排名数据以及平均年龄、顶级联赛球员数量、教练年龄与教龄长短等重要的影响因素。
除了这些具有显著参考价值的因素,一些玄学因素也被纳入了模型的计算范畴。
比如主场优势,一看是否是东道主,二看是否与东道主来自同一大陆,三看属于国际足联六大足球协会 (CAF,AFC,UEFA,CONCACAF,OFC,CONMEBOL) 中的哪一个,四看教练国籍与任职国家的一致性。
不过,不同国家AI预测模型在数据的选取和处理上也有着细微的不同,都力图让自己的国家在排名中更为有利。
模拟比赛,预测结果
如何将这些复杂的变量变成预测的结果,则是预测算法中最有难度的部分。
解决这一问题有两个思路。
一是将不同国家的数据输入模型分别训练,得出不同的胜率后进行排名。这一思路十分简单,但会消耗过多时长,且相关度量化结果会在国家之间出现很大差异,误差较大。
二是将所有的数据一股脑全部输入,由机器赋予变量统一的权重,通过权重为不同国家分别计算出胜率并排名。
随机森林算法就是第二种思路的最佳体现。
随机森林指的是利用多棵决策树对样本进行训练并预测的一种分类器。
构建随机森林的方法是:
第一步,用N来表示训练用例(样本)的个数,M表示特征数目。
第二步,输入特征数目m,用于确定决策树上一个节点的决策结果,其中m应远小于M。
紧接着,从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。
随后,对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征,计算其最佳的分裂方式。
其中,每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后会被采用。
通俗来说,每一棵树都来源于有放回式随机抽取的样本,样本数量以及树的数量等于原始数据集(即国家)的数量。
树杈代表的变量因素的集合,变量的个数随机产生且总数小于总变量数,但每一棵树上,所有的变量必须逐步纳入计算。
若把变量编号为ABCDEFG,那么在某一个树上,第一次抽取的变量是EG,那么下一次的变量抽取则将在ABCDF中进行,直到所有的变量都被计算完成,形成一棵完整的树。
有了这些树之后,随机森林便可以通过统一输出数据,减少方差的方式,减小各变量针对不同对象赋权的误差。
读芯君开扒
世界杯结果预测大公开,你跟注哪一个
目前,许多国家的AI模型都给出了自己的世界杯结果预测。
德国的科学家认为,自家球队将会在八分之一决赛遭遇强旅,不过一旦迈过这个坎,大力杯将成为德国的囊中之物。来自俄罗斯的科学家同样用自己的AI模型得出了这一结果。
数据科学家Gerald Muriuki利用了自1930年第一届世界杯以来的所有参赛队的历史赛事结果,预测出巴西将入住冠军宝座。这一结果得到了高盛AI的支持,同时这一AI还预测,法国、巴西、葡萄牙和德国将打入半决赛。
留言 点赞 发个朋友圈
我们一起探讨AI落地的最后一公里
作者:羊习习
参考文献链接:
https://mp.weixin.qq.com/s/mmu33XujJPSUURQXzvtn_Q
如需转载,请后台留言,遵守转载规范
推荐文章阅读
长按识别二维码可添加关注
读芯君爱你