随着互联网时代的到来,以及计算机硬件性能的提升,人工智能在近几年可以说是得到了爆发式的增长。互联网时代带来了大量的信息,这些信息是名副其实的大数据。另外,性能极佳的硬件也使得计算机的计算能力大大增强,这二者结合到一起,人工智能的蓬勃兴盛就变成了自然而然的事情。机器学习作为一种传统的、可解释性较强的算法,在人工智能三驾马车之算法中也占有一席之地。

一本《机器学习算法竞赛实战》应运而生,意在帮助机器学习初学者通过实战的方法从虽然优美但是略显枯燥的各种公式和理论当中脱离出来,感受机器学习在实际应用中的奥秘,而竞赛则是一种最特殊的实战。



算法竞赛时代


2010 年,全球著名算法竞赛平台 Kaggle 举办了第一场竞赛 Forecast Eurovision Voting,奖金为 1000 美元。2015 年,国内第一场算法竞赛在天池举办,比赛题目是阿里移动推荐算法,奖金为 30 万元人民币,吸引了 7000 多人参加。虽然国内的算法竞赛起步时间晚于国外,但从 2015 年开始,在全球举办的一共 1000 多场赛事中,中国就举办了 400 多场,并且场次的年均增长率高达 108.8%,累计有超过 120 万人参加,奖金累计达到 2.8 亿元人民币。在算法竞赛的举办场次拥有如此高增长率的情况下,其技术价值、业务价值和创新价值自然不容小觑。对于有志于进军机器学习相关领域从事研究或者相关工作的初学者来说,竞赛是性价比极高的一个实战选择,可以说是零门槛,任何人都能参加。



易于学习的竞赛宝典

对于想参加机器学习竞赛的初学者来说,一本内容友好的图书极其重要,可以少走很多弯路。这本《机器学习算法竞赛实战》合理地规划了章节架构,作者们除了仔细的讨论外,还采纳了国内多名顶尖竞赛选手的建议,深入剖析算法的本质内容,还结合多个领域模块进行了实战讲解。全书分为五个部分,作者还给每部分都取了一个名字。

PART.01


磨刀事半,砍柴功倍第一部分以算法竞赛的通用化流程为主,介绍竞赛中各个部分的核心内容和具体工作,且每章都配有具体的实战部分,以便加深理解。PART.02


物以类聚,人以群分第二部分主要介绍用户画像相关的问题,构建完善的标签体系是用户画像的核心,也是解决用户画像类赛题的关键,比如个性化推荐和金融风控等问题都需要以用户画像作为支撑。为了帮助读者加快对此类竞赛问题的学习、理解,会讲解具体的竞赛案例,即 Kaggle 平台的 Elo Merchant Category Recommendation。

腾讯广告算法大赛冠军、Kaggle Grandmaster倾力打造,涵盖Kaggle、阿里天池等赛题_用户画像

(题目背景:想象一下,当你在一个不熟悉的地方饿着肚子想要找好吃的东西时,你是不是会得到基于你的个人喜好而被专属推荐的餐馆,且该推荐还附带着你的信用卡提供商为你提供的附近餐馆的折扣信息。目前,巴西最大的支付品牌之一 Elo 已经与商家建立了合作关系,以便向顾客提供促销或折扣活动。但这些促销活动对顾客和商家都有益吗?顾客喜欢他们的活动体验吗?商家能够看到重复交易吗?要回答这些问题,个性化是关键。Elo 建立了机器学习模型,以了解顾客生命周期中从食品到购物等最重要方面的偏好。但到目前为止,那些学习模型都不是专门为个人或个人资料量身定做的,这也就是这场竞赛举办的原因。在这场竞赛中,需要参赛者开发算法,通过发现顾客忠诚度的信号,识别并为个人提供最相关的机会。你的意见将改善顾客的生活,帮助 Elo 减少不必要的活动,为顾客创造精准正确的体验。)


PART.03


以史为鉴,未来可期第三部分以时间序列预测问题为主,先讲述这类问题的常见解题思路和技巧,然后分析两个具体的实战案例,分别是天池平台的全球城市计算 AI 挑战赛和Kaggle 平台的Corporación Favorita Grocery Sales Forecasting。

腾讯广告算法大赛冠军、Kaggle Grandmaster倾力打造,涵盖Kaggle、阿里天池等赛题_机器学习_02

(题目背景:在实体杂货店里,销量预测和顾客采购量之间的关系总是很微妙。如果销量预测得多,而顾客采购得少,那么杂货店的商品就会积压过多,尤其对易腐商品的影响较大;如果销量预测较少,而顾客采购量较大,那么商品很快就会卖光,短时间内顾客的体验会变差。 

随着零售商不断增加新地点、新产品,以及季节性口味的变化多样和产品营销的不可预测, 问题变得更加复杂。位于厄瓜多尔的大型杂货零售商 Corporación Favorita 也非常清楚这点,其经营着数百家超市,售卖的商品超过 20 万种。

于是 Corporación Favorita 向 Kaggle 社区提出了挑战,要求其建立一个可以准确预测商品销量的模型。Corporación Favorita 目前依靠主观预测来备份数据,很少通过自动化工具执行计划, 他们非常期待通过机器学习实现在正确的时间提供足够正确的商品,来更好地让顾客满意。)PART.04


精准投放,优化体验计算广告相关的业务大多是很好的竞赛题目,第四部分主要介绍了计算广告的核心技术和业务,包括广告召回、广告排序和广告竞价。实战案例部分则包括两道赛题,分别是 2018 腾讯广告算法大赛——相似人群拓展,以及 Kaggle 平台的 TalkingData AdTracking Fraud Detection Challenge。PART.05


听你所说,懂你所写第五部分基于自然语言处理相关的内容进行讲解,包括常见任务和常见技术,实战案例部分是 Kaggle 平台上的经典竞赛 Quora Question Pairs。这本书可以说是算法竞赛领域一本系统性介绍竞赛的书,不仅包含竞赛的基本理论知识,还结合多个方向和案例详细阐述了竞赛中的上分思路和技巧。本书还附赠读书思维导图,轻松定位学习要点。腾讯广告算法大赛冠军、Kaggle Grandmaster倾力打造,涵盖Kaggle、阿里天池等赛题_机器学习_03