向AI型的程序员都关注了这个号​????????????

机器学习AI算法工程   公众号:datayx





当前的机器学习算法大致可以分为有监督的学习、无监督的学习和强化学 习(Reinforcement Learning)等。强化学习和其他学习方法不同之处在于强化学 习是智能系统从环境到行为映射的学习,以使奖励信号函数值最大。如果智能 体的某个行为策略导致环境正的奖赏,那么智能体以后产生这个行为策略的趋 势便会加强。强化学习是最接近于自然界动物学习的本质的一种学习范式。然 而强化学习从提出到现在,也差不多有半个世纪左右,它的应用场景仍很有限, 规模大一点的问题就会出现维数爆炸,难于计算,所以往往看到的例子都是相 对简化的场景。



最近因为与深度学习结合,解决海量数据的泛化问题,取得了让人印象深刻 的成果。包括 DeepMind 的自动学习玩 ATARI 游戏,以及 AlphaGo 在围棋大赛中 战胜世界冠军等,其背后的强大武器就是深度强化学习技术。相对于 DeepMind和学术界看重强化学习的前沿研究,阿里巴巴则将重点放在推动强化学习技术 输出及商业应用。在阿里移动电商平台中,人机交互的便捷,碎片化使用的普 遍性,页面切换的串行化,用户轨迹的可跟踪性等都要求我们的系统能够对变 幻莫测的用户行为以及瞬息万变的外部环境进行完整地建模。平台作为信息的 载体,需要在与消费者的互动过程中,根据对消费者(环境)的理解,及时调整 提供信息(商品、客服机器人的回答、路径选择等)的策略,从而最大化过程累 积收益(消费者在平台上的使用体验)。基于监督学习方式的信息提供手段,缺 少有效的探索能力,系统倾向于给消费者推送曾经发生过行为的信息单元(商 品、店铺或问题答案)。而强化学习作为一种有效的基于用户与系统交互过程建 模和最大化过程累积收益的学习方法,在一些阿里具体的业务场景中进行了很 好的实践并得到大规模应用。



在搜索场景中,阿里巴巴对用户的浏览购买行为进行 MDP 建模,在搜索 实时学习和实时决策计算体系之上,实现了基于强化学习的排序策略决策模型,从而使得淘宝搜索的智能化进化至新的高度。双 11 桶测试效果表明,算法指标 取得了近 20% 的大幅提升。


推荐场景中,阿里巴巴使用了深度强化学习与自适应在线学习,通过持 续机器学习和模型优化建立决策引擎,对海量用户行为以及百亿级商品特征进 行实时分析,帮助每一个用户迅速发现宝贝,提高人和商品的配对效率,算法 效果指标提升了 10% - 20%。


在智能客服中,如阿里小蜜这类的客服机器人,作为投放引擎的 agent,需 要有决策能力。这个决策不是基于单一节点的直接收益来确定,而是一个较为 长期的人机交互的过程,把消费者与平台的互动看成是一个马尔可夫决策过程, 运用强化学习框架,建立一个消费者与系统互动的回路系统,而系统的决策是 建立在最大化过程收益上,来达到一个系统与用户的动态平衡。


在广告系统中,如果广告主能够根据每一条流量的价值进行单独出价,广 告主便可以在各自的高价值流量上提高出价,而在普通流量上降低出价,如此 容易获得较好的 ROI,与此同时平台也能够提升广告与访客间的匹配效率。阿里 巴巴实现了基于强化学习的智能调价技术,对于来到广告位的每一个访客,根 据他们的当前状态去决定如何操作调价,给他们展现特定的广告,引导他们的 状态向我们希望的方向上做一步移,在双 11 实测表明,CTR,RPM 和 GMV 均得到了大幅提升。


当然,强化学习在阿里巴巴内部的实践远不止此,鉴于篇幅限制,这本电 子书只介绍了其中的一部分。未来深度强化学习的发展必定是理论探索和应用 实践的双链路持续深入。希望这本电子书能抛砖引玉,给工业界和学术界带来 一些输入,共同推进深度强化学习的更大发展。


《阿里巴巴开源AI技术:强化学习在阿里的技术演进与业务创新》

 获取方式:

关注微信公众号 datayx  然后回复  ​强化学习​  即可获取。

AI项目体验地址 https://loveai.tech





目录 

阿里巴巴开源AI技术:强化学习在阿里的技术演进与业务创新_特征工程

阿里巴巴开源AI技术:强化学习在阿里的技术演进与业务创新_强化学习_02

阿里巴巴开源AI技术:强化学习在阿里的技术演进与业务创新_特征工程_03

阿里巴巴开源AI技术:强化学习在阿里的技术演进与业务创新_深度学习_04

阿里巴巴开源AI技术:强化学习在阿里的技术演进与业务创新_特征工程_05

阿里巴巴开源AI技术:强化学习在阿里的技术演进与业务创新_特征工程_06


部分章节样例


阿里巴巴开源AI技术:强化学习在阿里的技术演进与业务创新_特征工程_07




阿里巴巴开源AI技术:强化学习在阿里的技术演进与业务创新_深度学习_08




阿里巴巴开源AI技术:强化学习在阿里的技术演进与业务创新_深度学习_09





不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加:​ datayx  

阿里巴巴开源AI技术:强化学习在阿里的技术演进与业务创新_特征工程_10

长按图片,识别二维码,点关注



机器学习算法资源社群

不断上传电子版PDF资料

技术问题求解

 QQ群号: 333972581