作者:刘鹏
单位:腾讯
TLDR: 针对已有研究存在的约束过强、模型不与真实环境交互以及探索效率低等问题,本文提出了一种将强化学习与探索策略融为一体的多任务融合方案IntegratedRL-MTF。该方法通过对过强的约束进行简化和放松,显著提升了模型性能,已经全量上线。
论文:arxiv.org/pdf/2404.17589
0. 摘要
为了最大化一个推荐会话中的累积收益,强化学习被用于多任务融合建模。但是,已有的相关研究存在: 1) 为避免分布外问题,模型的约束过强,严重影响了性能;2) 探索和训练是两个独立的过程,并且模型不与真实环境交互;3) 业界常用探索策略低效并且损害用户体验等问题。针对上述问题,本文提出了一种称为IntegratedRL-MTF的解决方案。IntegratedRL-MTF通过将RL模型和我们设计的探索策略融为一体,对过强的约束进行简化和放松,显著提升了模型性能。此外,我们设计的探索策略极为高效,能够更快的对预定高价值空间进行充分探索。最后,在高效探索策略的基础上,我们采用渐进式训练模式,通过多次线上探索和离线训练进一步增强模型性能。离线和线上实验表明,IntegratedRL-MTF与已有方案相比,取得了显著的提升效果。其中,在我们场景,IntegratedRL-MTF将人均有效消费指标提升了+4.84%,人均时长指标提升了+1.74%。当前,IntegratedRL-MTF已经被部署于多个腾讯的大规模推荐系统并且取得了显著收益。
1. 研究动机
当前,推荐系统(Recommender System, RS)在短视频、电商和社交等平台被广泛应用。在RS中,多任务融合(Multi-Task Fusion, MTF)负责将多任务学习模型(Multi-Task Learning, MTL)生成的多个预估分融合为一个最终分,决定了推荐效果。到目前为止,MTF经历了4个发展阶段,包括网格搜参、贝叶斯搜参、进化策略(Evolution Strategy, ES)和强化学习(Reinforcement Learning, RL)。其中,网格搜参和贝叶斯搜参为不同用户生成相同的融合权重,忽略了个性化并且效率较低,已经很少在大规模RS中应用。ES通过将用户特征作为模型输入,输出个性化的融合权重。但是,ES由于模型训练模式只能支持较小的参数量级,限制了模型性能。此外,上述MTF方案只能对本次推荐的奖励建模,忽略了长程收益。
在RS中,本次推荐对后续推荐有明显影响,特别是在一个推荐会话中。一个推荐会话被定义为从用户开始访问RS到离开的整个过程,包括一个或多个连续的请求,如图1所示。因此,为了最大化一个推荐会话中的累积收益,业界近年来将RL用于MTF建模。与ES相比,RL具有支持对长程收益建模、模型能力更强和样本利用率高等优点。但是,已有的off-policy RL-MTF存在以下几个严重问题:
- 为避免分布外 (Out-of-distribution, OOD) 问题,RL算法的约束过强,严重影响了模型性能。
- 线上探索和离线训练是两个独立的过程,RL模型不知道线上探索策略并且不再与真实环境(用户)交互。
- 已有的线上探索策略效率不高,并且过度的探索行为伤害了用户体验。
因此,为解决上述问题,我们针对大规模RS中MTF的特点,提出了一种量身定制的RL-MTF解决方案。(备注:以下介绍较为简单,如有兴趣,请参考原文)
2. 解决方案:IntegratedRL-MTF
2.1 问题定义
我们将RS中多任务融合问题,建模为在一个推荐会话中的马尔可夫决策过程(Markov Decision Process, MDP)。在一个MDP过程中,RS (agent) 与用户 (environment)持续交互,并且依次做出推荐决策,以最大化整个会话中的累积收益,如图1所示。
2.2 奖励函数定义
为了评估本次推荐的收益,我们根据用户的多种反馈行为进行评估,定义如公式2所示。
2.3 探索策略
我们通过对多次RL迭代中,base policy与target policy在同一state下action的分布进行分析发现,target policy通常不会明显偏离base policy,这也与我们的直觉相符,如图2所示。因此,我们设计了一种基于上界和下界的个性化探索策略,重点对高价值的空间进行探索,舍弃低价值的空间,以有效提升探索效率,如公式3所示。探索策略的上下界基于之前数据的统计分析和本次需求进行设定。在相同的探索密度要求下,与我们之前使用的基于高斯扰动的探索策略相比,基于上下界的个性化探索策略可以实现倍以上的探索效率提升,如图3所示。此外,我们采用的渐进式训练模式,包括多轮线上探索和离线训练,也增大了探索策略的探索空间。
2.4 Actor
Actor通过将模型与探索策略融为一体,在模型训练时,可以直接得到个性化探索数据分布的上界和下界,从而可以放松过强的约束,显著提升模型性能。此外,为了缓解可能存在的探索不均衡问题,增加了一个基于ensumble critics的一致性惩罚项。由于我们设计的探索策略与传统探索策略相比,具有极高的探索效率,因此,这个惩罚项可以使用很小的权重甚至忽略。
2.5 Critic
我们定义了多个critic,分别进行独立的随机初始化和训练。Critic模型也融合了探索策略,训练如公式6所示。此外,为了进一步提升效果,我们为每个critic定义了一个target critic。
2.6 渐进式训练模式(Progressive Training Mode, PTM)
Off-policy RL的一个严重缺陷是线上探索和模型训练是两个独立的过程。在模型训练时仅依赖之前收集的数据,不再与环境交互。这对Off-policy RL模型的训练效果有严重影响。因此,为了缓解这个问题,我们基于高效的探索策略,采用了渐进式训练模式,通过多轮线上探索和离线训练的迭代,使target policy快速收敛到真实的optimal policy。
2.7 RL-MTF的实现与部署
RL-MTF在我们推荐系统的实现与部署,如图4所示。
3. 实验部分
3.1 离线实验
我们的方案与业界相关方案进行了离线对比。与业界常用的评估方法不同,我们提出了一种用于评估最终分排序效果的指标weighted GAUC,更为简单和有效。各方案的离线指标,如表1所示。通过离线指标可以发现我们的方案显著优于已有相关方案。
3.2 线上实验
我们将不同模型部署到推荐系统中,进行线上A/B实验,结果如表2所示。线上实验结果表明,我们模型将有效消费指标提升:+4.64%,人均时长指标提升:+1.74%,显著高于已有各方案。
4. 总结
本文指出了已有RL-MTF相关研究存在的问题,并且提出了一种新的解决方案IntegratedRL-MTF。我们方案的创新之处在于针对RS的特点将off-policy RL与探索策略融为一体,在模型训练时可以直接获取探索分布的上下界,从而显著提升了模型能力。针对已有探索策略存在的低效和损伤用户体验问题,我们设计了一种极为高效的探索策略。此外,针对off-policy RL训练仅依赖之前收集数据的问题,我们提出了渐进式训练模式,通过多次线上探索和离线训练进一步增强了模型性能。离线和线上实验表明,我们的方案与业界相关方案相比,取得了显著提升。当前,我们的方案已经全量部署于多个腾讯的大规模推荐系统。我们欢迎与业界专业人员交流和探讨RL-MTF相关研究。
智能推荐 个性化推荐技术与产品社区 | 长按并识别关注 |