论文一、多域构建为一个整体graph

基于Hadoop的电影推荐算法用户特征抽取 基于hadoop的推荐系统论文_论文阅读

论文标题:HeroGRAPH: A Heterogeneous Graph Framework for Multi-Target Cross-Domain Recommendation;

发布刊物:ResSys 2020;

论文下载链接http://ceur-ws.org/Vol-2715/paper6.pdf

代码链接GitHub - cuiqiang1990/HeroGRAPH: Code for my ORSUM, ACM RecSys 2020, HeroGRAPH: A Heterogeneous Graph Framework for Multi-Target Cross-Domain Recommendation

思路:现有跨域推荐系统多为 single-traget 或者 dual-traget cross-domain recommendation,前者主要致力于从源域提取信息辅助目标域的学习,后者同时利用源域和目标域的信息来提升两个域的推荐性能。但是实际生活中,更常见的是大于等于3个域的多域multi-traget系统。

如果直接将dual-traget的模型应用于multi-target任务,度量n个域两两之间的关系,会产生

基于Hadoop的电影推荐算法用户特征抽取 基于hadoop的推荐系统论文_学习_02

个对应关系,提高了复杂性。所以需要直接的multi-target的模型。模型结构:本文通过将多域的user和item构建为一个整体的Heterogeneous graph,实现对不同域的学习。模型结构如下图1所示。对每一个域,首先用

基于Hadoop的电影推荐算法用户特征抽取 基于hadoop的推荐系统论文_数据挖掘_03

提取各自user和item的within-domain信息。然后如下图最下面一行所示,将所有域的user和item构建为一个异构图(有一个疑问,相同user在异构图中为同一个node,那么对于不完全相同但是近似的item,如何处理呢?是分别作为node,还是相似的item合并为一个node?如何合并?)。借助于GraphSAGE和attention机制(简写为下图Embedding Layer的函数

基于Hadoop的电影推荐算法用户特征抽取 基于hadoop的推荐系统论文_异构_04

),提取cross-domain的user和item特征,学习该异构图中每一个节点的embedding。

基于Hadoop的电影推荐算法用户特征抽取 基于hadoop的推荐系统论文_论文阅读_05

 最后,得到所有user和item的表征为:

基于Hadoop的电影推荐算法用户特征抽取 基于hadoop的推荐系统论文_学习_06

 通过对每个域中positive的user-item关系和negative的user-item关系做处理,得到每个域的loss(公式6,7),然后对所有loss求和得到本文模型的总loss,如下面的公式所示。

基于Hadoop的电影推荐算法用户特征抽取 基于hadoop的推荐系统论文_神经网络_07

实验及分析:通过对不同任务下数据稀疏性的分析(稀疏性高低对应graph中存在多少user-item边),发现越是稀疏的数据上本文的模型效果越好。

总结及展望:本文最后提出了多个针对本文模型可以进行改进的点:

  • 采用其他统一的整体shared结构将所有域信息联系到一起,如knowledge graph;
  • 在所构建的graph中增加user proflie,item attribute等额外信息来辅助node embedding;
  • 在每一个域中,可以给不同user-item赋予不同的权重;
  • 在graph中,可以为同一个user的不同边赋予不同权重);
  • 在整合每个域的loss时,可以给每一项loss赋予不同的权重;
  • 同调不确定性Homoscedastic uncertainty可能是研究权重的一个好策略,它可以在训练中自动更新。

论文二、分别学习双域特征,合并其中重叠部分

基于Hadoop的电影推荐算法用户特征抽取 基于hadoop的推荐系统论文_学习_08

论文标题: A Graphical and Attentional Framework for Dual-Target Cross-Domain Recommendation;

发表刊物:IJCAI 2020;

论文下载地址A Graphical and Attentional Framework for Dual-Target Cross-Domain Recommendation | IJCAI

代码下载地址https://github.com/FengZhu-Joey/GA-DTCDR

思路:现有的跨域推荐可以分为两种:

  • single-traget Cross-Domain Recommendation问题致力于从richer domain中提取信息辅助sparser domian中的推荐准确率。
  • dual-traget CDR问题致力于联合从richer domain和sparser domain中提取信息,同时提升这两个域中的推荐准确率。

一种直接的dual-traget CDR方法是将single-traget CDR的方法反过来做一遍,分别从richer -> sparser和sparser -> richer中提取信息,来辅助两个域的推荐。但是这种方法会带来negative transfer,因为sparser domain中学到的信息可能是不准确的,就会对richer domain中的推荐产生负面影响,甚至降低其推荐准确率。因此需要专门设计dual-target的方法。

针对dual-traget CDR问题,关键点在于:

  1. 如何从每一个域中学习和提取user和item的embedding?
  2. 如何优化每个域中所学emb使得两个域的推荐性能都有提升?

本文针对上述两个关键点构建dual-target CDR模型。

模型结构:

基于Hadoop的电影推荐算法用户特征抽取 基于hadoop的推荐系统论文_论文阅读_09

 如上图所示,本文模型一共有5个部分:

  1. 输入层:针对每一个域,都考虑explicit信息(ratings,comments)和side信息(user profiles,item details),分别被称之为rating info和content info。
  2. 图编码层:针对每一个域,利用其中rating和content info构建一个异构图,其中有user-item交互边,user-user相似性边,item-item相似性边。然后采用图编码模型,比如Node2vec学习异构图中的user和item节点的embeddings,分别记为U和V。
  3. 特征合并层:本文提出一个element-wise的注意力机制来合并两个域中common user的emb,利用上一层两个异构图学到的user node emb。
  4. 神经网络层:采用全连接层来学习每个域中user和item的非线性关系。
  5. 输出层:对user-item交互行为进行预测。

具体而言,本文的第2层图编码层,包含以下几个步骤:

  • 针对每一个user或者item,将其所有信息都整合成一个document,包括reviews, tags, user profiles, item details等,然后使用doc2vec模型得到document emb。这样就得到了每一个user和item的document emb:UC和VC。
  • 针对每一个域中的异构图的构建,user-item边来自数据集中的交互信息。而user-user和item-item边都是通过相似性计算的。如下公式1,利用上一步学到的document emb,计算每两个user或者两个item之间的normalized余弦相似度,再乘上一个超参数,得到这两个user或者两个item之间存在边的概率:

基于Hadoop的电影推荐算法用户特征抽取 基于hadoop的推荐系统论文_异构_10

总结及展望:

本文虽然是针对不同域的推荐,但是模型同样可以适用于cross-system recommendation,只需要将本文的不同domain变为不同的system,不同域中重叠的user变为不同system中重叠的item。

未来本文方法还可以扩展到multi-traget recommendation,或者其他新的推荐系统数据集,来研究数据稀疏性和common user数目对推荐性能的影响。

更多论文阅读,有待更新。。。。。。