多模态信息用于推荐系统问题(PMGT,MM-Rec,MGAT,TransRec)

博主继续更推荐系统的各个话题的文章,往期文章传送门:


在这里插入图片描述
Pre-training Graph Transformer with Multimodal Side Information for Recommendation
来自MM21,这篇工作结合预训练融合side Information来做推荐,框架如上,主要提出了一个在同质物品图上的预训练模型 PMGT (Pre-trained Multimodal Graph Transformer)。

  • 同质物品图的构建。由物品的共同购买次数来构建物品之间的同质图,且物品共现次数应超过某个阈值时才会被连边。
  • MCNSampling采样。为每个物品采样出相关的邻居节点序列如图a 。
  • 节点表征。每个节点由三部分组成,分别是多模态信息、位置表示以及是否为目标节点的表示 ,如图 b 。其中会将多模态的表示先映射到同一个向量空间,然后再使用注意力机制进行融合。
  • 预训练任务。主要有两个,第一个是图结构重建任务,即节点链接预测;第二个是 mask 节点的特征恢复任务,使用经过 Transformer 网络的表示来恢复 mask 节点的多模态特征。

https://dl.acm.org/doi/10.1145/3474085.3475709


在这里插入图片描述
MM-Rec: Multimodal News Recommendation
多模态新闻推荐,即融合新闻的文本和视觉信息来学习多模态新闻表示。模型图如上,

  • 多模态编码器。如图左侧,首先通过Mask-RCNN)从新闻的图像中提取ROI,然后使用预先训练好的 ViLBERT对新闻文本和新闻图像 ROI 进行编码。最后会再使用 co-attention 网络对其内在关系进行建模。
  • 历史序列建模。提出了跨模态候选注意网络,计算了候选新闻与历史新闻之间的跨模态关联,以更好的建模。

https://arxiv.org/abs/2104.07407


在这里插入图片描述
MGAT: Multimodal Graph Attention Network for Recommendation
多模态交互图+ GNN来捕获用户对不同模态的偏好。MGAT (Multimodal Graph Attention Network)的模型结构如上图,分为两条通道,首先信息会在不同模态的交互图上进行信息传播,再同时利用门控注意机制捕捉用户对不同模态的喜好。

  • 嵌入层。会初始化用户/物品的表示 ,用户/物品在模态上的偏好。
  • 单模态交互图。执行消息传递机制以捕获用户对各个模态的偏好;
  • 跨多模态交互图。门控注意力利用与其他模态的相关性来学习每个邻居的权重;
  • 预测层。预测交互的可能性,使用 BPR loss 来优化。

https://www.sciencedirect.com/science/article/abs/pii/S0306457320300182?via%3Dihub


在这里插入图片描述
TransRec: Learning Transferable Recommendation from Mixture-of-Modality Feedback
这篇文章研究基于混合模态反馈的可迁移推荐系统。文章的motivation在于,推荐系统算法过度依赖用户ID与物品ID信息,但ID的不可共享性使其无法拥抱NLP和CV届的成果,从而形成了天花板。而在实际的推荐系统中,推荐的物品可以是各种新闻、图片或视频(如上图的source domain的来源可以是任何信息),因此基于混合模态反馈的推荐模型是实现可迁移和通用推荐的重要途径,并且可以迁移到属于任何源领域模态组合的目标域(如上图target domain可以是单模态,也可以是多模态)。

为了构建推荐系统的通用模型(general-purpose recommender systems,gpRS),这篇文章基于模态内容进行推荐而不是ID信息来表示。作者认为只有通过对模态特征进行建模,推荐模型才有可能在更广泛的意义上实现,即从ID回归到内容。

模型结构如下,基于双塔框架的直接替换,即把ID变为内容特征,就能实现很好的通用性和可迁移性。
在这里插入图片描述
具体来说,左侧是user encoder,由user的物品交互序列进入Bert获得用户的embedding。右侧是item encoder,通过模态编码器(如BERT和ResNet)获得item embedding,其中视觉信息用视频的首页图,文本则使用新闻的标题。最后通过计算用户和物品的相似度即可。

此外TransRec采用两个阶段的预训练策略,第一阶段针对user encoder,用next item预测进行单向Bert预训练。第二阶段针对双塔结构,采用Contrastive Predictive Coding(CPC) 来预测用户行为序列,即将序列划分为两个子序列来编码和预测它们之间的关系。

paper:https://arxiv.org/pdf/2206.06190.pdf

猜你喜欢

转载自blog.csdn.net/qq_39388410/article/details/126574729