#论文题目：【序列推荐】Decoupled Side Information Fusion for Sequential Recommendation（DIF-SR：用于序列推荐的辅助信息解耦）
#论文地址：https://arxiv.org/pdf/2204.11046.pdf
#论文源码开源地址：https://github.com/AIM-SE/DIF-SR
#论文所属会议：SIGIR 2022
#论文所属单位：香港科技大学

在这里插入图片描述

一、导读

通常的融合辅助信息的序列推荐方法都是将序列中交互对应的辅助信息（如商品的品牌，类别，用户打分等）和交互的商品ID一起融合后，再经过注意力机制进行相关性挖掘。本文作者发现提前融合会影响注意力层的表征能力，因此，作者将注意力机制放在融合之前，然后通过将不同属性的注意力权重进行融合（add，concat，gating），然后再对embedding进行加权。得到序列中各个交互的embedding后，采用最后一次交互的商品embedding和候选商品embedding求用户交互分数。并且在训练阶段约束交互中商品embedding包含辅助信息，具体可见损失函数部分。

二、模型框架

在这里插入图片描述
可以看出，模型分为三部分：编码模块、解耦侧信息融合模块、预测模块。

2.1 问题定义

令 $I$ ， $U$ 分别表示商品和用户集合。用户 $u$ 的历史序列表示为 $S$ _u={ $v$ ₁, $v$ ₂, …, $v$ _n}， $v$ _i表示第 $i$ 个交互的商品，辅助信息包括与商品相关的信息（例如，品牌、类别）和与行为相关的信息（例如，位置、评分）。假设有p种辅助信息，每个交互可以表示为： $v$ _i={ $I$ _i, $f$ _i⁽¹⁾, …, $f$ _p^(p}， $I$ _i表示第i次交互的商品ID， $f$ 为辅助信息。给定交互序列，预测用户最后可能交互的商品。

三、模型详解

3.1 编码模块

对于用户 $u$ 的历史序列 $S$ _u={ $v$ ₁, $v$ ₂, …, $v$ _n}，分别输入到不同的编码层进行编码最终得到item编码 $E$ ^ID和辅助编码 $E$ ^f1, …, $E$ ^fp：
在这里插入图片描述

3.2 解耦边缘信息融合模块

如图2所示，解耦辅助信息融合模块包含顺序组合的DIF注意层和前馈层的若干堆叠块。块结构与SASRec相同，只是我们用多头DIF注意机制代替了原来的多头自我注意。每个DIF块涉及两种类型的输入，即当前item向量表征和辅助信息表征，然后输出更新的项目表征。
让R_i^(ID)表示第i个块的item表示，则可以表示为：
在这里插入图片描述
DIF是论文提出的边缘信息的融合模块，FFN是前馈网络编码层，LN是层标准化操作。
下述三种方法的自注意力模块概述，可以看到，本文提出的DIF注意力模块在计算注意力之前，分别对每个子模块进行注意力分解（与Transformer中方法一致，都是先得到QKV矩阵），之后再进行向量融合。
在下图中的 $F$ 函数中，文中直接说参考NOVA方法，笔者在这进行补充，方便大家理解。这里的F函数可以采用相加（add），拼接（concat）或者加权（gating）
在这里插入图片描述

最后，所有多头注意力的输出被连接并送到前馈神经网络中进行计算。

3.3 AAP预测模块

在上述步骤中，我们借助辅助信息得到了序列信息编码的最终表征 $R$ _L^(ID)，采用 $R$ _L^(ID)的最后一个元素 $R$ _L^(ID) [n]来估计用户与每个商品进行交互的概率。
在这里插入图片描述

在训练期间，对属性（位置信息除外）使用辅助属性预测器（AAP），以进一步激活辅助信息和商品表征之间的交互。与先前使用单独的属性embedding进行预测或仅使用属性进行预训练的解决方案不同，本文将多个预测器直接应用于最终表征，以强制商品表征包含有用的辅助信息。（换句话说，不是每个商品都有自己的各种信息么，各种信息在上文也进行了编码表示，此步骤的目的是将各种信息也计算一个损失函数，来强行进行修正）
在这里插入图片描述
最后采用交叉熵损失函数进行优化