《Beyond the Click-Through Rate: Web Link Selection with Multi-level Feedback》论文笔记

Beyond the Click-Through Rate: Web Link Selection with Multi-level Feedback


一、摘要

网络链接选择问题是从一个大的网络链接池中选择一个小的网络链接子集,并将所选的链接放在一个只能容纳有限数量链接的网页上,例如广告、推荐或新闻源。尽管长期以来人们关注的点击率反映了链接本身的吸引力,但收入只能从用户点击后的行为中获得,例如,通过推荐链接被引导到产品页面后的购买。因此,网络链接具有固有的多级反馈结构。根据这一观察,我们考虑了上下文无关的网页链接选择问题,其目标是在确保吸引力不低于预设阈值的情况下实现收入最大化。问题的关键在于,每个环节的多层次反馈都是随机的,除非选择了某个环节,否则是不可观测的。我们用约束随机多臂老虎机模型对该问题进行建模,并设计了一种高效的链路选择算法,称为约束上置信限算法( C o n − U C B Con-UCB ConUCB)。我们证明了对于吸引力约束的后悔和违背的界限为 O ( T ln ⁡ T ) O(\sqrt{T \ln T}) O(TlnT )。我们还在三个真实的数据集上进行了广泛的实验,并表明 C o n − U C B Con-UCB ConUCB执行了关于多级反馈结构的最SOTA的上下文无关盗匪算法。


二、Introduction

  随着互联网的快速发展,网页链接在网站和移动应用程序中扮演着重要的角色,吸引用户和产生收入。例如,亚马逊(Amazon)和淘宝(Taobao)等电子商务网站在购物页面上展示推荐链接,以吸引更多的购买。Facebook、谷歌+等在线社交网络不断向用户推送热门话题链接和好友更新信息,提高用户参与度。HBO和爱奇艺等网络媒体在其主页上提供热门电视节目和电影的链接,以吸引更多订户。
  由于网页上的兴趣空间有限,当用户浏览网页时,只能显示有限数量的链接。这就提出了网页链接选择的问题,也就是说,如何正确地从一个网页的大链接池中选择一小部分链接。具体来说,显示所选链接的网页称为目标页面。如果单击,每个链接都将用户导向后续页面。这意味着网络链接为网络操作员提供了多层次的反馈。**第一级反馈是指用户点击链接的可能性,也称为目标页面的点击率(CTR)。**通过跟踪用户点击链接后的行为,例如购买或订阅,我们可以确定在相关的后续页面上收集的收入,这将提供第二级反馈。由于购买或订阅只能在点击后进行,所以复合反馈是第一级反馈和第二级反馈的产物。直觉上,第一级反馈(CTR)表明目标页面上的链接的吸引力,而第二级反馈表明可以从后续页面收集的潜在收入。复合反馈揭示了一个网络链接可以带来的复合收入。
  有很多关于网络链接的点击率的研究,例如,[Langheinrichet al., 1999;Lohtiaet al ., 2003]。另一方面,点击后发生的事情也值得关注,因为它能产生收入。例如,每用户获取成本(CPA)被认为是广告商购买在线广告的最佳方式[Spooner, 2014]。网站或应用程序的吸引力和盈利能力都是重要的衡量标准[Kohaviet al., 2014],因为它们分别代表了长期和短期利益。这促使我们超越点击率,在选择链接时同时追求吸引力和盈利能力。
  在这项工作中,我们考虑的问题是从一个大的池中选择有限数量的链接为目标页面,以使总复合收入最大化,同时保持总吸引力高于一定的阈值。对吸引力(CTR)的限制也被用于在线广告[Kumar, 2015;Mookerjeeet al ., 2016]。此外,我们还考虑到上下文信息,如用户偏好,并不总是可用的事实,如隐身访问[Aggarwalet al., 2010],冷启动[Elahi et al., 2016],或cookie阻塞[Menget al., 2016]。因此,我们不假设任何预先的上下文信息。我们把我们的问题称为无上下文网络链接选择问题。
  我们的链接选择问题是具有挑战性的。首先,链接的吸引力和盈利性可能是相互冲突的目标,如[Caiet al., 2017]所示。因此,虽然选择高点击率的链接满足了吸引力约束,但这并不一定保证目标页面会有较高的总复合收益,反之亦然。使问题更加复杂的是,多层次的反馈,即每个链接的点击率(第一级反馈)和潜在收益(第二级反馈),是随机的和不可观察的,除非一个链接被选中并显示在目标页面上。
  我们将问题表述为具有多级奖励的约束随机多玩家多武装强盗问题。具体来说,系统中有多个分支。每个手臂代表池中的一个链接。其一级奖励、二级奖励和复合奖励分别对应于该链接的一级反馈(CTR)、二级反馈(潜在收益)和复合反馈(复合收益)。目标是在每个时间步骤中选择有限数量的链接,以最小化累积遗憾以及累积违反约束的情况。我们设计了一种约束强盗算法,即约束上置信界算法 ( C o n − U C B ) (Con-UCB) (ConUCB),同时实现了子线性后悔界和违规界。
  我们的主要贡献如下。(i)我们将链接选择问题表述为具有随机多层次奖励的约束强盗问题(第3节)。
(ii)我们提出了con - ucbalgalgorithm(第4节),并证明con - ucb保证了小后悔和违反边界的高概率,即对于任何给定的失败概率δ∈(0,1),遗憾跟违背都被时间T界限,即 O ( T ln ⁡ T δ ) O\left(\sqrt{T \ln \frac{T}{\delta}}\right) O(TlnδT )
(iii)我们在三个真实的数据集上进行了大量的实验。我们的结果表明,con - ucb表现超过了三种最先进的上下文无关强盗算法,CUCB [Chenet al., 2013], EXP3。M [Uchiyaet al., 2010]和LEXP[Caiet al., 2017]的约束链路选择问题(第6节)。


三、Related Work

  链接选择,或者说网站优化,一直以来都是一个重要的问题。解决这个问题的一种常见方法是A/B测试[Xuet al., 2015;Denget al., 2017],将流量分成两个不同设计的网页,并评估它们的表现。然而,当web链接池较大时,A/B测试的开销可能会很高,因为它需要比较不同的链接组合。此外,A/B测试没有任何损失/遗憾保证。另一种方法是将链接选择问题建模为上下文多武装强盗问题[Liet al., 2010],并引入协同过滤方法[breresleret al., 2016;Liet al ., 2016)。然而,这些情境强盗公式忽略了多层次的反馈结构,没有考虑任何约束。
  很多研究从理论和实证两方面研究了每轮选择多臂的多局多臂强盗问题,并设计了许多政策[Uchiyaet al., 2010;Chenet al., 2013;Komiyamaet, 2015;Lagreeet al ., 2016)。我们的受限多人游戏强盗模型与前面提到的模型不同,因为我们考虑在选择多个手臂时满足总一级奖励的约束,这对网页链接选择很重要。
  最近,《有预算的土匪》[Dinget al., 2013;Wuet, 2015;夏等人,2016]和背包强盗[Badanidiyuruet al., 2013;Agrawal和Devanur, 2014]引起了很多研究关注。在这些问题中,拉动一只手臂需要一定的资源,而每种资源都有一个预算。因此,在分析上述两种公式的遗憾时,隐含地考虑了资源成本,因为在资源耗尽时,武器选择过程就停止了。相比之下,由于我们模型中的约束是对平均性能的要求,所以我们的手臂选择过程可以持续任意长度的时间,我们需要在这个过程中考虑约束的后悔和违反。因此,虽然我们的工作建立在[Badanidiyuruet al., 2013]和[Agrawal and Devanur, 2014]的结果之上,但问题是不同的,我们研究的是多人游戏案例而不是单人游戏案例。此外,我们对真实世界的数据集进行了实验,这些数据集在他们的工作中没有包含。另一方面,[Locatelliet al., 2016]中的阈值强盗问题是在固定的时间范围内通过纯粹的探索找到手段超过给定阈值的一组武器,这与我们的模型不同。
  我们的工作与最近的工作最接近[Cai at al., 2017]。他们认为第二级奖励是对抗性的。然而,据观察,实际情况可能并非如此[Pivazyan, 2004],当用户数量很大时,用户行为很可能遵循某些统计规则。我们研究随机情况。最重要的是,我们的算法以高概率而非预期的方式保证了性能,并且后悔边界和违规边界从其算法(LEXP)中的 O ( T 2 3 ) O\left(T^{\frac{2}{3}}\right) O(T32) O ( T 5 6 ) O\left(T^{\frac{5}{6}}\right) O(T65)显著改进为算法(Con-UCB)中的两个 O ( T ln ⁡ T ) O(\sqrt{T \ln T}) O(TlnT )


四、Model

  考虑两级反馈上下文无关的web链接选择问题,其中需要从具有 K K K个链接的web链接池中选择 L L L个web links, { l 1 , … , l K } , L ≤ K \left\{l_{1}, \ldots, l_{K}\right\}, L \leq K { l1,,lK},LK,显示在目标页面上。每个链接都将用户导向随后的页面。如果目标页面显示 l i l_i li,则在用户浏览页面时得到如下反馈:
  1.点击率(CTR),即用户通过点击页面 l i l_i li访问相应后续页面的概率;
  2.点击后收入,即从每个用户点击 l i l_i li并随后在相应页面购买产品(或订阅节目)的收入。
在实践中,点击率和后点击收益是随机的,我们不假设任何关于它们的分布或预期的先验知识。点击率和点击后收入的乘积就是复合收入(例如,如果 l i l_i li显示在目标页面,它带来的收入)。选链问题的目标是使被选择链接 L L L个的总复合收益最大化,限制条件是这些被选链的总点击率不小于网络运营商根据业务需求确定的预置阈值 h > 0 h>0 h>0。例如,在在线广告中,对点击率的约束通常是在发布者(网络运营商)和广告公司之间的合同中指定的[Kumar, 2015;Mookerjeeet al ., 2016)
  为了解决链路选择问题,我们将其描述为一个具有多个策略的约束随机多武装强盗问题,其中每个武装都有一个两级奖励结构。在这个规定中,每个时间步骤是一个短的持续时间,每个臂对应一个特定的web链接。因此,臂组可以写成 K = { 1 , … , K } \mathcal{K}=\{1, \ldots, K\} K={ 1,,K}。每个 a r m i arm i armi与两个随机变量序列相关联, { a i t } t = 1 T \left\{a_{i}^{t}\right\}_{t=1}^{T} { ait}t=1T { b i t } t = 1 T \left\{b_{i}^{t}\right\}_{t=1}^{T} { bit}t=1T,其中 a i t {a_{i}^{t}} ait表示第 i i i个手臂的第一层反馈CTR, b i t {b_{i}^{t}} bit表示第 i i i个手臂的第二层反馈点击后收入。
a i t {a_{i}^{t}} ait b i t {b_{i}^{t}} bit的期望表示为: a i = E [ a i t ] a_{i}=\mathbb{E}\left[a_{i}^{t}\right] ai=E[ait] b i = E [ b i t ] , i ∈ K b_{i}=\mathbb{E}\left[b_{i}^{t}\right], i \in \mathcal{K} bi=E[bit],iK
因此,复合奖励可以表示为: g i t = a i t b i t {g_{i}^{t}}={a_{i}^{t}}{b_{i}^{t}} git=aitbit
期望表示为: g i = E [ g i t ] = a i b i {g_{i}}=\mathbb{E}\left[g_{i}^{t}\right]=a_{i}{b_{i}} gi=E[git]=aibi

优化问题表示为:
x ∗ = arg ⁡ max ⁡ x ⊤ a ≥ h x ⊤ g \boldsymbol{x}^{*}=\underset{\boldsymbol{x}^{\top} \boldsymbol{a} \geq h}{\arg \max } \boldsymbol{x}^{\boldsymbol{\top}} \boldsymbol{g} x=xahargmaxxg

遗憾表示为:
Reg ⁡ π ( T ) = T x ∗ ⊤ g − ∑ t = 1 T ∑ i ∈ I t ( π ) g i t \operatorname{Reg}_{\pi}(T)=T \boldsymbol{x}^{* \top} \boldsymbol{g}-\sum_{t=1}^{T} \sum_{i \in \mathcal{I}_{t}(\pi)} g_{i}^{t} Regπ(T)=Txgt=1TiIt(π)git

违背表示为:
Vio ⁡ π ( T ) = [ h T − ∑ t = 1 T ∑ i ∈ I t ( π ) a i t ] + \operatorname{Vio}_{\pi}(T)=\left[h T-\sum_{t=1}^{T} \sum_{i \in \mathcal{I}_{t}(\pi)} a_{i}^{t}\right]_{+} Vioπ(T)=hTt=1TiIt(π)ait+

其中, [ x ] + = max ⁡ ( x , 0 ) [x]_{+}=\max (x, 0) [x]+=max(x,0)


五、Algorithm

总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

猜你喜欢

转载自blog.csdn.net/weixin_45662974/article/details/120883923