论文笔记-EWA-1介绍

​ 在“经验加权吸引”(EWA)学习中,策略具有反映初始偏好的吸引力,根据回报经验进行更新,并根据某些规则确定选择概率(如logit)。

  1. 一个关键特性是参数 δ \delta δ 这衡量了假设的强化策略的强度,根据他们会产生的回报没被选择的策略,相对于根据收到的回报选择的策略。
  2. 另一个关键特性是两个折扣率, ϕ \phi ϕ ρ \rho ρ,分别打折之前的吸引力和一个经验权重。

EWA包括强化学习和加权虚拟博弈(信念学习),并将它们的关键元素混合。

  1. δ = ρ = 0 \delta=\rho=0 δ=ρ=0 时,累计选择强化结果。
  2. δ = 1 \delta=1 δ=1 ρ = ϕ \rho=\phi ρ=ϕ时,策略的强化程度为与加权虚拟博弈信念给定的预期收益完全相同。

使用三套实验数据的基础上,在部分数据上对模型的参数估计进行了校准,并用于预测保留样本。
δ \delta δ的估计值一般在0.50左右, ϕ \phi ϕ大约0.8-1, ρ \rho ρ在0到 ϕ \phi ϕ之间变化。强化与信念学习特例往往被EWA拒绝。
虽然信念模型在某些常和博弈中做的更好。EWA能够将以前方法的最佳特性结合起来,允许吸引力开始和灵活增长,就像选择强化一样,但是却像基于信念的模型暗含地强化未选择的策略一样。

1 介绍

均衡怎么在非合作博弈中产生。玩家推论他们的方式达成均衡,虽然这是可想象的,心理上更合理的视角是玩家适应和发展了这种均衡。在适应和发展方面的近期研究,大多在探索理论问题,例如平衡状态的类型,尤其发展和适应规则的汇集。我们对基础的经验主义问题更感兴趣:哪个模型最好的描述了人类的行为?这篇论文 里提出一种通用的EWA模型和估计模型参数,使用了三套经验数据。

EWA模型结合了两种看起来不同的方法的元素,并且当作特例包含了他们。
(1)基于信念的模型:起始前提是玩家们记录着之前其他玩家比赛的历史,形成了关于其他玩家 基于过去观察将在未来怎么做的信念。然后他们会倾向于选择最佳响应,一个最大化他们期望的给定他们形成的信念的报酬的策略。
(2)另外一个方法选择了强化学习,假设策略会被以前的奖励加强,倾向于选择一些基于强化的策略。通过强化来学习的玩家们没有关于其他玩家将怎么做的信念。他们只关心策略过去返回的报酬,不关心其他比赛的历史。

信念学习和强化学习被对待为不同的,直到1950年代。直到最近,没有人问是否这两者有关系。但是就像来自一个惊人的共同的源头的两条河流,或者分开成长最后被证明是兄弟的两个孩子,信念学习和强化学习是一个学习模型的两个特殊类型。强化学习主要被心理学家使用,而信念学习主要用在决策和博弈理论上,因此两种方法的共同遗产没有被早早的发现。另外,每种方法使用的信息是非常 不一样的。
(1)信念学习模型不反应过去选择策略的成功。
(2)强化学习模型不反映其他人如何玩的。
EWA方法包含了两种方法作为特例,使用了三种建模特征。
(一)非常重要的特征是策略是如何被加强的。在强化学习中,玩家1选择策略 s 1 j s_1^j s1j,玩家2选择策略 s 2 k s_2^k s2k,玩家1的策略 s 1 j s_1^j s1j根据报酬 π 1 ( s 1 j , s 2 k ) \pi_1(s_1^j, s_2^k) π1(s1j,s2k)强化。未选择的策略不会被强化。在EWA方法中,未选择的策略根据他们将获得的报酬 π 1 ( s 1 h , s 2 k ) \pi_1(s_1^h, s_2^k) π1(s1h,s2k) δ \delta δ 加强。这产生了心理的感觉,因为人类和动物的学习表明人们从很多不同的经验中学习,除了直接强化的。因此,扩展的强化概念将学习从行为主义心理学的束缚中解放出来,转向对人类更具认知性和描述性的学习。
(二)第二个EWA特征控制了吸引力的增长速度。吸引力是与选择策略的概率单调相关的数字。在累积的强化学习模型中吸引力可以一直增长,那就意味着收敛能更快(就此而言选择概率向0和1偏离)。在信念学习中,吸引力是期望收益,它总是受到矩阵收益范围的限制。EWA模型允许增长率通过使用衰减率在两个范围内变化, ϕ \phi ϕ 用于过去的吸引力, ρ \rho ρ 用于经验的数量。
(三)第三个模型特征是初始的吸引力和经验权重。在信念学习中初始的吸引力必须是给定先前信念的期望收益。在强化模型中初始吸引力不受限制。因此,初始吸引力在EWA中也受限制。初始经验权重 N ( 0 ) N(0) N(0)反应了先验信念模型的强度,或者当吸引力更新时滞后吸引力相对于收益的相对权重。

δ = 0 \delta = 0 δ=0 ρ = 0 \rho=0 ρ=0 并且 N ( 0 ) = 1 N(0)=1 N(0)=1,策略的EWA吸引力与强化学习模型相同。 δ = 1 \delta=1 δ=1 ρ = ϕ \rho=\phi ρ=ϕ时(初始吸引力由先前信念而定),策略的吸引力与给定信念的期望收益相同。也就是说,根据每一种策略本该获得(或确实获得)的收益来强化每种策略,在行为上等同于根据观察到的历史形成信念,并计算预期收益。这种等价性之所以成立,是因为回顾过去获得(或将拥有)的策略,与根据他人过去所做的形成信念,然后根据这些向后看的信念计算前瞻性预期收益是一样的。

EWA尝试以有意义的方式混合强化和信念学习方法的适当元素。 我们认为,可以通过参数是否具有清晰的心理解释以及添加参数是否可以改善统计拟合度(当然,为增加自由度进行调整)和预测准确性来判断。 为了测试EWA的经验效用,我们从三个数据集中得出了最大似然参数估计。 数据集涉及广泛的博弈:具有独特混合策略平衡的常数和博弈; 具有多个帕累托等级均衡的协调游戏; 以及具有独占优势的可解平衡的“美人竞赛”。 一些经验研究评估了信念和强化模型,但大多数没有直接将它们与统计检验进行比较。 由于EWA是一种泛化,当参数具有某些值时,它会简化为信念和强化学习,因此很容易将它们与EWA以及彼此进行比较。

在下一部分中,将定义EWA方法,并且我们将展示一般的选择强化和基于适应性信念的方法是特殊情况。 第三部分提供了模型参数的解释,并讨论了它们如何与人类学习原理相关联。 第四部分描述了以前的发现,并显示了我们的经验实施比以前的工作更进一步。 第五部分报告来自几个数据集的参数估计。 最后一部分总结并提到了一些未来的研究方向。

猜你喜欢

转载自blog.csdn.net/sdlypyzq/article/details/108192932