最优停止问题 简单综述 2005年

MONTE CARLO ALGORITHMS FOR OPTIMAL STOPPING AND STATISTICAL LEARNING

DANIEL EGLOFF

Annals of Applied Probability, 2004, 15(2):1396-1432.

 

只是截取里面的综述部分,算法内容看不懂。。。

 

摘要: 我们扩展了Longsta-Schwartz算法,用于近似求解高维状态空间上的最优停止问题。 我们将离散时间马尔可夫过程的最优停止问题重新表述为广义统计学习问题。 在这种设置中,我们将偏差不等式应用于经验过程的上限,以得出一致性标准,并估计收敛速度和样本复杂度。 我们的结果加强并扩展了Clement,Lamberton和Protter(2002)获得的早期结果。

1.引言

无套利定价问题美国期权重新引起了人们对数值解决高维最优停止问题的方法的兴趣。在本文中,我们通过将其重新定义为广义统计学习问题来解释如何求解离散时间,有限时间最优停止问题。我们统一处理Longsta -Schwartz和Tsitsiklis-Van Roy算法。它们使用蒙特卡罗模拟和线性参数化近似空间。我们引入了一类新的算法,它们在Longsta -Schwartz和Tsitsiklis-Van Roy算法之间进行插值,并放宽了近似空间的线性假设。

从统计和机器学习的标准设置中学习最佳停止规则,因为它需要一系列学习任务,每个时间步一个,从终端视野开始并向后进行。各个学习任务通过动态编程原理连接起来。在每个时间步,结果取决于先前学习任务的结果。将后续学习任务连接到递归的学习问题序列会导致错误传播。我们通过使用Lipschitz属性和依赖于近似空间的凸性的合适的误差分解来控制误差传播。最后,我们用经验过程的上限估计样本误差和指数尾界。要应用这些技术,我们需要计算某些函数类的包含数。对于覆盖数存在良好估计的一类重要函数类是所谓的Vapnik-Chervonenkis(VC)类,参见Van der Vaart和Wellner(1996)或Anthony和Bartlett(1999)。我们证明在由VC类函数参数化的马尔可夫停止时间评估的payo函数也是VC类。然后,Haussler(1995)的覆盖数估计给出了所需的界限。我们的方法在概念上与Clement等人不同。 (2002),它纯粹适用于具有线性近似的经典Longsta-Schwartz算法。通过利用VC类的凸性和基本性质,我们可以证明收敛并在较少限制条件下导出误差估计,即使近似空间的维数和样本数量趋于无穷大也是如此。

此篇文章的结构如下。下一个部分,背景,讨论了最佳停止问题的数值技术的最新发展,并总结了我们在这项工作中使用的概率工具。第3节回顾了离散时间最佳停止问题。第4节展示了如何将最优停止重新处理为统计学习问题,并介绍了动态前瞻算法。在第5节中,我们陈述并评论了我们的主要结果:收敛的一般一致性结果,总体误差的估计,收敛速度和样本复杂度。工作的重点在于估计样本误差。证明推迟到第6节,我们还介绍了Vapnik-Chervonenkis理论的必要工具。

2.背景

最佳停止问题自然地出现在游戏的背景下,其中玩家想要确定何时停止玩一系列游戏以最大化其预期的财富。第一个系统的最优停止理论出现在Wald和Wolfowitz(1948)的序贯概率比检验中。 Chow,Robbins和Siegmund(1971)以及Shiryayev(1978)的专着提供了对最优停止理论的广泛处理。

美国期权在最优止损问题上的一般无套利估值始于Bensoussan(1984)和Karatzas(1988)。如今,美式期权估值是最优停止理论的重要应用。有关美国选择和相关最优停止问题的财务方面的更多背景,我们参考Karatzas和Shreve(1998)。


2.1 解决最优停止问题的算法。最佳停止问题通常不能以封闭形式解决。因此,已经开发了几种数值技术。 Barone-Adesi和Whaley(1987)提出了半解析近似。 Cox,Ross和Rubinstein(1979)的二叉树算法直接实现了动态规划原理。其他方法包括马尔可夫链近似,参见Kushner(1997),直接积分方程和PDE方法。 PDE方法基于变量不等式,在Bensoussan和Lion(1982)或Jaillet,Lamberton和Lapeyre(1990)中发展,线性互补问题,见Huang和Pang(1998),或自由边值问题,见Van Moerbeke (1976年)。但是,维度诅咒禁止任何这些方法的可行性。对于这些算法,计算成本和存储需求随着底层状态空间的维度呈指数增长。

为了解决这个限制,已经提出了新的蒙特卡罗算法。这方面的第一个标志性论文是Boessarts(1989),Tilley(1993),以及Broadie和Glasserman(1997)。 Longsta和Schwartz(2001)引入了一种新的离散时间百慕大期权算法。它结合了蒙特卡罗模拟和多变量函数逼近。他们展示了如何通过嵌套的最小二乘回归问题序列在算法上解决最优停止问题,并简要概述了收敛证明。 Tsitsiklis和Van Roy(1999)在时间差分学习的基础上独立提出了一种替代参数近似算法。他们的方法依赖于收缩图的固定点的随机近似。它们通过使用Kushner和Clark(1978),Benveniste,Metiver和Priouret(1990),或Kushner和Yin(1997)中开发的随机近似技术证明了几乎可靠的收敛性。 Longsta-Schwartz以及Tsitsiklis-Van Roy算法近似于值函数或早期运动规则,因此提供了真实最佳停止值的下限。 Rogers(2002)提出了一种基于双重问题的方法,该方法产生上限。概述论文Broadie和Glasserman(1998)描述了截至1998年的蒙特卡罗算法的最佳停止问题的发展状况。最近的参考文献是Glasserman(2004)的书。在Laprise,Su,Wu,Fu和Madan(2001)中可以找到用于最佳停止的各种蒙特卡罗算法的比较研究。

尽管Tsitsiklis和Van Roy(1999),Longsta和Schwartz(2001)以及Rogers(2002)的贡献,蒙特卡罗算法的最佳停止的许多方面,如收敛和误差估计仍然没有答案。 Clement等(2002)为Longsta-Schwartz算法提供了完整的收敛证明和中心极限定理。但目前还没有关于更一般的可能非线性近似方案,收敛速度或误差估计的结果。这些问题是本文讨论的主要议题。

猜你喜欢

转载自blog.csdn.net/qq_29675093/article/details/86157511