Medical Dead-ends and Learning to Identify High-risk States and Treatments

Author	Fatemi et al.
Publish	Neural Information Processing Systems
Year	2021
Tags	offline, sepsis treatment, dead-ends

Abstract

文章提出一种方法来识别状态空间中的可能"dead-ends"。

文章假设”治疗安全性“是指避免那些有几率导致”dead-ends“的治疗，给出了一个形式化证明，并将此问题构建为一个RL问题。

训练了三个独立的深度神经模型来自动构建状态、发现和确认dead-end。

实验结果表明在脓毒症病人的真实临床数据中存在dead-ends，进一步揭示了安全治疗和接受治疗(administered)之间的差距。

1 Introduction

背景：RL在healthcare中的应用→以往用于评估最优策略，但其实这样做不靠谱。

off-policy RL在robotics，education和healthcare等safety-critical领域有重要应用，在这些领域中收集数据是昂贵的或者高危的。

尽管off-policy RL+深度神经网络使显著进步成为可能，这些算法的表现在完全离线、不能进行交互的环境中急剧下降。这些挑战在数据集有限且无法出于伦理或安全目的收集探索性新数据时被深度放大。在这种完全离线的情况下，天真地学习策略可能会出现过拟合。由于数据有限而产生的估计误差可能会进一步导致错误的或不恰当的决策，产生不利于安全的后果。

尽管在这种受限情况下最优方案是无法获得的，数据中的消极结果可以用于辨认出需要避免的行为。healthcare领域就应用RL来基于过去治疗方案的结果来辨认最优治疗方案。这些策略与”在给定患者条件的情况下给出应该采取的治疗“相关。但是，因为法律和道德原因，探索可能的治疗在大多数临床设置中是不可能的。因此，在healthcare领域中使用RL去评估最优策略是不靠谱的。

工作：介绍文章中团队的工作

目标：识别出应当避免的治疗（而不是应当采取的治疗。因为前面解释过了，想用RL在healthcare领域找出最优的治疗方案是不可靠的），避免在未来的dead-ends或者进入到必将导致坏结果的状态。

提出一种新的基于RL的方法：Dead-end Discovery(DeD)。

方法的结构：两个互补的MDP，MDP有特定的reward设计，使得潜在的价值函数（value function）有特定含义。价值函数使用DQN方法分别评估，其中D-Network（其中一个MDP）来推断坏结果发生的可能性，R-Network（另外一个MDP）来推断好结果发生的可能性。

使用的数据：offline data

方法的验证：

使用的环境：①toy domain（作者自己设计的）；②MIMICⅢ（sepsis患者的真实健康记录）（因为治疗本身也会导致患者病情变坏，所以避免那些不好的治疗措施也是必要的）

得出的结论：①DeD能够确认dead-ends存在；②采取的治疗措施中，有12%减少了重症患者存活的机率，有些措施甚至是发生在患者死亡前的24h；③DeD的价值函数能够在观察到的临床干预发生的4-8h前就发现病人健康状况的显著衰退；④DeD还适用于在真实领域中分析高危决策。

2 Related Work

RL in health：本文是首个通过完全离线的方式避免高危治疗以提升治疗推荐的。

Safety in RL：本文专注于仅有有限且非探索性数据、更具挑战性的离线设置，这种设置反映了医疗现实。（在此设置下完成保证safety的任务）

Dead-ends：这个概念在作者以前的一份研究中提出（最早是Irpan团队提出，但是他们的意思和本文的意思不同），当时那个研究还是用一个online RL agent找出最优策略。现在将这个概念拓展到offline RL环境，找出在患者的当前健康状态下，会增大患者走向dead-end的可能性的治疗。

3 Methods

3.1 Preliminaries

一些符号定义。

MDP： $\mathcal{M} = (\mathcal{S}, \mathcal{A}, T, \mathcal{r}, \gamma)$ ，其中 $\mathcal{S}$ 是states的离散集合， $\mathcal{A}$ 是treatments的离散集合。

$\mathcal{S}×\mathcal{A}×\mathcal{S} → [0, 1]$

$\mathcal{S}×\mathcal{A}×\mathcal{S} → [r_{min}, r_{max}]$

$\gamma∈[0, 1]$

$\pi(s,a) = \mathbb{P}[A_t = a|S_t = s]$

$Q^\pi(s,a) = \mathbb{E}^\pi[G_0|S_0 = s, A_0 = a]$ （state-treatment value function）

$Q^*(s, a) = max_{\pi}Q^\pi(s,a)$ （the optimal state-treatment value function）

$V^\pi(s) = \mathbb{E}_{a\sim\pi}Q^\pi(s,a)$ （state value）

$V^*(s) = max_aQ^*(s,a)$ （optimal state value）

3.2 Special States

一些特殊状态的声明。

两种terminal state（终结状态）：positive outcomes、negative outcomes。

dead-end state（“将死状态”）：消极结果必定会在之后发生的状态。

rescue state（“得救状态”）：能够产生发生概率为1的积极结果的状态。

3.3 Treatment Security

对于treatment security condition的定义。

如果从某个treatment得到的是一个消极结果，且有很大概率发生，即使最优治疗并不知晓，这个treatment也是应当避免的。

定义一个treatment security condition：
$P_D(s,a) + F_D(s,a) ≥ \lambda \Longrightarrow \pi(s,a) ≤ 1 - \lambda$
其中， $P_D(s,a)$ 表示：在状态 $s$ 采取治疗 $a$ 会导致”向死状态“的概率； $F_D(s,a)$ 表示：在状态 $s$ 采取治疗 $a$ 会立刻导致消极结果的概率。如果它们发生的概率是 $\lambda$ ，那么 $\pi$ 也应该以 $\lambda$ 的概率避免在状态 $s$ 采取治疗 $a$ 。

但是，但是对于所有的state-treatment对，找出 $\lambda$ 的最大值是困难的。此外，直接计算 $P_D$ 和 $F_D$ 需要明确所有dead-end和消极结果以及未来状态的所有转移概率。这使得上面这条式子的应用几乎不可能。文章接下来开发了一个学习范式（就是本文提出的方法）来应用这条式子。

3.4 Dead-end Discovery(DeD)

这一节列出了DeD的所有定理。

在这里插入图片描述

3.5 Neural Network Based State Construction and Identification

用于构建和确认state的神经网络。

State construction(SC-Network)：将一个单独的或者可能的观察序列转化成固定的embedding。

Identification(D-Network and R-Network)：接收SC-Network的输出作为输入，计算 $Q_D$ 和 $Q_R$ 。

为什么一定要有两个Network，一个rescue一个dead-end呢？不能只用一个吗？

3.6 Toy Problem Validation: Life-Gate

正式应用DeD前的初步应用。

在图a中展示了toy problem的环境：黄色区域是dead-end state，红色区域是negative output，蓝色区域是positive output。图b和图c的结果初步验证了DeD方法的可用性（越靠近黄色区域和红色区域，value越小；粤靠近蓝色区域，value越大）。

4 Empirical Setup for Dead-end Analysis

进行正式实验前的一些设定。

Data：MIMICⅢ

Terminal States：两种终端状态：recovery和death。但本文定义的death是**”medical death“**，这种death往往发生在”biological death之前“。

SC-Network：采用Approximate Information State(AIS)模型，利用自监督方法训练这个网络。

D-Network and R-Network：使用double-DQN算法训练这两个网络。

Training：75%训练集，5%验证集，20%测试集。为了处理数据不平衡问题（surviving and non-surviving），采用了一个额外的data buffer，里面有nonsurvivors轨迹的last transition。

5 Empirical Results

做了三个不同的实验。

5.1 Septic Dead-End State Prediction

这个实验的目的是：给每个患者预测dead-end state

Experiment. 评估对于给定的state，每个treatment的 $Q_D$ 和 $Q_R$ 是否会超过阈值 $\delta_D = -0.25$ 、 $\delta_R = 0.75$ 。如果 $Q_D < \delta_D$ 或者 $Q_R < \delta_R$ ，就提示“red flags“（结果是坏的）；阈值设置宽松一点， $\delta_D = -0.15$ 、 $\delta_R = 0.85$ 。如果 $Q_D < \delta_D$ 或者 $Q_R < \delta_R$ ，就提示“yellow flags“（结果将会走向坏的）。宽松的阈值可以更早地预示出患者正在走向dead-end。

Results.
在这里插入图片描述

ICU的72h里面，对于Survivors的数据来说，无论是用R-Network还是D-Network评估出来的结果，几乎没有出现在Red Flags，在Yellow Flags出现了很少一部分。而对于Nonsurvivors的数据来说，两个Network都显示：随着时间越靠近结束（也就是0），Nonsurvivors在yellow flag和red flag出现的占比都越大，而在No-flag出现的占比则减少。

有**12%**的施加在非存活患者身上的治疗是让患者情况衰退的，这一治疗发生在死亡前的24h。

有**2.7%**的施加在非存活患者身上的治疗是让患者进入dead-end状态的，这一治疗发生在死亡前的48h。

这个数据是怎么看出来的？→翻一下附录

5.2 First Flag Analysis

这个实验的目的是：分析发生第一个flag的位置→与treatment关联

Experiment. 将病人（77个存活的和74个死亡的患者）发生第一次flag的时间对应到他们的治疗过程中，取发生前的24h（6 steps）和发生后的16h（4 steps）的数据，对观测数据的平均趋势、采用的治疗方案和DeD的结果进行观察。

Results.

在这里插入图片描述

从图中可以观察到的结果：

①在第一个flag发生前，存活患者和病故患者的数据走向基本一致，第一个flag发生后才发生分歧；

②c图中Survivors和Nonsurvivors的V值走向都基本与a图、b图中的患者生命体征一致（特别是a中的图和b中的SOFA）；

③第一个flag发生后，都有一定的好转，可能是得益于治疗；

④第一个flag发生后，survivors的数值能继续好转，但nonsurvivors的数值却急转直下。

结论：①DeD能够辨识出一个清晰的转折点，表示nonsurvivors开始进入不可逆转的向死状态；

②Most secure的转折点的值>20% most secure的转折点的值>Administered(survivors)＞Administered(nonsurvivors)的转折点的值，即转折点的值是不断增大的。

most secure、20% most secure是什么意思？是treatment吗？

③在第一个flag发生前的4-8h，估计的value曲线就有一个明显的拐点。如果在这个时候发起干预，还有机会救助病人。

④所有病人的D/R值和他们的SOFA评分都非常相似。所以认为存活者和死亡者有本质区别的说法是不对的。

⑤虽然SOFA可能在个体水平上表现出与DeD相关，但值函数的趋势可能明显比SOFA更激进，且方差显著更小。

⑥大多数患者已经具有较高的SOFA，因此，仅根据SOFA评分识别dead-ends是不够的，但DeD是一个可证明的方法。

⑦因为在d图和e图中，两种曲线的分歧发生于第一次flag发生之前，因此可以认为治疗方案的选择可能在患者状态进入dead-ends中发挥了影响。

⑧根据e图，即使是那些最终能够存活、恢复的患者，他们还有采取更好治疗措施的空间。（因为两条曲线间有空隙）

5.3 Individual Trajectories

Experiment. 从电子健康记录数据中提取围绕患者价值估计的相关信息，包括记录的临床笔记。另外使用t-SNE将病人轨迹映射成state表示。

原文的这一段话我不是很明白。

Results.

在这里插入图片描述

临床评估数据，如SOFA、GCS的变化趋势和用DeD评估的值的变化趋势接近，证明我们提出的方法评估的 $Q_D$ 和 $Q_R$ 是可靠的。

6 Discussion/Conclusions

提出了一种基于强化学习的、能够学习到应避免的治疗的方法。建立了理论结果，扩充了RL中关于dead-ends的概念，促进了人们对高危治疗或在医疗应用中脓毒症患者那些伴随着会导向dead-end的可能性不断增长的状态的关注。

本文的目标：避免那些可能导致死亡的治疗，避免可能导致难以避免的糟糕结果的state空间。

使用的数据：limited offline data（MIMICⅢ）

本文的贡献：①在药物设置方面做了dead-end分析的基础工作；②首个用于标志糟糕的治疗的RL方法；③dead-end状态的发现和那些可能导致dead-end的treatment为重症监护干预提供了一些参考。

展望/改进：可以通过在EMR中获取更多的特征来提高DeD的预测质量。

应用领域：数据受限的情况；从可回顾的数据中发掘关键信息；safety-critical domains

使用的数据：limited offline data（MIMICⅢ）

展望/改进：可以通过在EMR中获取更多的特征来提高DeD的预测质量。

应用领域：数据受限的情况；从可回顾的数据中发掘关键信息；safety-critical domains

本文的限制：探索仍然可能发生；使用更近期的方法代替DDQN可以显著提高效果；没有考察DeD对人口统计学信息或电子病历中特定特征的敏感性，对这种敏感性的深入分析可以阐明DeD的公平性和可靠性；没有使用单独医院的数据或通过调查人类临床医生的建议回避的治疗来外部验证DeD。

【论文阅读】Medical Dead-ends and Learning to Identify High-risk States and Treatments

Medical Dead-ends and Learning to Identify High-risk States and Treatments

Abstract

1 Introduction

背景：RL在healthcare中的应用→以往用于评估最优策略，但其实这样做不靠谱。

工作：介绍文章中团队的工作

2 Related Work

3 Methods

3.1 Preliminaries

3.2 Special States

3.3 Treatment Security

3.4 Dead-end Discovery(DeD)

3.5 Neural Network Based State Construction and Identification

3.6 Toy Problem Validation: Life-Gate

4 Empirical Setup for Dead-end Analysis

5 Empirical Results

5.1 Septic Dead-End State Prediction

5.2 First Flag Analysis

5.3 Individual Trajectories

6 Discussion/Conclusions

猜你喜欢