论文:https://epubs.siam.org/doi/pdf/10.1137/1.9781611974348.49 或者 https://pan.baidu.com/s/1P0zot2skc7HPTY4ZVpU-6w
机构: IBM
表示方式:
从电子病历记录EHR中提取特征的挑战:High-Dimensionality, Temporality, Sparsity, Irregularity, Bias.
电子病历记录EHR的表示方式:
- Vector Based Representaion
这种表示方法将每个病人表示成一个向量。它的维度等于出现在EHR中的疾病个数,各维度上的值为对应疾病的统计量(比如总和,平均值,最大值,最小值等)。这种表示方式相当于各个疾病表示的线性组合。缺点是它忽略了就诊之间的时间关系。 - Tensor Based Representation
这种表示方法将每个病人表示成一个张量。张量的每个维度代表一种类型的实体,比如病人、药物或疾病,值为不同就诊事件下统计量。这种表示方法挖掘了不同医疗实体间的关系,缺点是忽略了就诊之间的时间关系。 - Sequence Based Representation
这种表示方法将每个病人表示成一个序列。按照每次就诊的时间,排列成一个序列。 - Temporal Matrix Based Representation
这种表示方法将每个病人表示成矩阵,一个维度对应时间,一个维度对应疾病。
本文中采用的是Temporal Matrix Based Representation。
模型:
本文使用 CNN 来自动提取特征,但不能直接使用标准的 CNN 。原因:(1)疾病之间的位置是无意义的;(2)各个病人的矩阵表示在时间维度上大小不同;(3)就诊事件之间是连续的,不能断裂。
基本模型 Basic Model,也就是标准流程:one-side convolution operation + pooling + fully connected layer + softmax
论文中,采用把数据拆分成一些固定大小的 sub-frames,然后再融合的方式。
Single Frame : 把所有数据当做一个frame,然后采用上述基本模型,区别是增加了一个归一化层 normalization layer。
Temporal Early Fusion : 在最开始特征提取阶段就进行信息融合。更改基本模型中的卷积操作,将其拓展到所有 sub-frame 上。
Temporal Late Fusion : 在最后的全连接层进行融合。
Temporal Slow Fusion : 结合了early fusion 和 late fusion,在最开始的卷积层和最后的全连接层都进行融合。
BibTeX:
@inproceedings{DBLP:conf/sdm/ChengWZH16,
author = {Yu Cheng and
Fei Wang and
Ping Zhang and
Jianying Hu},
title = {Risk Prediction with Electronic Health Records: {A} Deep Learning
Approach},
booktitle = {Proceedings of the 2016 {SIAM} International Conference on Data Mining,
Miami, Florida, USA, May 5-7, 2016},
pages = {432--440},
year = {2016},
url = {https://doi.org/10.1137/1.9781611974348.49},
doi = {10.1137/1.9781611974348.49},
timestamp = {Tue, 05 Mar 2019 15:30:10 +0100},
biburl = {https://dblp.org/rec/bib/conf/sdm/ChengWZH16},
bibsource = {dblp computer science bibliography, https://dblp.org}
}