[论文阅读笔记69]医学术语标准化-CODER

1. 题目

CODER: Knowledge infused cross-lingual medical term embedding for term normalization
Zheng Yuan团队
CODER: contrastive learning on knowledge graphs for cross-lingual medical term reprensentation.
跨语言医学术语表示的知识图对比学习

2. 贡献

提出了KG的对比训练模型；
对现有医疗嵌入进行评估。zero-shot术语标准化、医学概念相似性度量和概念关系分类任务中实现了最先进的结果（ state-of-the-art）；
CODER是第一个跨语言的医学术语表示，支持英语、捷克语、法语、德语、意大利语，日语、葡萄牙语、俄语、西班牙语、荷兰语和汉语。

3. 方法

定义基于嵌入的术语规范化任务以及如何嵌入术语；然后引入KG对比学习进行项归一化。

提出了对kg的两术语和关系三元组的对偶对比学习。
术语关系项相似度是术语关系(ℎ，r)和术语(t)之间的相似度。

3.1 基于嵌入术语正则化

即是把术语向量化，然后计算cos距离，选择最大的那个标准术语作为最后的结果；

3.2 术语表达

初始化PLM： PubMedBERT [17] ，mBERT [12]；

术语表示，方法1：采用[CLS]的向量来表示；

方法2：采用平均pooling来表示：

3.3 同义词的对比学习框架

正样本主要是来自图谱：term-term对；term-relation-term对；

label定义：

术语相似性定义：

相关技术

a. 医学嵌入

词嵌入[9,30,38]；
概念嵌入[3,6,10,11,52,56]；
上下文嵌入[2,4,17,20,21,26,42,56]。

Word和概念嵌入在评估相似性方面具有良好的基础性能，但面临OOV问题，不能处理临床文本中普遍存在的拼写错误。
基于PLM的上下文嵌入可以通过使用子单词token来缓解OOV问题，但如果不进行微调，它们在评估相似性方面的性能就会弱于单词和概念嵌入。

SapBERT（基于UMLS训练） [32],
mBERT(跨语言)[12]：将不同语言的文本编码到一个统一的空间中.

词嵌入：word2vec model[36]，使用医学语料[9, 30, 38]；

概念嵌入：从emr或生物医学论文中识别出的医学概念序列被认为是句子，用word2vec[6,10,11,52]训练并进行嵌入；

Cui2vec [3]：将 CUI-CUI之间的逐点互信息PMI（Pointwise Mutual Information）矩阵分解，得到嵌入； PMI可以衡量两变量之间的相关性。

Zhang et al. [56] ：提出概念上下文嵌入和UMLS关系语料库的训练。

医学上下文嵌入（医学语料）：BERT [2, 4, 17, 20, 26, 42]；

Jin et al. [21]：BioELMo；SapBERT[32]：关于UMLS同义词的自对齐预训练

b. 医学术语标准化

分类方法；
生成术语的隐藏表示，并使用softmax层将术语分类为概念。
编码模型（CNN, RNN, or PLM）； attention机制使用来获取重要的字或字符；
这个方法只能用类别，不能用到语义信息。
排名方法；
排序方法通过训练术语和候选目标术语之间正负样本对，来预测他们相似度而进行排序。例如 DNorm [25]是能过TF-IDF vectors来计算相似性；Li et al. [28] 使用CNN编码，NSEEN [14]使用 siamese LSTM；BNE [45]编码术语，概念，上下文；Pattisapuet al. [41] 通过graph embeddings； BIOSYN [49]使用TF-IDF 与 BioBERT [26]；【这些都是英文的】
Niu et al. [39]构建中文医学概念标准库；另外还有基于翻译的方法在进行 [1, 43, 47]。

c. 对比学习

**[16]：**对于NLP，DeCLUTR[16]从同一文档中收集positive的句子对。
CERT [15]: 创建句子对；
SapBERT [32]：使用UMLS的同义词对作为正样本；

损失函数也对比学习一块很关键的内容：
Triplet loss [19] 最小化正负样本对的关系距离；
InfoNCE[40]认为一小量批次的其它样本作为负样本对；

Multi-Similarity loss (MS-loss) [53]：多维相似损失；

参考

【1】githut:https://github.com/GanjinZero/CODER
【2】Zheng Yuan, Zhengyun Zhao, Haixia Sun, Jiao Li, Fei Wang, and Sheng Yu. 2021. CODER: Knowledge infused cross-lingual medical term embedding for term normalization. In Proceedings of ACM Conference (Conference’17).
ACM, New York, NY, USA, 11 pages.https://arxiv.org/pdf/2011.02947.pdf
【3】Fangyu Liu, Ehsan Shareghi, Zaiqiao Meng, Marco Basaldella, and Nigel Collier. 2020. Self-alignment Pre-training for Biomedical Entity Representations. arXiv
preprint arXiv:2010.11784 (2020).