DTI综述（更新中）

Deep Learning for drug repurposing：methods，datasets，and applications

觉得综述有点旧了，自己写个DTI综述，适合DTI入门的同学看

数据集（开源）

dataset	contents （包括但不限）	source	领域（包括但不限）
BindingDB	药物序列，蛋白质序列，label（0/1）	DrugBAN-github	DTI
BioSNAP	药物序列，蛋白质序列，label（0/1）	DrugBAN-github	DTI
HUMAN	药物序列，蛋白质序列，label（0/1）	DrugBAN-github	DTI
C.elegans			DTI
DUD-E			DTI
			--------------

Representation Learning

Sequence-based

在这里插入图片描述

Drug representations（对于分子化合物）.

(a) One-hot representation[67] of SMILES string. 1d表示是SMILES(simpified Molecular input Line Entry System)基于化学键规则的拓扑信息的文本符号。

(b) Two-dimensional(2D) representation of molecular graph where each substructure was associated with a predefined bitvector.化学指纹，如圆形指纹，是分子的2D表示，它循环搜索每个原子周围的部分结构，然后使用哈希函数将分子转换为二进制向量。然而，由于生成的向量不仅高维稀疏，而且由于哈希函数，它们可能包含“比特碰撞”。

此外，Mol2vec被提出并被认为是最具代表性的方法，将分子子结构视为“词”，化合物视为“句子”，并使用Word2Vec生成原子标识符的嵌入。尽管这些方法取得了很好的性能，但这种一维或二维表示的明显缺点是键长和三维构象的信息会丢失，这对于药物靶标的结合细节可能很重要。因此，3D 表示将在未来引起更多的关注。

在这里插入图片描述

Target representations.

(a) One-hot representation ofamino acids sequences.其中每个氨基酸可以简单地通过 one-hot 编码进行编码。

(b) Contactmap was a kind of two-dimensional (2D)representation of the protein.蛋白质也可以用二维(2D)距离图来表示，该距离图计算三维蛋白质结构中所有可能的氨基酸残基对之间的距离。

同样，蛋白质序列通常由 20 个标准氨基酸组成。受NLP嵌入技术的启发，进一步开发了ProtVec和doc2vec，从蛋白质序列生成非重叠的3-gram子序列，并使用word2vec技术基于skip-gram模型预训练它们的分布式表示。然而，这些模型通常专注于学习与上下文无关的表示。与 k-gram 不同，UniRep旨在应用 RNN 从未标记的氨基酸序列中学习蛋白质的统计表示，这些氨基酸序列在语义上丰富且结构丰富、进化和生物物理基础。

Network/graph-based representation learning

RDKit可以很容易地将SMILES字符串转换为分子图，对于分子，我们可以将原子和键表示为12条边连接的顶点(drug图c)。

对于蛋白质，表示蛋白质分子的一种更自然的方法是用代表蛋白质中各种组成非氢原子的节点对蛋白质图进行编码，是构建旋转不变的呈现。ProteinGCN有效地利用了原子间方向和距离，并通过图卷积公式捕获了局部结构信息(target图c)。与那些主要保留一阶或二阶邻近性的 GNN 相比，另一种有前途的技术，称为网络嵌入，用于学习全局特征。具体来说，它通常将节点、边及其特征映射到一个向量，它最大限度地保留了全局属性(例如结构信息)。[84]一旦获得节点表示，深度学习模型就可以应用于基于网络的任务，包括节点分类、[85]节点聚类[86]和链接预测。[87]另一个重要的基于图的深度学习方法，称为概率图，结合了各种神经生成模型、基于梯度的优化和神经推理技术。此外，在生物序列上训练的变分自动编码器 (VAE)[88] 已被证明可以学习有利于各种下游任务的生物学意义表示。简而言之，VAE是自动编码器的变体，它在输入空间和潜在空间之间提供随机映射。该映射在训练期间被正则化，以确保其潜在空间有能力生成一些新的数据。在蛋白质建模领域应用 VAE 的一个例子是学习细菌荧光素酶的表示。[89] 由此产生的连续实值表示可用于生成luxA 细菌荧光素酶的新功能变体。

Drug

embedding：

Drug encoder

MODEL	INPUT
GCN	Molecular graph
Graph Transformer	没找到
Transformer encoder	sequence（one-hot 向量，MolTrans）

Protein

embedding：
1.k-gram（k=3）+word2vec（transformerCPI）

Protein encoder

GNN不写了

MODEL	INPUT
CNN	Protein sequence
Protein Bert	Protein sequence
ESM	Protein sequence

模型

药物再利用工具通常旨在预测未知的drug-target或drug-disease相互作用，可分为“以靶点为中心”或“以疾病为中心的”方法。

Model	drug	target（pr）	architecture	task	year
Gao et al	Molecular graph	Amino acid sequence	GCN,LSTM,two-way attention mechanism	DTI	2018
DeepAffintiy	SMILES	Protein SPS（Structural property sequence）	RNN,CNN,Attention Mechanism	DTA	2019
GraphDTA	Molecular graph	Protein sequence	GCN,DNN	DTA	2019
DeepConv-DTI	Fingerprint	Protein sequence	CNN,DNN	DTI	2019
MCPINN	ECFP&Mol2Vec&SMILES	Amino acid sequence & ProtVec	DNN	CPI	2019
Tsubaki et al.	Molecular graph	Amino acid sequence	GCN,CNN,attention mechanism	CPI	2019
Trimodel	Biomedical knoledge graphs about drug and target	-	Knowledge Graph Embedding	DTI	2019
DrugVQA	SMILES	2D distance map	(pr：resnet+seq attention) ，(drug：Bi-LSTM+Multihead self attention(不是transformer)) ，MLP	DTI	2019
Rifaioglu et al.	SMILES	Protein sequence structural,evolutionary and physicochemical properties	CNN	DTA	2020
MolTrans	SMILES->子结构序列	Protein sequence ->子结构序列	encoder: transformer ，fusion: CNN	DTI	2020
TransformerCPI	Molecular graph	Protein sequence	(CONV1D+ GLU)Transformer encoder，transformer decoder	CPI	2020
DeepDTI
ImageMol	molecular images	-	resnet,五个代理任务（可能可以起到约束的效果，但encoder大点应该会更好，TSNE散点图（features of the GAP layer of ImageMol.）	Drug discovery	2022
MultiDTI (一般)	SMILES	Protein sequence(还有drug、target、disease、side effect 之间的，直接编码)	CNN,MLP	DTI	2021
MOVE	SMILES	Protein sequence(还有drug、target、disease、side effect ，后两个直接编码)	CNN，GCN，MLP，图attention，contrastive learning	DTI	2022
CLOOME	SMILES->Morgan fingerprints	Molecular image	descriptor-based fully-connected networks，resnet，continuous modern Hopfield networks，contrastive learning	Drug discovery	2022 ICLR workshop
BridgeDPI（sota）	SMILES	Protein sequence	（pr：k-mer +seq CNN）（drug：fp features+seq CNN），GNN(超节点)，MLP	DPI	2022
AttentionSiteDTI（sota）	SMILES->bidirectional graph	3D PDB data->binding site->graph（每个原子是一个节点）	TAGCN，Bi-LSTM，self-attention，MLP	DTI	2022
DrugBAN	SMILES->Molecular graph	Protein sequence	GCN，CNN，biattention	DTI	2023 Nature MI

算法的输入差别都比较大

可解释性

生物和医学的算法基本都要可解释性强的
1.attention map（AttentionSiteDTI）

Databases(包括但不限于综述中的)

都是数据库，数据集还要自己造，看看别的论文的数据集开源没

DATABASE	DESCRIBE
BindingDB	有详细的drug信息和对应的target，V5.1.7包括13791个drug entries(DTI)
KEGG（Kyoto Encylopedia of Genes and Genomes）	集成数据库，包含来自基因，蛋白质，生物通路和人类疾病的大规模分子数据集，
Pubchem	化学分子数据库及其对生物测定的活性，包括110万个化合物，27100万个substances以及297 million bioactivities，提供了多种分子信息，包括化学结构和物理性质、生物属性、生物活性、安全性、毒性信息、专利、文献、引用等
CCLE	对抗癌药物有用
ChemDB	提供了化学结构和分子性质，还预测了分子3D结构
CTD（Comparative Toxicogenomics Database）	CTD提供了有关化学基因（chemical-gene？）或蛋白质相互作用、化学疾病和基因疾病关系的manually curated information
DGIdb	从30个来源挖掘的DTI，包括DrugBank、PharmGKB、Chembl，DrugTarget Commons，Therapeutic Target Database
DrugBank	将药物数据信息（chemical，pharmacological，pharmaceutical）和药物靶标信息（sequence，structure，pathway）结合
DrugCentral	提供了active chemical entities and dug mode of action
DTC(Drug Target Commons)	DTC整理了生物活性数据以及蛋白质分类into superfamilies，临床阶段和不良反应以及disease indications
DTP（Drug Target Profiler）	DTP包含drug target生物活性数据并实现了网络可视化，还包含药物的基于细胞的药物反应图谱及其临床相位信息
GCLIDA	包含DTI for G-protein-coupled receptors（GPCRs）
GtopDB	包含已批准的药物和在调查中的化合物的定量生物活性数据
PathwayCommon	包含生化反应、complex assembly、物理相互作用的，涉及蛋白质、DNA、RNA、小分子和复合物
PharmGKB	包含临床以实和研究人员药物反应的遗传变异的综合数据
STITCH	存储了化学品和蛋白质已知和预测的相互作用，涵盖了来自2031和生物体的9643763个蛋白质
Supertarget	用于分析DTI和药物副作用
BioSNAP	DTI
HUMAN	DTI
TTD（Therapeutic Target Database）	提供了有关已知和探索中的therapeutic protein和nucleic acid targets，靶向疾病、通路信息以及针对每个target的相应药物信息
AOPEDF	从DrugBank，TTD，PharmKGB收集物理DTI，并利用生物活性数据从chembl，bindingdb提取DTI，从DrugBANK中提取每种药物的SMIES格式的化学结构。