DTI综述(更新中)

Deep Learning for drug repurposing:methods,datasets,and applications

觉得综述有点旧了,自己写个DTI综述,适合DTI入门的同学看

数据集(开源)

dataset contents (包括但不限) source 领域 (包括但不限)
BindingDB 药物序列,蛋白质序列,label(0/1) DrugBAN-github DTI
BioSNAP 药物序列,蛋白质序列,label(0/1) DrugBAN-github DTI
HUMAN 药物序列,蛋白质序列,label(0/1) DrugBAN-github DTI
C.elegans DTI
DUD-E DTI
--------------

Representation Learning

Sequence-based

在这里插入图片描述

Drug representations(对于分子化合物).

(a) One-hot representation[67] of SMILES string. 1d表示是SMILES(simpified Molecular input Line Entry System)基于化学键规则的拓扑信息的文本符号

(b) Two-dimensional(2D) representation of molecular graph where each substructure was associated with a predefined bitvector.化学指纹,如圆形指纹,是分子的2D表示,它循环搜索每个原子周围的部分结构,然后使用哈希函数将分子转换为二进制向量。然而,由于生成的向量不仅高维稀疏,而且由于哈希函数,它们可能包含“比特碰撞”。

© Graph Neural network (GNN) was adopted to transfer a molecular graph to a vector where the atoms and bonds were denoted by nodes and edges, respectively.

此外,Mol2vec被提出并被认为是最具代表性的方法,将分子子结构视为“词”,化合物视为“句子”,并使用Word2Vec生成原子标识符的嵌入。尽管这些方法取得了很好的性能,但这种一维或二维表示的明显缺点是键长和三维构象的信息会丢失,这对于药物靶标的结合细节可能很重要。因此,3D 表示将在未来引起更多的关注。

在这里插入图片描述

Target representations.

(a) One-hot representation ofamino acids sequences.其中每个氨基酸可以简单地通过 one-hot 编码进行编码

(b) Contactmap was a kind of two-dimensional (2D)representation of the protein.蛋白质也可以用二维(2D)距离图来表示,该距离图计算三维蛋白质结构中所有可能的氨基酸残基对之间的距离。

© Graph convolutionalnetwork was used to learnthe representation of the three-dimensional (3D) protein graph withnodesrepresenting the various constituent non-hydrogen atoms.

同样,蛋白质序列通常由 20 个标准氨基酸组成。受NLP嵌入技术的启发,进一步开发了ProtVec和doc2vec,从蛋白质序列生成非重叠的3-gram子序列,并使用word2vec技术基于skip-gram模型预训练它们的分布式表示。然而,这些模型通常专注于学习与上下文无关的表示。与 k-gram 不同,UniRep旨在应用 RNN 从未标记的氨基酸序列中学习蛋白质的统计表示,这些氨基酸序列在语义上丰富且结构丰富、进化和生物物理基础。

Network/graph-based representation learning

RDKit可以很容易地将SMILES字符串转换为分子图,对于分子,我们可以将原子和键表示为12条边连接的顶点(drug图c)。

对于蛋白质,表示蛋白质分子的一种更自然的方法是用代表蛋白质中各种组成非氢原子的节点对蛋白质图进行编码,是构建旋转不变的呈现。ProteinGCN有效地利用了原子间方向和距离,并通过图卷积公式捕获了局部结构信息(target图c)。与那些主要保留一阶或二阶邻近性的 GNN 相比,另一种有前途的技术,称为网络嵌入,用于学习全局特征。具体来说,它通常将节点、边及其特征映射到一个向量,它最大限度地保留了全局属性(例如结构信息)。[84]一旦获得节点表示,深度学习模型就可以应用于基于网络的任务,包括节点分类、[85]节点聚类[86]和链接预测。[87]另一个重要的基于图的深度学习方法,称为概率图,结合了各种神经生成模型、基于梯度的优化和神经推理技术。此外,在生物序列上训练的变分自动编码器 (VAE)[88] 已被证明可以学习有利于各种下游任务的生物学意义表示。简而言之,VAE是自动编码器的变体,它在输入空间和潜在空间之间提供随机映射。该映射在训练期间被正则化,以确保其潜在空间有能力生成一些新的数据。在蛋白质建模领域应用 VAE 的一个例子是学习细菌荧光素酶的表示。[89] 由此产生的连续实值表示可用于生成luxA 细菌荧光素酶的新功能变体。

Drug

embedding:

Drug encoder

MODEL INPUT
GCN Molecular graph
Graph Transformer 没找到
Transformer encoder sequence(one-hot 向量,MolTrans)

Protein

embedding:
1.k-gram(k=3)+word2vec(transformerCPI)

Protein encoder

GNN不写了

MODEL INPUT
CNN Protein sequence
Protein Bert Protein sequence
ESM Protein sequence

模型

药物再利用工具通常旨在预测未知的drug-target或drug-disease相互作用,可分为“以靶点为中心”或“以疾病为中心的”方法。

Model drug target(pr) architecture task year
Gao et al Molecular graph Amino acid sequence GCN,LSTM,two-way attention mechanism DTI 2018
DeepAffintiy SMILES Protein SPS(Structural property sequence) RNN,CNN,Attention Mechanism DTA 2019
GraphDTA Molecular graph Protein sequence GCN,DNN DTA 2019
DeepConv-DTI Fingerprint Protein sequence CNN,DNN DTI 2019
MCPINN ECFP&Mol2Vec&SMILES Amino acid sequence & ProtVec DNN CPI 2019
Tsubaki et al. Molecular graph Amino acid sequence GCN,CNN,attention mechanism CPI 2019
Trimodel Biomedical knoledge graphs about drug and target - Knowledge Graph Embedding DTI 2019
DrugVQA SMILES 2D distance map (pr:resnet+seq attention) ,(drug:Bi-LSTM+Multihead self attention(不是transformer)) ,MLP DTI 2019
Rifaioglu et al. SMILES Protein sequence structural,evolutionary and physicochemical properties CNN DTA 2020
MolTrans SMILES->子结构序列 Protein sequence ->子结构序列 encoder: transformer ,fusion: CNN DTI 2020
TransformerCPI Molecular graph Protein sequence (CONV1D+ GLU)Transformer encoder,transformer decoder CPI 2020
DeepDTI
ImageMol molecular images - resnet,五个代理任务(可能可以起到约束的效果,但encoder大点应该会更好,TSNE散点图(features of the GAP layer of ImageMol.) Drug discovery 2022
MultiDTI (一般) SMILES Protein sequence(还有drug、target、disease、side effect 之间的,直接编码) CNN,MLP DTI 2021
MOVE SMILES Protein sequence(还有drug、target、disease、side effect ,后两个直接编码) CNN,GCN,MLP,图attention,contrastive learning DTI 2022
CLOOME SMILES->Morgan fingerprints Molecular image descriptor-based fully-connected networks,resnet,continuous modern Hopfield networks,contrastive learning Drug discovery 2022 ICLR workshop
BridgeDPI(sota) SMILES Protein sequence (pr:k-mer +seq CNN) (drug:fp features+seq CNN),GNN(超节点),MLP DPI 2022
AttentionSiteDTI(sota) SMILES->bidirectional graph 3D PDB data->binding site->graph(每个原子是一个节点) TAGCN,Bi-LSTM,self-attention,MLP DTI 2022
DrugBAN SMILES->Molecular graph Protein sequence GCN,CNN,biattention DTI 2023 Nature MI

算法的输入差别都比较大

可解释性

生物和医学的算法基本都要可解释性强的
1.attention map(AttentionSiteDTI)


Databases(包括但不限于综述中的)

都是数据库,数据集还要自己造,看看别的论文的数据集开源没

DATABASE DESCRIBE
BindingDB 有详细的drug信息和对应的target,V5.1.7包括13791个drug entries(DTI)
KEGG(Kyoto Encylopedia of Genes and Genomes) 集成数据库,包含来自基因,蛋白质,生物通路和人类疾病的大规模分子数据集,
Pubchem 化学分子数据库及其对生物测定的活性,包括110万个化合物,27100万个substances以及297 million bioactivities,提供了多种分子信息,包括化学结构和物理性质、生物属性、生物活性、安全性、毒性信息、专利、文献、引用等
CCLE 对抗癌药物有用
ChemDB 提供了化学结构和分子性质,还预测了分子3D结构
CTD(Comparative Toxicogenomics Database) CTD提供了有关化学基因(chemical-gene?)或蛋白质相互作用、化学疾病和基因疾病关系的manually curated information
DGIdb 从30个来源挖掘的DTI,包括DrugBank、PharmGKB、Chembl,DrugTarget Commons,Therapeutic Target Database
DrugBank 将药物数据信息(chemical,pharmacological,pharmaceutical)和药物靶标信息(sequence,structure,pathway)结合
DrugCentral 提供了active chemical entities and dug mode of action
DTC(Drug Target Commons) DTC整理了生物活性数据以及蛋白质分类into superfamilies,临床阶段和不良反应以及disease indications
DTP(Drug Target Profiler) DTP包含drug target生物活性数据并实现了网络可视化,还包含药物的基于细胞的药物反应图谱及其临床相位信息
GCLIDA 包含DTI for G-protein-coupled receptors(GPCRs)
GtopDB 包含已批准的药物和在调查中的化合物的定量生物活性数据
PathwayCommon 包含生化反应、complex assembly、物理相互作用的,涉及蛋白质、DNA、RNA、小分子和复合物
PharmGKB 包含临床以实和研究人员药物反应的遗传变异的综合数据
STITCH 存储了化学品和蛋白质已知和预测的相互作用,涵盖了来自2031和生物体的9643763个蛋白质
Supertarget 用于分析DTI和药物副作用
BioSNAP DTI
HUMAN DTI
TTD(Therapeutic Target Database) 提供了有关已知和探索中的therapeutic protein和nucleic acid targets,靶向疾病、通路信息以及针对每个target的相应药物信息
AOPEDF 从DrugBank,TTD,PharmKGB收集物理DTI,并利用生物活性数据从chembl,bindingdb提取DTI,从DrugBANK中提取每种药物的SMIES格式的化学结构。

猜你喜欢

转载自blog.csdn.net/qq_52038588/article/details/133905289
DTI