Local-DPP论文阅读笔记

英文名称:Local-DPP: An Improved DNA-binding Protein Prediction Method by Exploring Local Evolutionary Information
中文:一种改进的DNA结合蛋白质预测方法探索地方进化信息

Abstract

  1. 为了应对蛋白质序列数据的爆炸性增长,研究人员开发了基于机器学习的方法,可以快速准确地预测DNA结合蛋白。
  2.  在本文中,我们建立了一个名为Local-DPP的新型预测器,它将局部Pse-PSSM(伪位置特定评分矩阵)特征与随机森林分类器相结合。
  3. 所提出的特征可以从进化分布图(PSSM)有效地捕获局部保护信息以及序列顺序信息。
  4. 拟议的Local-DPP显着提高了现有预测因子的准确性,分别在折刀和独立测试中从77.3%提高到79.2%和76.9%到79.0%

Introduction

  1. DNA结合蛋白在各种分子功能中发挥关键作用,如DNA损伤的检测,DNA复制,单链DNA的组合和分离,以及转录调控 。
  2. 鉴于DNA结合蛋白的重要性,非常需要鉴定该蛋白质类成员的方法。在早期研究中,DNA结合蛋白通过实验方法确定;通常通过滤膜结合测定,遗传分析,微阵列上的染色质免疫沉淀, 和X射线晶体学。
  3. 随着下一代高通量DNA测序技术的开发和应用,新蛋白质序列的数量激增。
  4. 近年来,基于机器学习(ML)算法的计算方法因其令人鼓舞的性能而备受关注。 给定蛋白质序列作为输入,基于ML的方法自动预测该蛋白质序列是否与DNA结合。基于ML的方法的预测性能主要取决于它们的特征表示和分类算法。
  5. 特征表示以数字方式表示查询蛋白质序列的最佳表示。
  6. 基于ML的预测器中使用的特征表示方法大致分为两组;(1)基于结构的预测变量(2)基于序列的预测变量
  7. 基于结构的预测因子严重依赖于蛋白质序列的结构信息(即高分辨率三维(3D)结构)。Ahmad等人的方法。 从以下三个结构角度表示具有62个结构特征的蛋白质:蛋白质的净电荷,电偶极矩和四极矩张量。 同样,Nimrod等人。 从平均表面静电势,偶极矩和基于簇的氨基酸保守模式计算蛋白质的各种结构特征。
  8. 另一种型预测变量基于结构和顺序特征。 一个例子是基于逻辑回归(LR)的Szilágyi等人的预测因子。 ,它使用某些氨基酸的相对比例,某些其他氨基酸的空间分布不对称性,以及整个分子的偶极矩。
  9. 然而,基于结构的预测因子不适用于没有已知结构信息的蛋白质序列。 这限制了后基因组时代中基于结构的预测因子的使用,其中下一代测序技术产生了大量未表征的基因组和蛋白质组序列。
  10. 为了成功预测这些序列,我们需要没有结构信息的基于序列的预测变量。
  11. 最近开发了来自一级序列(氨基酸序列)的直接特征表示。 例如,Cai等人。 配制了40维(40D)特征向量,其代表来自蛋白质的假氨基酸组成(PseAAC)的DNA结合蛋白。
  12. 通过使用缩减字母表方法减小PseAAC向量的维数,加速了Cai等人算法的计算时间。为了进一步改善PseAAC载体的DNA结合蛋白预测,他们还将PseAAC与物理化学距离转化相结合。除PseAAC外,DNA结合蛋白还有其他常用的基于序列的特征,如物理化学性质,氨基酸组成,自交 - 协方差转换,二肽组成和其他杂交特征。
  13. 将新的进化信息整合到基于序列的方法中。 进化信息嵌入在PSI-BLAST自动生成的序列谱中。
  14. 包含PSI-BLAST概况的进化信息的特征称为进化特征。
  15. Kumar等人将进化和序列特征引入称为DNAbinder的SVM预测器中。
  16. 进化特征显着提高了算法的预测准确性,表明进化信息对于区分DNA结合蛋白和非DNA结合蛋白很重要。
  17. 刘等人。 提出了一种新的DNA结合蛋白预测方法,称为iDNAPro-PseAAC,它将PSI-BLAST检索到的进化信息的基于轮廓的表示整合到经典的PseAAC中。有趣的是,他们发现训练模型中的阴性样本提高了预测性能。还提出了一种基于SVM的预测器,它通过top-n-gram方法将进化信息合并到一般的PseAAC矢量中。
  18. 最近,宋等人。 据报道,数据集中非DNA结合蛋白的数量远远超过DNA结合蛋白的数量。 他们通过一种新颖的集成分类器(imDC;参见)解决了数据不平衡问题。 此外,他们根据188D序列的物理化学特征,在改进的DNA结合蛋白预测器中编程了它们的imDC分类。
  19. 如上所述,开发有效地将每个查询蛋白质序列编码为特征向量的特征表示算法是一项具有挑战性的任务。大多数当前的多视角努力(基于序列和结构)仅考虑全局特征,这些特征可能不足以区分DNA结合蛋白和非DNA结合蛋白。
  20. DNA结合蛋白和非DNA结合蛋白之间的主要区别在于前者中存在功能性结合位点,后者中蛋白质空间的相应局部区域缺乏。 此外,这些局部区域的蛋白质功能可能在进化上得到保守。 因此,完美的分类必须捕获该局部功能保护信息并用特征向量对其进行量化。
  21. 为了解决这个问题,我们提出了一种新颖的特征表示算法,可以有效地从配置文件(PSSM)中提取局部特征。在所提出的算法的框架内,我们首先通过将PSSM分段成几个大小相等的子PSSM来捕获局部保守的蛋白质信息。
  22. 对于每个子PSSM,我们通过Pse-PSSM特征提取算法计算局部特征。
  23. 最后,我们将来自所有子PSSM的本地Pse-PSSM功能组合在一起,形成功能。 基于所提出的特征,我们开发了基于Local-DPP机器学习的方法,该方法通过RF分类器预测DNA结合蛋白。
  24. 评估了两个严格的基准数据集(一个用于折刀测试,另一个用于独立测试),Local-DPP表现出优于最先进的预测器的性能。 Local-DPP可从用户友好的网站http://server.malab.cn/Local-DPP/Index.html免费下载。 Local-DPP有望成为预测和分析大规模DNA结合蛋白的有用工具。

2. Materials and methods

2.1 Framework of the proposed method
2.1提出的方法框架

  • 图1显示了用于DNA结合蛋白预测的Local-DPP方法的总体框架。 Local-DPP的两个阶段是模型训练和蛋白质预测。 在训练阶段,首先通过所提出的局部Pse-PSSM特征表示算法对训练样本进行编码,获得训练集的有意义的特征向量。然后将这些特征向量馈送到RF分类器中以生成训练模型。 特征表示算法还将查询蛋白质序列编码为蛋白质预测阶段中的120D特征向量。 将该特征向量馈入训练模型,该模型预测查询序列是否与DNA结合

图1:拟议的Local-DPP预测器的总体框架。 NR表示非冗余蛋白质数据库,PSSM表示位置特异性评分矩阵,RF表示随机森林。 总体框架包含两个阶段:(1)模型训练阶段和(2)预测阶段。 在模型训练阶段,训练样本被馈送到所提出的特征表示算法中以生成局部Pse-PSSM特征。 然后将得到的特征馈送到RF分类器中以生成训练模型。 预测阶段基于查询序列的特征表示来预测。

2.2 Datasets

  • 在第一步中,通过搜索相关关键词(例如“DNA”)从蛋白质数据库(PDB:http://www.rcsb.org/pdb/home/home.do)数据集中获取DNA结合蛋白序列。 高级搜索界面中的结合蛋白“,”蛋白质-DNA复合物“或”DNA结合“)。
  • 第二步除去短序列(少于50个氨基酸)和含有连续字符“X”的序列。
  • 第三步消除了可能导致高估性能的冗余和同源性偏差。 为此,它使用程序CD-HIT [18]去除与数据集中任何其他序列具有25%成对序列同一性的序列。 通过这三个步骤的序列被组合成严格的基准数据集。
  • 在本研究中,预测器准确性在两个严格的基准数据集上进行了测试。 第一个基准数据集称为PDB1075,最初由Liu等人编写。 ,包含525个DNA结合蛋白(阳性样品)和550个选自PDB的非DNA结合蛋白(阴性样品)(2013年12月发布的版本)。
  • 如报告中的那样,PDB1075数据集包括具有低相似性的最高数量的蛋白质序列,这对于模型评估是期望的。另一个基准数据集,称为PDB186,最近由Lou等人构建。 并且还包含从PDB收集的93个实际DNA结合蛋白和93个非DNA结合蛋白。
  • PDB186数据集提供了用于验证预测变量的独立测试。 这两个基准数据集中的所有序列目前都可以从我们的网络服务器(http://server.malab.cn/Local-DPP/Datasets.html)下载。

2.3 Classification algorithm

  1.  RF算法是Breiman等人提出的流行的机器学习算法。 RF算法是树预测器的集合。
  2. 每个树由两个因子生长:(1)从原始特征空间采样的随机特征向量,以及(2)从原始数据采样的随机自举数据。 应该指出的是,所有树木都是独立的。
  3. 通过计算泛化误差,分类器强度和依赖性来确定每棵树的特征数量。 RF算法的预测结果是所有训练树的结果与多数表决策略相结合的集合。
  4. RF算法详述如下。 我们提出的方法使用RF算法作为基础分类算法。 RF算法在称为WEKA(Waikato Environment for Knowledge Analysis)的数据挖掘工具中实现,该工具是几种机器学习算法的集合包。 本文中的所有实验均在WEKA的3.7版本中进行。

2.4 Feature representation algorithm

  1.  嵌入在谱中的进化信息(PSSM)已广泛应用于蛋白质折叠预测,蛋白质结构类别预测,蛋白质远程同源性检测和其他类似领域。
  2. 我们的新特征表示算法通过结合进化和局部保护信息,有效地将查询蛋白质序列映射到判别特征空间。
  3. 在以下小节中,我们将简要介绍该配置文件,并在所提出的特征表示算法中描述其应用。
  4. 位置特定评分矩阵(PSSM)。 给定的蛋白质序列S表示为S1S2 ... SL,其中Si(1 <= i <= L)表示出现在S的第i位置的氨基酸(残基),并且是S的长度。。 所谓的进化特征是位置特异性评分矩阵(PSSM),其由蛋白质数据库nrdb90的PSI-BLAST搜索的三次迭代产生。多序列比对的E值(期望值)截止值为0.001。 PSSM包含在进化过程中在蛋白质序列的每个残基位置发现每种类型氨基酸的概率。
  5. 因此,PSSM测量给定位置的残留物保存。 PSSM中的进化信息存储在维度为L×20(L行和20列)的矩阵中,其表述如下:
  6. 其中行表示序列S的对应位置。例如,第一行,第二行和第L行分别指代S的第一,第二和第L位置。 列代表20种氨基酸的相应残基类型{A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W ,Y};例如,第一,第二和第20列分别表示“A”,“C”和“Y”。
  7. 条目Pi,j表示在进化过程期间S被突变为残基类型j的位置处的残基的得分(1 <= i <= L,1 <= j <= 20)。
  8. Pi,j得分越高,突变的频率越高(一般情况下)。 高度可变位点的残基可能具有功能性.
  9. 本地Pse-PSSM功能。 Chou等人提出的Pse-PSSM特征。 针对膜蛋白预测。 这些特征可以充分探索PSSM中嵌入的进化信息和序列信息。
  10. 然而,如果DNA结合蛋白序列直接由Chou的Pse-PSSM特征表示,那么进化过程中的所有局部保护信息都将丢失。 为了保留当地的保护信息,我们通过以下步骤修改了Chou的Pse-PSSM功能。
  11. 步骤1.规范化PSSM。 原始PSSM(见方程(1))规范化如下:其中Pi,j代表PSSM的原始分数。 归一化得分(Fi,j)在20个氨基酸上具有零均值。 阳性(阴性)评分表明相应的突变在多重比对中比偶然预期更频繁地发生。 标准化的PSSM由表示为:
  12. 步骤2.将归一化矩阵分段Pnormalized。 该步骤将归一化矩阵Pialized的行分段为n(> = 1)个子矩阵。为方便起见,我们将第k个子矩阵表示为(Pknormalized)。 第一(n-1)个子矩阵中的每一个都具有⌊L/n⌋行和20列;
  13. 最终子矩阵(Pnnormalized)具有(L-(n-1)*⌊L/n⌋)行和20列。 注意,当且仅当L / n是整数时,第一(n-1)个子矩阵和最后的子矩阵的大小相等。 此外,每个子矩阵都保留原始PSSM中包含的进化信息。 重要的是,碎片操作捕获本地保护信息,因为该信息总是嵌入在本地区域中。
  14. 步骤3.为所有子矩阵计算本地Pse-PSSM功能。 为了量化蛋白质S的局部保守信息,我们计算了所有子矩阵的局部Pse-PSSM特征。然而,Pknormalized(1 <= k <= n-1)和Pnnormalized的大小不一定相等。 因此,针对Pknormalized(1 <= k <= n-1)和Pnnormalized分别计算特征。
  15. 对于每个第一(n-1)个子矩阵(Pknormalized(1 <= k <= n-1)),我们通过合并进化信息计算了20个局部特征,如下所示:
  16.  其中Fj(k)表示在进化过程中第k个片段化序列中的每个残基位置突变为残基类型j的平均概率。 因此,我们获得了包含第一(n-1)个子矩阵的进化信息的(n-1)×20个局部特征。
  17. 为了合并序列顺序信息,我们用代表蛋白质S.
  18. 其中是第k个子矩阵中氨基酸类型用分隔的两个偶联残基之间的平均相关性。例如,对于第k个子矩阵中的氨基酸类型j,分别是通过沿着蛋白质链偶联连续残基和每两个残基而获得的相关因子。最大L应该是数据集中序列的最小长度
  19. 在组合包含进化信息(第1部分)和序列顺序信息(第2部分)的局部特征之后,我们获得了第一(n-1)个子矩阵的20(n-1)(1 + L)个局部Pse-PSSM特征。 特征的空间表示由下式给出:   FV(n-1) = (Part1,Part2)
  20. 最后一个子矩阵(Pnnormalized)的局部Pse-PSSM由下式给出
  21. 其中的计算方法与第一(n-1)个子矩阵的描述相同。最终的特征向量组合特征向量FV(n-1)和FV(n)给出:       FV = (FV(n-1),FV(N))
  22. 在这里,我们选择性能最佳的参数(L = 1和n = 3)作为默认参数。 参数优化在第3.5小节(参数优化)中详述。蛋白质序列最终表示为120D特征向量。

2.5 Measurements

  1. 可以通过留一法交叉验证(LOOCV)严格分析预测器的有效性。 在LOOCV测试中,每个蛋白质从训练集中逐个移除,并且预测器由学习数据集中的剩余蛋白质训练。 然后通过训练的预测器测试分离的蛋白质。 LOOCV测试(也称为折刀测试)广泛用于评估DNA结合蛋白预测因子(例如,[19,20,24,27-29,33,39,47,52])。 在本研究中,进行LOOCV测试以与现有方法进行公平比较。
  2. 为了全面检查我们预测器的预测质量,我们采用了四种常用的评估指标; 灵敏度(SE),特异性(SP),准确度(ACC)和Mathew相关系数(MCC)。 这些指标分别表述如下: 
  3. 其中TP,TN,FP和FN分别代表真阳性,真阴性,假阳性和假阴性的数量。 SE(SP)测量预测的DNA结合蛋白(非DNA结合蛋白)的比例,它们是真正的DNA结合蛋白(真正的非DNA结合蛋白),ACC测量所有真实预测的比例 DNA结合蛋白和非DNA结合蛋白,MCC测量所有预测和真实预测之间的重叠程度。 MCC的范围从-1(所有预测都不正确)到+1(所有预测都是正确的)。 特别地,MCC得分为0对应于随机预测。

3. Results and Discussion

3.1 Feature importance analysis

  1.  在本节中,我们分析了所提出的120个局部Pse-PSSM特征对DNA结合蛋白预测的重要性。通过信息增益得分IG(c,x)来测量特征重要性,其表示特征x相对于类属性c [9]的信息增益。建议的120个特征的IG分数在基准数据集PDB1075上进行评估,得到的分数如图2所示。表20总结了前20个重要特征及其IG分数。在前20个评分特征中,Feature_46为最重要的是,IG得分为0.1039。为了分析局部特征的分布,我们将提出的120个特征划分为三个区间:[1,40],[41,80]和[81,120]。图3显示了每个区间中前20个特征的分布。该图显示了在区间[1,40]中分布的9个重要特征,[41,80]中的6个,以及[81,120]中的5个。这表明来自区间[1,40]的特征比来自其他两个区间的特征更具信息性。
  2. 实际上,三个间隔对应于轮廓的三个局部分段区域,我们从中提取所提出的特征。 因此,我们推断概况的第一个片段包含比其他两个片段更多的辨别信息(即,更多的保护信息)。 所有120个功能的信息增益分数详见补充A.
  3. 表1.在基准数据集PDB1075上评估的建议特征中的20个最高评分特征。
  4. 图2:建议的Pse-PSSM功能的信息增益分数。 所提出的特征的参数是n = 3和= 1。 x轴表示120D特征向量中的特征的数字(1-120)
  5. 图3:在基准数据集PDB1075上评估的建议特征中的20个最高评分特征的分布。

3.2 Comparisons of local and global features

本地和全局功能的比较

  1. 通过改变参数n从Chou的Pse-PSSM获得局部Pse-PSSM特征(参见2.4小节;特征表示算法)。 当n> 1时,我们的特征包含当地的保护信息; 当n = 1时,它们包含全局信息。 为了研究当地保护信息的重要性,我们比较了提出的本地Pse-PSSM特征(局部特征)和Chou的Pse-PSSM特征(全局特征)。 比较结果如表2所示。在讨论这些结果之前,我们应该注意表中的参数n表示分段子矩阵的数量; 例如,n = 2且n = 3表示PSSM分别被行划分为相同大小的两个和三个子矩阵。 
  2. 根据表2,大多数本地特征的表现优于全局特征。 n = 3的局部特征获得最高ACC(79.1%),MCC(0.587),SE(84.8%)和第三高SP(73.6%)。 这些得分分别比全局特征的最高得分高1.8%,0.038,3.5%和0.1%。 这表明从局部区域导出的特征比从整个区域导出的特征更具辨别力。
  3. 为什么从本地区域提取的特征比其全球同行更具信息量? 我们可以合理地预期片段化的局部区域包含区分DNA结合蛋白和非DNA结合蛋白的功能保守信息。 该假设由表2中的其他信息间接证实; 特别是,随着碎片区域数量从4个增加到6个,预测性能下降。 实际上,n = 6的局部特征表现得比全局特征差(见表2)。 将原始区域划分为许多小碎片可能会破坏本地保护信息,从而降低性能。
  4. 表2. PDB1075数据集上的局部Pse-PSSM特征和Chou的Pse-PSSM特征的评估结果(折刀验证测试)。

3.3 Comparisons with state-of-the-art predictors on the benchmark dataset PDB1075

  1. 在本小节中,Local-DPP的性能在基准数据集PDB1075上进行评估,并与几个最先进的预测器的性能进行比较; 即,iDNA-Prot | dis [28],iDNA-Prot [24],DNA-Prot [19],PseDNA-Pro [27],DNAbinder [20],iDNAPro-PseAAC [25]和Kmer1 + ACC [11]]。 折刀验证测试的预测结果如表3所示。
  2. 在评估的方法中,所提出的Local-DPP(n = 3和= 1)在三个指标上实现了最佳预测性能:ACC(79.20%),MCC(0.59)和SE(84.00%)。 所提出的方法(n = 3和= 1)的ACC和MCC分别比最佳预测的iDNA-Prot(ACC = 77.30%和MCC = 0.54)高1.8%和0.05。 总之,所提出的方法在预测DNA结合蛋白方面优于现有的最先进方法,证明了所提出方法的优越性和有效性。
  3. 表3.基准数据集PDB1075(折刀测试评估)中提出的方法和最新预测器的结果。

3.4 Comparisons with state-of-the-art predictors on an independent dataset PDB186

3.4与独立数据集PDB186上的最新预测变量进行比较 

为了检验所提方法的稳健性,我们在独立数据集(PDB186)上评估了Local-DPP,并再次将其性能与现有方法的性能进行了比较。 PDB186含有93个DNA结合蛋白和93个非DNA结合蛋白。为了避免训练集(PDB1075)和独立集(PDB186)之间的同源性偏差,我们遵循Liu等人的程序。 [28],使用BLASTCLUST [10]去除PDB1075数据集中与PDB186数据集中任何蛋白质具有超过25%序列同一性的蛋白质,并在移除的PDB1075数据集上重建所提出的方法。独立测试结果如表4所示。所提出的方法(n = 3和= 1)在评估方法中达到了最高的ACC,MCC和SE,并且优于现有的最佳预测器DBPPred(ACC = 76.9%) ,MCC = 0.538,SE = 79.6%),ACC为2.1%,MCC为0.087,SE为12.9%。独立测试证实了先前的测试结果,证实我们提出的预测器有效地识别DNA结合蛋白。因为所提出的方法在独立测试中稳健地进行,所以它应该有效地预测新的DNA结合蛋白。 

表4.所提出的方法和独立数据集PDB186上的最新预测器的结果。

3.5 Parameter optimization

3.5参数优化

在该子部分中,我们优化了所提出的特征表示算法的参数。 所提出的局部Pse-PSSM特征提取的参数是n和L(有关细节,参见子节2.4,特征表示算法)。 为了优化这些参数,我们在基准数据集PDB1075上实现了所提出的方法,将λ从1变为7,将n从1变为2,并通过折刀测试评估预测性能。 表5给出了所提出的方法对于n和L的不同值的预测结果。在两个参数组合下,性能最大化; n = 3且λ = 1(ACC = 79.1%; MCC = 0.587),n = 2且λ = 2(ACC = 79.2%; MCC = 0.587)。 因此,两种组合都被设置为用于生成所提出的特征的默认参数值。 我们注意到任一组合(n = 3,λ = 1或n = 2,λ= 2)都为查询蛋白质生成120D特征向量。

表5.局部Pse-PSSM特征选择中不同n和λ的结果(在基准数据集PDB1075上评估)。 

4. Conclusions 

本文提出了一种新的基于机器学习的方法,称为Local-DPP,用于DNA结合蛋白预测。 在Local-DPP的框架内,我们提出了一种新颖的特征表示算法,该算法解决了离散化蛋白质序列的挑战性问题,使得DNA结合蛋白和非DNA结合蛋白被有效区分。 所提出的特征表示算法通过将原始大PSSM矩阵分割成几个相同大小的子矩阵来提取局部特征。 在实验评估中,包含本地信息的进化特征.这表明嵌入在谱中的局部信息(PSSM)改善了DNA结合蛋白的预测。 为了研究Local-DPP的预测质量,我们将其性能与两个严格基准数据集(PDB1075和PDB186,分别通过折刀测试和独立测试评估)的最新预测器的性能进行了比较。 在折刀测试中,Local-DPP产生最佳ACC(79.1%)和MCC(0.587),分别导致现有方法1.9-6.7%和0.05-0.15。 同样,在独立测试中,Local-DPP达到最高ACC(79.0%)和MCC(0.625),分别导致现有预测值分别为2.1-19.3%和0.087-0.409。 两种数据集的优异性能,特别是在独立测试中,证实了Local-DPP在预测DNA结合蛋白方面的潜在有效性。 我们提出的网络服务器还可以预测大规模数据集中的DNA结合蛋白,以用于实际应用。 

在未来的工作中,我们将通过改进特征表示和分类算法来提高Local-DPP的预测性能。 对于特征表示,我们将考虑将其他生物学相关特征(例如预测的二级结构和氨基酸组成)结合到所提出的基于PSSM的局部特征中。 这些附加信息可能会为分类产生新的鉴别器。 为了提高分类算法的预测能力,我们将考虑一个成熟的集合分类器,例如Lin等人开发的分类器。 [22,23]。 他们强大的集成分类器,即LibD3C,采用聚类和动态选择策略。 LibD3C在蛋白质倍数预测[23]和细胞因子预测[53]领域比单基本分类器更有效。

猜你喜欢

转载自blog.csdn.net/u013841458/article/details/81324873