生物信息学的5个Level

本文摘取自哈佛大学Shirley Liu教授的博客,Shirley Liu教授将生物信息学(或计算生物学)研究归类为五个层次,分别是Level 0、1、2、3和X。在此,她没有区分生物信息学和计算生物学,所以这两个词可以互换使用。

Level 0 是为了建模而建模。作者回忆起多年前,有人问如何选择一个利用大量GEO数据进行建模的项目。作者问他想回答什么问题,得到的回答是“建模问题”。这对于只将自己看作数学家、统计学家、计算机科学家或物理学家的科学家来说是完全可以接受的,但对于认真对待生物信息学或计算生物学研究的人来说是不够的。许多Level 0的生物信息学家从不阅读或发表生物学期刊文章,也不参加生物学会议,因此他们尚未进入生物医学研究领域。等级0的研究通常只被作者自己和其他也只做Level 0研究的人阅读和引用,因此浪费了大量资源。

Level 1 分析自己实验室或合作者的未发表数据,并尝试获得新的生物学发现。与Level 0生物信息学相比,这是一个更有用的努力,也是培养生物信息学家的好方法。通过实践,我们可以运用现有的生物信息学技能去发现真正的生物学知识,学习新的生物信息学技能,并更重要的是激发对Level 2和Level 3项目的洞察力和想法。

Level 2则注重开发,包括1)解决大数据研究中与生物医学研究特别相关的一般性定量问题的方法(例如Qvalue for FDR),2)分析新型高通量技术数据的计算算法(例如RMA或Bowtie),或3)整合许多其他公共数据的数据库或资源(例如Oncomine)。作者认为这是更高层次的生物信息学研究,因为对于等级1项目,生物信息学家只帮助他们自己的合作者,而一个好的等级2项目可以帮助成千上万的其他生物学家。

注:上述提到的Qvalue for FDR指的是一种统计方法,用于控制多重假设检验中的错误发现率 (FDR)。在生物医学研究中,通常同时进行多个假设检验,例如在基因表达研究或全基因组关联研究中。 但是,这会增加获得假阳性结果或 I 类错误的可能性。 为了解决这个问题,研究人员经常使用 FDR 等方法来控制所有被拒绝的假设中误报的比例。FDR 的 Qvalue 是一种特定方法,用于估计所有被拒绝的假设中误报的比例,同时考虑执行的测试数量和 p 值的分布。 该方法为每个假设检验分配一个 Q 值,它表示给定检验结果被认为具有显着性的最小 FDR。

Level 3一般是整合公共的高通量数据,利用相当巧妙的方法来做出生物学发现。这样的工作一般是从数据开始,实验验证结束。这就需要生物信息学家具有非常扎实的生物学知识,并且能够自己提出有意思的生物学问题。生物信息学家可以领导一个生物学的项目,并且实验学的合作者能够相信预测的正确性以及意义,并乐意开展实验验证。这个级别的研究一般都需要实验验证,不然顶级的期刊不收。对这类工作的评价,主要是看生物学的问题是否有意义,数据整合和分析是否有足够的技巧和合理性,并且也可以根据杂志发表期刊的档次(影响因子)来判断。评估 3 级研究的方法是考虑算法或技术的创新性、实用性和在解决特定生物学问题方面的有效性。

Level X是生物信息学家为大型联合研究项目生成的海量数据提供关键的整合和建模。衡量一个生物信息学家是否达到Levle X的一个标准是,他的名字出现在论文标题中的次数。只有具有良好的Level 1和Level 2水准以及好的团队领导能力的生物信息学家才能加入到Level X研究项目。这些研究通常在非常高端的期刊上发表,具有出色的引用率,需要生物信息学首席作者的巨大努力和所有高级作者的协调。尽管信息整合对于联合研究论文的发表至关重要,但有时数据胜过信息,即期刊根据论文的数据和潜在引用率而非生物信息学本身来评判论文。此外,第一作者身份常常更能代表其PI的领导能力,而不是第一作者的技术能力和创造力,因此,这些研究的第一作者,特别是在他们独立后,需要建立自己独立于Level X项目的科学声誉。

Shirley最后总结道,对于生物信息学者来说,一般从1级的研究开始,学习基本的生信技术;等到计算和生物学知识掌握差不多之后,可以尝试想2级和3级进阶,并且有可能也参与X级的研究。如果条件允许的话,一般有成就的生物信息学家的研究会从1级做到X级,不会专注某一个级别。也有许多生信学者包括Shirley本人也在开始做实验并且产生实验数据,这样实验的内容要拿去跟实验学家的工作去比,而计算部分则可按照上述五个类别来评价。

博客下面有读者对这五个层次做了一个归纳:

level 0: 为了建模而建模,关注的其实是纯粹技术性的东西;

level 1: 自己实验室产生数据,并作出一些简单的分析,基本只服务于自己或者合作者;

level 2: 创造一些算法以解决大数据处理中的的数值性问题;

level 3: 从公共数据中挖掘出新的生物学发现,并作出验证;

level X: 对公共的大量数据作出关键性的整合和建模。

猜你喜欢

转载自blog.csdn.net/m0_56572447/article/details/130465976