进化重测序实验:中等频率等位基因和关联选择的意义

本研究使用新的分析和模拟方法来研究进化重测序实验,分析了果蝇(Drosophila simulans)面对新环境的进化过程。具体来说,通过似然检验,在果蝇基因组中发现了138SNP存在受选择信号。之前相关的研究发现了数千个这样的SNP,由于本研究的实验设计和分析方法的改进,识别出的受选择SNP 位点数量大幅减少。同时还显示,对基因组中30个位点(包含138SNP)的选择可以解释绝大多数基因组对环境的响应。实验中显示出平行进化(parallel selection)的SNP多是中等频率的SNP30%-70%),这也提示平衡选择(balancing selection)在进化中的重要作用。


image.png背景

进化重测序(E&R就是一个群体在一个或多个可控的条件下进行繁衍进化,然后对群体的基因组进行测序。这样能够得到大量的基因组数据,同时也能观测到很多位点的动态变化。本研究为进化重测序研究提供了一个研究框架,首先是关于基因组进化预测的,然后是识别不同重复的平行进化位点。将该框架用到果蝇实验中,能够回答下面两个问题:

1)对新环境快速适应的遗传基础是什么?

2)通过基因组对选择相应,能够告诉我们自然界是怎样保持其基因多态性的。

快速适应的遗传基础

传统观点认为适应性进化的过程是一个很慢的过程。但是自20世纪中期,人们发现了很多表型快速进化的例子。快速进化对控制病原体、控制害虫和***物种、渔业管理、生态多样性保护有重要意义,特别是在当今全球气候变化的情况下。当一个群体经历新的选择压力时,可以在数代之内发生生化水平、形态学水平、生命周期以及行为水平上的显著变化。相比之下,我们对其在基因组水平上的变化还知之甚少,特别是对多细胞真核生物。

既然存在很多快速适应进化的例子,那么就有一个随之而来的问题:在快速适应过程中,是现有基因变异(standing genetic variation)发挥的作用更大,还是新突变(new mutation)发挥重用更大?在有性真核生物中,人工选择通常能够快速显著的改变一个物种的性状平均水平,这意味着该物种可能存在很多现有基因变异,以便人工选择发挥作用。即便该性状可能带来一些有害的副作用,人工选择依旧可以顺利进行。和人工选择不同,进化重测序主要是面对新环境生物体的“自我选择”,基因的多效性是决定一个基因未来命运的关键因素。目前关于进化重测序已经有不少研究了,但是很多是建立在实验室种群基础上的,本研究是针对野外种群的进化重测序,探究适应性进化早期基因组水平的变化。

进化重测序中基因组水平的进化

既往很多关于果蝇进化重测序的研究探讨了受选择位点的数量、softvs. hard selective sweeps、等位基因动态变化、以及对基因多态性的影响。有研究发现数千个多态性位点受到选择,而且位点频率变化很大,这其中可能会存在很多假阳性。当然搭便车效应(hitchhiking)也可能是这么多阳性结果的原因。因为果蝇中存在很多染色体倒置以及中心粒的效应,重组水平会因此降低,从而出现很明显的搭便车效应。

识别受选择位点

很多方法可以用来识别进化重测序实验中受选择的位点,有些方法针对SNP,有些针对扫描窗口。最常用的就是针对单组SNP频数的Fisher检验或者针对组的CMH检验。当然这种检验方法仅仅是证明不同群体等位基因频数有无区别,不能说明这种区别是不是由于选择造成的。本研究也使用了CHM检验作为参照。

进化重测序实验中基因组的响应情况取决于受选择位点的数量和位置、位点之间的对表型的交互作用、连锁不平衡情况、重组情况和实验设计情况。所以在本研究中我们对这么多情况进行了不同的模拟。

image.png方法

野外(佛罗里达)采集,设有3个重复(A0,B0,C0),在实验室经过7个月的进化形成3个进化群(A7,B7,C7)。Illumina HiSeq2500测序,每个池500个果蝇个体。使用Scythe去除adaptor的污染,使用Sickle剔除低质量测序片段,BWA-mem进行与参考基因组的比对。使用picard-tools剔除PCR污染,Varscan获得SNPindel。同时过滤了测序深度的影响,最后一共得到了291,272SNP。通过似然比检验了平行进化和群体之间分化的异质性。对一系列参数组合进行模拟。


image.png结果

似然比检验识别出138个存在平行适应的SNP。通过100kb的扫描窗口可以看到似然比大值有聚集现象,即存在连锁不平衡。

image.png

(灰色线条是LRT扫描结果,三角形表示的是阳性LRT位点,黑点表示存在平行进化的扫描窗口)

一个更显著的发现是,这些识别出的平行进化的SNP几乎都是中等频率的位点。正常情况下,只有不到一半的SNPMAFminorallele frequency<0.1;但是对于这些受选择位点,有98%SNPMAF>0.1,如下图:

image.png

(等位基因频谱,蓝色表示群基因组水平MAF的分布,橙色表示平行选择位点的MAF分布

通过计算机模拟发现,卡方检验或者CMH检验在识别受选择位点的时候非常不保守,假阳性率太高。比如,CHM检验识别出402个可能受选择位点,这个数量是似然比方法识别数量的3倍。进一步比较CMH和似然比(LRT)的方法,可以看出,似然比在识别真正受选择位点时比CMH方法要准确。

image.png


(上图是正常实验测序深度,下图是将测序深度增加10倍的模拟结果。受选择位点、正常重组区首选位点的10kb内(closely linked)、正常重组区首选位点的10kb外、低重组区。LRT的正确识别率更高,CMH识别的阳性位点多位于10kp以外的区域。测序深度的增加能够增加阳性位点的数量,同时因为关联效应造成的假阳性率降低)

通过模拟还显示,搭便车效应在低重组区对结果又很大的影响。

image.png讨论

本研究通过进化重测序实验发现了>100SNP存在平行进化现象,这些SNP位于约30个位点处。同时发现中等频率的等位基因对群体的快速适应发挥了重大作用。在实验中,中性SNP位点受到关联效应的影响要比受遗传漂变影响更大。

同时我们认为,这些在本实验中受到选择的位点在自然界中可能受到了平衡选择的作用,从而保持了较高频率的多态性水平。原因如下:平行进化在实验中的表现非常明显;通过Tajima’sD对受选择SNP进行检验,发现D=4.88,(一般认为D>2可以认为存在平衡选择)。此外,本实验通过数据校正排除了中等频率等位基因因为变化幅度更容易偏大而导致更容易识别的系统误差。

进化重测序实验中识别出的受选择位点数量通常会比实际数量多。首先是建立实验种群所使用的单倍体型数量有限,这种抽样会导致很多识别的位点并非是真正的受选择位点;同时,位点之间的关联性也是导致很多假阳性结果的重要因素。尽可能多的采样,尽可能包含各种不同类型的单倍体型,这样可以降低第一种因素造成的假阳性结果。针对第二种因素造成的假阳性,我们应该尽可能把连锁不平衡因素考虑在内,如果有可用的重组图就更好了。

另外,本实验识别受选择位点数较少的原因可能还与物种有关,和D.melanogaster相比,本实验用到的D.simulans很少在基因组中出现染色体倒置,所以其基因组重组率要比D.melanogaster高出30%


=====  THE END ====

资料来源:

Kelly, J. K., & Hughes, K. A. (2018). Pervasive Linked Selection and Intermediate-Frequency Alleles Are Implicated in an Evolve-and-Resequencing Experiment of Drosophila simulans. Genetics, genetics-301824.


image.png


猜你喜欢

转载自blog.51cto.com/15069450/2577326