细胞类型基因集整理

1149098a032f8e9d61151eb1519c7bf4.png

从Allen Human Brain Atlas(AHBA)中提取基因表达数据和大脑表型做相关是一种常见的分析方法。由于基因集的确定通常是基于不同的策略和目的,同一种细胞类型存在不同的基因集。而选用不同的基因集可能导致不同的分析结果,因此,研究人员在使用基因集时应该考虑到其可能存在的局限性,并且应该进行适当的敏感性分析和验证。此外展示结果时应提供详细的基因集信息,以帮助其他研究人员重现和比较研究结果。本文整理了几个潜在的细胞类型基因集。

1. 来源:Zeisel et al. 2015 Science

c5742207c255ae297928d646cdd8eeee.png

Shin et al (2018; Cerebra Cortex) 是较早将细胞类型基因集和大脑表型做相关的研究。

4c5d88e757ccad6ed52e7e8b1a5ac070.png

其中细胞类型基因集的数据主要来源是Zeisel et al. Science 2015年的文章:

Zeisel, A., Muñoz-Manchado, A. B., Codeluppi, S., Lönnerberg, P., La Manno, G., Juréus, A., ... & Linnarsson, S. (2015). Cell types in the mouse cortex and hippocampus revealed by single-cell RNA-seq. Science, 347(6226), 1138-1142.

02f0e447412dbb1ba0acc704b252774b.png

这个基因集主要基于小鼠运动感知皮层和海马CA1区域的单基因测序。基于小鼠皮层细胞类型的基因集是否和人类大脑皮层细胞类型的基因集类似不得而知,Tomas Paus组和其他一众研究者将此基因集沿用至2022年。之前的推文讨论了在使用基因集过程中的统计问题。

细胞类型的基因集见Shin 2018文章的补充材料:

d0e969abbf26b26f99c81d2cb76fdcd7.png

但是由于他们处理AHBA数据的方式独特,基因集主要基于小鼠皮层,统计中存在不完善的地方,所以不推荐使用他们的代码和基因集。

2. 来源:Bhaduri et al. 2020 Nature 

753939b5188b1b8f8d6250aeb7f21a49.png

Patel et al (2022; Biologcial Psychiatry),同样来自Tomas Paus组,可以看到他们已经摒弃了在之前多篇文章中使用的Science2015的基因集,改用了Nature2020年的基因集(top200基因)。

Bhaduri, A., Andrews, M. G., Mancia Leon, W., Jung, D., Shin, D., Allen, D., ... & Kriegstein, A. R. (2020). Cell stress in cortical organoids impairs molecular subtype specification. Nature, 578(7793), 142-148.

4da9e475300ea793bd721a4485d65416.png

粗略查了下,来源应该是Bhaduri2020文章的补充表S2

ff2cca287321164ae4471fad1ed2b1bb.png

此外,Bhaduri第二年的Nature文章补充表S6也有类似的信息。

0066e2b8be6ef1d5086ed34a5b363e8a.png

3. 来源:Lake et al. 2018 Nature Biotechonology

137bb987d96a49b762378e09917a3038.png

Martins et al (2021; Cell Reports)使用了该细胞基因集,关联了来自于分子影像的表型(PET maps)。

a85d82b352769334cb3da74d71950a00.png

其中细胞基因集数据主要来源于:

Lake, B. B., Chen, S., Sos, B. C., Fan, J., Kaeser, G. E., Yung, Y. C., ... & Zhang, K. (2018). Integrative single-cell analysis of transcriptional and epigenetic states in the human adult brain. Nature biotechnology, 36(1), 70-80.

6436276d46d497824bf62d0746659d31.png

除了使用Lake et al的细胞基因集,作者还对比了基于其他四篇测序文章的基因合集。这些细胞类型基因集可以在他们的toolbox中找到:

https://github.com/molecular-neuroimaging/Imaging_Transcriptomics/tree/main/imaging_transcriptomics/data

5dc6f89e31aa1d6dee60fce5d0f882a8.png

4. 来源:多篇文章

66152b268ff19e11418b2b0e0106a7f9.png

Seidlitz et al (2020; Nature Communication)中整理和使用了5篇测序文章的得到合集。之后的文章,比如DiBiase et al (2022; Molecular Psychiatry)也使用了该基因集。上面Cell Reports的文章使用了Lake文章的基因集,之后用剩下的四个做了补充分析。

88438aadf6d9fee273b7d0bcead6508a.png

该文章提供的细胞类型基因集可以在文章的GitHub中找到:

db36dd8da14e0049bd61ed5ad3d09168.png

https://github.com/jms290/PolySyn_MSNs/tree/master/Data/AHBA

5. 来源:PsychoEn

48506df8af9f7b8547d15388a60fff34.png

该文章使用了来自于PsychoEn的基因集,印象中也看到其他一些文章使用该基因集做细胞类型的分析。

PsychoEn将来自基因型-组织表达(GTEx)、ENCODE、Roadmap Epigenomics和单细胞分析的数据合并。通过统一处理,创建了一个包括了1866人的在线资源。

Wang, D., Liu, S., Warrell, J., Won, H., Shi, X., Navarro, F. C., ... & Gerstein, M. B. (2018). Comprehensive functional genomic resource and integrative model for the human brain. Science, 362(6420), eaat8464.

该文章使用这个文件的基因集。

http://resource.psychencode.org/Datasets/Derived/SC_Decomp/

aee9944c2ea667353d316f710e0a2c47.png

此外ABAnnotate工具包中也可以找到PsychoEn的细胞基因集,

https://github.com/LeonDLotter/ABAnnotate

89e0c811eb0980fa979a6f4acdca7cf3.png

从该表中看出,一些细胞类型的基因数量较少,比如Adult-In1,后续分析可以考虑将细胞亚型合并。

6. 来源:PanglaoDB 

647def3d095ffcd87d551e789c6fc060.png

b34e400ce87630c659275460427f20c8.png

2fc9d7fd743406d243876d3283fac2a1.png

从大量的数据集中总结了和细胞类型最相关的标记。

739a2baa38ec28692d3801c59a74ef1f.png

并且一一列出这些数据集。

6665d4a556ec354633ea7a46592fdea3.png

点击view data之后还可以看到该数据集的tSNE图。

7768f8dea64517cd5a1e3f80a505859d.png

7 来源: csea

http://genetics.wustl.edu/jdlab/csea-tool-2/

csea简单实用,因此经常在文章中看到它的身影,大部分是对发展阶段做显著基因的富集分析。它也提供了细胞类型的富集分析,但是细胞类型的基因集基于小鼠数据,基因集根据pSI的阈值确定,网页版只能做ORA,获取具体的基因集需发邮件。此外,基因集由pSI的阈值确定(不同pSI阈值得到的基因集的specificity不一样),在分析中又多一层考虑因素。综上不推荐。

193614df06274c5c3da27fe94cb7a1ad.png

小结

读文章,分析数据时须知,选用不同的基因集,可能导致不同结果。分析时可以考虑使用不同来源的基因集验证结果的可靠性。Seidlitz et al 2020文章中提供的基因集,它综合了多篇文章的研究成果,在Martins et al (2021; Cell Reports)和DiBiase et al (2022; Molecular Psychiatry)都有使用。但基因集普遍较大,只有OPCs的基因集相对较小,没有Int和Ext细胞的亚型。此外,PsychoEn和PanglaoDB也是不错的来源。

9034423b26835990529931a5b1debb8e.png

猜你喜欢

转载自blog.csdn.net/lazysnake666/article/details/129483905