从Allen Human Brain Atlas(AHBA)中提取基因表达数据和大脑表型做相关是一种常见的分析方法。由于基因集的确定通常是基于不同的策略和目的,同一种细胞类型存在不同的基因集。而选用不同的基因集可能导致不同的分析结果,因此,研究人员在使用基因集时应该考虑到其可能存在的局限性,并且应该进行适当的敏感性分析和验证。此外展示结果时应提供详细的基因集信息,以帮助其他研究人员重现和比较研究结果。本文整理了几个潜在的细胞类型基因集。
1. 来源:Zeisel et al. 2015 Science
Shin et al (2018; Cerebra Cortex) 是较早将细胞类型基因集和大脑表型做相关的研究。
其中细胞类型基因集的数据主要来源是Zeisel et al. Science 2015年的文章:
Zeisel, A., Muñoz-Manchado, A. B., Codeluppi, S., Lönnerberg, P., La Manno, G., Juréus, A., ... & Linnarsson, S. (2015). Cell types in the mouse cortex and hippocampus revealed by single-cell RNA-seq. Science, 347(6226), 1138-1142.
这个基因集主要基于小鼠运动感知皮层和海马CA1区域的单基因测序。基于小鼠皮层细胞类型的基因集是否和人类大脑皮层细胞类型的基因集类似不得而知,Tomas Paus组和其他一众研究者将此基因集沿用至2022年。之前的推文讨论了在使用基因集过程中的统计问题。
细胞类型的基因集见Shin 2018文章的补充材料:
但是由于他们处理AHBA数据的方式独特,基因集主要基于小鼠皮层,统计中存在不完善的地方,所以不推荐使用他们的代码和基因集。
2. 来源:Bhaduri et al. 2020 Nature
Patel et al (2022; Biologcial Psychiatry),同样来自Tomas Paus组,可以看到他们已经摒弃了在之前多篇文章中使用的Science2015的基因集,改用了Nature2020年的基因集(top200基因)。
Bhaduri, A., Andrews, M. G., Mancia Leon, W., Jung, D., Shin, D., Allen, D., ... & Kriegstein, A. R. (2020). Cell stress in cortical organoids impairs molecular subtype specification. Nature, 578(7793), 142-148.
粗略查了下,来源应该是Bhaduri2020文章的补充表S2
此外,Bhaduri第二年的Nature文章补充表S6也有类似的信息。
3. 来源:Lake et al. 2018 Nature Biotechonology
Martins et al (2021; Cell Reports)使用了该细胞基因集,关联了来自于分子影像的表型(PET maps)。
其中细胞基因集数据主要来源于:
Lake, B. B., Chen, S., Sos, B. C., Fan, J., Kaeser, G. E., Yung, Y. C., ... & Zhang, K. (2018). Integrative single-cell analysis of transcriptional and epigenetic states in the human adult brain. Nature biotechnology, 36(1), 70-80.
除了使用Lake et al的细胞基因集,作者还对比了基于其他四篇测序文章的基因合集。这些细胞类型基因集可以在他们的toolbox中找到:
https://github.com/molecular-neuroimaging/Imaging_Transcriptomics/tree/main/imaging_transcriptomics/data
4. 来源:多篇文章
Seidlitz et al (2020; Nature Communication)中整理和使用了5篇测序文章的得到合集。之后的文章,比如DiBiase et al (2022; Molecular Psychiatry)也使用了该基因集。上面Cell Reports的文章使用了Lake文章的基因集,之后用剩下的四个做了补充分析。
该文章提供的细胞类型基因集可以在文章的GitHub中找到:
https://github.com/jms290/PolySyn_MSNs/tree/master/Data/AHBA
5. 来源:PsychoEn
该文章使用了来自于PsychoEn的基因集,印象中也看到其他一些文章使用该基因集做细胞类型的分析。
PsychoEn将来自基因型-组织表达(GTEx)、ENCODE、Roadmap Epigenomics和单细胞分析的数据合并。通过统一处理,创建了一个包括了1866人的在线资源。
Wang, D., Liu, S., Warrell, J., Won, H., Shi, X., Navarro, F. C., ... & Gerstein, M. B. (2018). Comprehensive functional genomic resource and integrative model for the human brain. Science, 362(6420), eaat8464.
该文章使用这个文件的基因集。
http://resource.psychencode.org/Datasets/Derived/SC_Decomp/
此外ABAnnotate工具包中也可以找到PsychoEn的细胞基因集,
https://github.com/LeonDLotter/ABAnnotate
从该表中看出,一些细胞类型的基因数量较少,比如Adult-In1,后续分析可以考虑将细胞亚型合并。
6. 来源:PanglaoDB
从大量的数据集中总结了和细胞类型最相关的标记。
并且一一列出这些数据集。
点击view data之后还可以看到该数据集的tSNE图。
7 来源: csea
http://genetics.wustl.edu/jdlab/csea-tool-2/
csea简单实用,因此经常在文章中看到它的身影,大部分是对发展阶段做显著基因的富集分析。它也提供了细胞类型的富集分析,但是细胞类型的基因集基于小鼠数据,基因集根据pSI的阈值确定,网页版只能做ORA,获取具体的基因集需发邮件。此外,基因集由pSI的阈值确定(不同pSI阈值得到的基因集的specificity不一样),在分析中又多一层考虑因素。综上不推荐。
小结
读文章,分析数据时须知,选用不同的基因集,可能导致不同结果。分析时可以考虑使用不同来源的基因集验证结果的可靠性。Seidlitz et al 2020文章中提供的基因集,它综合了多篇文章的研究成果,在Martins et al (2021; Cell Reports)和DiBiase et al (2022; Molecular Psychiatry)都有使用。但基因集普遍较大,只有OPCs的基因集相对较小,没有Int和Ext细胞的亚型。此外,PsychoEn和PanglaoDB也是不错的来源。