Gene Expression Omnibus(GEO)是一个公共存储库,可以存档和自由分发由科学界提交的全套微阵列,新一代测序和其他形式的高通量功能基因组数据。 除数据存储外,还提供一系列基于Web的界面和应用程序,以帮助用户查询和下载存储在GEO中的研究和基因表达模式。
GEO的数据储存方式
GEO数据库具体存放四类数据:GSE、GDS、GSM、和GPL。
一个GSE号(GSExxx)对应的是整个研究项目的系列的数据,可能涉及不同平台;
一个GDS号(GDSxxx)对应的一个同一平台的数据集, 这些包括从微阵列和高通量序列技术生成的数据,例如:
一个GSM号(GSMxxx)对应单一样品的数据信息,它只能是单一平台的数据,往往,GSE 和GDS中会包含多个GSM数据;
一个GPL号(GPLxxx)则对应一个平台的信息,一般不接触的。
另外,GEO Profiles数据库是GEO工作人员根据用户提交的数据整理后的数据,倾向于某个基因在不同数据集中的表单情况。
GEO的数据检索与下载
GEO数据库支持关键字检索和布尔逻辑,和使用pubmed非常相似,一般我们都是在GEO DataSets数据库中检索。例如检索乳腺癌,如下所示:
1. 搜索乳腺癌“BreastCancer”,即可获得所有乳腺癌的芯片数据。
2. 选择需要研究的芯片点击进入
3.点击样本分类号,就可以跳转到下载页面,下载SOFT、MINiML和RAW等数据。
4. 在该样本中还可以进行分析,例如分析BRCA1基因表达谱,可以发现Profile neighbors链接,即表达谱相近的基因,这就是我们需要寻找的与BRCA1相关的有可能共表达的基因了。
5. 对所有该基因的表达谱分析后,同样可以获得可能的信号通路。
R包安装与下载数据
> # try http:// if https:// URLs are not supported > source("https://bioconductor.org/biocLite.R") > biocLite("GEOquery")
利用GSE号下载
通过阅读文献查找感兴趣的GSE号,下载对应的表达数据和平台信息等,可以利用GEOquery中的getGEO()函数下载series_matrix.txt。例如GSE57820:
> library(GEOquery) > # destdir设置当前目录,getGPL 和AnnotGPL都设置TRUE,可以下载和获得平台的注释文件 > GSE57820 <- getGEO("GSE57820", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
利用GDS号下载
> GDS6100 <- getGEO("GDS6100", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
利用GSM号下载
利用GSM号下载的是单样本的表达数据,例如GSM1394594:
> GSM1394594 <- getGEO("GSM1394594", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
利用GPL号下载
针对芯片平台,利用GPL号下载得到的数据是芯片的设计和注释信息,可以获得探针组和基因的对应关系,例如GPL10558:
> GPL10558 <- getGEO("GPL10558", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
参考资料
http://www.bioconductor.org/packages/release/bioc/html/GEOquery.html