用TCGA数据库分析癌症和癌旁组织的表达差异

上周收到一条求助信息:“如何用TCGA数据库分析LINC00152在卵巢癌与正常组织的的表达差异?”

所以以这个题目为例记录分析过程如下:

一、下载数据

  a)进入网站https://cancergenome.nih.gov/   网页截图如下:

  b)进入数据下载 Launch Data Portal   ,截图如下:

  进入数据下载接口后,有Projects Exploration Analysis Repository 四个栏目,我们数据下载可进入Repository菜单栏,截图如下:

  网页分成左右两边,左边主要是提供用户数据选择和过滤的窗口,右边是根据用户的选择后显示及其统计结果。左边选择分为 Cases  和 Files两大类。

  根据我们的研究,目的是要看LINC RNA在卵巢癌和正常组织的表达差异,所以我们在左边的栏目的Cases下选择Ovary,在Files 下选择 RNA-seq ,这些选项选择完毕,会出现上面的那张截图

 c)下载路径文件

 选好文件后,如上图将文件加入购物车,截图如下:

然后点击右上角的Cart,出现如下截图:

点击Sample sheet之后,包含所需文件目录的.tsv文件gdc_sample_sheet.2018-05-22.tsv就可以下载了,放到对应的目录下。

用NotePad打开文件如下:

 

d) 在linux下批量下载文件

  将该文件放在linux的   /home/zdwu/rnaseq/11_source_data  目录下,并在该目录下批量下载数据,代码如下:

cat gdc_sample_sheet.2018-05-22.tsv | while read line
do
echo https://portal.gdc.cancer.gov/files/${line:1:(36-1)}/${line:37:(89-37)}
wget -c https://portal.gdc.cancer.gov/files/${line:1:(36-1)}/${line:37:(89-37)} -O ${line:169:(184-169)}
done

下载完毕后查看文件如下:

用如下命令,确认文件个数是否完整,完整后数据备用。

ls -l | grep "A-" | wc -l

二、数据分析

猜你喜欢

转载自www.cnblogs.com/zdwu/p/9072533.html