进入软件安装目录
cd ~/local/app/
下载 SRA toolkit (确保你的下载链接对应的软件版本是跟你的系统一致的)
curl -O https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2/sratoolkit.2.8.2-centos_linux64.tar.gz
解压
tar xzvf sratoolkit.2.8.2-centos_linux64.tar.gz
转到这个目录下,并查看里面的文件
cd sratoolkit.2.8.2-centos_linux64
ll
程序都在这个bin目录下
cd bin
ll
配置环境变量
echo "export PATH=\$PATH:\$HOME/local/app/sratoolkit.2.8.2-centos_linux64/bin" >> ~/.bashrc
source ~/.bashrc
转到 lecture 文件夹下
mkdir -p ~/edu/lec4
cd ~/edu/lec4
命令prefetch 可以从远程站点下载文件
prefetch -h
Usage:
prefetch [options] <SRA accession | kart file> [...]
Download SRA or dbGaP files and their dependencies
prefetch [options] <SRA file> [...]
Check SRA file for missed dependencies and download them
prefetch --list <kart file> [...]
List the content of a kart file
...............................................................
来获取文件
prefetch SRR1553610
这些文件去哪里了?存在了你home目录下的一个默认文件夹里
ls ~/ncbi
里面添加了什么?可以用工具find来查看
find ~/ncbi
/home/sunchengquan/ncbi
/home/sunchengquan/ncbi/public
/home/sunchengquan/ncbi/public/sra
/home/sunchengquan/ncbi/public/sra/SRR1553610.sra
我们用程序fastq-dump来把文件拆包
fastq-dump -h
从NCBI下下来的数据,双端测序数据是放在一个文件里的,所以需要把它们重新拆解为两个文件
拆包文件
cd ncbi/public/sra/
fastq-dump --split-files SRR1553610
FASTQ格式的原始数据文件已经在当前文件夹了
shell下的模式匹配。* (星号)表示可以匹配任何东西
wc -l *.fastq
879348 SRR1553610_1.fastq
879348 SRR1553610_2.fastq
1758696 总用量
查看文件
head SRR1553610_1.fastq
cat *.fastq | grep @SRR | wc -l
如何下载多个文件
echo SRR1553607 > sra.ids
echo SRR1553605 >> sra.ids
prefetch --option-file sra.ids
拆包下载好的所有文件
fastq-dump --split-files ~/ncbi/public/sra/SRR155360*
or
cat sra.ids | sed 's/SRR/fastq-dump --split-files SRR/'
我们还要做的更好。 为什么要去一一复制这些SRR ID ?我们其实可以完全通过命令行来获取它们
esearch -db sra -query PRJNA257197 | efetch -format runinfo
这个命令是把所有的结果放到一个文件里
esearch -db sra -query PRJNA257197 | efetch -format runinfo > runinfo.txt
cat runinfo.txt|wc -l
927
cat runinfo.txt|grep SRR|wc -l
891
并且,由于这是一个逗号分隔符的文件,我们需要把分隔符(用以区别不同列的符号)指明给cut程序
cat runinfo.txt | cut -f 1 -d ","
在我给出的网页版的截图里,你也可以看到,最终结果确实是891个,跟命令行获取的是一样的
检查一下下载结果的总大小
du -hs ~/ncbi
例如查询当前用户目录下的所占用的空间
du -hs *
4.0K blast.sh
2.8G Cosmic_grep
2.5G data
16M edu
5.6M features.gff
11M GAS_match
67M illumina-data.fq
23M illumina-data.fq.gz
95M input
4.8M lec7.tar.gz
1.4G local
4.0K match.gff
42M mydata.tar.gz
790M ncbi
................................................
对于du命令,-h表示 查看以M 为单位显示文件大小结果,-s 统计此目录中所有文件大小总和
在NCBI 网站上的手动操作,获取一个project里的所有SRR ID
首先进入https://www.ncbi.nlm.nih.gov/sra/
输入你要找的这个编号:PRJNA257197
点击search
会看到很多检索结果
点击右上角的send to
选定File,并把Format改为RunInfo
点击Create File就生成了一个SraRunInfo.csv文件了
有没有发现,你其实只是把这种网页版的操作变成了几乎一一对应的命令行操作而已