- FastQC 安装
$ wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip $ unzip fastqc_v0.11.7.zip $ chmod 744 fastqc # 将 fastqc 设置为可执行程序 ↑ or ↓ $ chmod u+x fastqc
- 基础质量控制
# -o output_dic -t -thread $ fastqc -o output_dic -t num_thread reads.fastq
- 质量控制结果 简要说明:
- Basic Statics 序列基本信息:
文件名, 文件类型,文件编码信息(phred33/64), 实际总序列条数, 序列长度 - Per Base Sequence Quality: 每个碱基位置序列质量信息,标题为 fastQ 文件使用的质量编码信息
- Per Sequence Quailty Score: 查看序列子集是否存在普遍低质量
长时间运行会导致质量下降 --> 质量修整 - Per Base Sequence Content: 每个碱基位置的 AGTC 比例:
过度表达 --> 衔接子二聚体, rRNA
Biased Composition Libraries: 某些文库固有的偏向它们的序列组成, 如被 Na2SO3 处理的序列, 大量 C 突变为 T - Per Sequence GC content::测量每个序列的全长 GC 含量,与 GC 正态分布建模进行比较
锐利峰:特定污染物
扁平峰:多种污染 - Per Base N content:当测序仪无法充分置信地识别碱基位点的碱基时,产生N。计算每个位点的 N 数目
warning 可能代表质量普遍下降,检查特定bin中覆盖分布,可能最后一个bin中包含的序列很少,产生错误
可能是早期少数位置上高比例的N,总体质量较好,序列组成非常偏向碱基测序仪偏差 - Sequence Length Distribation:计算所有序列长度分布
一些高通量测序仪产生长度一致的片段,但其他序列片段可能含有大量不同的读书
即使长度统一,一些管道也会调整序列,从最后删除质量差的 base call.
警告十分正常,可忽略 - Daplicate Sequence:计算每个序列的重复程度
PCR
RNA-seq 过度排列高表达的转录物
chip-seq 受限制的起始位点(无影响) - Overrepresented:有无过表达序列
- Adapter Content:对文本库中所有Kmers进行通用分析,以查找哪些在阅读时无法覆盖的内容,查找Adapter
每个碱基位点已看到的每个Adapter序列的文库比例 - Kmer Content:计算每个重复段序列出现的次数
如果序列质量很差的序列很长,那么随机序列错误率就会大大增大,减少完全重复序列的计数
如果序列中出现了子序列重复,那么这将不会被Per base content plot of the duplicate sequence analysis 察觉 - Per Tile Sequence Quality:显示每个 tail 的测序质量。
冷色 高于平均质量
热色 低于平均质量
可能仅仅是某个特定时间触发
出现大面积热色 --> 事件遍布流通池 - 命令行参数说明
fastqc [-o output dir] [ -(no) extract] [-f fastq | bam | sam] [-c 污染文件] seqfile1 | seqfile2 |...
-h --help -v --version -o -output dir - casave 文件来自原始 casave 输出 -nano 文件来自 naopore 序列,采用 fast5 格式 -extract 如果设置,则压缩输出 -j --java java二进制文件完整路径 -nogroup 禁止读取2500bp以上的碱基组 -f 跳过正常文件格式检测,强制使用指定格式 bam | sam | bam_mapped | sam_mapped | fastq -t --threads 多线程,每个线程 250 M -c --contamin 指定包含列表的非默认文件,污染物筛选过多的序列(哈希) -a -adapters 指定包含列表的非默认文件,包含一组已经命名的Adapter(哈希) -l 指定一个非默认文件,限制将用于确认 warning / Fairure,或者从结果中删除一些模块, cofiguration --> limits.txt -k -kmers 指定要在Kmer中查找的长度,必须在2-10 之间,默认为7 -q -quiet 安静模式,在标准输出上禁止所有的进度消息,只报错 -d --dir 一个目录用于写入临时文件当生成图像时, 默认系统临时目录
FastQC 配置 及 基本使用
猜你喜欢
转载自blog.csdn.net/boringfantasy/article/details/80612886
今日推荐
周排行