Fastqc使用说明

用FastQC检查二代测序原始数据的质量

2013-01-28 21:28:10| 分类： Bioinformatics | 标签：bioinformatics deep-seq |举报 |字号大中小订阅

用微信 “扫一扫”

将文章分享到朋友圈。

用易信 “扫一扫”

将文章分享到朋友圈。

下载LOFTER 我的照片书 |

当二代测序的原始数据拿到手之后，第一步要做的就是看一看原始reads的质量。常用的工具就是fastqc (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)。fastqc的详细使用说明：http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/
我们在服务器上用命令行来运行fastqc： fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN -o用来指定输出文件的所在目录，注意是不能自动新建目录的。输出的结果是.zip文件，默认自动解压缩，命令里加上--noextract则不解压缩。-f用来强制指定输入文件格式，默认会自动检测。-c用来指定一个contaminant文件，fastqc会把overrepresented sequences往这个 contaminant文件里搜索。contaminant文件的格式是"Name\tSequences"，#开头的行是注释。加上 -q 会进入沉默模式，即不出现下面的提示： Started analysis of target.fq Approx 5% complete for target.fq Approx 10% complete for target.fq 如果输入的fastq文件名是target.fq，fastqc的输出的压缩文件将是target.fq_fastqc.zip。解压后，查看html格式的结果报告。结果分为如下几项：

结果分为绿色的"PASS"，黄色的"WARN"和红色的"FAIL"。“You should treat the summary evaluations therefore as pointers to where you should concentrate your attention and understand why your library may not look random and diverse. ”
1 Basic statistics 如下面例子所示：

2 Per base sequence quality quality就是Fred值，-10*log10(p)，p为测错的概率。所以一条reads某位置出错概率为0.01时，其quality就是20。图像如下面例子：

横轴代表位置，纵轴quality。红色表示中位数，黄色是25%-75%区间，触须是10%-90%区间，蓝线是平均数。若任一位置的下四分位数低于10或中位数低于25，报"WARN"；若任一位置的下四分位数低于5或中位数低于20，报"FAIL".
3 Per Sequence Quality Scores 每条reads的quality的均值的分布：

横轴为quality，纵轴是reads数目。当出现上图的情况时，我们就会知道有一部分reads具有比较差的质量。当峰值小于27（错误率0.2%）时报"WARN"，当峰值小于20（错误率1%）时报"FAIL"。
4 Per Base Sequence Content 对所有reads的每一个位置，统计ATCG四种碱基（正常情况）的分布：

横轴为位置，纵轴为百分比。正常情况下四种碱基的出现频率应该是接近的，而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时，即四条线在某些位置纷乱交织，往往提示我们有overrepresented sequence的污染。当所有位置的碱基比例一致的表现出bias时，即四条线平行但分开，往往代表文库有bias (建库过程或本身特点)，或者是测序中的系统误差。当任一位置的A/T比例与G/C比例相差超过10%，报"WARN"；当任一位置的A/T比例与G/C比例相差超过20%，报"FAIL"。
5 5 Per Base GC Content 对所有reads的每个位置，统计GC含量。

如果建库足够均匀，reads的每个位置应当是没有差异的，所以GC含量的线应当平行于X轴，反映样品（基因组、转录组等）的GC含量。当部分位置GC含量出现bias时，往往提示我们有overrepresented sequence的污染。当所有位置的GC含量一致的表现出bias时，往往代表文库有bias (建库过程或本身特点)，或者是测序中的系统误差。当任一位置的GC含量偏离均值的5%时，报"WARN"；当任一位置的GC含量偏离均值的10%时，报"FAIL"。
6 Per Sequence GC Content 统计reads的平均GC含量的分布。

红线是实际情况，蓝线是理论分布（正态分布，均值不一定在50%，而是由平均GC含量推断的）。曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差（overrepresented reads）。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。偏离理论分布的reads超过15%时，报"WARN"；偏离理论分布的reads超过30%时，报"FAIL"。
7 Per Base N Content 当测序仪器不能辨别某条reads的某个位置到底是什么碱基时，就会产生“N”。对所有reads的每个位置，统计N的比率：

正常情况下N的比例是很小的，所以图上常常看到一条直线，但放大Y轴之后会发现还是有N的存在，这不算问题。当Y轴在0%-100%的范围内也能看到“鼓包”时，说明测序系统出了问题。当任意位置的N的比例超过5%，报"WARN"；当任意位置的N的比例超过20%，报"FAIL"。
8 Sequence Length Distribution reads长度的分布。

当reads长度不一致时报"WARN"；当有长度为0的read时报“FAIL”。
9 Duplicate Sequences 统计序列完全一样的reads的频率。测序深度越高，越容易产生一定程度的duplication，这是正常的现象，但如果duplication的程度很高，就提示我们可能有bias的存在（如建库过程中的PCR duplication）。

横坐标是duplication的次数，纵坐标是duplicated reads的数目，以unique reads的总数作为100%。上图的情况中，相当于unique reads数目～20%的reads是观察到两个重复的，～7%是观察到三次重复的，依此类推。可以想象，如果原始数据很大（事实往往如此），做这样的统计将非常慢，所以fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况。重复数目大于等于10的reads被合并统计，这也是为什么我们看到上图的最右侧略有上扬。大于75bp的reads只取50bp（不知道怎么选的）进行比较。但由于reads越长越不容易完全相同（由测序错误导致），所以其重复程度仍有可能被低估。当非unique的reads占总数的比例大于20%时，报"WARN"；当非unique的reads占总数的比例大于50%时，报"FAIL“。
10 Overrepresented Sequences 如果有某个序列大量出现，就叫做over-represented。fastqc的标准是占全部reads的0.1%以上。和上面的duplicate analysis一样，为了计算方便，只取了fq数据的前200,000条reads进行统计，所以有可能over-represented reads不在里面。而且大于75bp的reads也是只取50bp。如果命令行中加入了-c contaminant file，出现的over-represented sequence会从contaminant_file里面找匹配的hit（至少20bp且最多一个mismatch），可以给我们一些线索。当发现超过总reads数0.1%的reads时报”WARN“，当发现超过总reads数1%的reads时报”FAIL“。
11 Overrepresented Kmers 如果某k个bp的短序列在reads中大量出现，其频率高于统计期望的话，fastqc将其记为over-represented k-mer。默认的k = 5，可以用-k --kmers选项来调节，范围是2-10。出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer被认为是over-represented。fastqc除了列出所有over-represented k-mers，还会把前6个的per base distribution画出来。

当有出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer时，报”WARN“；当有出现频率在某位置上10倍于期望的k-mer时报"FAIL"。

参考：http://www.plob.org/article/5987.html

http://yanshouyu.blog.163.com/blog/static/214283182201302835744453/

Fastqc使用说明的更多相关文章

Atitit.项目修改补丁打包工具使用说明
Atitit.项目修改补丁打包工具使用说明 1.1. 打包工具已经在群里面.打包工具.bat1 1.2. 使用方法:放在项目主目录下,执行即可1 1.3. 打包工具的原理以及要打包的项目列表1 1. ...
awk使用说明
原文地址:http://www.cnblogs.com/verrion/p/awk_usage.html Awk使用说明运维必须掌握的三剑客工具:grep(文件内容过滤器),sed(数据流处理器), ...
“我爱背单词”beta版发布与使用说明
我爱背单词BETA版本发布第二轮迭代终于画上圆满句号,我们的“我爱背单词”beta版本已经发布. Beta版本说明项目名称我爱背单词版本 Beta版团队名称北京航空航天大学计算机学院拒 ...
Oracle 中 union 和union all 的简单使用说明
1.刚刚工作不久,经常接触oracle,但是对oracle很多东西都不是很熟.今天我们来了解一下union和union all的简单使用说明.Union(union all): 指令的目的是将两个 S ...
Map工具系列-02-数据迁移工具使用说明
所有cs端工具集成了一个工具面板 -打开(IE) Map工具系列-01-Map代码生成工具说明 Map工具系列-02-数据迁移工具使用说明 Map工具系列-03-代码生成BySQl工具使用说明 Map ...
Map工具系列-03-代码生成BySQl工具使用说明
所有cs端工具集成了一个工具面板 -打开(IE) Map工具系列-01-Map代码生成工具说明 Map工具系列-02-数据迁移工具使用说明 Map工具系列-03-代码生成BySQl工具使用说明 Map ...
jQuery验证控件jquery.validate.js使用说明
官网地址:http://bassistance.de/jquery-plugins/jquery-plugin-validation jQuery plugin: Validation 使用说明转载 ...
gdbsever 使用说明
gdbsever 使用说明在新塘N3292x平台下编译 gdbsever ./configure --target=arm-linux --host=arm-linux arm-linux-gdb ...
mongoVUE的增删改查操作使用说明
mongoVUE的增删改查操作使用说明一. 查询 1. 精确查询 1)右键点击集合名,再左键点击Find 或者直接点击工具栏上的Find 2)查询界面,包括四个区域 {Find}区,查询条件格式{& ...

随机推荐

关于 Git SSH 使用的项目实践
Git 是分布式的代码管理工具,远程的代码管理是基于 SSH 的,所以要使用远程的 git 则需要SSH的配置. 一.简述访问 Git 仓库可以使用 SSH Key 的方式,首先需要生成 Key. ...
5种处理js跨域问题方法汇总
1.JSONP跨域GET请求 ajax请求,dataType为jsonp.这种形式需要请求在服务端调整为返回callback([json-object])的形式.如果服务端返回的是普通json对象.那 ...
C语言动态内存的申请和释放
什么是动态内存的申请和释放? 当程序运行到需要一个动态分配的变量时,必须向系统申请取得堆中的一块所需大小的存储空间,用于存储该变量.当不再使用该变量时,也就是它的生命结束时,要显式释放它所占用的存储空 ...
【轮子狂魔】抛弃IIS，向天借个HttpListener - 基础篇（附带源码）
这一次我们要玩什么? 先声明一下,由于这篇是基础篇主要是通过这篇文章让大家对使用HttpListener响应Http请求有个大概了解,所以正式的花样轮子在下一篇推出,敬请期待 ^_^ 嗯哼,还有,我标 ...
运行用例时，报错Unknow Error：Element xxx is not clickable……的解决方法
P.S:近期selenium官方更新了版本以解决此问题通常这种情况是由于在点击该元素时,js更换了元素属性造成的. 所以可以采用js的方式进行处理方法如下: WebDriver driver = ...
2018年美国大学生数学建模竞赛(MCM/ICM) F题解题思路
任务一:开发价格点,建立综合定价模型. 其中 a 代表开发价格点系数,代表个人财产评估.K 为 PI 交易系数以这个进行评估,将个人划分为具有合理相似性的子组: 当 a 等于 0-30 时,子组为: ...
parewise算法性能优化
在<接口自动化测试框架-AIM>这篇博客中,提到了parewise算法. 这次对其进行性能优化,共3点. 一. 因为笛卡尔积和两两拆分,是有序的. 就保证了两两拆分后的每列都是相同位置的元 ...
netbeans 类重复解决
Help -> About -> Cache directory 记录Cache directory目录删除该目录下的所有文件重启
为什么 jmeter 分布式测试，一定要设置 java.rmi.server.hostname
之前总结了 jmeter 分布式测试的过程,在部署过程中提到,要在 system.properties 中配置自己的 IP. 至于为什么要这么做,源于这一次 debug 的过程. 运行环境 mint, ...
Windows下LimeSDR Mini使用说明
本文内容.开发板及配件仅限用于学校或科研院所开展科研实验! 淘宝店铺名称:开源SDR实验室 LimeSDR链接:https://item.taobao.com/item.htm?spm=a230r.1 ...

Fastqc使用说明

用FastQC检查二代测序原始数据的质量

Fastqc使用说明的更多相关文章

随机推荐

热门专题