featuresCounts 软件用于定量,不仅可以支持gene的定量,也支持exon, gene bodies, genomic bins, chromsomal locations的定量;

官网 : http://bioinf.wehi.edu.au/featureCounts/

只需要输入reads的比对情况,就是BAM 文件,再输入一个你感兴趣的区间的注释(通常是基因或者转录本的注释gtf 文件,就可以了),所以不论是DNA seq 还是RNA seq, 这个软件都是可以定量的。

featureCounts 集成在subreads 软件中,类似 word 和 office 的关系,subreads 这个软件也有对应的 R包(Rsubreads).

featureCounts 需要两个输入文件:

1)reads的比对情况,这种信息通常都用BAM/ SAM文件来存储

2)区间注释文件,支持两种格式

最常见的gtf 格式

simplified annotation format(SAF) 格式, 示例如下

GeneID	Chr	Start	End	Strand
497097 chr1 3204563 3207049 -
497097 chr1 3411783 3411982 -
497097 chr1 3660633 3661579 -

在featureCounts 软件中,有两个核心概念:

1) feature , 类似 exon 这种

2) metafeature, 可以看做是一组 feature, 比如属于同一个gene 的外显子的组合

在定量的时候,支持对单个feature 定量(对外显子定量),也支持对meta-feature 进行定量(对基因进行定量), meta-feature 的定量是属于同一meta-features 下的所有features 的总和;

当reads 比对到2个或者以上的features 时,默认情况下,featureCounts在统计时会忽略到这部分reads, 如果你想要统计上这部分reads, 可以添加-O 参数,此时一条reads 比对到多个feature, 每个feature 定量时,都会加1,对于meta-features 来说,如果比对到多个features 属于同一个 meta-features(比如一条reads比对到了exon, 但这些exon 属于同一个gene), 则对于这个gene 而言,只会计数1次;

总之,不管对于feature 还是meta-feature, 只有比对多个不同的区间时,才会分别计数;

定量:

features 支持对单个样本定量,还支持对多个样本进行归一化

单个样本定量的用法示例

featureCounts -T 5 -t exon -g gene_id -a annotation.gtf -o counts.txt mapping.sam

多个样本归一化的用法示例

featureCounts -t exon -g gene_id -a annotation.gtf -o counts.txt library1.bam library2.bam library3.bam

下面对几个常用的选项详细解释一下:

-a  :  指定的区间注释文件,默认是gtf格式

-T  :  线程数,默认是1

-t   :  想要统计的feature 的名称, 取值范围是gtf 文件中的第3列的值,默认是exon

-g  :  想要统计的meta-feature 的名称,取值范围参考gtf 第9列注释信息,gtf 的第9列为 key=value 的格式, -g 参数可能的取值就是所有的key, 默认值是gene_id

其他的一些参数可以根据自己的目的,实际做调整。

输出结果的解读:

featuresCount 会输出两个文件,如果-o 指定的是gene, 则会产生gene 和 gene.summary 两个文件

gene 文件的部分内容如下

# Program:featureCounts v1.6.0; Command:"./featureCounts" "-T" "20" "-t" "exon" "-g" "gene_id" "-a" "hg19.gtf" "-o" "gene" "accepted_hits.bam"
Geneid Chr Start End Strand Length accepted_hits.bam
LOC102725121 chr1;chr1;chr1;chr15;chr15;chr15 11869;12613;13221;102516808;102518449;102518943 12227;12721;14362;102517949;102518557;102519301 +;+;+;-;-;- 3220 0
DDX11L1 chr1;chr1;chr1 11874;12613;13221 12227;12721;14409 +;+;+ 1652 0
WASH7P chr1;chr1;chr1;chr1;chr1;chr1;chr1;chr1;chr1;chr1;chr1 14362;14970;15796;16607;16858;17233;17606;17915;18268;24738;29321 14829;15038;15947;16765;17055;17368;17742;18061;18366;24891;29370 -;-;-;-;-;-;-;-;-;-;- 1769 88

# 号开头的注释行,记录了产生这个结果文件所用的命令,(感觉这个思路特别好,在输出的文件中记录当时的命令,便于核对)

Geneid 开头的行是表头,Geneid 代表统计的meta-features 的名称,Chr , Start, End 染色体上的位置,Strand 正负链,Length 该区间的长度,最后一列的表头是你的输入文件的名称,代表的是这个meta-feature 的count 值,即表达量

接下来看下正文部分,以第一行为例,在gtf 文件中共gene_id 为 LOC102725121 的行如下

chr1	refGene	transcript	11869	14362	.	+	.	gene_id "LOC102725121"; transcript_id "NR_148357";  gene_name "LOC102725121";
chr1 refGene exon 11869 12227 . + . gene_id "LOC102725121"; transcript_id "NR_148357"; exon_number "1"; exon_id "NR_148357.1"; gene_name "LOC102725121";
chr1 refGene exon 12613 12721 . + . gene_id "LOC102725121"; transcript_id "NR_148357"; exon_number "2"; exon_id "NR_148357.2"; gene_name "LOC102725121";
chr1 refGene exon 13221 14362 . + . gene_id "LOC102725121"; transcript_id "NR_148357"; exon_number "3"; exon_id "NR_148357.3"; gene_name "LOC102725121";
chr15 refGene transcript 102516808 102519301 . - . gene_id "LOC102725121"; transcript_id "NR_148357_2"; gene_name "LOC102725121";
chr15 refGene exon 102516808 102517949 . - . gene_id "LOC102725121"; transcript_id "NR_148357_2"; exon_number "1"; exon_id "NR_148357_2.1"; gene_name "LOC102725121";
chr15 refGene exon 102518449 102518557 . - . gene_id "LOC102725121"; transcript_id "NR_148357_2"; exon_number "2"; exon_id "NR_148357_2.2"; gene_name "LOC102725121";
chr15 refGene exon 102518943 102519301 . - . gene_id "LOC102725121"; transcript_id "NR_148357_2"; exon_number "3"; exon_id "NR_148357_2.3"; gene_name "LOC102725121";

对于 LOC102725121 这个meta-features 而言,在gtf 文件中有6个exon的记录,就是说有6个features , 所以可以看到对应的Chr, Start, End, Strand 这些列都有;分号分隔的6个值,Length 则是这6个exon 区间的的长度的总和,最后一列就是LOC102725121的表达量

这个结果文件有1个问题,就是同一个gene_id 会有多个染色体编号,这是因为gtf 文件中的gene_id 不是唯一标识符导致的,这样和我们想要的定量结果是不一样的,所以在实际分析中,应该挑选gtf 文件中的唯一标识符;

总结:

这个软件最大的特点就是运以行的非常快,几分钟就可以运行完1个人类基因组样本的定量;但是准备gtf 文件时,要确保-g 参数指定的值都是唯一标识符,才能达到预期的效果;

featureCounts 软件说明的更多相关文章

  1. DBImport V3.7版本发布及软件稳定性(自动退出问题)解决过程分享

    DBImport V3.7介绍: 1:先上图,再介绍亮点功能: 主要的升级功能为: 1:增加(Truncate Table)清表再插入功能: 清掉再插,可以保证两个库的数据一致,自己很喜欢这个功能. ...

  2. nw.js桌面软件开发系列 第0.1节 HTML5和桌面软件开发的碰撞

    第0.1节 HTML5和桌面软件开发的碰撞 当我们谈论桌面软件开发技术的时候,你会想到什么?如果不对技术本身进行更为深入的探讨,在我的世界里,有这么多技术概念可以被罗列出来(请原谅我本质上是一个Win ...

  3. 标准产品+定制开发:专注打造企业OA、智慧政务云平台——山东森普软件,交付率最高的技术型软件公司

    一.公司简介山东森普信息技术有限公司(以下简称森普软件)是一家专门致力于移动互联网产品.企业管理软件定制开发的技术型企业.公司总部设在全国五大软件园之一的济南齐鲁软件园.森普SimPro是由Simpl ...

  4. JAVA程序员常用软件整理下载

    ********为了大家学习方便,特意整理软件下载如下:*************Java类软件:-------------------------------JDK7.0:http://pan.ba ...

  5. spring boot 实战:我们的第一款开源软件

    在信息爆炸时代,如何避免持续性信息过剩,使自己变得专注而不是被纷繁的信息所累?每天会看到各种各样的新闻,各种新潮的技术层出不穷,如何筛选出自己所关心的? 各位看官会想,我们是来看开源软件的,你给我扯什 ...

  6. 易用BPM时代,软件开发者缘何选择H3?

    近年来,企业级软件开发市场暗流汹涌,呈现出多种态势.软件开发团队规模趋于小型化,工作方式趋于快捷化,超过半数的软件开发者在工作中会选择使用易用的软件开发工具.随着流程管理越来越受到企业的重视,流程开发 ...

  7. 从国内流程管理软件市场份额看中国BPM行业发展

    随着互联网+.中国制造2025.工业4.0等国家战略的支持与引导,企业在数字经济时代的信息化表现惊人,越来越多企业认识到,对于企业的发展来说,信息自动化远远还不够,企业的战略.业务和IT之间需保持高度 ...

  8. 一个软件开发者的BPM之路

    我是小林,一名普通的软件工程师,从事BPM(业务流程管理)软件开发工作.我没有几十年的技术底蕴,无法像大牛们一样高谈阔论,品评BPM开发之道:也不是资深的流程管理专家,能与大家分析流程管理的时弊.我只 ...

  9. 敏捷软件开发VS传统软件工程

    敏捷软件开发:又称敏捷开发,是一种从1990年代开始逐渐引起广泛关注的一些新兴软件开发方法,是一种应对快速变化的需求的一种软件开发能力. 与传统软件工程相比,它们的具体名称.理念.过程.术语都不尽相同 ...

随机推荐

  1. DAG 上的动态规划(训练指南—大白书)

    有向无环图(DAG,Directed Acyclic Graph)上的动态规划是学习动态规划的基础.很多问题都可以转化为DAG上的最长路.最短路或路径计数问题. 一.矩形嵌套 题目描述:       ...

  2. yii2小部件(widget)

    一.创建一个简单的小部件 namespace common\components; //common需要自己先设定一个别名 use yii\base\Widget; //小部件需要继承的基类 use ...

  3. invalid mode 'kCFRunLoopCommonModes' provided to CFRunLoopRunSpecific

    今天写vfl自动给布局之时,出现了 invalid mode 'kCFRunLoopCommonModes' provided to CFRunLoopRunSpecific- break on _C ...

  4. win7 64位安装Dlib19.6版本的过程记录

    本文为原创,未经允许不得转载. 1.去Dlib的官网下载dlib-19.6的源文件.然后解压到Myprograms下的Res文件夹下 2.到CMake的官网下载Cmake,我下载以后解压,然后进入到b ...

  5. oracle 解决锁表问题

      --首先查看有哪些锁 select /*+ rule */ s.username,       decode(l.type,'TM','TABLE LOCK','TX','ROW LOCK',nu ...

  6. 关于js的函数

    1.获取内容的兼容函数 /* * 一: 获取内容的兼容函数 * setText(obj, str) * 思路: * 1.首先判断浏览器: * 2.如果是IE浏览器,就用innerText: * 3.如 ...

  7. C# Xamarin移动开发项目实战篇

    一.课程介绍 在前面阿笨的<C# Xamarin移动开发基础进修篇>课程中,大家已经熟悉和了解了Xamarin移动App开发的基础知识和原理.本次分享课<C# Xamarin移动开发 ...

  8. 已安装nginx动态添加模块

    说明:已经安装好的nginx,需要添加一个未被编译安装的模块,需要怎么弄呢? 具体:这里以安装第三方ngx_http_google_filter_module模块为例nginx的模块是需要重新编译ng ...

  9. 搜索历史命令 Ctrl + R ( ctrl + r to search the history command )

    Linux下的神器 ctrl + r (reverse-i-search ) 的使用方法:   (reverse-i-search usage: ) (press ctl + r ) 输入任意字符,例 ...

  10. 【Jenkins】新版本的特性:自定义流水线

    #!/usr/bin/env groovy pipeline { agent none stages { stage('stage-01') { agent { label 'master' } st ...