后记:

************************************************************************

在使用cufflinks和cuffmerge中 我使用的都是gff3, 海宝说最好用gtf, 无论怎么样gtf一定是可以用的。

由gff3转化为gtf用gffread:

命令:

gffread Osativa_204_gene.gff3 -T -o Osativa_204_gene.gtf

转化后gff3文件中的信息都会被保留。 虽然feature中没有UTR等,但是可以通过exon-CDS推算出来,

所以才会有 用gff3 和 gtf 跑snpEff 结果会一样。

************************************************************************

ASE终于做到要考虑到使用gtf文件的时候,不得不学习一下,在这里对gtf文件格式做个简单介绍。

GFF : general feature format

GTF : gene transfer format

这种文件contain gene annotations or other transcript data.

GFF have many versions, but the two most popular are GTF2 and GFF3

the proposed GFF3 format adresses the most common extensions to GFF, while preserving backward compatibility with previous formats.

GTF2,他属于gff格式。在GTF2文件中,attributes 有 transcript_id, gene_id, gene_name

Chr1  phytozome9_0      exon  10274 10430 .     +     .     transcript_id "PAC:24118181"; gene_id "LOC_Os01g01010"; gene_name "LOC_Os01
Chr1  phytozome9_0      exon  10504 10817 .     +     .     transcript_id "PAC:24118181"; gene_id "LOC_Os01g01010"; gene_name "LOC_Os01
Chr1  phytozome9_0      CDS   3449  3616  .     +     0     transcript_id "PAC:24118181"; gene_id "LOC_Os01g01010"; gene_name "LOC_Os01
Chr1  phytozome9_0      CDS   4357  4455  .     +     0     transcript_id "PAC:24118181"; gene_id "LOC_Os01g01010"; gene_name "LOC_Os01
Chr1  phytozome9_0      CDS   5457  5560  .     +     0     transcript_id "PAC:24118181"; gene_id "LOC_Os01g01010"; gene_name "LOC_Os01

GFF文件格式:
每行有9列,不同列tab delimited.

第一列: seqname, 来自于哪个序列。

第二列:source, 这个注释的来源是哪里。上表是来自于pytozome.

第三例:feature, 有exon, CDS, *UTR。 等同于bed 格式中的name列。

在gff3文件中。feature的关系是:gene最大,然后是mRNA(transcript),然后是exon, 然后是CDS和*UTR。 如果没有exon信息,可以利用CDS和*UTR算出exon. 一个gene 可以有多个mRNA.

第四列: start 从哪个碱基开始。比如上表第一行,参考序列的第一个碱基是1, 即1-based, 第一个exon从10274个碱基开始。到10430个碱基处结束。 相对于正链来说的。

第五列: end 到哪结束,注意end坐标是include的。

在这里解释一下坐标的问题,对于RNAseq,如果某个read比到forward strand, 说明正链表达了, 坐标是从小到大,比如start condon, CDS1, CDS2, CDS3, end condon。但是如果比到了反链,说明对于这个基因来说,反链转录了。方向相对于正链正好是反的,正链是5’到3‘, 这个就是3’到5‘。但是坐标还是按着正链的坐标来说,坐标从小到大就应该是这样:end condon, CDS3, CDS2, CDS1, start condon。想明白这个问题你要懂得基因转录,对于一条双联DNA,并不是固定的某个链发转录,不是正链发生转录了,反链就没转录。而是对于某个基因来说的,可能在这个双链DNA中含有很多个基因,对于gene1,发生转录的是正链,对于gene2,发生的是反链。所以你才会在gtf, gff文件中看到+ -, 倘若只有一个链发生转录,哪来的同时有+ - 一 说?

这里感谢G博士的耐心讲解,thank you very much, 要不都研究生了还没弄懂,真的好丢人。。。

第六列: 得分~ 貌似没啥用

第七列:strand, 即是正链还是反链。不管是正链还是反链,坐标从小到大的,所以对于正链,第一个CDS所在的坐标范围是小于第二个的。而对于反链,第一个CDS坐标范围是大于第二个。

dot 估计代表不知道哪个strand。。。

第八列: frame, codon是从start的首个碱基开始的,就是0. 从第二个碱基开始的,就是1, 从第三个碱基开始的, 就是2.

第九列:attributes。 textual attribtes 要用double quotes, 不同的attribute用semiclon分开. attribute 和 textual attribute之间是一个space,  不是一个tab.

gene_id ,a globally unique indentifier for the genomic source of the transcript.  一个gene_id 可以对应多个transcript_id. 因为选择性剪切。

transcript_id , a globally unique indentifer for the predicted transcript.

these attributes are designed for handling multiple transcripts from the same genomic region.

其他的attributes 必须放在这两个attribute之后。

by freemao

FAFU

free_mao@qq.com

GFF format的更多相关文章

  1. 如何用cufflinks 拼出一个理想的注释文件

    后记: cufflinks安装: 下载安装包, 不要下载source code ,直接下载binary.    Source code    Linux x86_64 binary http://cu ...

  2. 【基因组注释】ncRNA注释

    目录 1. ncRNA 2. 软件 tRNA注释 rRNA注释 其他ncRNA注释 3. 注释 tRNA rRNA snRNA.miRNA等 4. snRNA.miRNA等结果的统计 1. ncRNA ...

  3. jbrowse 的配置与使用gff, vcf, fa, bed, bam

    1,jbrowse 是什么东西 ? JBrowse is a genome browser with a fully dynamic AJAX interface, being developed a ...

  4. GFF高仿QQ客户端及服务器

    一.GFF简介 GFF是仿QQ界面,通信基于SAEA.MessageSocket.SAEA.Http.SAEA.MVC实现包含客户端和服务器的程序,源码完全公开,项目源码地址:https://gith ...

  5. 探索gff/gtf格式

    参考: GFF格式说明 Generic Feature Format Version 3 (GFF3) 先下载一个 gtf 文件浏览一下 1 havana gene 11869 14409 . + . ...

  6. gff/gtf格式

    1)gff3及gtf2简介 一个物种的基因组测序完成后,需要对这些数据进行解读,首先要先找到这些序列中转录起始位点.基因.外显子.内含子等组成元件在染色体中的位置信息(即注释)后才能再进行深入的分析. ...

  7. GTF/GFF文件的差异及其相互转换

    我们在做生物分析的时候,经常会碰到GFF格式的文件以及GTF格式的注释文件.他们有着相似的名字,甚至连内容都极为相似~那么,他们究竟差在哪里呢? GFF全称为general feature forma ...

  8. Spring resource bundle多语言,单引号format异常

    Spring resource bundle多语言,单引号format异常 前言 十一假期被通知出现大bug,然后发现是多语言翻译问题.法语中有很多单引号,单引号在format的时候出现无法匹配问题. ...

  9. c# 字符串连接使用“+”和string.format格式化两种方式

    参考文章:http://www.liangshunet.com/ca/201303/218815742.htm 字符串之间的连接常用的两种是:“+”连接.string.format格式化连接.Stri ...

随机推荐

  1. ACTIVITI 研究代码 之 模版模式

    模板方法模式需要开发抽象类和具体子类的设计师之间的协作.一个设计师负责给出一个算法的轮廓和骨架,另一些设计师则负责给出这个算法的各个逻辑步骤.代表这些具体逻辑步骤的方法称做基本方法(primitive ...

  2. 如何采集所有QQ群成员?

    首先,你需要有一个CHROME浏览器其实,你要装一个叫REGEX SCRAPER的插件 在qun.qzone.qq.com打开你的QQ群页面-查看群成员 点击REGEX 插件, 粘贴上这个代码 tex ...

  3. Kafka简要图解

    LinkedIn贡献的分布式消息系统 - 请参考这里 kafka集群:producer写入消息,consumer读取消息 消息分为不同主题,每个主题可以分为多个partition(并行),每个part ...

  4. eclipse debug时老提示edit source lookup path解决方案

    用myeclipse debug web应用的时候,总提示edit source lookup path,每次都得手动选择项目,费时费力.在网上终于找到了方法. 搬运:http://www.educi ...

  5. 关于HTML5应用开发功耗调优化小结

    HTML5的优化一直是困扰我的难题,特别是在移动端开发游戏和应用,所以对此进行了一些总结: 功耗优化点介绍 在移动设备中主要的功耗点在: 1. 网络的传输, 不管是3G网络还是WiFi传输都是移动设备 ...

  6. bzoj 2428: [HAOI2006]均分数据

    #include<cstdio> #include<iostream> #include<cstdlib> #include<ctime> #inclu ...

  7. hdu 4616 Game

    http://acm.hdu.edu.cn/showproblem.php?pid=4616 要记录各种状态的段  a[2][4] a[0][j]表示以trap为起点一共有j个trap的最优值 a[1 ...

  8. 常州培训 day3 解题报告

    第一题: 给出数轴正半轴上N个点的坐标和其权值,给出初始体力值M,人一开始在位置0,体力值会随着走过路程的增加而增加,走多少个单位的路消耗多少体力值.到每个点可以打掉,消耗的体力值就是其权值.求 最多 ...

  9. C 记录

    为什么调用 sqrt 函数报错显示未定义 一.调用此函数时,要先引用头文件:#include <math.h>二.linux gcc 编译时,如果用到了 math中的函数,要手工加入函数库 ...

  10. word2vec使用说明

    word2vec是一个将单词转换成向量形式的工具.可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度. 一.理论概述 (主要来源于http://lic ...