GlimmerHMM指南
GlimmerHMM指南
GlimmerHMM是一种De novo的新基因预测软件。
新基因发现基于Generalized Hidden Markov Model (GHMM)。
GlimmerHMM把一个基因看做几种特征序列(状态)的有序切换,这些特征序列包括内含子,基因间隔区,四种外显子(第一个外显子,中间的外显子,最后一个外显子,唯一的外显子),切换的过程形成马尔科夫链。
特征序列内部序列基于Nth-order interpolated Markov models (IMM) (N=8)处理。
描述基因中个特征序列转化关系的马尔科夫状态变化图如下:

特征:
GlimmerHMM使用的模型基于以下几个假设,这些假设导致了GlimmerHMM的一些优点的不足:
- 假设每个基因都开始于起始密码子ATG
- 假设每个基因阅读框内除最后一个密码子外没有终止密码子(no in-frame stop codons)。
- 每个外显子与前一个外显子在同一个阅读框中。(翻译阅读时外显子间没有移框)
优点:GlimmerHMM的搜索范围下降,从而计算效率得以提高。
缺点:真正的移框外显子(genuine frame shifts)无法被检测到。
软件精度
参看官网数据
总体看比Genscan略好
安装
前往官网ftp下载最新版本,解压后即可使用。
Training
由于GlimmerHMM使用的数学模型是HMM,因此需要一个已经研究清楚的物种进行training(学习)之后再对新物种进行prediction(预测),用于trainning的物种应该和需要预测的物种具有较近的亲缘关系。
Input
GHMM的Training需要两个文件输入,即:
- mfasta_file
包含序列的fasta文件
>seq1
AGTCGTCGCTAGCTAGCTAGCATCGAGTCTTTTCGATCGAGGACTAGACTT
CTAGCTAGCTAGCATAGCATACGAGCATATCGGTCATGAGACTGATTGGGC
>seq2
TTTAGCTAGCTAGCATAGCATACGAGCATATCGGTAGACTGATTGGGTTTA
TGCGTTA
- exon_file
包含外显子位置信息,这个文件要求与mfasta_file一致:序列名称一致,位置序号正确指代mfasta_file的序列,不同的序列之间用空行隔开。
seq1 5 15
seq1 20 34
seq1 50 48
seq1 45 36
seq2 17 20
这个例子中,序列sep1具有两个基因,第一个在先导链上(the direct strand)后一个在互补链上(the complementary strand),每个基因有两个外显子。这里有一份真实的mfasta_file和exon_file,可用于理解exon_file,即后续程序的测试文件。
Training数据获取
一般来说,Trainning数据的获取主要有:
- 已经有良好实验背景的该物种基因信息(理想状况,一般不会太多)
- 从非冗余蛋白数据库(nr)中搜索能够map到基因组上的长ORFs(大于500bp),获取外显子位置信息 (比较常见)
Trainning
training的命令结构如下:
GlimmerHMM/train/trainGlimmerHMM <mfasta_file> <exon_file> [optional_parameters]
如果训练集中序列太少,程序会自动警告并且退出,默认情况下要求至少50个具有完整起始密码子(ATG)和终止密码子(TAA/TAG/TGA)的基因在训练集中。
[optional_parameters]中的参数在首次或常规运行中可以省略。
包括的可选项有:
-i----考虑isochores问题,例如:存在两种isochores,一种gc含量0-40%,另一种40-100%,则写为-i 0,40,100默认为-i 0,100
(isochore是指对温血动物的基因组片段做密度梯度离心实验时,发现的有的基因在离心管中聚集在一层,如同等高(体)线(isochore),这些基因的GC含量被认为相对均匀,长度大多大于300kb,这类DNA片段被命名为isochore。被认为是与脊椎动物的温血、冷血与否有关。)
-f -l -n -v分别是在已知上游UTR区、下游UTR区、基因间隔区、基因群周边序列的序列特征值的情况下输入特征值。(一般不需要填写)-b为splice位点简历1阶或2阶马尔科夫链(默认为1阶)
一般情况请直接输入
GlimmerHMM/train/trainGlimmerHMM <mfasta_file> <exon_file>
Trainning后的手动调整:
一般情况下,Trainning后用户不需要进行手动调整,但是手动调整可以一定程度上提高精度。这是因为,一些Trainning系统中的必要参数对于不同的物种有所区别,而系统并不知道(比如,基因间隔区的平均长度),因此,适当调整这些参数能够提升精度。
Majoros and Salzberg 2004描述了一种梯度渐进修改参数的方法慢慢提升精度。
除了提高精度外,修改参数还有很多意义。选择适当的假阳性和假阴性的容忍率,可以解决大量假阳性事件或者预测量太少的问题,从而在不减少太多预测结果的情况下提高准确率。例如,GlimmerHMM在预测一个剪切位点真实与否的时候会权衡假阳性概率,这会使得你错过一些位点,默认情况下这个假阳性的threshold是低于1%。你可以在调整GHMM的这些参数。
完成trainGlimmerHMM后,系统会在training产生的目录(就在工作目录下)下产生一个log文件来记录这次Trainning后GHMM自动产生的参数。
这个参数文件为train_0_100.cfg(前文Trainning时isochores没有被考虑时文件名是这样的,否则每个isochore会产生一个对应的cfg文件)每个可以改变的参数在这个文件中为一行,下表是参数和参数的描述(翻译后可能会失真,请阅读英文翻译)。
| line in the .cfg file | Description |
|---|---|
| acceptor_threshold value | acceptor site threshold value; the false negative/false positive rates for different acceptor thresholds can be consulted from the false.acc file. |
| donor_threshold value | donor site threshold value; the false negative/false positive rates for different donor thresholds can be consulted from the false.don file. |
| ATG_threshold value | start codon threshold value; the false negative/false positive rates for different start codon thresholds can be consulted from the false.atg file. |
| Stop_threshold value | stop codon threshold value; the false negative/false positive rates for different stop codon thresholds can be consulted from the false.stop file. |
| split_penalty value | a factor penalizing the gene finder's tendency to split genes. |
| intergenic_val value | the minimum intergenic distance espected between genes. |
| intergenic_penalty value | a penalty factor for genes situated closer than the intergenic_val value. |
| MeanIntergen value | the average size of intergenic regions. |
| BoostExon value | a factor to increase the sensitivity of exon prediction. |
| BoostSplice value | a factor to increase the score of good scoring splice sites. |
| BoostSgl value | a factor to increase the predicted number of single exon genes. |
| onlytga value | set this value to 1 if TGA is the only stop codon in the genome. |
| onlytaa value | set this value to 1 if TAA is the only stop codons in the genome. |
| onlytag value | set this value to 1 if TAG is the only stop codons in the genome. |
Running
GlimmerHMM的input文件包括两个,一个是fasta的序列文件,另一个是包含trainning结果的目录,一般来说,最好把他们放在一个工作目录下,这一步没有别的调整值(需要调整的都在*.cfg文件中完成)
GlimmerHMM/bin/glimmerhmm_linux fasta.file -d ./arabidopsis/
GlimmerHMM指南的更多相关文章
- JavaScript权威指南 - 函数
函数本身就是一段JavaScript代码,定义一次但可能被调用任意次.如果函数挂载在一个对象上,作为对象的一个属性,通常这种函数被称作对象的方法.用于初始化一个新创建的对象的函数被称作构造函数. 相对 ...
- UE4新手之编程指南
虚幻引擎4为程序员提供了两套工具集,可共同使用来加速开发的工作流程. 新的游戏类.Slate和Canvas用户接口元素以及编辑器功能可以使用C++语言来编写,并且在使用Visual Studio 或 ...
- JavaScript权威指南 - 对象
JavaScript对象可以看作是属性的无序集合,每个属性就是一个键值对,可增可删. JavaScript中的所有事物都是对象:字符串.数字.数组.日期,等等. JavaScript对象除了可以保持自 ...
- JavaScript权威指南 - 数组
JavaScript数组是一种特殊类型的对象. JavaScript数组元素可以为任意类型,最大容纳232-1个元素. JavaScript数组是动态的,有新元素添加时,自动更新length属性. J ...
- const extern static 终极指南
const extern static 终极指南 不管是从事哪种语言的开发工作,const extern static 这三个关键字的用法和原理都是我们必须明白的.本文将对此做出非常详细的讲解. co ...
- Atitit.研发管理软件公司的软资产列表指南
Atitit.研发管理软件公司的软资产列表指南 1. Isv模型下的软资产1 2. 实现层面implet1 3. 规范spec层1 4. 法则定律等val层的总结2 1. Isv模型下的软资产 Sof ...
- HA 高可用软件系统保养指南
又过了一年 618,六月是公司一年一度的大促月,一般提前一个月各系统就会减少需求和功能的开发,转而更多去关注系统可用性.稳定性和管控性等方面的非功能需求.大促前的准备工作一般叫作「备战」,可以把线上运 ...
- 第六代智能英特尔® 酷睿™ 处理器图形 API 开发人员指南
欢迎查看第六代智能英特尔® 酷睿™ 处理器图形 API 开发人员指南,该处理器可为开发人员和最终用户提供领先的 CPU 和图形性能增强.各种新特性和功能以及显著提高的性能. 本指南旨在帮助软件开发人员 ...
- Visual Studio Code 配置指南
Visual Studio Code (简称 VS Code)是由微软研发的一款免费.开源的跨平台文本(代码)编辑器.在我看来它是「一款完美的编辑器」. 本文是有关 VS Code 的特性介绍与配置指 ...
随机推荐
- BUAA-软件工程-个人总结与心得
提问回顾以及个人总结 项目 内容 这个作业属于哪个课程 2020春季计算机学院软件工程(罗杰 任健) 这个作业的要求在哪里 提问回顾与个人总结 我在这个课程的目标是 学习软件开发的过程,团队之间的写作 ...
- SpringCloud 2020.0.4 系列之服务降级
1. 概述 老话说的好:做人要正直,做事要正派,胸怀坦荡.光明磊落,才会赢得他人的信赖与尊敬. 言归正传,之前聊了服务间通信的组件 Feign,今天我们来聊聊服务降级. 服务降级简单的理解就是给一个备 ...
- 冲刺noip2021模拟16
T1 树上的数 考场上比较脑瘫没有想到直接dfs就行了这样是O(n+m)的,傻不拉几地多添了个log, 不过因为accoder的评测机太弱了,绝大多数人的正解都是60分,所以没有什么差别: 直接dfs ...
- cf17B Hierarchy(额,,,水)
题意: Nick's company employed n people. Now Nick needs to build a tree hierarchy of «supervisor-surbod ...
- ELK 脚本自动化删除索引
kibana有自带接口,可通过自带的API接口 通过传参来达到删除索引的目的. # 删除15天前的索引 curl -XDELETE "http://10.228.81.161:9201/pa ...
- Go 跳出 for-switch 和 for-select 代码块
原文:https://segmentfault.com/a/1190000013739000 没有指定标签的 break 只会跳出 switch/select 语句,若不能使用 return 语句跳出 ...
- 远程设备管理opendx平台搭建-server,agent以及front实际搭建
本系列文章讲述的是一个系列的第二部分,最终可以搭建一整套设备远程管理平台,与stf不同的是,opendx搭建较为简单,而且由于底层是appium来支持的,所以,较容易支持ios,也容易支持更高版本的安 ...
- C++ IO基础
一:c++I/O处理,按照数据输入输出的过程,形象的将其看做流.数据在流中进行传播. 所有的流有两个基类:ios和streambuf类 streambuf:提供对缓冲区的基本操作,设置缓冲区等 ios ...
- Java 网络编程 - 总结概述
IP地址 IP地址IntAddress 唯一定位一台网络上的计算机 127.0.0.1:本地localhost IP地址的分类 ipV4/ipV6 ipV4:127.0.0.1,4个字节组成:0~25 ...
- Centos6.8 yum报错及修复YumRepo Error: All mirror URLs are not using ftp, http[s] or file. Eg. Invalid
问题 使用yum安装软件时报错 YumRepo Error: All mirror URLs are not using ftp, http[s] or file. Eg. Invalid relea ...