augustus, gene prediction, trainning
做基因组注释
先用augustus训练,然后再用maker做基因注释
augustus提供一些训练好的,如果有和你的物种非常接近的,直接用提供的,没有的话再自己训练。
网址:
http://bioinf.uni-greifswald.de/augustus/
老版本下载:
http://bioinf.uni-greifswald.de/augustus/binaries/old/
最后选择下载2.7的 新版本3.2的实在是装不上 太麻烦了!!!!!
下载好后,解压,cd src, sudo make, 然后:
vi ~/.bash_profile
AUGUSTUS_CONFIG_PATH=/home/cmiao/augustus.2.7/config/
export AUGUSTUS_CONFIG_PATH
source ~/.bash_profile
sudo cp /home/cmiao/augustus.2.7/bin/augustus /usr/local/bin/
安装pslCDnaFilter. 如果没有的话。
WARNING: Could not successfully find and run pslCDnaFilter. Please install this program.
安装一下pslCDnaFilter 再试试
下载地址:
http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64.v287/pslCDnaFilter
很多的软件都可以在这里下载:
文件准备:
参考基因组
cDNA
都准备好后,执行命令:
~/augustus.2.7/scripts/autoAug.pl --species=Carya --genome=../Carya.fa --cdna=../Carya_400cDNA.fa --singleCPU
报错:
1 ####### Step 1: Training AUGUSTUS (no UTR models) #######
Error: missing training file!
原因: 如果没有gff文件,必须加--pasa
PASA, acronym for Program to Assemble Spliced Alignments, is a eukaryotic genome annotation tool that exploits spliced alignments of expressed transcript sequences to automatically model gene structures, and to maintain gene structure annotation consistent with the most recently available experimental sequence data. PASA also identifies and classifies all splicing variations supported by the transcript alignments.
PASA的安装见pasa安装博客
安装好后执行:
~/augustus.2.7/scripts/autoAug.pl --species=Carya --genome=../Carya.fa --cdna=../Carya_400cDNA.fa --singleCPU --pasa
如果你的物种有近缘物种组装的比较好和注释比较好的基因组和gff,可以去训练金源物种的,比如我是核桃,我选择桃子,在pythozome上下载genome and gff for trainning
也可以在线分析
在线训练网址:
http://bioinf.uni-greifswald.de/webaugustus/training/create
You have to give a species name(不能有空格!), and a genome file!
关于参考基因组 和cDNA fasta文件的head要求:
- no whitespaces in the headers
- no special characters in the headers (e.g. !#@&|;)
- make the headers as short as possible
- let headers not start with a number but with a letter
- let headers contain letters and numbers, only
In the following we give some header examples that will not cause problems:
>entry1
>contig1000
>est20
>scaffold239
详细的在线训练指导:
http://bioinf.uni-greifswald.de/webaugustus/trainingtutorial.gsp
如果在线训练基因组大小和cDNA大小均不能超过100M。可以选取参考序列和cDNA中较长的序列,总大小小于100M

报错:
Failed to execute, possible reasons could be: 1. There is already a database named "PASAtrainBKY7KMFm" in your mysql host. 2. The software "slclust" is not installed correctly, try to install it again (see the details in the PASA documentation). 3. The fasta headers in cDNA or genome file were not unique. Inspect /data/www/augtrain/webdata/trainBKY7KMFm/autoAug/trainingSet/pasa/Launch_PASA_pipeline.stderr for PASA error messages.
最后检查文件,发现是cDNA里header有重复。并且重复的名字序列并不同,写个脚本解决~
python /share/Public/off_zhangliangsheng/checkHeaderEditName.py your_fa_file
再次提交任务。
augustus, gene prediction, trainning的更多相关文章
- Augustus指南(Trainning部分)
Augustus指南 官方 Tutorial Index Augustus是一个真核生物基因预测软件,目前有网页服务端和本地版,它基于Hidden-Markov Model(隐马尔科夫链模型HMM)( ...
- Augustus 进行基因注释
目前的从头预测软件大多是基于HMM(隐马尔科夫链)和贝叶斯理论,通过已有物种的注释信息对软件进行训练,从训练结果中去推断一段基因序列中可能的结构,在这方面做的最好的工具是AUGUSTUS它可以仅使 ...
- maker 2008年发表在genome Res
http://gmod.org/wiki/MAKER_Tutorial 简单好用 identify repeats, to align ESTs and proteins to the genome, ...
- Ab initio methods|Evidence-based methods|maximum-likelihood|branch-site|H1|H0|GO|dS/dN ratio
(Gene prediction and comparison) 使用基于基因组序列的从头预测方法(Ab initio methods)(同时分别使用头预测软件( GENSCAN和 AUGUSTUS) ...
- Bioinformatics Glossary
原文:http://homepages.ulb.ac.be/~dgonze/TEACHING/bioinfo_glossary.html Affine gap costs: A scoring sys ...
- 2016-6-15-de novo文献阅读
准备读四篇denovo的文献: Nature Biotechnology(2015) - Sequencing of allotetraploid cotton (Gossypium hirsutum ...
- CRF资料
与最大熵模型相似,条件随机场(Conditional random fields,CRFs)是一种机器学习模型,在自然语言处理的许多领域(如词性标注.中文分词.命名实体识别等)都有比较好的应用效果.条 ...
- 寻找U2OS中表达的基因及其promoter并用于后续annotation
方法1.RNA-seq得到不同表达程度基因 方法2. 直接download U2OS_gene.csv https://cancer.sanger.ac.uk/cell_lines/download ...
- 21 、GPD-PSL-VCF
https://genome.ucsc.edu/FAQ/FAQformat.html#format9 1.Variant Call Format(VCF) Example ##fileformat=V ...
随机推荐
- linux复习
linux的特点 - 免费的/开源 - 支持多线程/多用户 - 安全性好 - 对内存和文件管理优越 关机命令 ...
- js 获取iframe中的元素
今天要修改编辑器插件中的元素遇到的问题 jquery 在父窗口中获取iframe中的元素 1.Js代码 格式:$("#iframe的ID").contents().find(&qu ...
- UiAutomator环境搭建及详细操作
一.环境搭建 1.1 必备条件 JDK SDK(API高于15) Eclipse(安装ADT插件) ANT(用于编译生成的jar) 安装JDK并添加环境变量 1.2 详细步骤 1.安装JDK并添加环境 ...
- C# 使用HttpWebRequest通过PHP接口 上传文件
1:上传文件实例 public void UploadXMLLog(string xmlpath) { NameValueCollection nvc = ne ...
- SUBLIME TEXT 2 设置文件详解
SUBLIME TEXT 2 设置文件详解 Preferences.sublime-settings文件: // While you can edit this file, it’s best to ...
- <select>的下拉样式
今天做一个专题,其中,select标签的样式要做成下图的模样,但是默认情况是下下图的模样: 如何实现呢,实现的办法竟然比我想象中的简单好多: select{ border: solid 1px #00 ...
- progresql - 常用的管理命令
1.查看当前数据库实例的版本 Select version(); 2.查看数据库的启动时间 Select pg_postmaster_start_time(); 3.查看最后load配置文件的时间 s ...
- 51nod 1459 迷宫游戏(dij)
题目链接:51nod 1459 迷宫游戏 dij裸题. #include<cstdio> #include<cstring> #include<algorithm> ...
- 响应式注意要添加“视口”约束标记---viewport
视口:我们试图在iPhone中输出屏幕宽度,你会发现屏幕宽度是980,却和PC屏幕差不多大.原因是苹果主导的这些手机厂商,为了使用户获得完整web体验,很多设备都会欺骗浏览器返回一个数值较大的“视口” ...
- BZOJ1996 [Hnoi2010]chorus 合唱队
很容易想到区间DP 然后发现这个区间只和圆序列的最后一个数有关,而原序列的最后一个数只可能是现在区间的头或者尾 令$f[i][j][0/1]$表示在区间$[i, j]$之间,原序列的最后一个数是当前区 ...