做基因组注释

先用augustus训练,然后再用maker做基因注释

augustus提供一些训练好的,如果有和你的物种非常接近的,直接用提供的,没有的话再自己训练。

网址:

http://bioinf.uni-greifswald.de/augustus/

老版本下载:

http://bioinf.uni-greifswald.de/augustus/binaries/old/

最后选择下载2.7的 新版本3.2的实在是装不上 太麻烦了!!!!!

下载好后,解压,cd src, sudo make, 然后:

vi ~/.bash_profile

AUGUSTUS_CONFIG_PATH=/home/cmiao/augustus.2.7/config/
export AUGUSTUS_CONFIG_PATH

source ~/.bash_profile

sudo cp /home/cmiao/augustus.2.7/bin/augustus /usr/local/bin/

安装pslCDnaFilter. 如果没有的话。

WARNING: Could not successfully find and run pslCDnaFilter. Please install this program.

安装一下pslCDnaFilter 再试试

下载地址:

http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64.v287/pslCDnaFilter

很多的软件都可以在这里下载:

http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64.v287/
下载好后,直接加上可执行权限,移动到/usr/local/bin就可以了

文件准备:

参考基因组

cDNA

都准备好后,执行命令:

~/augustus.2.7/scripts/autoAug.pl --species=Carya --genome=../Carya.fa --cdna=../Carya_400cDNA.fa --singleCPU

报错:

1 ####### Step 1: Training AUGUSTUS (no UTR models) #######
Error: missing training file!

原因: 如果没有gff文件,必须加--pasa

所以要安装pasa! 

PASA, acronym for Program to Assemble Spliced Alignments, is a eukaryotic genome annotation tool that exploits spliced alignments of expressed transcript sequences to automatically model gene structures, and to maintain gene structure annotation consistent with the most recently available experimental sequence data. PASA also identifies and classifies all splicing variations supported by the transcript alignments.

PASA的安装见pasa安装博客

安装好后执行:

~/augustus.2.7/scripts/autoAug.pl --species=Carya --genome=../Carya.fa --cdna=../Carya_400cDNA.fa --singleCPU --pasa

如果你的物种有近缘物种组装的比较好和注释比较好的基因组和gff,可以去训练金源物种的,比如我是核桃,我选择桃子,在pythozome上下载genome and gff for trainning

也可以在线分析

在线训练网址:

http://bioinf.uni-greifswald.de/webaugustus/training/create

You have to give a species name(不能有空格!), and a genome file!

关于参考基因组 和cDNA fasta文件的head要求:

  • no whitespaces in the headers
  • no special characters in the headers (e.g. !#@&|;)
  • make the headers as short as possible
  • let headers not start with a number but with a letter
  • let headers contain letters and numbers, only

In the following we give some header examples that will not cause problems:

>entry1
>contig1000
>est20
>scaffold239

详细的在线训练指导:

http://bioinf.uni-greifswald.de/webaugustus/trainingtutorial.gsp

如果在线训练基因组大小和cDNA大小均不能超过100M。可以选取参考序列和cDNA中较长的序列,总大小小于100M

报错:

Failed to execute, possible reasons could be:
1. There is already a database named "PASAtrainBKY7KMFm" in your mysql host.
2. The software "slclust" is not installed correctly, try to install it again (see the details in the PASA documentation).
3. The fasta headers in cDNA or genome file were not unique.
Inspect /data/www/augtrain/webdata/trainBKY7KMFm/autoAug/trainingSet/pasa/Launch_PASA_pipeline.stderr for PASA error messages.

最后检查文件,发现是cDNA里header有重复。并且重复的名字序列并不同,写个脚本解决~

python /share/Public/off_zhangliangsheng/checkHeaderEditName.py your_fa_file

再次提交任务。

成功后会给你发邮件,你可在线查看运行到哪一步了。最后结果出来了也会邮件通知告诉你
 
最后还是出错了,说是不能加UTR参数什么的! 我就奇了怪了,在你们服务器上跑。我不是只负责上传文件么,怎么还有可能报参数错误的。。。
 
 
 
freemao
FAFU

augustus, gene prediction, trainning的更多相关文章

  1. Augustus指南(Trainning部分)

    Augustus指南 官方 Tutorial Index Augustus是一个真核生物基因预测软件,目前有网页服务端和本地版,它基于Hidden-Markov Model(隐马尔科夫链模型HMM)( ...

  2. Augustus 进行基因注释

      目前的从头预测软件大多是基于HMM(隐马尔科夫链)和贝叶斯理论,通过已有物种的注释信息对软件进行训练,从训练结果中去推断一段基因序列中可能的结构,在这方面做的最好的工具是AUGUSTUS它可以仅使 ...

  3. maker 2008年发表在genome Res

    http://gmod.org/wiki/MAKER_Tutorial 简单好用 identify repeats, to align ESTs and proteins to the genome, ...

  4. Ab initio methods|Evidence-based methods|maximum-likelihood|branch-site|H1|H0|GO|dS/dN ratio

    (Gene prediction and comparison) 使用基于基因组序列的从头预测方法(Ab initio methods)(同时分别使用头预测软件( GENSCAN和 AUGUSTUS) ...

  5. Bioinformatics Glossary

    原文:http://homepages.ulb.ac.be/~dgonze/TEACHING/bioinfo_glossary.html Affine gap costs: A scoring sys ...

  6. 2016-6-15-de novo文献阅读

    准备读四篇denovo的文献: Nature Biotechnology(2015) - Sequencing of allotetraploid cotton (Gossypium hirsutum ...

  7. CRF资料

    与最大熵模型相似,条件随机场(Conditional random fields,CRFs)是一种机器学习模型,在自然语言处理的许多领域(如词性标注.中文分词.命名实体识别等)都有比较好的应用效果.条 ...

  8. 寻找U2OS中表达的基因及其promoter并用于后续annotation

    方法1.RNA-seq得到不同表达程度基因 方法2. 直接download U2OS_gene.csv https://cancer.sanger.ac.uk/cell_lines/download ...

  9. 21 、GPD-PSL-VCF

    https://genome.ucsc.edu/FAQ/FAQformat.html#format9 1.Variant Call Format(VCF) Example ##fileformat=V ...

随机推荐

  1. 关于行内元素的margin padding一些说明;background-color的范围

    ①当对行内元素使用padding时,只有左右方向(正常)有效:竖直方向上,内边距对于该行内元素有效果,但是对其他元素无任何影响. ②当对行内元素使用margin时,只有左右方向有效,竖直方向无任何效果 ...

  2. sbrk与brk的使用小例子

    sbrk() 和 brk() - Unix的系统函数   sbrk()和brk() 系统的底层会维护一个位置,通过位置的移动完成内存的分配和回收.映射内存时 以一个内存页作为基本单位.   void* ...

  3. Oracle重做日志文件

    一.联机重做日志的规划管理 1.联机重做日志 记录了数据的所有变化(DML,DDL或管理员对数据所作的结构性更改等) 提供恢复机制(对于意外删除或宕机利用日志文件实现数据恢复) 可以被分组管理  11 ...

  4. Android 利用SurfaceView进行图形绘制

    SurfaceView使用介绍 SurfaceView是View的一个特殊子类,它的目的是另外提供一个线程进行绘制操作. 要使用SurfaceView进行绘制,步骤如下: 1.用SurfaceView ...

  5. winform小程序---猜拳小游戏

    因为学的时间不长,所以借鉴了一些资料做了这个小程序,大家共同学习,共同进步.感觉很有自信,世上无难事,只怕有心人. using System; using System.Collections.Gen ...

  6. ubuntu上mysql服务器安装后只能本地连接不能远程连接的问题

    安装好mysql后,想使用另一个电脑进行远程登录,在登录时 提示拒绝连接 百度后,发现需要两个步骤解决该问题 /etc/mysql/my.cnf 里修改bind_address = 0.0.0.0  ...

  7. 读javascript高级程序设计06-面向对象之继承

    原型链是实现继承的主要方法,通过原型能让一个引用类型继承另一个引用类型. 1.原型链实现继承 function SuperType(){ this.superprop=1; } SuperType.p ...

  8. 读《程序员的SQL金典》[2]--函数

    一.数学函数 1.RAND SELECT RAND () ---0.302870228294199 取0-1之间的随机小数. 2.小数取整 CEILINT(data)舍掉小数部分并向上取整. FLOO ...

  9. iOS开发UI篇—使用嵌套模型完成的一个简单汽车图标展示程序

    iOS开发UI篇—使用嵌套模型完成的一个简单汽车图标展示程序 一.plist文件和项目结构图 说明:这是一个嵌套模型的示例 二.代码示例: YYcarsgroup.h文件代码: // // YYcar ...

  10. iOS开发UI篇—Date Picker和UITool Bar控件简单介绍

    iOS开发UI篇—Date Picker和UITool Bar控件简单介绍 一.Date Picker控件 1.简单介绍: Date Picker显示时间的控件 有默认宽高,不用设置数据源和代理 如何 ...