Genscan指南

GenScan是一个gene识别软件,主要是通过已知生物的基因结构特征来识别新的基因(parse)。所利用的基因特征请参看readme文件。

特点:
  1. 只考虑编码蛋白的基因。
  2. 模型考虑每个sequence可能有0个,1个,多个,甚至双链都有基因。
  3. 假设transcription units没有overlapping。

Input:

基因组序列

Output:

  1. 文本文件:识别出来的外显子基因,翻译后的蛋白质序列。
  2. 图形文件:展示预测外显子的位置

1. 安装

安装要求:

N kilobases的序列需要 N/2 Megabytes of RAM

获取软件

Genscan对学术用户免费,需要在这里提交你的姓名和地址后下载Intel/Linux distribution。此时还可以看到readme文件

下载到的文件是genscanlinux.tar.uue

安装步骤

建立安装目录

mkdir GENSCANS
cd GENSCANS
mv 下载目录/genscanlinux.tar.uue ./

解压缩

sudo apt-get install sharutils
uudecode genscanlinux.tar.uue
tar -xvf genscanlinux.tar
./
./Arabidopsis.smat
./HUMRASH
./HUMRASH.sample
./HumanIso.smat
./Maize.smat
./README
./HUMRASH.ps
./genscan

确保你的权限

chmod a+x genscan
chmod a+r *.smat

把genscan和配置文件(*.smat)安装到你的环境变量中

mv genscan /usr/bin/genscan
mkdir /usr/lib/GENSCAN
mv *.smat /usr/lib/GENSCAN

尝试运行

genscan
usage: genscan parfname seqfname [-v] [-cds] [-subopt cutoff] [-ps psfname scale]

       parfname : full pathname of parameter file
(for appropriate organism) seqfname : full pathname of sequence file
(FastA or minimal GenBank format) -v : verbose output (extra explanatory info) -cds : print predicted coding sequences (nucleic acid) -subopt : display suboptimal exons with P > cutoff (optional)
cutoff : suboptimal exon probability cutoff (minimum: 0.01) -ps : create Postscript output (optional)
psfname : filename for PostScript output
scale : scale for PostScript output (bp per line)

以上文件出现则安装成功


2. 运行程序

参数文件

参数文件中包含了基因组中基因序列的各种特征,不同物种有所区别。目前可用的物种参数文件,包括:

HumanIso.smat-----------------human/vertebrate sequences (also Drosophila)(脊椎动物)

Arabidopsis.smat---------------Arabidopsis thaliana sequences(双子叶植物)

Maize.smat----------------------Zea mays sequences(单子叶植物)

使用时请于物种相对应,否则效果很差

序列文件

fasta文件即可(还支持minimal GenBank文件)

运行程序(双子叶植物为例)

genscan /usr/lib/GENSCAN/Arabidopsis.smat 我的序列.fasta -ps 图片output名称.ps > 文字output名称.txt

3. 结果

  1. 文本文件:识别出来的外显子基因,翻译后的蛋白质序列。

    例子
GENSCAN 1.0	Date run: 12-Mar-98	Time: 10:28:00

Sequence HUMRASH : 6453 bp : 68.19% C+G : Isochore 4 (57 - 100 C+G%)

Parameter matrix: HumanIso.smat

Predicted genes/exons:

Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr..
----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------ 1.01 Init + 1664 1774 111 1 0 94 83 212 0.997 21.33
1.02 Intr + 2042 2220 179 1 2 104 66 408 0.997 40.12
1.03 Intr + 2374 2533 160 1 1 89 94 302 0.999 32.08
1.04 Term + 3231 3350 120 2 0 115 48 202 0.961 18.31 Predicted peptide sequence(s): >HUMRASH|GENSCAN_predicted_peptide_1|189_aa
MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAG
QEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHQYREQIKRVKDSDDVPMVLVGNKCDL
AARTVESRQAQDLARSYGIPYIETSAKTRQGVEDAFYTLVREIRQHKLRKLNPPDESGPG
CMSCKCVLS
  1. 图形文件:展示预测外显子的位置

Genscan指南的更多相关文章

  1. GlimmerHMM指南

    GlimmerHMM指南 官方用户手册 GlimmerHMM是一种De novo的新基因预测软件. 新基因发现基于Generalized Hidden Markov Model (GHMM). Gli ...

  2. JavaScript权威指南 - 函数

    函数本身就是一段JavaScript代码,定义一次但可能被调用任意次.如果函数挂载在一个对象上,作为对象的一个属性,通常这种函数被称作对象的方法.用于初始化一个新创建的对象的函数被称作构造函数. 相对 ...

  3. UE4新手之编程指南

    虚幻引擎4为程序员提供了两套工具集,可共同使用来加速开发的工作流程. 新的游戏类.Slate和Canvas用户接口元素以及编辑器功能可以使用C++语言来编写,并且在使用Visual Studio 或 ...

  4. JavaScript权威指南 - 对象

    JavaScript对象可以看作是属性的无序集合,每个属性就是一个键值对,可增可删. JavaScript中的所有事物都是对象:字符串.数字.数组.日期,等等. JavaScript对象除了可以保持自 ...

  5. JavaScript权威指南 - 数组

    JavaScript数组是一种特殊类型的对象. JavaScript数组元素可以为任意类型,最大容纳232-1个元素. JavaScript数组是动态的,有新元素添加时,自动更新length属性. J ...

  6. const extern static 终极指南

    const extern static 终极指南 不管是从事哪种语言的开发工作,const extern static 这三个关键字的用法和原理都是我们必须明白的.本文将对此做出非常详细的讲解. co ...

  7. Atitit.研发管理软件公司的软资产列表指南

    Atitit.研发管理软件公司的软资产列表指南 1. Isv模型下的软资产1 2. 实现层面implet1 3. 规范spec层1 4. 法则定律等val层的总结2 1. Isv模型下的软资产 Sof ...

  8. HA 高可用软件系统保养指南

    又过了一年 618,六月是公司一年一度的大促月,一般提前一个月各系统就会减少需求和功能的开发,转而更多去关注系统可用性.稳定性和管控性等方面的非功能需求.大促前的准备工作一般叫作「备战」,可以把线上运 ...

  9. 第六代智能英特尔® 酷睿™ 处理器图形 API 开发人员指南

    欢迎查看第六代智能英特尔® 酷睿™ 处理器图形 API 开发人员指南,该处理器可为开发人员和最终用户提供领先的 CPU 和图形性能增强.各种新特性和功能以及显著提高的性能. 本指南旨在帮助软件开发人员 ...

随机推荐

  1. “介绍一下自己吧”——记2020BUAA软工团队介绍和采访

    写在前面 项目 内容 这个作业属于哪个课程 2020春季计算机学院软件工程(罗杰 任建) 这个作业的要求在哪里 团队作业-团队介绍和采访 团队介绍 团队名称 我们是 BUAA软软软件工程小队 ,简称 ...

  2. the Agiles Scrum Meeting 2

    会议时间:2020.4.10 21:00 1.每个人的工作 今天已完成的工作 yjy:debug:班级创建了个人项目不能访问班级:教师窗口的前端bug. issues:Bug:教师创建博客时显示项目为 ...

  3. OO_JAVA_JML系列作业_单元总结

    OO_JAVA_JML系列作业_单元总结 (1)梳理JML语言的理论基础.应用工具链情况 简单梳理 以下三者是jml规格里的核心,对一个方法功能和属性的限制: requires子句:规定方法的前置条件 ...

  4. Seata的一些概念

    Seata的一些概念 一.什么是seata 二.AT模式的介绍 1.前提条件 2.整体机制 3.读写隔离的实现 1.写隔离 2.读隔离 三.事务分组 1.事务分组是什么? 2.通过事务分组如何找到后端 ...

  5. IPv6(诞生原因、数据报格式、与IPv4的不同、地址表现形式、基本地址类型、IPv6与IPv4的过渡策略)

    文章转自:https://blog.csdn.net/weixin_43914604/article/details/105297642 学习课程:<2019王道考研计算机网络> 学习目的 ...

  6. Luogu P2467 [SDOI2010]地精部落 | 神奇的dp

    题目链接 DP 题目大意:给定一个数n,求1~n这n个整数的所有排列中有多少个波动数列,将这个数量%p后输出. 什么是波动数列呢?顾名思义,就是一个大.一个小.一个大.一个小--或者是一个小.一个大. ...

  7. cm2 逆向分析

    目录 cm2 逆向分析 前言 查壳 逆向分析 encrypt函数 POC代码 cm2 逆向分析 前言 这是逆向实战之CTF比赛篇的第3篇,在这里我就不再讲的特别小白了,有些简单操作可能会略过. 查壳 ...

  8. JuiceFS CSI Driver 的最佳实践

    文章根据 Juicedata 工程师朱唯唯,在云原生 Meetup 杭州站所作主题演讲<JuiceFS CSI Driver 的最佳实践>整理而成. 大家好,我是来自 Juicedata ...

  9. ansible模块及语法

    常用模块详解 模块说明及示例: 1.ping模块ping模块 主要用于判断远程客户端是否在线,用于ping本身服务器,返回值是changed.ping示例 ansible clu -m ping 2. ...

  10. 一文了解cookie

    @ 目录 什么是Cookie? Cookie 的作用 Cookie原理 Cookie的分类 会话 Cookies 永久性 Cookies Cookie 的属性 name value Domain Pa ...