Genscan指南

GenScan是一个gene识别软件,主要是通过已知生物的基因结构特征来识别新的基因(parse)。所利用的基因特征请参看readme文件。

特点:
  1. 只考虑编码蛋白的基因。
  2. 模型考虑每个sequence可能有0个,1个,多个,甚至双链都有基因。
  3. 假设transcription units没有overlapping。

Input:

基因组序列

Output:

  1. 文本文件:识别出来的外显子基因,翻译后的蛋白质序列。
  2. 图形文件:展示预测外显子的位置

1. 安装

安装要求:

N kilobases的序列需要 N/2 Megabytes of RAM

获取软件

Genscan对学术用户免费,需要在这里提交你的姓名和地址后下载Intel/Linux distribution。此时还可以看到readme文件

下载到的文件是genscanlinux.tar.uue

安装步骤

建立安装目录

mkdir GENSCANS
cd GENSCANS
mv 下载目录/genscanlinux.tar.uue ./

解压缩

sudo apt-get install sharutils
uudecode genscanlinux.tar.uue
tar -xvf genscanlinux.tar
./
./Arabidopsis.smat
./HUMRASH
./HUMRASH.sample
./HumanIso.smat
./Maize.smat
./README
./HUMRASH.ps
./genscan

确保你的权限

chmod a+x genscan
chmod a+r *.smat

把genscan和配置文件(*.smat)安装到你的环境变量中

mv genscan /usr/bin/genscan
mkdir /usr/lib/GENSCAN
mv *.smat /usr/lib/GENSCAN

尝试运行

genscan
usage: genscan parfname seqfname [-v] [-cds] [-subopt cutoff] [-ps psfname scale]

       parfname : full pathname of parameter file
(for appropriate organism) seqfname : full pathname of sequence file
(FastA or minimal GenBank format) -v : verbose output (extra explanatory info) -cds : print predicted coding sequences (nucleic acid) -subopt : display suboptimal exons with P > cutoff (optional)
cutoff : suboptimal exon probability cutoff (minimum: 0.01) -ps : create Postscript output (optional)
psfname : filename for PostScript output
scale : scale for PostScript output (bp per line)

以上文件出现则安装成功


2. 运行程序

参数文件

参数文件中包含了基因组中基因序列的各种特征,不同物种有所区别。目前可用的物种参数文件,包括:

HumanIso.smat-----------------human/vertebrate sequences (also Drosophila)(脊椎动物)

Arabidopsis.smat---------------Arabidopsis thaliana sequences(双子叶植物)

Maize.smat----------------------Zea mays sequences(单子叶植物)

使用时请于物种相对应,否则效果很差

序列文件

fasta文件即可(还支持minimal GenBank文件)

运行程序(双子叶植物为例)

genscan /usr/lib/GENSCAN/Arabidopsis.smat 我的序列.fasta -ps 图片output名称.ps > 文字output名称.txt

3. 结果

  1. 文本文件:识别出来的外显子基因,翻译后的蛋白质序列。

    例子
GENSCAN 1.0	Date run: 12-Mar-98	Time: 10:28:00

Sequence HUMRASH : 6453 bp : 68.19% C+G : Isochore 4 (57 - 100 C+G%)

Parameter matrix: HumanIso.smat

Predicted genes/exons:

Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr..
----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------ 1.01 Init + 1664 1774 111 1 0 94 83 212 0.997 21.33
1.02 Intr + 2042 2220 179 1 2 104 66 408 0.997 40.12
1.03 Intr + 2374 2533 160 1 1 89 94 302 0.999 32.08
1.04 Term + 3231 3350 120 2 0 115 48 202 0.961 18.31 Predicted peptide sequence(s): >HUMRASH|GENSCAN_predicted_peptide_1|189_aa
MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAG
QEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHQYREQIKRVKDSDDVPMVLVGNKCDL
AARTVESRQAQDLARSYGIPYIETSAKTRQGVEDAFYTLVREIRQHKLRKLNPPDESGPG
CMSCKCVLS
  1. 图形文件:展示预测外显子的位置

Genscan指南的更多相关文章

  1. GlimmerHMM指南

    GlimmerHMM指南 官方用户手册 GlimmerHMM是一种De novo的新基因预测软件. 新基因发现基于Generalized Hidden Markov Model (GHMM). Gli ...

  2. JavaScript权威指南 - 函数

    函数本身就是一段JavaScript代码,定义一次但可能被调用任意次.如果函数挂载在一个对象上,作为对象的一个属性,通常这种函数被称作对象的方法.用于初始化一个新创建的对象的函数被称作构造函数. 相对 ...

  3. UE4新手之编程指南

    虚幻引擎4为程序员提供了两套工具集,可共同使用来加速开发的工作流程. 新的游戏类.Slate和Canvas用户接口元素以及编辑器功能可以使用C++语言来编写,并且在使用Visual Studio 或 ...

  4. JavaScript权威指南 - 对象

    JavaScript对象可以看作是属性的无序集合,每个属性就是一个键值对,可增可删. JavaScript中的所有事物都是对象:字符串.数字.数组.日期,等等. JavaScript对象除了可以保持自 ...

  5. JavaScript权威指南 - 数组

    JavaScript数组是一种特殊类型的对象. JavaScript数组元素可以为任意类型,最大容纳232-1个元素. JavaScript数组是动态的,有新元素添加时,自动更新length属性. J ...

  6. const extern static 终极指南

    const extern static 终极指南 不管是从事哪种语言的开发工作,const extern static 这三个关键字的用法和原理都是我们必须明白的.本文将对此做出非常详细的讲解. co ...

  7. Atitit.研发管理软件公司的软资产列表指南

    Atitit.研发管理软件公司的软资产列表指南 1. Isv模型下的软资产1 2. 实现层面implet1 3. 规范spec层1 4. 法则定律等val层的总结2 1. Isv模型下的软资产 Sof ...

  8. HA 高可用软件系统保养指南

    又过了一年 618,六月是公司一年一度的大促月,一般提前一个月各系统就会减少需求和功能的开发,转而更多去关注系统可用性.稳定性和管控性等方面的非功能需求.大促前的准备工作一般叫作「备战」,可以把线上运 ...

  9. 第六代智能英特尔® 酷睿™ 处理器图形 API 开发人员指南

    欢迎查看第六代智能英特尔® 酷睿™ 处理器图形 API 开发人员指南,该处理器可为开发人员和最终用户提供领先的 CPU 和图形性能增强.各种新特性和功能以及显著提高的性能. 本指南旨在帮助软件开发人员 ...

随机推荐

  1. 我的一些JAVA基础见解

    这个学期学习JAVA基础课,虽说之前都自学过,但在学习时仍可以思考一些模糊不清的问题,可以更深一步的思考.在这里写下一些需要深入的知识点,对小白们也很友好~ 一.Java数据类型 1.基本数据类型 这 ...

  2. IDA*、剪枝、较难搜索、扫描——DNA sequence HDU - 1560

    万恶之源 翻译 题意就是给出N个DNA序列,要求出一个包含这n个序列的最短序列是多长 这是一道搜索题,为什么呢?从样例可以感受到,我们应该从左往右"扫描",从n个DNA序列中取出某 ...

  3. Treevalue(0x01)——功能概述

    TreeValue--一个通用树状数据结构与函数计算库 Treevalue v1.0.0版本已经于2021年10月24日正式发布,欢迎下载体验:opendilab / treevalue. 这算是tr ...

  4. accept error: Too many open files

    今天测试socket服务器同一时间处理多个客户端连接问题,第一次测试1000个的时候没问题,第二次测试1000个服务器accept的时候就报错了 accept error: Too many open ...

  5. UVA 10004 Bicoloring(DFS染色)

    题意: 给N个点构成的无环无向图,并且保证所有点对都是连通的. 给每个点染色,要么染成黑要么染成白.问是否存在染色方案使得所有有边相连的点对颜色一定不一样. 是输出 BICOLORABLE 否则输出 ...

  6. Swift-技巧(三)使用元组(tuple)

    最近看 iOS 的官方功能的 Demo 时,发现代码中使用元组的地方很多,所以兴趣上来,查了下元组的出处. 在苹果的文档中就只有简短的两句,使用元组创建一个组合的值,从函数中返回多个值.元组中的可以使 ...

  7. Centos7下安装BlockScout

    简介 BlockScout是一个Elixir应用程序,允许用户搜索以太坊网络(包括所有叉子和侧链)上的交易,查看账户和余额以及验证智能合约.BlockScout为用户提供了一个全面,易于使用的界面,以 ...

  8. testNG安装与使用

    1.Eclipse集成TestNG插件 a.下载TestNG离线插件并解压得到features和plugins两个文件夹: b.将features文件下的org.testng.eclipse_6.9. ...

  9. MapReduce Service更换集群外部时钟源,仅需10步

    摘要:MapReduce Service 集群使用NTP进行时钟同步.本文简要介绍了MapReduce Service集群NTP机制及NTP的配置方式. 本文分享自华为云社区<MapReduce ...

  10. JAVA POI导出EXCEL 动态表头、多级表头、动态数据

    导出Excel文件是业务中经常遇到的需求,以下是经常遇到的一些问题: 1,导出中文文件名乱码 String filename = "sheet1";response.setChar ...