Genscan指南
Genscan指南
GenScan是一个gene识别软件,主要是通过已知生物的基因结构特征来识别新的基因(parse)。所利用的基因特征请参看readme文件。
特点:
- 只考虑编码蛋白的基因。
- 模型考虑每个sequence可能有0个,1个,多个,甚至双链都有基因。
- 假设transcription units没有overlapping。
Input:
基因组序列
Output:
- 文本文件:识别出来的外显子基因,翻译后的蛋白质序列。
- 图形文件:展示预测外显子的位置
1. 安装
安装要求:
N kilobases的序列需要 N/2 Megabytes of RAM
获取软件
Genscan对学术用户免费,需要在这里提交你的姓名和地址后下载Intel/Linux distribution。此时还可以看到readme文件
下载到的文件是genscanlinux.tar.uue
安装步骤
建立安装目录
mkdir GENSCANS
cd GENSCANS
mv 下载目录/genscanlinux.tar.uue ./
解压缩
sudo apt-get install sharutils
uudecode genscanlinux.tar.uue
tar -xvf genscanlinux.tar
./
./Arabidopsis.smat
./HUMRASH
./HUMRASH.sample
./HumanIso.smat
./Maize.smat
./README
./HUMRASH.ps
./genscan
确保你的权限
chmod a+x genscan
chmod a+r *.smat
把genscan和配置文件(*.smat)安装到你的环境变量中
mv genscan /usr/bin/genscan
mkdir /usr/lib/GENSCAN
mv *.smat /usr/lib/GENSCAN
尝试运行
genscan
usage: genscan parfname seqfname [-v] [-cds] [-subopt cutoff] [-ps psfname scale]
parfname : full pathname of parameter file
(for appropriate organism)
seqfname : full pathname of sequence file
(FastA or minimal GenBank format)
-v : verbose output (extra explanatory info)
-cds : print predicted coding sequences (nucleic acid)
-subopt : display suboptimal exons with P > cutoff (optional)
cutoff : suboptimal exon probability cutoff (minimum: 0.01)
-ps : create Postscript output (optional)
psfname : filename for PostScript output
scale : scale for PostScript output (bp per line)
以上文件出现则安装成功
2. 运行程序
参数文件
参数文件中包含了基因组中基因序列的各种特征,不同物种有所区别。目前可用的物种参数文件,包括:
HumanIso.smat-----------------human/vertebrate sequences (also Drosophila)(脊椎动物)
Arabidopsis.smat---------------Arabidopsis thaliana sequences(双子叶植物)
Maize.smat----------------------Zea mays sequences(单子叶植物)
使用时请于物种相对应,否则效果很差
序列文件
fasta文件即可(还支持minimal GenBank文件)
运行程序(双子叶植物为例)
genscan /usr/lib/GENSCAN/Arabidopsis.smat 我的序列.fasta -ps 图片output名称.ps > 文字output名称.txt
3. 结果
- 文本文件:识别出来的外显子基因,翻译后的蛋白质序列。
例子
GENSCAN 1.0 Date run: 12-Mar-98 Time: 10:28:00
Sequence HUMRASH : 6453 bp : 68.19% C+G : Isochore 4 (57 - 100 C+G%)
Parameter matrix: HumanIso.smat
Predicted genes/exons:
Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr..
----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------
1.01 Init + 1664 1774 111 1 0 94 83 212 0.997 21.33
1.02 Intr + 2042 2220 179 1 2 104 66 408 0.997 40.12
1.03 Intr + 2374 2533 160 1 1 89 94 302 0.999 32.08
1.04 Term + 3231 3350 120 2 0 115 48 202 0.961 18.31
Predicted peptide sequence(s):
>HUMRASH|GENSCAN_predicted_peptide_1|189_aa
MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAG
QEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHQYREQIKRVKDSDDVPMVLVGNKCDL
AARTVESRQAQDLARSYGIPYIETSAKTRQGVEDAFYTLVREIRQHKLRKLNPPDESGPG
CMSCKCVLS
- 图形文件:展示预测外显子的位置
Genscan指南的更多相关文章
- GlimmerHMM指南
GlimmerHMM指南 官方用户手册 GlimmerHMM是一种De novo的新基因预测软件. 新基因发现基于Generalized Hidden Markov Model (GHMM). Gli ...
- JavaScript权威指南 - 函数
函数本身就是一段JavaScript代码,定义一次但可能被调用任意次.如果函数挂载在一个对象上,作为对象的一个属性,通常这种函数被称作对象的方法.用于初始化一个新创建的对象的函数被称作构造函数. 相对 ...
- UE4新手之编程指南
虚幻引擎4为程序员提供了两套工具集,可共同使用来加速开发的工作流程. 新的游戏类.Slate和Canvas用户接口元素以及编辑器功能可以使用C++语言来编写,并且在使用Visual Studio 或 ...
- JavaScript权威指南 - 对象
JavaScript对象可以看作是属性的无序集合,每个属性就是一个键值对,可增可删. JavaScript中的所有事物都是对象:字符串.数字.数组.日期,等等. JavaScript对象除了可以保持自 ...
- JavaScript权威指南 - 数组
JavaScript数组是一种特殊类型的对象. JavaScript数组元素可以为任意类型,最大容纳232-1个元素. JavaScript数组是动态的,有新元素添加时,自动更新length属性. J ...
- const extern static 终极指南
const extern static 终极指南 不管是从事哪种语言的开发工作,const extern static 这三个关键字的用法和原理都是我们必须明白的.本文将对此做出非常详细的讲解. co ...
- Atitit.研发管理软件公司的软资产列表指南
Atitit.研发管理软件公司的软资产列表指南 1. Isv模型下的软资产1 2. 实现层面implet1 3. 规范spec层1 4. 法则定律等val层的总结2 1. Isv模型下的软资产 Sof ...
- HA 高可用软件系统保养指南
又过了一年 618,六月是公司一年一度的大促月,一般提前一个月各系统就会减少需求和功能的开发,转而更多去关注系统可用性.稳定性和管控性等方面的非功能需求.大促前的准备工作一般叫作「备战」,可以把线上运 ...
- 第六代智能英特尔® 酷睿™ 处理器图形 API 开发人员指南
欢迎查看第六代智能英特尔® 酷睿™ 处理器图形 API 开发人员指南,该处理器可为开发人员和最终用户提供领先的 CPU 和图形性能增强.各种新特性和功能以及显著提高的性能. 本指南旨在帮助软件开发人员 ...
随机推荐
- 我的一些JAVA基础见解
这个学期学习JAVA基础课,虽说之前都自学过,但在学习时仍可以思考一些模糊不清的问题,可以更深一步的思考.在这里写下一些需要深入的知识点,对小白们也很友好~ 一.Java数据类型 1.基本数据类型 这 ...
- IDA*、剪枝、较难搜索、扫描——DNA sequence HDU - 1560
万恶之源 翻译 题意就是给出N个DNA序列,要求出一个包含这n个序列的最短序列是多长 这是一道搜索题,为什么呢?从样例可以感受到,我们应该从左往右"扫描",从n个DNA序列中取出某 ...
- Treevalue(0x01)——功能概述
TreeValue--一个通用树状数据结构与函数计算库 Treevalue v1.0.0版本已经于2021年10月24日正式发布,欢迎下载体验:opendilab / treevalue. 这算是tr ...
- accept error: Too many open files
今天测试socket服务器同一时间处理多个客户端连接问题,第一次测试1000个的时候没问题,第二次测试1000个服务器accept的时候就报错了 accept error: Too many open ...
- UVA 10004 Bicoloring(DFS染色)
题意: 给N个点构成的无环无向图,并且保证所有点对都是连通的. 给每个点染色,要么染成黑要么染成白.问是否存在染色方案使得所有有边相连的点对颜色一定不一样. 是输出 BICOLORABLE 否则输出 ...
- Swift-技巧(三)使用元组(tuple)
最近看 iOS 的官方功能的 Demo 时,发现代码中使用元组的地方很多,所以兴趣上来,查了下元组的出处. 在苹果的文档中就只有简短的两句,使用元组创建一个组合的值,从函数中返回多个值.元组中的可以使 ...
- Centos7下安装BlockScout
简介 BlockScout是一个Elixir应用程序,允许用户搜索以太坊网络(包括所有叉子和侧链)上的交易,查看账户和余额以及验证智能合约.BlockScout为用户提供了一个全面,易于使用的界面,以 ...
- testNG安装与使用
1.Eclipse集成TestNG插件 a.下载TestNG离线插件并解压得到features和plugins两个文件夹: b.将features文件下的org.testng.eclipse_6.9. ...
- MapReduce Service更换集群外部时钟源,仅需10步
摘要:MapReduce Service 集群使用NTP进行时钟同步.本文简要介绍了MapReduce Service集群NTP机制及NTP的配置方式. 本文分享自华为云社区<MapReduce ...
- JAVA POI导出EXCEL 动态表头、多级表头、动态数据
导出Excel文件是业务中经常遇到的需求,以下是经常遇到的一些问题: 1,导出中文文件名乱码 String filename = "sheet1";response.setChar ...