bioperl 自动化下载genbank 中的序列

当我们想要从genbank 中下载序列的时候，总需要点击右上角的download 按钮，选择对应的格式，然后通过浏览器进行下载，这样反复的点击很费时间了

其实可以通过bioperl 自动化的完成下载；

代码如下：

#!/usr/bin/env perl

use Bio::SeqIO;

use Bio::DB::GenBank;

my ($acc, $out_dir) = @ARGV;

die "Usage:perl $0 <acc_number> <out_dir>\n" if scalar @ARGV != ;

system qq{mkdir -p $out_dir} if not -d $out_dir;

my $seq_obj = retriev_seq($acc);

download_seq($seq_obj, 'fasta',   qq{>$out_dir/sequence.fasta});

download_seq($seq_obj, 'genbank', qq{>$out_dir/sequence.gb});

sub retriev_seq

{

    my $acc = shift;

    my $db_obj  = Bio::DB::GenBank->new;

    my $seq_obj = $db_obj->get_Seq_by_acc($acc);

    return $seq_obj;

}

sub download_seq

{

    my $seq_obj = shift;

    my $fmt     = shift;

    my $out     = shift;

    my $seqio_obj = Bio::SeqIO->new(-file => $out,

                                  -format => $fmt );

    $seqio_obj->write_seq($seq_obj);

}

这个脚本接受两个参数，第一个参数为序列对应的编号，第二个参数为输出的目录

以 https://www.ncbi.nlm.nih.gov/nuccore/NC_024541.1 为例：

通过浏览器下载是这个样子的：

点击Send 按钮，在弹出的对话框中选择下载的序列的区间，对应的格式

通过脚本下载是这个样子的，首先得到序列对应的编号，如下图所示：

然后运行下面的命令：

perl download_reference.pl NC_024541 ./

这样通过序列对应的编号就可以自动化的下载对应的序列了

其实，bioperl 当中还提供了其他的检索序列的方式，比如按照 gi号，功能非常强大。

参考资料：

http://bioperl.org/howtos/Beginners_HOWTO.html

bioperl 自动化下载genbank 中的序列的更多相关文章

用python做youtube自动化下载器代码
目录项目地址思路流程 1. post i. 先把post中的headers格式化 ii.然后把参数也格式化 iii. 最后再执行requests库的post请求 iv. 封装成一个函数 2. 调 ...
(26)odoo中的序列运用
* 模块中增加序列 __openerp__.py : ... 'data': [ 'product_data.xml', ], ... ------ ...
据序和中序序列或者也许为了一个二进制序列，恢复二进制和打印图像（c语言）
首先要预购和序,以恢复它: 1.首先,我们使用的是递归的方式来完成 2.递归的最小单位:一个空的树和书的前言和第一序.该序列的第一个元素是树的第一序列根,调用这种方法 3.递归的终止条件是.当这棵树的 ...
48. leetcode 105题由树的前序序列和中序序列构建树结构
leetcode 105题,由树的前序序列和中序序列构建树结构.详细解答参考<剑指offer>page56. 先序遍历结果的第一个节点为根节点,在中序遍历结果中找到根节点的位置.然后就可以 ...
Java由先序序列和中序序列还原二叉树
还原本来的二叉树并不是一个非常简单的事,虽然思想比较简单,但过程却是比较繁琐.下面我拿先序序列和中序序列来讲一下原理吧. 从先序序列中我们一下子就可以得到二叉树的根节点是第一个元素,然后再中序序列中我 ...
【.net】在ASP.NET中，IE与Firefox下载文件名中带中文汉字的文件，文件名乱码的问题
#问题:客户端为ie或Firefox,服务端为asp.net时,下载文件名中包含中文汉字时,下载下来的文件的文件名是乱码: #解决方案: 示例代码:下载名称中带汉字的文件: public void P ...
C# 网络编程之webBrowser获取网页url和下载网页中图片
该文章主要是通过C#网络编程的webBrowser获取网页中的url并简单的尝试瞎子啊网页中的图片,主要是为以后网络开发的基础学习.其中主要的通过应用程序结合网页知识.正则表达式实现浏览.获取url. ...
【Oracle】详解Oracle中的序列
序列: 是oacle提供的用于产生一系列唯一数字的数据库对象. 自动提供唯一的数值共享对象主要用于提供主键值将序列值装入内存可以提高访问效率创建序列: 1. 要有创建序列的权限 create ...
用firefox的插件下载网页中的视频
对于网页中的一些视频,直接下载不了,可以用专用下载软件下载,也可以用firefox的NetVideohunter Video Downloader插件下载网页中的视频,方便快捷. 工具/原料 fi ...

随机推荐

【线程】linux之多线程同步互斥技术
1.同步机制线程同步机制主要有:互斥量/信号量/条件变量/读写锁等. 2.技术示例创建2个计数线程A和B,每次计数加1,当为偶数时,A线程计数:当为奇数时,B线程计数. 源码: ...
hdu1217(spfa，存在环，但需要将环的元素历遍一次.....求乘积的最大)
题意:有n个国家货币,给出m种两个国家之间的货币兑换率,求是否可以盈利....... 思路:其实就是看国家货币兑换间是否存在一个环,使得从v点出发时,dis[v]=1,经过环回到v点时,dis[v]& ...
pual_bot 天气插件编写
最近在玩pual_bot,感觉很不错,最近天气插件失效了,就结合百度api重新写了一个,也提交了. https://github.com/coldnight/pual_bot #!/usr/bin/e ...
Eclipse Git下载问题：Internal error; consult Eclipse error log
在使用Git下载代码时偶尔会遇到 Internal error; consult Eclipse error log 这个报错. 简述下个人解决思路: Eclipse 错误日志报错为:org.ecl ...
QT-提示“database not open”
问题现象: 要用QT开发"SQLite"时出现如下提示: QSqlQuery::exec: database not open QSqlDatabase: QSQLITE driv ...
php 裁剪图片类
<?php /* *说明:函数功能是把一个图像裁剪为任意大小的图像,图像不变形 * 参数说明:输入需要处理图片的文件名,生成新图片的保存文件名,生成新图片的宽,生成新图片的高 * writt ...
[转]Httrack工具与使用指南
HTTrack工具介绍 HTTrack是一个网站镜像工具,本来是用来抓取网站做离线浏览用的.但是HTTrack的爬虫特性和搜索引擎蜘蛛爬虫非常的像,这也逐渐应用到 SEO(搜索引擎优化)工作中.其实这 ...
PowerDesigner导出表到HTML或word（实测有效）
推荐生成HTML,因为看起来更加简洁一.模版修改在导出表时,powerdesigner默认为我们提供了很多的模版,在工具栏中选择[Report--->Report Template]即可看到 ...
client version is higher than daemon version (client is v.1.29 daemon is v.1.22)
安装好coreseek,建了索引,启动了服务,用php建了一个test.php,用于测试:<?phpinclude_once('sphinxapi.php');//向搜索引擎发起请求 $cl = ...
TypeError: decoding Unicode is not supported
在试图读取网页的时候遇到TypeError: decoding Unicode is not supported, 主要原因是返回的字符串已经是unicode类型了

bioperl 自动化下载genbank 中的序列

bioperl 自动化下载genbank 中的序列的更多相关文章

随机推荐

热门专题