EST:表达序列标签,expressed sequence tags 。

顾名思义,很好理解,就是表达出来的序列,即从基因组DNA上表达出来的RNA,但是我们没法测序RNA,所以我们最终测的是表达序列的cDNA片段。

“标签”:就是指这些序列可能比较短,但是可以用来标定一个物种。

常见下载方式有两种:

1. NCBI Web下载

https://www.ncbi.nlm.nih.gov/dbEST/

打开,搜索你要的物种,比如 Camellia ,可以看到结果EST (50287)。

Web下载几个还行,想要批量下载就有点费力了,ncbi反爬虫,也不好爬。

2. NCBI ftp下载

ftp://ftp.ncbi.nih.gov/repository/dbEST/

直接wget就可以批量下载了。

for one in `seq 1 81`
do
echo $one
wget ftp://ftp.ncbi.nih.gov/repository/dbEST/dbEST.reports.000000.${one}.gz
done  

下载后的文件格式是:

IDENTIFIERS

dbEST Id:       5
EST name: EST00006
GenBank Acc: M61958
GDB Dsegment: D0S2525E CLONE INFO
Clone Id: HHCSB86
Source: ATCC
Id in host: 77063
DNA type: cDNA PRIMERS
Sequencing: M13 Forward
PolyA Tail: Unknown SEQUENCE
TGCACAACCAAGTTTTGTGACTACGGGAAGGCTCCCGGGGCAGAGGAGTACGCTCAACAA
GATGTGTTAAAGAAATCTTACTCCAAGGCCTTCACGCTGACCATCTCTGCCCTCTTTGTG
ACACCCAAGACGACTGGGGCCCNGGTGGAGTTAAGCGAGCAGCAACTNCAGTTGTNGCCG
AGTGATGTGGACAAGCTGTCACCCACTGACA Entry Created: May 26 1992
Last Updated: Dec 18 2012 PUTATIVE ID Assigned by submitter
2',3'-cyclic nucleotide phoshodiesterase LIBRARY
Id: LIBEST_000004
Lib Name: LIBEST_000004 Hippocampus, Stratagene (cat. #936205)
Organism: Homo sapiens
Vector: lambdaZAP-II
Description: Female, 2 years; oligo-dT + random primed cDNA synthesis;

信息是挺全面的,自己想要哪个物种就只能自己提取了。

提取成FASTA的脚本我就不贴了(效率很重要,因为文件很大)。

最后我还是自己写了个脚本,biopython实在是太慢了。

import gzip
inf = gzip.open("dbEST.reports.000000.49.gz","rb")
raw_id = ""
seq = "" for line in inf:
if line.stratswith("GenBank Acc"):
id = line.split(":")[1].strip()
if line.stratswith("SEQUENCE"):
seq = ""
while True:
rline = inf.readline()
seq+=rline.strip()
if not line.stratswith(" "):
break
if line.stratswith("Organism"):
organism = line.split(":")[1].strip()
if organism.startswith("Camellia"):
print(">"+id+" "+organism, seq, sep="\n")

  

我的脚本可以用,但是不一定很快。

我用awk试了很久,没有成功。

2018年3月16日  

如何下载一个物种的全部EST序列 | NCBI | 表达序列标签的更多相关文章

  1. 【tomcat ecplise】新下载一个tomcat,无法成功启动,或者启动了无法访问localhost:8080页面/ecplise无法添加新的tomcat/ecplise启动tomcat启动不起来

    今天转头使用ecplise,于是新下载一个tomcat7来作为服务器使用 但是问题来了: [问题1:全新的tomcat启动即消耗了不可思议的时间,并且启动了之前其他tomcat中的很多项目] [注意: ...

  2. GitHub的使用(下)—— 如何下载一个已存在的 Repository

    导读:本篇主要介绍如何使用EGit下载GitHub上已存在的库.如果不是为了下载一个Java Project,直接在Eclipse中导入使用,那可以使用GitHub的桌面程序(GitHub for W ...

  3. C#多线程下载一个文件

    这里只是说明多线程下载的理论基础,嘿嘿,并没有写多线程下载的代码,标题党了,但是我相信,看完这个代码就应该能够多线程的方式去下载一个文件了. 多线程下载是需要服务器支持的,这里并没有判断服务器不支持的 ...

  4. Python requests库如何下载一个图片资源

    原文地址https://blog.csdn.net/u011541946/article/details/77700074 前面一篇文章介绍了response对象的一些常用API,也已经提到,我们的重 ...

  5. 下载一个新的app之后,如果分析、鉴赏?

    一直对新的事物还是比较好奇的,所以希望以后每隔几天就下载一个app,去体验,但是之前体验的时候,都是大概看看功能.竞品分析.流畅度等等,却没有一个完整的方法论,所以,这篇文章就是总结一下更为具体的方法 ...

  6. Gym 101064 D Black Hills golden jewels 【二分套二分/给定一个序列,从序列中任意取两个数形成一个和,两个数不可相同,要求求出第k小的组合】

    D. Black Hills golden jewels time limit per test 2 seconds memory limit per test 256 megabytes input ...

  7. 安装rpy2 报错<cdef source string>:23:5: before: blah1 解决办法就是直接下载一个rpy2的轮子

    win7上安装rpy2, python环境是3.6.1. 使用pip install rpy2直接安装rpy2,对应的版本时rpy2 3.0.5 报如下错误: ERROR: Complete outp ...

  8. 代码实现:当我们下载一个试用版软件,没有购买正版的时候,每执行一次就会提醒我们还有多少次使用机会用学过的IO流知识,模拟试用版软件,试用10次机会,执行一次就提示一次您还有几次机会,如果次数到了提示请购买正版

    package com.loaderman.test; import java.io.BufferedReader; import java.io.FileReader; import java.io ...

  9. 扩增子分析解读4去嵌合体 非细菌序列 生成代表性序列和OTU表

    本节课程,需要先完成 扩增子分析解读1质控 实验设计 双端序列合并 2提取barcode 质控及样品拆分 切除扩增引物 3格式转换 去冗余 聚类   先看一下扩增子分析的整体流程,从下向上逐层分析 分 ...

随机推荐

  1. canvas-简单快速实现知乎登录页背景效果

    前言 打开知乎的登录页,就可以看到其背景有一个动效,看起来好像蛮不错的样子: 这个效果使用canvas是不难实现的,接下来就一步一步地讲解并实现这个效果. 分析 在动工之前先分析这个效果到底是如何运动 ...

  2. Testng测试报告

    执行完测试用例之后,会在项目的test-output(默认目录)下生成测试报告

  3. Python3 tkinter基础 Listbox delete 删除单个、所有元素

             Python : 3.7.0          OS : Ubuntu 18.04.1 LTS         IDE : PyCharm 2018.2.4       Conda ...

  4. 怎样建立你自己的MASM导入库

    by Iczelion (翻译:花心萝卜yqzq@163.net) 9.5.2000 这篇短文是讲述关于建立MASM导入库(import libraries)技巧,我假设你已经知道什么是导入库.在下面 ...

  5. oracle 之 插入超长字段并包含&字符的处理方法

    oracle 在插入超长数据字符串时是默认转为varchar2类型,而这类型只有4000字节,即使通过oracle改变字符串类型为clob,也是在插入时默认转为varchar2类型. 处理方式:可以通 ...

  6. 【Hadoop 分布式部署 八:分布式协作框架Zookeeper架构功能讲解 及本地模式安装部署和命令使用 】

    What  is  Zookeeper 是一个开源的分布式的,为分布式应用提供协作服务的Apache项目 提供一个简单的原语集合,以便与分布式应用可以在他之上构建更高层次的同步服务 设计非常简单易于编 ...

  7. Introducing GitFlow

    Introducing GitFlow What Is GitFlow? GitFlow is a branching model for Git, created by Vincent Driess ...

  8. JavaScript——类型检测

    要检测一个变量是否是基本数据类型,可以用 Typeof 操作符.如果我们想知道它是什么类型的对象,我们可以用instanceof 操作符,语法如下所示: result=variable instanc ...

  9. [从零开始搭网站五]http网站Tomcat配置web.xml和server.xml

    点击下面连接查看从零开始搭网站全系列 从零开始搭网站 上一章我们在CentOS下搭建了Tomcat,但是还是没有跑起来...那么这一章就把最后的配置给大家放上去. 有两种方式:一种是用 rm -f 给 ...

  10. 【Python】【数据库】

    #[[数据库]]'''MySQL是Web世界中使用最广泛的数据库服务器.SQLite的特点是轻量级.可嵌入,但不能承受高并发访问,适合桌面和移动应用.而MySQL是为服务器端设计的数据库,能承受高并发 ...