Nr,GenBank, RefSeq, UniProt 数据库的异同

有的文章在做DEG分析时,会把reads比对到RefSeq的转录组上。我也没搞清楚这和直接比对到常规转录组上有什么区别。

文章:Single-Cell Transcriptome Analysis Reveals Dynamic Changes in lncRNA Expression during Reprogramming

方法:For differential expression analysis, we aligned reads against the refSeq mouse transcriptome using Bowtie version 0.12.7 (Langmead et al., 2009). Expression levels were then  stimated using eXpress (Roberts and Pachter, 2013) (version 1.3.0), with gene-level effective counts and RPKM values derived from the sum of the corresponding values for all isoforms of a gene.

refseq 数据库长啥样?

ftp://ftp.ncbi.nlm.nih.gov/refseq/

进到小鼠里:

mRNA_Prot

mRNA_Prot directory
Contents: organisms-specific RefSeq transcript and protein data {org-name}.files.installed:
reports the md5checksum and files included in the directory
For example: /refseq/H_sapiens/mRNA_Prot/human.files.installed File Name Conventions:
File name formats are as follows:
common_name.#.molecule_type.format_type
Multiple files may be provided for any given molecule and format type and file
names include a numerical increment. Files with the same numerical increment
are related by content. For example, the files provided for human are named as:
human.#.rna.fna.gz --fasta report for transcript records
human.#.protein.faa.gz --fasta report for protein records
human.#.rna.gbff.gz --flatfile report for transcript records
human.#.protein.gpff.gz --flatfile report for protein records

  

下载一个rna.fna文件,里面是这样的:

>NM_001013372.2 Mus musculus neural regeneration protein (Nrp), mRNA
CGGTCCAAGGAATTTTTCTGACAAACGCAATAGGCCGACCAGTACTGGAACGCAGTGCGCTTAGCCCCTTTATGGCGGAG
GCTGCCATGTTAAAACGGAATGAATCGAAACCCTGGAGTCGTGACCCCGGAAGAACCTGCCAGAGCCGGAATTTCGAGTT
CTGCTTCCGGGCCAAACTGTTGGCAGCCTCGAGATGGGGAAGATGGCGGCTGCTGTGGCTTCATTAGCCACGCTGGCTGC
AGAGCCCAGAGAGGATGCTTTCCGGAAGCTTTTCCGCTTCTACCGGCAGAGCCGGCCGGGGACAGCGGACCTGGGAGCCG
TCATCGACTTCTCAGAGGCGCACTTGGCTCGGAGCCCGAAGCCCGGCGTGCCCCAGGTAGGAAAGGAGGAGTAGTGTGTG
CCAGCCTAGCGGCCGACTGGGCCACCCGAGACTGGGCCGCCTCCGGGCCGGCTTTGGAGGGAAGCCCCTGCTGGGCCTGT
CCAGTGAGCTGTAATGTCGAGCGATGAGCGACCAGCTGCCTCGCTGTCCCAACGCTCTGGCCACGGCTTGTGCCTTGCCG
CCATTTCCCCCAACCCACGCGGGCCACGGCTTGTGCCCTGCCGCCATTTCCCCCAACCCACGCGACCTTGCTAAAAAAAA
AAAAAGAAAGAAAAGAAAAGAAAGAAAGAAAGAAAAAAATCTGGAAATTGCTTGTACCTCCTTAACTATCTGTTTAATAC
TAATACGATATTTTGTGTAAAGCTCAGAAGAACATCTTCGTGGACGTTAGGGTGGCCTCATAACTTCAGATAAAAGCAGC
CATTTAATAAGTCTCAAACCGTTAATCCGTTGGGCCTGAGACTCGATCGACCCTGTCTTCTCTGAGGCTTTGAAAGTAAA
GGTAAAATTAGCAGGTTTTTTTCCTGAGAATCTAGGAGCCTGGAGAGATAGCTCAGTAATTAAGAGCATTTACCTACTGG
TGTTCCCAAGAACACCAAGTAGATTTGGTTCCTTGCAGCCACGTGGCAGCTCACAGCCTTCTTGTAACTCTTCCGGAGGA
TCAGACACCCTCTCTTGAGCTCCACAGGAGAGCACTCGTAGACATGTAAATAAACTTCTAAGCTAAATCTAAACAATTTA
TGTACCCTCCCTATTTCTTCGTGATGAGAAGAAAGGGGCCAGAGGGTATG
>NR_046233.2 Mus musculus 45S pre-ribosomal RNA (Rn45s), ribosomal RNA
ACTGACACGCTGTCCTTTCCCTATTAACACTAAAGGACACTATAAAGAGACCCTTTCGATTTAAGGCTGTTTTGCTTGTC

  

还是没发现有什么区别!!!

RefSeq转录本是 从gtf得到的转录本的一个子集

  

后面会再详细展开~


Nr,GenBank, RefSeq, UniProt 数据库的异同的更多相关文章

  1. Uniprot数据库

    Uniprot数据库是Universal Protein的英文缩写,是信息最丰富.资源最广的蛋白质数据库. UniprotKB由两部分组成: UniProtKB/Swiss-Prot 高质量的.手工注 ...

  2. Uniprot 数据库-最常用的蛋白质数据库

    Uniprot 数据库是收录信息最全面的蛋白质数据库,包含swissport, uniparc, TrEMBL 3个子数据库: 其中swiss-prot 是手工核对过的 ,非冗余, 有详细注释信息的蛋 ...

  3. Hive与数据库的异同

    一.Hive简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习 ...

  4. [转帖]达梦数据库(DM6)和ORACLE 10g的异同点

    达梦数据库(DM6)和ORACLE 10g的异同点    https://bbs.aliyun.com/detail/351337.html   花花浪子 级别: 小白 发帖 0 云币 -41 加关注 ...

  5. blast 数据库说明

    Peptide Sequence Databases蛋白序列的数据库 nrAll non-redundant GenBank CDS translations + RefSeq Proteins + ...

  6. 生物数据库介绍——NCBI

    NCBI(National Center for Biotechnology Information,美国国家生物技术信息中心)除了维护GenBank核酸序列数据库外,还提供数据分析和检索资源.NCB ...

  7. sqlserver数据库的分离与附加

    当我们一台电脑上创建了数据库想要转移到另外一台电脑上时,由于数据库处于联机状态,不能够对数据库文件进行复制和迁移,所以我们可以将数据库从服务器上分离出去,这样我们就可以复制数据库文件了.然后将数据库文 ...

  8. HGNC 数据库-人类基因组数据库

    HGNC 全称为HUGO Gene Nomenclature Committee, 叫做 HUGO基因命名委员会,负责对人类基因组上包括蛋白编码基因, ncRNA基因,甲基因和其他基因在内的所有基因提 ...

  9. 一文读懂非关系型数据库(NoSQL)

    为了更好的理解非关系型数据库,我又深入的度娘了下 原文地址:https://baijiahao.baidu.com/po/feed/share?wfr=spider&for=pc&co ...

随机推荐

  1. tp框架中的一些疑点知识-5

    关于vim中的缓存区的前后bp和bn的界定 通过命令ls可以看到 缓存区的 排序. 最开始打开的文件排在最上面, 序号最小. 那么它们就是 更 前 的缓冲区. 序号更前的用bp, 序号靠后的用bn. ...

  2. Git 收集别名

    .gitconfig文件夹一般是在C:\Users\Administrator路径下,用于全局的git的配置 下面是git别名的设置: [alias] last = log -1 --stat a = ...

  3. Symbol在对象中的作用

    Symbol的打印 我们先声明一个Symbol,然后我们在控制台输出一下. var g = Symbol('jspang'); console.log(g); console.log(g.toStri ...

  4. Js批量下载花瓣网及堆糖网专辑图片

    插件作者:SaintIC 文章地址:https://blog.saintic.com/blog/256.html 一.安装 1. 安装Tampermonkey扩展,不同浏览器的支持,参见官网:http ...

  5. Markdown 指南

    Markdown 是一种轻量级的「标记语言」,使用用特殊的 Markdown 文档处理器将 Markdown 语法翻译成预设的文档格式.标题大小等,一般用于展示时输出的是 HTML.这个教程可以让使用 ...

  6. Vs Code搭建 TypeScript 开发环境

    一.npm install -g typescript 全局安装TypeScript   二.使用Vs Code打开已创建的文件夹,使用快捷键Ctrl+~启动终端输入命令 tsc --init 创建t ...

  7. Entity Framework Core导航属性加载问题

    前言 今天下午在开发的时候发现EF Core实体模型中的导航属性为 null,经排查既不是没有加 virtual 关键字,也不是外键关系映射错误. 解决方法 通过查询官网文档,发现,原因在于EF Co ...

  8. arcgis api for js 之发布要素服务

    1. 引言 如果我们要在网页端实现要素的增删改查操作,需要使用到要素服务(FeatureService),本篇文章将介绍如何发布要素服务. 1.1 什么是要素服务 在发布之前,我们先了解下要素服务:要 ...

  9. spring读取bean有几种方式

    bean加载到spring的方式: 第一种:xml 第二种:注释「一定要配合包扫描」: <context:component-scan base-package="Cristin.Co ...

  10. burp suite 的intruder 四种攻击方式

    一:sniper[狙击手] 这种攻击基于原始的请求内容,需要一个字典,每次用字典里的一个值去代替一个待攻击的原始值. 攻击次数=参数个数X字典内元素个数 例如:原始请求中 name=aa , pass ...