1、数据库简介

UniVec是一个数据库,可用于快速识别核酸序列中可能来自载体来源(载体污染)的片段。使用UniVec进行筛选是高效的,因为已经消除了大量冗余子序列,从而创建一个只包含来自大量载体的每个惟一序列段的一个副本数据库。除了载体序列,UniVec还包含用于克隆cDNA或基因组DNA过程中常用的adpter、linkers和引物的序列。这使得在载体筛选过程中可以发现这些寡核苷酸序列的污染。UniVec可以从NCBI FTP目录获得:ftp://ftp.ncbi.nlm.nih.gov/pub/UniVec

2、VecScreen

VecScreen是一个系统,它可以快速找到核酸序列的片段,这些片段可能来自于载体。它帮助研究人员在分析或提交序列之前识别和删除任何载体源片段。研究人员被鼓励使用VecScreen搜索页面上的表单对其序列进行载体污染筛选。

无法识别序列中的外源片段可以:

导致对该序列生物学意义的错误结论
浪费时间和精力分析污染序列
延迟在公共数据库中释放序列
用受污染的序列污染公共数据库

GenBank注释人员使用VecScreen验证提交给数据库的序列是否不受载体污染。VecScreen在一个查询序列中搜索匹配UniVec中任何序列的段。UniVec是一个专用的非冗余载体数据库。该搜索使用带有预设参数的BLAST对载体污染进行最优检测。匹配载体序列的查询段将根据匹配的强度进行分类,并显示它们的位置(参见一个正结果示例)。

关于结果的解释https://www.ncbi.nlm.nih.gov/tools/vecscreen/interpretation/

3)VecScreen Search Parameters

理论上,任何向量污染的序列都应该与已知向量序列相同。在实践中,偶尔的差异被认为是由测序错误引起的,较少的情况下,是由工程变异或自发突变引起的。因此,选择用于VecScreen的搜索参数是为了找到与已知向量序列相同的序列段,或者只与已知序列略有偏离的序列段。

用于VecScreen的blastn参数比默认的blastn参数严格得多。主要差异有:

增加对不匹配的惩罚,这严重限制了不匹配的频率。
间隙惩罚更容忍单碱基插入或删除,这适应了添加或删除碱基的排序错误类型。
只对初始命中进行低复杂度过滤,这可以防止在低复杂度区域中启动对齐,同时允许跨区域的对齐

使用blastn选项预先设置VecScreen参数:-task blastn -reward 1 -penalty -5 -gapopen 3 -gapextend 3 -dust yes -soft_mask true - value 700 -searchsp 1750000000000

4)VecScreen Match Categories

载体污染通常发生在序列的开始或结束;因此,对终端和内部匹配使用不同的标准。如果匹配在查询序列开始的25个碱基内开始,或者在序列结束的25个碱基内停止,VecScreen将该匹配视为终端。在另一个匹配的25个碱基内开始或停止的匹配也被视为终端匹配。匹配根据随机序列之间发生的具有相同得分的比对的预期频率进行分类。

强匹配向量:(期望在1,000,000个长度为350kb的查询中有一个随机匹配。)

终端匹配,得分≥。
内部匹配,得分≥。

向量适度匹配:(期望在1000个长度为350 kb的查询中有一个随机匹配。)

终场比分19比23。
内部比赛得分25比29。

弱匹配向量:(期望在40个长度为350 kb的查询中有一个随机匹配。)

终场比分16比18。
内部比赛得分23比24。

可疑来源序列
Any segment of fewer than 50 bases between two vector matches or between a match and an end.

参考:

https://www.ncbi.nlm.nih.gov/tools/vecscreen/about/

https://www.ncbi.nlm.nih.gov/tools/vecscreen/univec/#Overview

https://www.ncbi.nlm.nih.gov/tools/vecscreen/contam/#Definition

NCBI之UniVec数据库及去载体的更多相关文章

  1. 构建NCBI本地BLAST数据库 (NR NT等) | blastx/diamond使用方法 | blast构建索引 | makeblastdb

    参考链接: FTP README 如何下载 NCBI NR NT数据库? 下载blast:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+ 先了解 ...

  2. Servlet课程0425(七) 到数据库中去验证用户,同时防止SQL注入漏洞

    Login.java //登录界面 package com.tsinghua; import javax.servlet.http.*; import java.io.*; public class ...

  3. 2021-2-3-利用anaconda+prefetch+aspera从NCBI的SRA数据库中下载原始测序数据

    目录 1.Conda连接不上镜像源问题 2. aspera不能再独立使用 3.使用prefetch搭配aspera 4. prefetch下载方法 记录下下载过程,为自己和后人避坑. 1.Conda连 ...

  4. 如何把 excel 的数据导入到数据库里面去

    1. 把 excel 另存为 .csv 格式 2. 用 Notepad 打开 .csv 文件, 第一行就是全部的字段 3. 创建表结构 create table yu_rt_01 as select ...

  5. MySQL数据库行去重复

    1.创立数据表

  6. 生物数据库介绍——NCBI

    NCBI(National Center for Biotechnology Information,美国国家生物技术信息中心)除了维护GenBank核酸序列数据库外,还提供数据分析和检索资源.NCB ...

  7. NCBI SRA数据库

    简介 SRA数据库是美国国立卫生研究院(NIH)的高通量测序数据的主要归档,是国际核苷酸序列数据库协作(INSDC)的一部分,其中包括NCBI序列读取存档(SRA),欧洲生物信息学研究所(EBI)和D ...

  8. Spark踩坑记——数据库(Hbase+Mysql)

    [TOC] 前言 在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值.最近一个实时消费者处理任务,在使用spark streami ...

  9. iOS中数据库应用基础

    iOS 数据库入门 一.数据库简介 1.什么是数据库? 数据库(Database) 是按照数据结构来组织,存储和管理数据的仓库 数据库可以分为2大种类 关系型数据库(主流) PC端 Oracle My ...

随机推荐

  1. DGCNN

    架构总览 模型的整体架构源于 WebQA 的参考论文 Dataset and Neural Recurrent Sequence Labeling Model for Open-Domain Fact ...

  2. dbvisualizer客户端执行创建存储过程或自定义函数语句的方法

    DBVisualizer这个数据库客户端工具,如果要执行存储过程或函数的话,需要在创建存储过程或函数的语句的最前面和末尾分别加上[--/]和[/]符号. --/ CREATE FUNCTION B22 ...

  3. Autoware 培训笔记 No. 1——构建点云地图

    1. 首记 相信许多刚开始玩无人驾驶的人都用过Autoware,对runtime manager都比较熟悉,虽然可以通过各种渠道了解到有些设置,甚至有些设置的app下参数的含义,但是,在真车的使用过程 ...

  4. 在.net中读写config文件的各种方法【转】

    今天谈谈在.net中读写config文件的各种方法. 在这篇博客中,我将介绍各种配置文件的读写操作. 由于内容较为直观,因此没有过多的空道理,只有实实在在的演示代码, 目的只为了再现实战开发中的各种场 ...

  5. 在IIS配置时没有启用目录浏览功能 :HTTP 错误 403.14

    在IIS配置时没有启用目录浏览功能,浏览网站时,会出现“HTTP 错误 403.14–Forbidden,Web服务器被配置为不列出此目录内容”的提示,怎么解决这个问题呢? 01 02 03 04 0 ...

  6. DateTimeComparer

    public int Compare(string x,string y) { DateTime xDate = DateTime.ParseExact(x, "MMMM", ne ...

  7. vscode搜索所有文件夹中所有文件的方法

    最近在看opencv相关的内容,看到画图这一部分时,提示我  这些代码都来自OpenCV代码的sample文件夹. 按照他的提示,我打开了相应的文件夹,却发现,so many 文件 and 文件夹,这 ...

  8. 写入文件writelines 换行问题

    知识点:在python中没有数组的概念,有列表.元组.字典的概念 问题描述: 在写循环语句的时候,我需要把输出的列表存放到文件上,但是如果没有换行的话,存下的文件就是一坨的字. 所以在存入文件的时候就 ...

  9. xiaohacontainer, docker, windows-来自微软Azure CTO的布道

    https://azure.microsoft.com/zh-cn/blog/containers-docker-windows-and-trends/ 今天这个时代当你讨论云计算时,不谈谈docke ...

  10. 微信和QQ可以关闭广告了,每次能关6个月

    微信和QQ可以关闭广告了,这次腾讯真的是良心了,虽然不能完全关闭,但是每次能关6个月,也能清静不少时间. 关闭地址:点击进入