RepeatMasker使用
RM是library-based,通过相似性比对来识别重复序列,可以屏蔽序列中转座子重复序列和低复杂度序列(默认将其替换成N)。使用数据库Dfam和Repbase。
The Dfam database is a collection of Repetitive DNA element sequence alignments, hidden Markov models (HMMs) and matches lists for complete Eukaryote genomes.
Repbase是由美国遗传信息研究所(GIRI)创建并维护,收录了转座子和其他重复序列及其注释信息。
本地安装RepeatMasker,除了需要RepeatMasker主程序外,还需要TRF(Tandem Repeats Finder)、序列搜索引擎(以RMBlast为例)以及Repbase数据库。
搜索引擎可以安装多个,但是每次只能用一个。
Using RepeatMasker to Identify Repetitive Elements in Genomic Sequences
要屏蔽的区域:low-complexity DNA sequences and interspersed repeats
比对引擎:cross_match WU-BLAST(更快)
如果DNA source没有参考基因组,那么需要用RECON或者RepeatScout建立一个Repbase类型的文件
安装:
http://www.repeatmasker.org/RMDownload.html
sequence search engine
cross_match 要注册啥的,没搞
RMBlast blast的修改版本,此处用了2.2.28版本,需要下载http://www.repeatmasker.org/RMBlast.html
这里的两个binary,然后解压就可以了
HMMER 下载v3.1b2版本
ABBlast/WUBlast 也要注册啥的,没弄
TRF
下载TRF v4.0.4
Repeat database
下载Dfam和RepBase(要注册下载)
装完之后用./configure配置,修改好path就可以了。
暂时设置RMBlast为default。
最简单的命令
RepeatMasker/RepeatMasker -species human sequence.fasta
最常用:
./RepeatMasker -species human -engine hmmer
除了控制台输出外,还会在同目录下产生几个文件:
输入文件名.cat //不懂
输入文件名.masked // 已屏蔽完的fasta序列
输入文件名.out // 重复区域的统计信息,如类型,位置等
输入文件名.tbl
各种统计信息
阈值设定:
-lib 指定数据库,default是灵长类的
-cutoff 使用-lib时设置阈值,默认225。cutoff 值低的会有错配。
-nolow 不去mask low-complexity DNA or simple repeats
-div sets the divergence level to limit the masking and annotation to a subset
of less diverged (younger) repeats.
速度设定:
-q 快
-qq 更快
-s 慢就更灵敏
-pa 如果有多个输入或者输入很大,可以考虑多处理器加速
-w WU-BLAST比cross_match快,但是后者更准确
如果长序列效果不好,可以修改RepeatMasker中的$maxsize,改大,但是内存需求也会变大
或者切断
如果空间不足,RM不会报错,可能会有貌似正确的结果
如果用了WU-BLAST,最好用-s
短序列(<2kb)的可能精确度差一点
转座子transposon
一类DNA序列,它们能够在基因组中转录或逆转录,在内切酶的作用下,在其他基因座上出现。I型转座子即反转录转座子,该型转座子会先被转录为RNA,然后利用逆转录酶将该RNA逆转录为cDNA,然后才被插入到目标位点中。“复制-粘贴”。II型转座子也称不复制转座子,其序列两端是两段直接重复序列(direct repeat, dR),与它们接壤的是反向重复序列(invert repeat, iR),中间是插入序列(insert sequence, IS)。所以II型的中间体就是其本身,“剪切-粘贴”。
假基因是一类本来正常,然后因为突变或转座而可能失去原来功能的基因。在环境压力下,某些假基因可以重新被激活,而某些假基因则有着调控基因表达的作用。可总结为“假作真时真亦假”。它们与原来的基因可能很相似,但又可以有很大差异。
人体约有40%的DNA与逆转录病毒有关,其中7.7%的DNA与逆转录病毒非常相似,称之为内源逆转录病毒(endogenous retrovirus, ERV)。
病毒两端有两条相同的序列,LTR(long terminal repear),LTR不编码蛋白,主要起调控作用。中间三段基因,gag编码了衣壳蛋白等结构蛋白,pol编码了逆转录酶、整合酶、蛋白酶这些病毒复制需要的酶,env编码了病毒包膜的糖蛋白。所有的逆转录病毒都有这三个基因。人类的内源逆转录病毒HERV也有这三段基因和两个LTR,也可以像逆转录病毒一样,逆转录到别处。HERV可能是很久之前感染过人体胚胎,然后逐渐扩增到7.7%的规模,但是已经变异失去了制造病毒颗粒的能力。
逆转录转座子retrotransposon不包含env,可能是逆转录病毒的来源。所有反转录转座子都有一个共同特点,就是在其插入位点上产生短的正向重复序列。它是许多真核生物中数量最大的一类可活动遗传成分。在植物中特别丰富,它们是核DNA的一个主要组成部分。哺乳动物中,几乎有一半的基因组包含转座子或残余转座子。
LINE中有编码与逆转录酶/整合酶相似活性的酶,所以可能也能逆转录;长度6K
SINE中则没有编码逆转录酶,(需要在细胞内已有的酶系统的作用下进行转座)可能是在LINE辅助下进行逆转录和整合的。Alu是属于SINE的。长度约300bp
近年的研究显示,灵长目LTR逆转座子已固定在基因组中,已无转座活性(Lander et al.,2001);灵长目动物基因组中仍有转座活性的元件是non-LTR逆转座子,主要包括长散在重复元件LINE1(long interspersed element 1,L1)、Alu元件、SVA元件等
L1是人类基因组中唯一的自主性逆转座子,其拷贝占17%,但只有极少数有转座活性,其中6个活性最高的L1拷贝介导了大部分L1转座活动。
Alu元件不能编码逆转录酶,属于非自主转座子,它们利用L1编码ORF2的逆转录酶进行逆转座活动。属于SINE。是灵长类动物基因组中数量最丰富的逆转座子。
典型的SVA元件长约2 kb。SVA逆转座子起源最晚,是人科动物中特有的逆转座子,属于SINE家族中的一员。
逆转座子对基因组结构的影响来源有两种,一是逆转座过程本身,一是其产生的同源序列:
逆转座过程对基因组结构的影响:
1.插入突变
逆转座子对插入位点有选择性
2.侧翼序列转导
转座时,除了对自身进行转录,有时也会将上下游的侧翼序列进行转录。侧翼序列转导可将本来不连锁的基因连接起来,对新基因的形成和基因组的进化都有着重要作用。
3.基因逆转座
基因逆转座(gene retrotranspositon)是指只有基因序列发生逆转座,而不伴随逆转座子的转座过程。有时候,一些mRNA可以采取和Alu、SVA相同的策略,捕获L1的逆转录元件从而逆转录插入到基因组中。复制到新位点的基因来源于mRNA的逆转录,因此并不含有上游调控区域,除非获得新的调控区域,这些基因即成为逆转座的假基因(retropseudogene)
4.DNA双链断裂
5.侧翼序列切除
当L1和Alu插入基因组新位点时,可能会引起邻近基因组序列的缺失。
逆转座子同源序列对基因组结构的影响:
1.DNA双链断裂的修复
2.异常重组
3.微卫星的形成
微卫星(microsatellite)也叫短串联重复序列(short t and em repeat,STR)或简单重复序列,是由几个(多为2~4个)碱基对作为核心单位,串联重复形成的一类DNA序列。
ucsc的repeat数据,其分类如下面链接所示
https://blog.csdn.net/tanzuozhev/article/details/80958785
RepeatMasker使用的更多相关文章
- RepeatMasker使用中的问题
RepeatMasker在运行时会先产生如下一个中间文件夹如RM_23346.WedAug301137422017,最后生成结果文件,例如.out,.masked,.tbl等 软件特性:软件运行很慢, ...
- RepBaseRepeatMaskerEdition下载 | RepeatMasker
开源的生物信息世界居然有这么个需要注册才能下载的工具,开源世界不是怎么方便怎么来吗? 这个注册真的麻烦,这里上传了一个可以使用的版本. RepBaseRepeatMaskerEdition-20170 ...
- RepeatMasker
1.简介 RepeatMasker是一款基于Library-based,通过相似性比对来识别重复序列,可以屏蔽序列中转座子重复序列和低复杂度序列(默认将其替换成N).提供有在线服务.RepeatMas ...
- 生信 - 从repeatmasker传送门过来的 blast
以前有的是非完整时间写的博客,抽时间需要统一整理一下. 今天在重新装repeatmasker. 整个过程是这样的,有关联的事情有两个. 1. 装repeatmasker需要各种Prerequisite ...
- 【基因组注释】RepeatMasker和RepeatModeler安装、配置与运行避坑
目录 1.conda安装 2.配置RepBase 3.RepeatMasker避坑 4.RepeatProteinMask避坑 5.RepeatModeler避坑 6.自定义重复序列库 后记 1.co ...
- 生物信息大数据&数据库(NCBI、EBI、UCSC、TCGA)
想系统的学习生信数据库可以先看一下北大的公开课,有一章专门讲的数据库与软件: -生物信息学:导论与方法 北大\ 生物信息数据库及软件资源 一个优秀的生信开发者能够解决如下问题: 如何鉴定一个重要的且没 ...
- GATK使用说明-GRCh38(Genome Reference Consortium)(二)
Reference Genome Components 1. GRCh38 is special because it has alternate contigs that represent pop ...
- maker 2008年发表在genome Res
http://gmod.org/wiki/MAKER_Tutorial 简单好用 identify repeats, to align ESTs and proteins to the genome, ...
- perl5
1.perl包加入环境 export PERL5LIB=/export/personal1/wanglh/.software/perl/lib:$PERL5LIB
随机推荐
- mysql数据库免安装版的配置过程
1,从mysql官方网站下载免安装版本与自己电脑位数相同的mysql版本. 链接:https://www.mysql.com/ 2,将包解压到自定义的目录下 (例:D:\mysql-5.7.23-wi ...
- Chrome拷贝插件的对比 zeroclipboard和clipboard插件
1.zeroclipboard插件 实现原理:Zero Clipboard 利用 Flash 进行复制,用了一个透明的 Flash ,让其漂浮在按钮之上,这样其实点击的不是按钮而是 Flash ,也就 ...
- Python异常处理及元类
一.异常处理 异常是错误发生的信号,一旦程序出错就会产生一个异常,如果该异常没有被应用程序处理,那么该异常就会跑出来,程序的执行也随之终止,也就是说异常就是一个事件,该事件会在程序执行过程中发生,影响 ...
- 菜鸟 学注册机编写之 Android app
0x00前言 环境及工具: 手机 Nexus 4(己root) 系统版本 Android 5.01 工具 AndroidKiller_V1.2 关于Android平台app注册机的编 ...
- android sqlite3命令行检查自己的代码操作数据库是否正确
真机调试的话需要root ,否则没有访问目录的权限 在 linux 的终端 或者 windows的cmd 中输入 adb shell 进入shell 环境 cd /data/data/程序包名/dat ...
- [javascript]什么是闭包?
http://www.zcfy.cc/article/master-the-javascript-interview-what-is-a-closure-2127.html
- php的yii框架开发总结4
用户验证的实现:/protected/components/UserIdentity.php 修改:function authenticate()函数中的语句 public function auth ...
- Oracle VM VirtualBox 共享文件夹设置
在Windows平台下,这货完全没有VMware好用,但在Linux平台就很好用. 学校机房的电脑打开虚拟机就不能插优盘,一插优盘就卡死,所以,只好用共享文件夹了. 1.在虚拟机外部新建一个文件夹 假 ...
- 数长方形有多少个?POJ(1693)
题目链接:http://poj.org/problem?id=1693 解题报告: 随机选两根横的,再找一下与这两根横线相交的竖线有多少根,m,那么就有(m-1)*m/2个长方形. #include ...
- EF 连接 mysq l数据库 code first模式 的实践
准备工作: 1.下载vs2015 2.下载mysql2017 3.安装 开始: 1.创建 控制台文件 2.添加引用 Mysql.Data , Mysql.Data.Entity.EF6,Mysql.w ...