windowmasker 标记基因组中的重复序列和低复杂度序列

下载地址：ftp://ftp.ncbi.nlm.nih.gov/pub/agarwala/windowmasker/

在这个目录下

其中windowmasker 为linux 平台的可执行文件

windowmasker 只需要根据基因组序列本身，就可以识别并标记高重复序列和低复杂度序列，

其有两种工作模式，第一种为WinMasker模式，用于识别重复序列；第二种为DUST模式，用于识别低复杂度序列；

windowsmasker 的处理过程分为两步：

第一步先生成一个count文件，通过指定 -mk_counts 开启，在这一步中会进行4次处理，其中前3步是可选的，

　　pass1 检查输入文件中的duplicate reads，通过指定-checkdup true 开启；

　　pass2计算基因组总的碱基数;

　　pass3 计算阈值；

　　pass4 生成 count 文件；

count文件的格式有4种可选，分别是ascii, binary, oascii, obinary , 默认为ascii, 通过-sformat 参数指定, ascii 格式是文本格式，是人类可读的；binary 格式是二进制格式，在第二步中load 的更快；而oascii 和 obinary 是通过哈希优化过的结构，能够提升2.5-4倍的运行速度，同时消耗的内存更多，他们二者之间的区别在于，oascii 人类可读， obinarty 不可读；

备注： windowmasker 提供了一个count 文件的转换功能，通过指定 -convert 开启， -in 指定原始的 count 文件， -out 指定生成的新的count 文件， -sformat 指定新生成文件的格式， -smen 指定生成文件时所用的最大内存，只有输出文件格式为oascii 和 obinary 时才起作用，其值为正整数，默认为512，单位数M, 即512M的内存，当这个值不能满足要求时，会报错；

第二步根据count文件标记输入序列中的重复序列，通过指定-ustat 参数开启，该参数的值是第一步生成的count 文件；在这一步中也可以加入-dust 使用DUST 模式同时标记低复杂度序列，只有同时为重复序列和低复杂度序列的区域被标记。这一步运行完后生成的文件有两种格式，分别是interval和fasta, 默认为interval, 通过-outfmt 格式指定，interval 的格式输出内容为标记的序列的区间，而fasta 格式用小写字母标记序列；

准备输入文件：以人类hg38 的Y染色体为例：

wget http://ftp.ncbi.nih.gov/genomes/H_sapiens/CHR_Y/hs_ref_GRCh38.p2_chrY.fa.gz

gunzip hs_ref_GRCh38.p2_chrY.fa.gz

sed 's/>.*/>Y/' hs_ref_GRCh38.p2_chrY.fa  > hg38.chrY.fa

查看fasat 文件内容:

head hg38.chrY.fa

>Y

CTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTCTGAAAGTGGACCTATCAGCAGGATGTGGGTG

GGAGCAGATTAGAGAATAAAAGCAGACTGCCTGAGCCAGCAGTGGCAACCCAATGGGGTCCCTTTCCATA

CTGTGGAAGCTTCGTTCTTTCACTCTTTGCAATAAATCTTGCTATTGCTCACTCTTTGGGTCCACACTGC

CTTTATGAGCTGTGACACTCACCGCAAAGGTCTGCAGCTTCACTCCTGAGCCAGTGAGACCACAACCCCA

CCAGAAAGAAGAAACTCAGAACACATCTGAACATCAGAAGAAACAAACTCCGGACGCGCCACCTTTAAGA

ACTGTAACACTCACCGCGAGGTTCCGCGTCTTCATTCTTGAAGTCAGTGAGACCAAGAACCCACCAATTC

CAGACACACTAGGACCCTGAGACAACCCCTAGAAGAGCACCTGGTTGATAACCCAGTTCCCATCTGGGAT

TTAGGGGACCTGGACAGCCCGGAAAATGAGCTCCTCATCTCTAACCCAGTTCCCCTGTGGGGATTTAGGG

GACCAGGGACAGCCCGTTGCATGAGCCCCTGGACTCTAACCCAGTTCCCTTCTGGAATTTAGGGGCCCTG

运行第一步，得到count文件，输出格式采用obinary

windowmasker -mk_counts -in hg38.chrY.fa -infmt fasta -out chrY.count -sformat obinary

computing the genome length

pass 1

pass 2

optimizing the data structure

运行第二步，标记重复序列

1）生成interval 格式的输出

windowmasker -ustat chrY.count -in hg38.chrY.fa -out hg38.chrY.masked -outfmt interval

head hg38.chrY.masked

>Y

 -

 -

 -

 -

 -

 -

 -

 -

 -

2）生成fasta 格式的输出

windowmasker -ustat chrY.count -in hg38.chrY.fa -out hg38.chrY.fasta.masked -outfmt fasta

head hg38.chrY.fasta.masked

>Y

ctaaccctaaccctaaccctaaccctaaccctaaccctctGAAAGTGGACCTatcagcag

gatgtgggtgggAGCAGATTAGAGAATAAAAGCAGACTGCCTGAGCCAGCAGTGGCAACC

CAATGGGGTCCCTTTCCATACTGTGGAAGCTTCGTTCTTTCACTCTTtgcaataaatctt

gctattgctcactctttgggtccACACTGCCTTTATGAGCTGTGACACTCACcgcaaagg

tctgcagcttcactcctgagccAGTGAGACCACAACCCcaccagaaagaagaaactcaGA

ACACATCTGAACATCAGAAGAAACAAACTCCGGACGCGCCACCTttaagaactgtaacac

tcaccgcgaGGTTCCGCgtcttcattcttgaagtcagtgagaccaagaacccaccaaTTC

CAGACACACTAGGACCCTGAGACAACCCCTAGAAGAGCACCTGGTTGATAACCCAGTTCC

CATCTGGGATTTAGGGGACCTGGACAGCCCGGAAAATGAGCTCCTCATCTCTAACCCAGT

利用convert进行格式转换

windowmasker -convert -in chrY.count -out chrY.count.ascii -sformat ascii

reading counts...

converting counts...

converting parameters...

final processing...

windowmasker 标记基因组中的重复序列和低复杂度序列的更多相关文章

解读人：刘佳维，Spectral Clustering Improves Label-Free Quantiﬁcation of Low-Abundant Proteins（谱图聚类改善了低丰度蛋白的无标记定量）
发表时间:(2019年4月) IF:3.95 单位: 维也纳医科大学: 欧洲生物信息研究所(EMBL-EBI): 分子病理学研究所: 奥地利科学院分子生物技术研究所: Gregor Mendel分子植 ...
cocoapods安装以及使用,安装过程中ruby版本过低
cocoapods安装以及使用,安装过程中ruby版本过低字数473 阅读103 评论1 喜欢2 1.打开终端 2.移除现有 Ruby 默认源 $ gem sources --remove http ...
C语言实现二叉树中统计叶子结点的个数&度为1&度为2的结点个数
算法思想统计二叉树中叶子结点的个数和度为1.度为2的结点个数,因此可以参照二叉树三种遍历算法(先序.中序.后序)中的任何一种去完成,只需将访问操作具体变为判断是否为叶子结点和度为1.度为2的结点及统 ...
统计无向图中三角形的个数，复杂度m*sqrt(m).
统计无向图中三角形的个数,复杂度m*sqrt(m). #include<stdio.h> #include<vector> #include<set> #inclu ...
C# 中奇妙的函数–6. 五个序列聚合运算(Sum, Average, Min, Max,Aggregate)
今天,我们将着眼于五个用于序列的聚合运算.很多时候当我们在对序列进行操作时,我们想要做基于这些序列执行某种汇总然后,计算结果. Enumerable 静态类的LINQ扩展方法可以做到这一点 .就像之前 ...
如何将Matlab中“模糊控制设计器”的隶属度函数导出图片（figure）
如何将Matlab中"模糊控制设计器"的隶属度函数导出图片(figure)详情参考matlab官方帮助手册:plotmf()函数https://www.mathworks.com/ ...
jQ1.5中的事件系统（低版本的事件系统）
jQ的一个个版本事系统都在修正着bug和不断优化, 而且看了事件系统对事件的兼容更加熟悉, 更加了解jQ内部的事件机制. 因为jQ对事件系统引入了事件命名空间,事件的代理, 事件的手动触发,事件描述等 ...
UI设计中的高保真和低保真
低保真一般用Axure Rp产出,高保真分两种,带交互的或不带交互的.不带交互的高保真直接根据低保真用PS产出即可.带交互的,需要 PS产出后,再切图,再使用Axure RP与低保真结合产出高保真. ...
linux系统centOS7下搭建redis集群中ruby版本过低问题的解决方法
问题描述: 在Centos7中,通过yum安装ruby的版本是2.0.0,但是如果有些应用需要高版本的ruby环境,比如2.2,2.3,2.4... 那就有点麻烦了,譬如:我准备使用redis官方给的 ...

随机推荐

InnoDB Master Thread I/O Rate详解
一.innodb 在刷盘时要面对的问题: 1.对于innodb 的master thread 这个线程来说,它会在后台执行许多的任务,这些任务大多数都是与IO操作相关的, 比如“刷新脏页到磁盘”.“合 ...
DOA——ESPRIT算法
相位phei = 2*pi*f*d*sind(theta),因此理论上来讲测向的算法都可以用来测频. ESPRIT:Estimating signal parameters viarotational ...
Install Ambari 2.2.0 from Public Repositories（Hadoop）
Step1: Download the Ambari repository on the Ambari Server host For Redhat/CentOS/Oracle: cd /etc/ ...
Redis(二十)：Redis数据过期和淘汰策略详解(转)
原文地址:https://yq.aliyun.com/articles/257459# 背景 Redis作为一个高性能的内存NoSQL数据库,其容量受到最大内存限制的限制. 用户在使用Redis时,除 ...
【JUnit4.10源码分析】5.2 Rule
标注@Rule TestRule是一个工厂方法模式中的Creator角色--声明工厂方法. package org.junit.rules; import org.junit.runner.Descr ...
教你如何写thinkphp多表查询语句
1.table()函数 thinkphp中提供了一个table()函数,具体用法参考以下语句: $list=$Demo->table('think_blog blog,think_type ty ...
js正则匹配中文
alert(/[\u4e00-\u9fa5]{4}/.test("司徒正美"))//true alert(/[\u4e00-\u9fa5]{4}/.test("司正美&q ...
BAT-SVN自动更新代码目录
1.安装“TortoiseSVN-1.7.15.25753-x64-svn-1.7.18.msi”. 2.“运行”->“cmd”->输入“svn help”->出现用说明代表正常,提 ...
Linux 下 ps 命令
简述 Linux中的ps命令是Process Status的缩写.ps命令用来列出系统中当前运行的那些进程.ps命令列出的是当前那些进程的快照,就是执行ps命令的那个时刻的那些进程,动态的显示进程信息 ...
【WPF】ListBox使用UserContrl作为子控件，引入UserContrl界面
<ListBox x:Name="housePlansLB" Margin="0" ItemsSource="{Binding HousePla ...

windowmasker 标记基因组中的重复序列和低复杂度序列

windowmasker 标记基因组中的重复序列和低复杂度序列的更多相关文章

随机推荐

热门专题