wgsim说明
介绍
============ Wgsim是从参照基因组中模拟序列的小工具。
它能够模拟二倍体基因组与SNP和插入/缺失(INDEL)
多态性,并能够模拟均匀替代测序错误的reads。
它不产生INDEL测序错误,但是这可能是部分地
通过模拟INDEL多态性补偿。 Wgsim输出是模拟多态性,并写入真正的reads坐标
以及在reads名称的多态性和测序错误的数量。
我们可以wgsim_eval.pl自带的包评估映射的准确性或SNP caller。 编译
=========== GCC -g -O2 -Wall -o wgsim wgsim.c -lz -lm 评估
========== 仿真与评估
------------------------- 仿真命令行: wgsim -Nxxx -1yyy -d0 -S11 -e0 -rzzz hs37m.fa YYY-zzz.fq的/ dev / null的 其中yyy是read长,zzz为错误率和$ XXX * $ YYY =10000000。
默认情况下,多态性的15%以上是插入缺失和它们的长度是从绘制
几何分布密度0.7 * 0.3 ^ {L-1}。 评估命令行: wgsim_eval.pl独特aln.sam | wgsim_eval.pl alneval -g 20 在'-g'选项可以和映射器来改变。 系统
------
GCC: 4.1.2
CPU: AMD Opteron 8350 @ 2.0GHz
Mem: 128GB 实际操作:
使用过的命令:
../seqtk_concat out_1.fq out_2.fq | head -n 8
../seqtk_concat out_1.fq out_2.fq > ../wgsim.fq #双端序列合并
seqtk_names wgsim.fq | cut -f1,2 -d'_'| cut -f3 -d'|' | perl -ane 's/chr\S+/9606/; print' | perl -ne 'print qq{$.\t$_}' | tabtk_bins - 1 >tabtk_stats
seqtk_names wgsim.fq | cut -f1,2 -d'_'| cut -f3 -d'|' | perl -ane 's/chr\S+/9606/; print' | perl -ne 'print qq{$.\t$_}' | tabtk_bins - 1 >tabtk_stats.tsv
cut -f1,2 tabtk_stats.tsv | tabtk_decorate /biostack/database/taxonomy/node-name.tsv 0 - > tab.xls
/*
perl -ane 's/chr\S+/9606/; print' 将每一行中包含chr并且其后非空格部分(比如chrab和chrbc)替换为9606
perl -ne 'print qq{$.\t$_}' 打印每一行的行号和内容;
*/
cut说明:
cut 不就是『切』吗?没错啦!这个指令可以将一段讯息的某一段给他『切』出来~ 处理的讯息是以
『行』为单位喔!
常用的参数:
wgsim说明的更多相关文章
随机推荐
- onethinkp导入excel
/** * Excel导入函数 * @author crx349 */ if (!empty($_FILES)) { $config = array( 'maxSize' => 3145728, ...
- html图片预览
<!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <title&g ...
- linux 内核邮件列表
第一节 - 一般性问题 1. 为什么有些时候使用“GNU/Linux"而另一些时候使用“Linux”? 答:在这个FAQ中,我们尝试使用“linux”或者“linux kernel”来表示内 ...
- hdu, KMP algorithm, linear string search algorithm, a nice reference provided 分类: hdoj 2015-07-18 13:40 144人阅读 评论(0) 收藏
reference: Rabin-Karp and Knuth-Morris-Pratt Algorithms By TheLlama– TopCoder Member https://www.top ...
- curl获取远程图片存到本地
$url = 'http://sssss/sss/xu0fLo9waqKSTDO7j0kSO41O5Luq3LB6ozUvY4O7OsXUWNicB49fBs8nGYzoqcwGDARQZHpVuic ...
- JavaScript数据类型
当说到JavaScript的数据类型时,好多做了很多年web的朋友甚至还不太清楚.这应该算是最基础的js知识了.我觉得有必要在这记录一下,方便自己和大家查看. 最基本的,js有五种数据类型:undef ...
- elasticsearch rpm 安装
参考:http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/setup-repositories.html Dow ...
- 近期编程问题——epoll failed:bad file descriptor
出现问题:epoll_wait:Bad file descriptor 原因:IO时间的socket描述符在epoll_ctl处理前就关闭了. 解决方法:不要在epoll_ctl之前关闭socket描 ...
- SQL Server 2005中的CTE递归查询得到一棵树
感觉这个CTE递归查询蛮好用的,先举个例子: use City; go create table Tree ( ID int identity(1,1) primary key not null, N ...
- Spring @Scheduled应用解析
最近,遇到的一个需求,需要执行定时任务,每个一定时间需要执行某个方法 因为项目是SpringMVC的项目,所以使用的是Spring @Scheduled(由于quartz应用起来太麻烦,所以没有采用) ...