NextPolish对基因组进行polish

NextPolish由未来组开发对基因组序列进行polish的工具，对三代以及二代均可进行polish。

gituhp地址：https://github.com/Nextomics/NextPolish

基因组进行de novo组装后，得到contig，必须使用三代（尤其是没有consensus，比如minimap2+miniasm），二代进行纠错。NextPolish是一个非常不错的选择，同时支持三代，二代，hifi进行纠错。

1 安装

本次安装的最新版本为v1.3.1, 下载后

tar -vxzf NextPolish.tgz && cd NextPolish && make

2 配置文件

[General]

job_type = local  ## local, sge, pbs... (default: sge)

job_prefix = nextPolish # 输入名

task = best # 有【all, default, best,1,2,5,12,1212..】1,2 针对二代reads，5 针对长reads，默认为best即可

rewrite = no # 以后文件是否覆盖结构；默认 no

rerun = 3 # 未完成jobs进行再次运行；默认 3

parallel_jobs = 2 # 并行的任务；默认6

multithread_jobs = 3 # 每一个任务线程； 默认 5

genome = ./raw.genome.fasta # 基因组文件

genome_size = auto # 自动即可

workdir = ./01_rundir # 输入文件

polish_options = -p {multithread_jobs} # 进行polish的进行数量

[sgs_option] ## 短reads参数设置

sgs_fofn = ./sgs.fofn #  含有二代reads路径的文本，每行一个文件

sgs_options = -max_depth 100 -bwa # 默认用bwa进行比对，还可以选择minimap2

[lgs_option] # 长reads 参数设置（如果仅用二代，这个可以删除）

lgs_fofn = ./lgs.fofn # 含有长reads的文本文件

lgs_options = -min_read_len 5k -max_depth 100

lgs_minimap2_options = -x map-ont ## pacbio为map-pb, ont为map-ont

3 运行示例文件

nextPolish test_data/run.cfg

结果为/NextPolish/test_data/01_rundir/genome.nextpolish.fasta

序列小写字母表示低质量碱基，一般由于杂合导致

欢迎扫码交流

参考

https://github.com/Nextomics/NextPolish

NextPolish对基因组进行polish的更多相关文章

PacBio长reads的大基因组组装
原文链接:Large Genome Assembly with PacBio Long Reads 可以以多种方式利用PacBio长reads来生成和改进大型基因组的de novo组装. 你可以用几种 ...
NextDenovo 组装基因组
NextDenovo 是有武汉未来组团队开发出来用于组装ONT,Pacbio, HIFI (默认参数可对60-100X数据更有效),可通过correct--assemble对其进行组装.组装后,每个碱 ...
[LeetCode] Evaluate Reverse Polish Notation 计算逆波兰表达式
Evaluate the value of an arithmetic expression in Reverse Polish Notation. Valid operators are +, -, ...
History lives on in this distinguished Polish city II 2017/1/5
原文 Some fresh air After your time underground,you can return to ground level or maybe even a little ...
History lives on in this distinguished Polish city 2017/1/4
原文 History lives on in this distinguished Polish city Though it may be ancient. KraKow, Poland, is a ...
【GWAS文献解读】疟原虫青蒿素抗药性的全基因组关联分析
英文名:Genetic architecture of artemisinin-resistant Plasmodium falciparum 中文名:疟原虫青蒿素抗药性的全基因组关联分析期刊:Na ...
【leetcode】Evaluate Reverse Polish Notation
Evaluate Reverse Polish Notation 题目描述: Evaluate the value of an arithmetic expression in Reverse Pol ...
cfDNA（circulating cell free DNA）全基因组测序
参考资料: [cfDNA专题]cell-free DNA在非肿瘤疾病中的临床价值(好) ctDNA, cfDNA和CTCs有什么区别吗? cfDNA你懂多少? 新发现 | 基因是否表达,做个cfDNA ...
全基因组关联分析（Genome-Wide Association Study，GWAS）流程
全基因组关联分析流程: 一.准备plink文件 1.准备PED文件 PED文件有六列,六列内容如下: Family ID Individual ID Paternal ID Maternal ID S ...

随机推荐

Wireshark 过滤器的使用
符号例子 = = tcp.port = = 80 过滤出来TCP包含80端口的数据包 != ip.src != 127.0.0.1 ip的原地址不是127.0.0.1过滤出来 > lp.len ...
JuiceFS 如何帮助趣头条超大规模 HDFS 降负载
作者简介王振华,趣头条大数据总监,趣头条大数据负责人. 王海胜,趣头条大数据工程师,10 年互联网工作经验,曾在 eBay.唯品会等公司从事大数据开发相关工作,有丰富的大数据落地经验. 高昌健,Ju ...
【二食堂】Beta - Scrum Meeting 5
Scrum Meeting 5 例会时间:5.18 18:30~18:50 进度情况组员当前进度今日任务李健 1. 划词功能已经实现,继续开发,完善文本区域交互,调用API issue 1. ...
JavaAgent型内存马基础
Java Instrumentation java Instrumentation指的是可以用独立于应用程序之外的代理(agent)程序来监测和协助运行在JVM上的应用程序.这种监测和协助包括但不 ...
热身训练3 Palindrome
Palindrome 简要题意: 我们有一个字符串S,字符串的长度不超过500000. 求满足S[i]=S[2n−i]=S[2n+i−2](1≤i≤n)(n≥2)的子串个数. 分析: 我们能通过简 ...
Java：检查异常与未检查异常
一.异常的介绍 Throwable 是 Java 中所有错误和异常的超类.Java 虚拟机仅抛出属于此类(或其子类之一)的实例对象,或者是 throw 语句也可以抛出该对象.同样,catch 子句中的 ...
经典200例-002 为项目添加DLL文件引用
项目右击,添加引用,(或菜单栏选择"项目","添加引用"),COM选项卡复制去Google翻译翻译结果
SpringCloud 2020.0.4 系列之 JWT用户鉴权
1. 概述老话说的好:善待他人就是善待自己,虽然可能有所付出,但也能得到应有的收获. 言归正传,之前我们聊了 Gateway 组件,今天来聊一下如何使用 JWT 技术给用户授权,以及如果在 Gate ...
学信网改绑手机号码，但是忘记了老号码怎么办？利用node.js + puppeteer 跑脚本实现改绑手机号
最近登录学信网发现自己学信网上绑定的手机号码不是目前自己使用的手机号码,于是想改绑手机号,但是发现不记得之前的手机号码了: 于是百度各种方法都无济于事:也不想重新注册账号,最后看见一篇文章通过Pyth ...
由于xftp打开target目录，导致maven编译的时候target目录无法访问，打包失败
由于xftp打开target目录,导致maven编译的时候target目录无法访问,打包失败: 在xftp里关闭target目录就可以了...无时不在的坑