NextPolish由未来组开发对基因组序列进行polish的工具,对三代以及二代均可进行polish。

gituhp地址:https://github.com/Nextomics/NextPolish

基因组进行de novo组装后,得到contig,必须使用三代(尤其是没有consensus,比如minimap2+miniasm),二代进行纠错。NextPolish是一个非常不错的选择,同时支持三代,二代,hifi进行纠错。

1 安装

本次安装的最新版本为v1.3.1, 下载后

tar -vxzf NextPolish.tgz && cd NextPolish && make

2 配置文件

[General]
job_type = local ## local, sge, pbs... (default: sge)
job_prefix = nextPolish # 输入名
task = best # 有【all, default, best,1,2,5,12,1212..】1,2 针对二代reads,5 针对长reads,默认为best即可
rewrite = no # 以后文件是否覆盖结构;默认 no
rerun = 3 # 未完成jobs进行再次运行;默认 3
parallel_jobs = 2 # 并行的任务;默认6
multithread_jobs = 3 # 每一个任务线程; 默认 5
genome = ./raw.genome.fasta # 基因组文件
genome_size = auto # 自动即可
workdir = ./01_rundir # 输入文件
polish_options = -p {multithread_jobs} # 进行polish的进行数量 [sgs_option] ## 短reads参数设置
sgs_fofn = ./sgs.fofn # 含有二代reads路径的文本,每行一个文件
sgs_options = -max_depth 100 -bwa # 默认用bwa进行比对,还可以选择minimap2 [lgs_option] # 长reads 参数设置(如果仅用二代,这个可以删除)
lgs_fofn = ./lgs.fofn # 含有长reads的文本文件
lgs_options = -min_read_len 5k -max_depth 100
lgs_minimap2_options = -x map-ont ## pacbio为map-pb, ont为map-ont

3 运行示例文件

nextPolish test_data/run.cfg

结果为/NextPolish/test_data/01_rundir/genome.nextpolish.fasta

序列小写字母表示低质量碱基,一般由于杂合导致

欢迎扫码交流

参考

NextPolish对基因组进行polish的更多相关文章

  1. PacBio长reads的大基因组组装

    原文链接:Large Genome Assembly with PacBio Long Reads 可以以多种方式利用PacBio长reads来生成和改进大型基因组的de novo组装. 你可以用几种 ...

  2. NextDenovo 组装基因组

    NextDenovo 是有武汉未来组团队开发出来用于组装ONT,Pacbio, HIFI (默认参数可对60-100X数据更有效),可通过correct--assemble对其进行组装.组装后,每个碱 ...

  3. [LeetCode] Evaluate Reverse Polish Notation 计算逆波兰表达式

    Evaluate the value of an arithmetic expression in Reverse Polish Notation. Valid operators are +, -, ...

  4. History lives on in this distinguished Polish city II 2017/1/5

    原文 Some fresh air After your time underground,you can return to ground level or maybe even a little ...

  5. History lives on in this distinguished Polish city 2017/1/4

    原文 History lives on in this distinguished Polish city Though it may be ancient. KraKow, Poland, is a ...

  6. 【GWAS文献解读】疟原虫青蒿素抗药性的全基因组关联分析

    英文名:Genetic architecture of artemisinin-resistant Plasmodium falciparum 中文名:疟原虫青蒿素抗药性的全基因组关联分析 期刊:Na ...

  7. 【leetcode】Evaluate Reverse Polish Notation

    Evaluate Reverse Polish Notation 题目描述: Evaluate the value of an arithmetic expression in Reverse Pol ...

  8. cfDNA(circulating cell free DNA)全基因组测序

    参考资料: [cfDNA专题]cell-free DNA在非肿瘤疾病中的临床价值(好) ctDNA, cfDNA和CTCs有什么区别吗? cfDNA你懂多少? 新发现 | 基因是否表达,做个cfDNA ...

  9. 全基因组关联分析(Genome-Wide Association Study,GWAS)流程

    全基因组关联分析流程: 一.准备plink文件 1.准备PED文件 PED文件有六列,六列内容如下: Family ID Individual ID Paternal ID Maternal ID S ...

随机推荐

  1. 【UE4】类的继承层级关系

  2. JVM:内存模型

    JVM:内存模型 说明:这是看了 bilibili 上 黑马程序员 的课程 JVM完整教程 后做的笔记 1. java 内存模型 很多人将[java 内存结构]与[java 内存模型]傻傻分不清,[j ...

  3. SpringMvc 中 FrameworkServlet 覆盖 service 的有点。

    @Override protected void service(HttpServletRequest request, HttpServletResponse response) throws Se ...

  4. HttpClient使用GET方式通过代理服务器读取页面的例子

    import java.io.BufferedReader;import java.io.InputStreamReader;import org.apache.http.HttpEntity;imp ...

  5. Flutter的环境配置以及一些常见问题

    flutter & AndroidStudio flutter的下载与配置 flutter是Google推出的基于Dart语言开发的跨平台开源UI框架,能够支持安卓与iOS. flutter框 ...

  6. 攻防世界 杂项 2.embarrass

    解1: linux环境下直接strings misc_02.pcapng | grep flag可得flag. 解2: 使用wireshark搜索flag. 解3: winhex搜索flag.

  7. 力扣 - 剑指 Offer 57 - II. 和为s的连续正数序列

    题目 剑指 Offer 57 - II. 和为s的连续正数序列 思路1(双指针/滑动窗口) 所谓滑动窗口,就是需要我们从一个序列中找到某些连续的子序列,我们可以使用两个for循环来遍历查找,但是未免效 ...

  8. Android上安装第三方库

    在Android sdk中安装预安装第三方的(动态,静态)库,到系统中,方便模块无差别的使用. Android.mk include $(CLEAR_VARS) LOCAL_MODULE_TAGS : ...

  9. hdu 3887 Counting Offspring(DFS序【非递归】+树状数组)

    题意: N个点形成一棵树.给出根结点P还有树结构的信息. 输出每个点的F[i].F[i]:以i为根的所有子结点中编号比i小的数的个数. 0<n<=10^5 思路: 方法一:直接DFS,进入 ...

  10. Typora简介

    Typora是什么 Typora是一款支持实时预览的Markdown文本编辑器,拥有macOS.Windows.Linux三个平台的版本,并且完全免费. 下载地址:https://www.typora ...