PacBio长reads的大基因组组装
原文链接:Large Genome Assembly with PacBio Long Reads
可以以多种方式利用PacBio长reads来生成和改进大型基因组的de novo组装。
你可以用几种不同的方法:
- PacBio-only de novo 组装。long insert library; preprocessed; Overlap-Layout-Consensus algorithm
- 混合de novo组装。combination of PacBio and short read data; hybrid assembly
- 填充Gap。mate-pair based assembly;
- Scaffolding。join contigs
图:PacBio装配方法的说明
下面我们讨论什么软件是可用的,如何选择软件,以及额外的考虑。
1.软件选择
1.1 PacBio-only
- HGAP workflow:preassemble reads;assemble the preassembled reads using Celera® Assembler;polish using Quiver
- Falcon 一个实验性的二倍体组装工具,测试multi Gb genomes。
- Canu Celera Assembler的一个分支,专门用于高噪音单分子测序。
- Celera® Assembler 提供直接组装subreads的一种方式
- Sprai preassembly-based的组装工具,目标是generate longer contigs。
1.2 混合使用
- pacBioToCA Celera® Assembler的一个error correction模块,最初是用来align short reads to PacBio reads 和 generate consensus sequences。Celera® Assembler可以组装These error corrected reads。
- ECTools 一组工具,使用contigs代替short reads 来进行correction。
- SPAdes short read assembler,added PacBio hybrid assembly,最新version 3.0。
- Cerulean 从ABySS 的assembly graph开始,extends contigs by resolving bubbles in the graph,使用PacBio long reads。已成功在genomes <100 Mb的物种中运行。
- dbg2olc 使用Illumina contigs作为anchors 来建立overlap graph,使用PacBio reads,性能非常好。
1.3 Gap Filling
- PBJelly 2 使用PacBio reads来fill in gaps in scaffolds。genomes >1 Gb下已成功运行,
2.额外的考虑
2.1 覆盖度和软件选择
算法选择:how much PacBio sequencing can be obtained 和 what types of short read data are available。
一般:
- PacBio-only de novo:get at least 50X PacBio coverage
- HGAP:minimum recommended coverage下表现最好
- PBcR in Celera Assembler 8.2 beta uses MHAP:For larger genomes
... - PBcR and ECTools :20X PacBio coverage
- PBJelly 2:a high quality set of scaffolds exists
...
at least PacBio 5X coverage to fill gaps
图:PacBio 算法 推荐 from a PAG 2014
2.2 重复的内容
de novo assembly最大的挑战之一
解决方案:work with insert sizes that can span repeats and identify unique anchoring sequence on each side.
2.3 倍数性
大部分组装工具都是为单倍体设计的。
二倍体基因组染色体之间的结构变异较少
2.4 Short-Read数据的覆盖偏差
extreme GC composition
2.5 计算消耗
减少时间消耗:align short read contigs to PacBio reads
2.6 基因组草图的质量
Gap filling of mate pair-based scaffolded assemblies
2.7 大量的插入库
3.数据集和实例项目
4.附加链接
PacBio长reads的大基因组组装的更多相关文章
- 基因组组装工具之 SOAPdenovo 使用方法
SOAPdenovo是一个新颖的适用于组装短reads的方法,能组装出类似人类基因组大小的de novo草图. 该软件特地设计用来组装Illumina GA short reads,新的版本减少了在图 ...
- Pacbio三代基因组组装简介
参考: 视频PPT来自欧易生物讲座:如何开启一个动植物基因组三代de novo项目?
- 【基因组组装】HiC挂载软件以及如何用Juice_box手工纠错?
目录 1.常用HiC挂载软件 2. Juice_box手工纠错 1.常用HiC挂载软件 ALLHiC 张兴坦老师专为多倍体和高杂合度物种基因组挂载开发.如果是复杂基因组,肯定是首选.对于简单基因组,我 ...
- 【重构】 代码的坏味道总结 Bad Smell (一) (重复代码 | 过长函数 | 过大的类 | 过长参数列 | 发散式变化 | 霰弹式修改)
膜拜下 Martin Fowler 大神 , 开始学习 圣经 重构-改善既有代码设计 . 代码的坏味道就意味着需要重构, 对代码的坏味道了然于心是重构的比要前提; . 作者 : 万境绝尘 转载请注明出 ...
- 重构 之 总结代码的坏味道 Bad Smell (一) 重复代码 过长函数 过大的类 过长参数列 发散式变化 霰弹式修改
膜拜下 Martin Fowler 大神 , 开始学习 圣经 重构-改善既有代码设计 . 代码的坏味道就意味着需要重构, 对代码的坏味道了然于心是重构的比要前提; . 作者 : 万境绝尘 转载请注明出 ...
- 【基因组组装】HiC挂载Juicebox纠错补充
目录 1. 主要纠错类型 misjoins translocations inversions chromosome boundaries 2. 其他有用操作 撤销与反撤销 移到边角料 1. 主要纠错 ...
- redis安全删key脚本(模糊匹配,长list,大set等)
两种情况: 1.删除指定前缀开头的rediskey ,扫描和删除过程中对线上无感知 2.删除一个大的list,set,zset,hash,这种得分批次减少大小,一直缩到0再删 第一种情况:只要知道线上 ...
- minimap2 长reads比对工具
minimap2 github 官网 https://github.com/lh3/minimap2 安装 git clone https://github.com/lh3/minimap2 cd m ...
- quast-lg
1.官网简介 http://cab.spbu.ru/software/quast-lg/ QUAST- lg是QUAST的一个扩展,用于评估大型基因组装配(直至哺乳动物大小).QUAST- lg从5. ...
随机推荐
- jQueryEasyUI Messager基本使用
二.jQueryEasyUI Messager基本使用 1.$.messager.alert(title, msg, icon, fn)1>.基本用法 代码: 1 2 3 4 5 6 7 8 9 ...
- C# 中var as is 泛型集合
一.var var:万能变量类型,跟JS一样. 二.as:非强转类型. 强转类型:一般在变量前面加:(所需类型).如果转换失败,系统就会报错,如果用as,就不会报错,转换失败的话,就会返回null, ...
- C#json 解析
Json样例一: string jsonText= {Code)\/)\/"}}} JObject jo = JObject.Parse(jsonText); string strCode= ...
- 如何重置CentOS/RHEL 7中遗忘的根用户帐户密码
你有没有遇到过这种情况:想不起来Linux系统上的用户帐户密码?要是你忘了根用户密码,情况就更为糟糕.你无法执行任何面向整个系统的变更.要是你忘了用户密码,很容易使用根帐户来重置密码. 可要是你忘了根 ...
- 3DES 加解密
using System; using System.IO; using System.Security.Cryptography; using System.Text; namespace Comm ...
- C# 导出数据至 CSV
有时候将Excel的数据另存到csv文件会出现csv格式错误,以下示例实现将DataTable里面的数据直接保存到csv文件. System.Web.HttpRuntime.Cache["v ...
- Android 测试工具
有时候会发现给手机烧入的信息里少了某一些文件,比如一个图标,或者一个mp3文件之类的等等,为此做了一个小工具检查指定手机里面是否包含相应的文件. 通过程序执行手机的命令来操作手机,感觉还挺有意思的. ...
- iOS案例:读取指定目录下的文件列表
// // main.m // 读取指定目录下的文件列表 // // Created by Apple on 15/11/24. // Copyright © 2015年 Apple. All rig ...
- 用wordpress制作网站的总结
在没有自己的网站的时候很像拥有一个属于自己的网站,可以说是自己的一个愿望吧.但是当我真正的运行起来了之后觉得没有多么的兴奋,自己也折腾了几天wordpress,从买域名空间,到安装WP,遇到了一些问题 ...
- jQuery调用AJAX异步详解[转]
AJAX 全称 Asynchronous JavaScript and XML(异步的 JavaScript 和 XML).它并非一种新的技术,而是以下几种原有技术的结合体. 1) 使用CSS和X ...