解析Illumina+PacBio组装策略
基于Illumina和PacBio平台的“二加三”组装策略,巧妙的融合了PacBio平台超长读长、无PCR扩增和Illumina平台成本低等优势,成为目前基因组研究最经济有效的方式。那么问题来了,这个“二加三”策略究竟是如何利用两种平台测序数据的?是以二代数据为主还是以三代数据为主?今天,小编将为您揭晓答案。
方案一:以三代数据为主,通过三代数据进行组装,使用二代数据对三代数据进行纠错。
这是目前大部分已发表的文章使用的组装策略。由于PacBio第三代测序成本稍高但测序数据可轻松跨越复杂基因组区域,而Illumina平台数据稳定可靠,重复性强,数据质量高,成本低,通过此方案结合使用两种平台测序数据,不仅保证了组装结果的准确性,还充分利用了PacBio超长读长的优势,这将十分有利于动植物基因组高GC含量序列及重复序列单元的拼接组装。
案例解析一:大猩猩苏茜基因组组装
第一次大猩猩基因组组装以一只名为Kamilah的雌性西部低地大猩猩,采用短读长和Sanger测序数据组装,发表于2012年的《Nature》杂志。2016年4月发表的苏茜基因组组装文章,采用以PacBio测序为主的“二加三”组装策略,极大的提升了组装效果,让大猩猩又火了一把。
两个版本大猩猩基因组比较
|
文章发表时间 |
组装策略 |
Contig N50 |
Scaffold N50 |
|
2012 |
Illumina+Sanger |
11.8Kb |
914Kb |
|
2016 |
PacBio+Illumina |
9.6Mb |
23.1Mb |
组装流程
Step 1: PacBio RS II 平台,P6-C4试剂,20Kb文库,74.8x测序深度,组装后的基因组大小为3.1Gb,其中contig N50:9.6Mb,scaffold N50:23.1Mb,大多较短的contigs(<100 Kb)包含着丝粒或端粒卫星序列或折叠的片段重复。其组装连续性相对于最初的大猩猩组装提升819倍,相对于最近的组装结果提升180倍,并且填补了94%的gap;
Step2: Illumina HiSeq平台,对苏茜和另外6只大猩猩进行全基因组测序,通过对比进行错误矫正,并进行错误评估,从而减少误差,保证组装的准确率。
案例解析二:复活草基因组组装
复活草极其耐旱,它具有通过脱水变成完全干燥、同时保持在有水时再复活的能力。核型为2n = 2x = 18,基因组大小约245Mb。获得高度耐旱物种的基因组草图可有效推动作物改良,为植物比较基因组学研究团队提供有价值的资源。
组装流程
Step 1: PacBio RS II 平台,P6-C4试剂盒,15-20Kb文库,32个SMRT cells,72×测序深度,组装获得650 Contigs,Contig N50达到2.4Mb;
Step 2:Illumina HiSeq平台,570bp、1kb、3kb文库,200X测序深度,评估PacBio组装的错误率以及基因组的杂合度;
Step 3:BioNano Irys系统,构建基因组图谱,对Contigs进行anchoring和scaffolding,最终组装完成244Mb,即获得>99.6%的基因组序列信息,Contig N50达到2.4Mb,Scaffold N50达到7.1Mb。
PacBio跨越复活草复杂区域
方案二:以二代数据为主,使用二代数据组装得到Contig,然后使用三代数据进行Scaffolding 和Gapfilling。
由于该方案仍是以短读长来进行基因组组装,所以在组装重复序列单元和复杂区域时,仍然难以实现完美组装。但是该方案使用的三代数据较少,成本会有显著降低。所以该方案适合基因组序列比较简单、科研预算较少的研究者。
案例解析:苹果基因组组装
苹果富含丰富的营养和风味,是世界四大水果之冠,高质量的苹果基因组序列对于分子育种非常关键。作者采用以Illumina测序为主的“二加三”组装策略de novo测序和拼接,组装完成苹果参考基因组序列,并通过基因注释分析发现,该品种基因组中的串联重复序列达382 Mb,覆盖了苹果基因组的60%,所以如果单独使用Illumina数据进行组装,即使是高深度也无法获得满意的组装效果。
组装流程
Step 1:Illumina HiSeq平台,76 Gb(~102×)全基因组测序数据,组装全长为1.05 Gb,Contig N50 :534 bp,组装效果受到杂合度和重复序列的影响,组装效果较差;
Step 2:PacBio RS,21.7 Gb(~29×),632.4 Mb数据,结合Illumina数据组装后,Contig N50 : 111,619 bp,覆盖率达预估苹果基因组(701 Mb)的90%。由于PacBio平台的使用,其Contig N50相比于之前发表的 16.1 kb提升了约6.9倍。
小结
无论是从组装效果还是发表文章情况来看,以三代为主的“二加三”组装策略具有明显优势。所以在科研经费充足的情况下,小编建议优先选择方案一进行基因组组装,如果您的经费再允许,请加上BioNano测序数据,组装效果和准确度可得到显著提升。
贝瑞和康作为三代测序技术的领导者,同时拥有PacBio Sequel和BioNano平台,并且Sequel v1.2.1试剂已经取得理想的数据产出,敬请关注后续相关报道。如需咨询请联系当地销售,或致电010-84409702/电子邮件sequence@berrygenomics.com。
参考文献
1.Gordon D, Huddleston J, Chaisson MJ, et al. Long-read sequence assembly of the gorilla genome. Science, 2016.
2.VanBuren R, Bryant D, Michael TP, Mockler TC. Single-molecule sequencing of the desiccation-tolerant grass Oropetium thomaeum. Nature. 2015.
3.Xuewei Li, et al. Improved hybrid de novo genome assembly of domesticated apple (Malus x domestica. GigaScience 2016.
解析Illumina+PacBio组装策略的更多相关文章
- 一个解析json串并组装echarts的option的函数解析
缘起: 在组装echart页面的时候,遇到这样一个问题,它是一个需要在循环内层的时候,同时循环外层,在内层循环中就要将外层获取的值存入,导致了一种纠缠状态,费了老劲儿,终于得到如下解决.记录之,绿色为 ...
- 解析spring循环依赖策略
循环依赖 所谓循环依赖就是多个Bean之间依赖关系形成一个闭环,例如A->B->C->...->A 这种情况,当然,最简单的循环依赖就是2个Bean之间互相依赖:A->B ...
- guava-retrying 源码解析(时间限制策略)
一.时间限制策略相关接口和类 什么是时间限制策略呢?是指在一个时间限制内,包装任何一种重试(尝试)规则,如果超过该限制,那么这个尝试规则可能会被中断,并抛出UncheckedTimeoutExcept ...
- 解析 Nginx 负载均衡策略
转载:https://www.cnblogs.com/wpjamer/articles/6443332.html 1 前言 随着网站负载的不断增加,负载均衡(load balance)已不是陌生话题. ...
- 基因组Denovo组装原理、软件、策略及实施
目录 1. 组装算法 1)基于OLC算法 2)基于DBG算法 3)OLC vs DBG 2. 组装软件 3. 组装策略 4. 组装项目实施 1)测序前的准备 2) 测序样品准备 3)测序策略的选择 4 ...
- PBcR - 纠错及组装算法
单分子测序reads(PB)的混合纠错和denovo组装 我们广泛使用的PBcR的原始文章就是这一篇 原文链接:Hybrid error correction and de novo assembly ...
- 使用XWAF框架(5)——XML解析器:CXDP
XWAF推出了自己的组合式XML文档解析器,英文名叫:“CXDP”,是“Combined XML Document Parser”的缩写.核心代码属XWAF原创,注释.日志和帮助文档采用全中文描述,特 ...
- Spring框架之beans源码完全解析
导读:Spring可以说是Java企业开发里最重要的技术.而Spring两大核心IOC(Inversion of Control控制反转)和AOP(Aspect Oriented Programmin ...
- 【转】NG:垂枝桦基因组图谱构建(2+3组装)及重测序分析
转自希望组公众号.学习二代+三代组装策略的流程 垂枝桦(Betula pendula)是一种速生乔木,能在短短一年时间内开花,木质坚实,可做细工.家具等,经济价值极高.近日,芬兰研究人员对垂枝桦自交系 ...
随机推荐
- Oracle的大表,小表与全表扫描
大小表区分按照数据量的大小区分: 通常对于小表,Oracle建议通过全表扫描进行数据访问,对于大表则应该通过索引以加快数据查询,当然如果查询要求返回表中大部分或者全部数据,那么全表扫描可能仍然是最好的 ...
- Android插件化(三):OpenAtlas的插件重建以及使用时安装
Android插件化(三):OpenAtlas的插件重建以及使用时安装 转 https://www.300168.com/yidong/show-2778.html 核心提示:在上一篇博客 An ...
- TreeSet和TreeMap不能存放重复元素?能不能存放null?其实不是这样的——灵活的二叉树
TreeSet和TreeMap不能存放重复元素?能不能存放null?其实不是这样的——灵活的二叉树 本文链接:https://blog.csdn.net/u010698072/article/de ...
- Ionic4.x Theming(主题) 增加内置主题 颜色 修改内置组件默认样式 修改底部 Tabs 背景颜色以及按钮颜色
1.Ionic4.x Theming(主题) Ionic4.x 修改主题颜色的话需要在 src/theme/variables.scss 文件中修改. https://ionicframework.c ...
- Function mysql_db_query() is deprecated 错误解决
方法一:@ 在任何错误语句之前加上@符号,即可屏蔽! 方法二:error_reporting 在PHP文件第一行加上:error_reporting(0); 即可屏蔽! 方法三:display_err ...
- webpack——Modules && Hot Module Replacement
blog:JavaScript Module Systems Showdown: CommonJS vs AMD vs ES2015 官网链接: Modules 官网链接:Hot Module Rep ...
- Apache配置参数的优化
查看apache开启那些模块: apachectl -t -D DUMP_MODULES 1)KeepAlive On/Off KeepAlive指的是保持连接活跃,换一句话说,如果将KeepAliv ...
- 基于Visual Studio Code搭建Vue开发环境
安装node.js最新版 这里安装的是8.11.4版 image.png 更新npm至最新版 安装node.js后, npm默认版本为: 6.1.0 image.png 使用npm insta ...
- .Net Core 请求上下文IHttpContextAccessor
namespace Microsoft.AspNetCore.Http { public interface IHttpContextAccessor { HttpContext HttpContex ...
- YIIMP矿池搭建
本文将以Verge(x17)和Raven(x16rv2)为例子来说明多算法矿池YIIMP的搭建过程. 1 环境准备 1.1 准备Ubuntu 准备虚拟机或物理机,操作系统为Ubuntu 18.04,之 ...
(2016-12-08 13:21:58)