Assembly and diploid architecture of an individual human genome via single-molecule technologies

文章链接:专业版“ PacBio 遇到 BioNano“ (三代测序那些事儿 第十二期)

前两天发表在Nature Mehtods一篇联合PacBio与BioNano数据组装人类基因组的文章在行业里引起了不小的震动(这其实也不是PacBio在动植物组装中的第一次表现了),大家惊讶的发现,原来大型动植物基因组的组装已经换了新玩法,平均读长数十kb的全基因组shotgun数据(PacBio)加上一张ScaffoldN50数Mb级别的酶切序列物理图谱(BioNano),轻松搞定那些让你梦寐以求的N50


之前的那些基于NGS的BAC to BAC、Mate Pair的玩法跟它比真的有点low


这期小编就通过对这篇文章的专业解读让大家快速了解下这一新型的基因组组装玩法。


原文题目:

Assembly and diploid architechure of an individual human genome viasingle-molecule technologies.


文献解读:


Ⅰ测序部分


1)PacBio部分


使用PacBIO RS系统对个体NA12787基因组(diploid)进行了测序,最终使用了1013个SMRT Cell得到了46X PacBio数据,小编想说的是,该研究由于使用的是早期的XL-C2(851 SMRT Cells)或者P5 C3 (162 SMRTCells)测序试剂,所以46X的数据量便耗费了惊人的1000多个SMRT Cell


我们目前使用的P6C4试剂在通量方面相较于该研究中提到的测序试剂提高了3-10倍,46X的个人基因组数据仅需150个左右的SMRTCell便可搞定,其实已经较好的解决了文章中“The High cost of long-read sequencing are the most obvious concerns”的烦恼。


2)BioNano部分:


使用核酸内切酶Nt.BspQ I对基因组DNA酶切,荧光标记dUTP修复切口,毛细电泳拉直酶切片段,之后便可在显微镜下根据荧光位置直接观察片段大小。


挑选180kb以上的酶切片段,最后利用大学生化上学到的“加减法”原理构建酶切物理图谱,最终得到Scaffold N50为4.6Mb的Genome map(物理图谱)。


这种方法无论是在操作的简洁程度还是最后的物理图谱质量均是Mate Pair、BAC end 无法比拟的。至于BioNano部分的价格据小编了解,不贵,具体价格需要大家自行去了解。


Denovo组装部分(总体流程见图1


1)Contig 组装:


研究者使用了PacBio的shotgun数据进行了Contig组装,首先数据的校正部分主要是使用了FALCON(http://github.com/PacificBiosciences/FALCON)中的模块进行了三代数据的自我校正。


之后分别使用Celera Assembler 与 FALCON组装了两个版本的Contig,前者组装出22,433条Contig,N50为906kb,后者组装出29,742条Contig,N50为2.1Mb。


之前使用NGS数据(insert & fosmid)利用Allpaths-LG组装得到的的NA12787基因组的ContigN50为19kb。


2)Scaffoldding


使用了一个FALCON的修改版本流程merge了Celera Assembler组装的Contig与BioNano技构建到的Genomemap,得到了第一个版本的377条Scaffold,N50为13.6Mb。


进一步整合FALCON组装的的另一个版本的Contig数据,最终得到202条Scaffold,N50为31.1Mb。


3)组装准确度评估:


分别将NGS版本的与PacBio版本(本研究)的NA12787基因组比对回人类参考基因组hg19,得到以下比对结果(PacBio VS NGS):


Scaffold accuracy:98.7% VS94.9%

Bases missing:7.6% VS 14.9%

New assembly sequence:58Mb VS 9Mb

Sequence identity:99.7% VS 99.8%


可见,PacBio版本的NA12787单碱基准确率与NGS版本相当,而在完整性方面更胜一筹。此外,该研究中NA12787组装版本中的~2G序列分出了单倍体型,haptype N50 为145kb,这是之前NGS版本的NA12787所没有的。


图1 Denovo& Variants Calling


结构变异分析部分


结构变异分析是文章中除了Denovo组装指标之外另外一个亮点,传统的NGS对于这点基本是束手无策的。


如图2所示,PacBio的超长读取数据可以直接覆盖一些比较复杂的结构变异区域,包括“倒置伴随插入”、倒置伴随缺失倒置伴随复制等复杂结构变异。研究中使用的检出流程主要为PacBio开发的PBHoney


2 利用PacBio 数据检出复杂结构变异

数百kb-MbBioNano的光学图谱数据可以直接检出存在于NA12787基因组上数百kb的大型结构变异,图3中展示了利用BioNano数据发现的一段206.6kb的插入突变与一段577.3kb的一段导致突变。


3 利用BioNano数据解读大型结构变异

这么看来,PacBio 与 BioNano 这两位10后小年轻联手的事儿很靠谱,你觉得呢?

 

PacBio & BioNano (Assembly and diploid architecture of an individual human genome via single-molecule technologies)的更多相关文章

  1. 10X Genomics vs. PacBio

    10X Genomics已经广泛应用于单细胞测序.组装领域,现在也是火的不行. 10X Genomics原理 通过将来自相同DNA片段(10-100kb)的reads加上相同的barcode,然后在i ...

  2. 三代PacBio reads纠错 - 专题

    三代纠错的重要性不言而喻,三代的核心优势就是长,唯一的缺点就是错误率高,但好就好在错误是随机分布的,可以通过算法解决,这也就是为什么现在有这么多针对三代开发的纠错工具. 纠错和组装是分不开的,纠错就是 ...

  3. PacBio下机数据解读

    今天被人问起如何看懂三代的下机数据,虽然解决了别人的问题,但感觉自己还是没有搞透. 基本的目录结构: |-- HG002new_O1l_BP_P6_021315b_MB_100pM | |-- D01 ...

  4. PacBio长reads的大基因组组装

    原文链接:Large Genome Assembly with PacBio Long Reads 可以以多种方式利用PacBio长reads来生成和改进大型基因组的de novo组装. 你可以用几种 ...

  5. ARM architecture

    http://en.wikipedia.org/wiki/ARM_architecture ARM architecture     ARM architectures The ARM logo De ...

  6. Hadoop官方文档翻译——HDFS Architecture 2.7.3

    HDFS Architecture HDFS Architecture(HDFS 架构) Introduction(简介) Assumptions and Goals(假设和目标) Hardware ...

  7. PacBio全基因组测序和组装

    PacBio公司的业务范围也就5个(官网): Whole Genome Sequencing Targeted Sequencing Complex Populations RNA Sequencin ...

  8. 【转载】Hadoop官方文档翻译——HDFS Architecture 2.7.3

    HDFS Architecture HDFS Architecture(HDFS 架构) Introduction(简介) Assumptions and Goals(假设和目标) Hardware ...

  9. Pacbio 纯三代组装复活草基因组

    对于植物等真核生物基因组来说,重复序列, 多倍体,高杂合度等特征在利用二代数据进行组装的时候都会有很大的问题: 利用二代数据组装出来的基因组,大多达不到完成图的水准,通常只是覆盖到编码蛋白的基因区域, ...

随机推荐

  1. [转]人人网首页拖拽上传详解(HTML5 Drag&Drop、FileReader API、formdata)

    人人网首页拖拽上传详解(HTML5 Drag&Drop.FileReader API.formdata) 2011年12月11日 | 彬Go 上一篇:给力的 Google HTML5 训练营( ...

  2. 【Regular Expression】常用的正则表达式

    一套完善的应用程序,需要能验证用户输入的信息,从而提醒/引导用户正确地输入信息. 而验证方面,以验证所在的地方分类,可分为: 客户端验证.如果是WEB,一般由Javascript完成,主要用户引导用户 ...

  3. 4-JS对象

    js中哪些是对象 除了字符串.数字.false.true.null和undefined之外,JavaScript中的值都是对象 原型(prototype) 每一个JavaScript对象(null除外 ...

  4. 关于mysql varchar 类型的最大长度限制

    Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535. This ...

  5. JAVA WEB SpringMVC+Spring+hibernate 框架搭建【转】

    http://my.oschina.net/Thinkeryjgfn/blog/158951

  6. jquery相对选择器,又叫context选择器,上下文选择器;find()与children()区别

    jquery相对选择器有两个参数,jQuery函数的第二个参数可以指定DOM元素的搜索范围(即以第二个参数指定的内容为容器查找指定元素). 第二个参数的不同的类型,对应的用法如下表所示. 类型 用法 ...

  7. Linux链接库四(多个库文件链接顺序问题)

    最近在Linux下编程发现一个诡异的现象,就是在链接一个静态库的时候总是报错,类似下面这样的错误: (.text+0x13): undefined reference to `func' 关于unde ...

  8. python_way day12 RabbitMQ ,pymysql

    python_way day12 1.RabbitMQ 2.pymysql RabbitMQ 1.基本用法 """ producer """ ...

  9. 让WinForm窗体的大小固定,不能调整大小

    窗体FormBorderStyle属性设置为:FixedSingle,再把最大化禁用就可以了

  10. hdu 5150 Sum Sum Sum 水

    Sum Sum Sum Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others) Prob ...