PacBio & BioNano (Assembly and diploid architecture of an individual human genome via single-molecule technologies)

Assembly and diploid architecture of an individual human genome via single-molecule technologies

文章链接：专业版“ PacBio 遇到 BioNano“ （三代测序那些事儿第十二期）

前两天发表在Nature Mehtods一篇联合PacBio与BioNano数据组装人类基因组的文章在行业里引起了不小的震动（这其实也不是PacBio在动植物组装中的第一次表现了），大家惊讶的发现，原来大型动植物基因组的组装已经换了新玩法，平均读长数十kb的全基因组shotgun数据（PacBio）加上一张ScaffoldN50数Mb级别的酶切序列物理图谱（BioNano），轻松搞定那些让你梦寐以求的N50。

之前的那些基于NGS的BAC to BAC、Mate Pair的玩法跟它比真的有点low。

这期小编就通过对这篇文章的专业解读让大家快速了解下这一新型的基因组组装玩法。

原文题目：

Assembly and diploid architechure of an individual human genome viasingle-molecule technologies.

文献解读：

Ⅰ测序部分

1）PacBio部分：

使用PacBIO RS系统对个体NA12787基因组（diploid）进行了测序，最终使用了1013个SMRT Cell得到了46X PacBio数据，小编想说的是，该研究由于使用的是早期的XL-C2（851 SMRT Cells）或者P5 C3 （162 SMRTCells）测序试剂，所以46X的数据量便耗费了惊人的1000多个SMRT Cell。

我们目前使用的P6C4试剂在通量方面相较于该研究中提到的测序试剂提高了3-10倍，46X的个人基因组数据仅需150个左右的SMRTCell便可搞定，其实已经较好的解决了文章中“The High cost of long-read sequencing are the most obvious concerns”的烦恼。

2）BioNano部分：

使用核酸内切酶Nt.BspQ I对基因组DNA酶切，荧光标记dUTP修复切口，毛细电泳拉直酶切片段，之后便可在显微镜下根据荧光位置直接观察片段大小。

挑选180kb以上的酶切片段，最后利用大学生化上学到的“加减法”原理构建酶切物理图谱，最终得到Scaffold N50为4.6Mb的Genome map（物理图谱）。

这种方法无论是在操作的简洁程度还是最后的物理图谱质量均是Mate Pair、BAC end 无法比拟的。至于BioNano部分的价格据小编了解，不贵，具体价格需要大家自行去了解。

Ⅱ Denovo组装部分（总体流程见图1）

1）Contig 组装：

研究者使用了PacBio的shotgun数据进行了Contig组装，首先数据的校正部分主要是使用了FALCON（http：//github.com/PacificBiosciences/FALCON)中的模块进行了三代数据的自我校正。

之后分别使用Celera Assembler 与 FALCON组装了两个版本的Contig，前者组装出22,433条Contig，N50为906kb，后者组装出29,742条Contig，N50为2.1Mb。

之前使用NGS数据（insert & fosmid）利用Allpaths-LG组装得到的的NA12787基因组的ContigN50为19kb。

2）Scaffoldding：

使用了一个FALCON的修改版本流程merge了Celera Assembler组装的Contig与BioNano技构建到的Genomemap，得到了第一个版本的377条Scaffold，N50为13.6Mb。

进一步整合FALCON组装的的另一个版本的Contig数据，最终得到202条Scaffold，N50为31.1Mb。

3）组装准确度评估：

分别将NGS版本的与PacBio版本（本研究）的NA12787基因组比对回人类参考基因组hg19，得到以下比对结果（PacBio VS NGS）：

Scaffold accuracy：98.7% VS94.9%

Bases missing：7.6% VS 14.9%

New assembly sequence：58Mb VS 9Mb

Sequence identity：99.7% VS 99.8%。

可见，PacBio版本的NA12787单碱基准确率与NGS版本相当，而在完整性方面更胜一筹。此外，该研究中NA12787组装版本中的~2G序列分出了单倍体型，haptype N50 为145kb，这是之前NGS版本的NA12787所没有的。

图1 Denovo& Variants Calling

Ⅲ结构变异分析部分

结构变异分析是文章中除了Denovo组装指标之外另外一个亮点，传统的NGS对于这点基本是束手无策的。

如图2所示，PacBio的超长读取数据可以直接覆盖一些比较复杂的结构变异区域，包括“倒置伴随插入”、“倒置伴随缺失”、“倒置伴随复制”等复杂结构变异。研究中使用的检出流程主要为PacBio开发的PBHoney。

图2 利用PacBio 数据检出复杂结构变异

数百kb-数Mb的BioNano的光学图谱数据可以直接检出存在于NA12787基因组上数百kb的大型结构变异，图3中展示了利用BioNano数据发现的一段206.6kb的插入突变与一段577.3kb的一段导致突变。

图3 利用BioNano数据解读大型结构变异

这么看来，PacBio 与 BioNano 这两位10后小年轻联手的事儿很靠谱，你觉得呢？

PacBio & BioNano (Assembly and diploid architecture of an individual human genome via single-molecule technologies)的更多相关文章

10X Genomics vs. PacBio
10X Genomics已经广泛应用于单细胞测序.组装领域,现在也是火的不行. 10X Genomics原理通过将来自相同DNA片段(10-100kb)的reads加上相同的barcode,然后在i ...
三代PacBio reads纠错 - 专题
三代纠错的重要性不言而喻,三代的核心优势就是长,唯一的缺点就是错误率高,但好就好在错误是随机分布的,可以通过算法解决,这也就是为什么现在有这么多针对三代开发的纠错工具. 纠错和组装是分不开的,纠错就是 ...
PacBio下机数据解读
今天被人问起如何看懂三代的下机数据,虽然解决了别人的问题,但感觉自己还是没有搞透. 基本的目录结构: |-- HG002new_O1l_BP_P6_021315b_MB_100pM | |-- D01 ...
PacBio长reads的大基因组组装
原文链接:Large Genome Assembly with PacBio Long Reads 可以以多种方式利用PacBio长reads来生成和改进大型基因组的de novo组装. 你可以用几种 ...
ARM architecture
http://en.wikipedia.org/wiki/ARM_architecture ARM architecture ARM architectures The ARM logo De ...
Hadoop官方文档翻译——HDFS Architecture 2.7.3
HDFS Architecture HDFS Architecture(HDFS 架构) Introduction(简介) Assumptions and Goals(假设和目标) Hardware ...
PacBio全基因组测序和组装
PacBio公司的业务范围也就5个(官网): Whole Genome Sequencing Targeted Sequencing Complex Populations RNA Sequencin ...
【转载】Hadoop官方文档翻译——HDFS Architecture 2.7.3
HDFS Architecture HDFS Architecture(HDFS 架构) Introduction(简介) Assumptions and Goals(假设和目标) Hardware ...
Pacbio 纯三代组装复活草基因组
对于植物等真核生物基因组来说,重复序列, 多倍体,高杂合度等特征在利用二代数据进行组装的时候都会有很大的问题: 利用二代数据组装出来的基因组,大多达不到完成图的水准,通常只是覆盖到编码蛋白的基因区域, ...

随机推荐

winform中拖动功能实现技巧
实现的需求,我通过拖动选中的用户行放到左边的机构节点上,从而实现用户改变组织机构的关系贴代码 private DataGridViewSelectedRowCollection sourceRowC ...
ecshop商品分类页获取相册列表方法
第1步:找到根目录的category.php文件,查找约:486行左右(注意这不是准确位置,看实际的哦),找到这个函数: /** * 获得分类下的商品 * * @access public * @pa ...
CentOS6.5下安装wine OK
这篇文章主要记录了如何在CentOS 6.5上安装Wine 1.7.24开发版 1.安装需要的软件包 # yum groupinstall ‘Development Tools‘ # yum inst ...
Linq实例
<%@ Page Language="C#" AutoEventWireup="true" CodeBehind="Index.aspx.cs& ...
How To PLAY_SOUND in Oracle Forms
Play_sound is used to play audio files in Oracle Forms, Play_Sound plays the sound object in the spe ...
[SAP ABAP开发技术总结]ABAP常用事务码
声明:原创作品,转载时请注明文章来自SAP师太技术博客( 博/客/园www.cnblogs.com):www.cnblogs.com/jiangzhengjun,并以超链接形式标明文章原始出处,否则将 ...
SQL生成包含年月日的流水号
--************************************************************************************************** ...
vs无法打开项目的解决方案
错误提示: “未找到与约束 ContractName Microsoft.Internal.VisualStudio.PlatformUI.ISolutionAttachedCollectionSer ...
Linux netmask
wget http://mirrors.sohu.com/ubuntu/pool/universe/n/netmask/netmask_2.3.12.tar.gz tar xf netmask_2.3 ...
使用Invoke、委托函数
//Invoke(new MethodInvoker(delegate() //{ // DataBind(); //}));

PacBio & BioNano (Assembly and diploid architecture of an individual human genome via single-molecule technologies)

PacBio & BioNano (Assembly and diploid architecture of an individual human genome via single-molecule technologies)的更多相关文章

随机推荐

热门专题