PacBio & BioNano (Assembly and diploid architecture of an individual human genome via single-molecule technologies)
Assembly and diploid architecture of an individual human genome via single-molecule technologies
文章链接:专业版“ PacBio 遇到 BioNano“ (三代测序那些事儿 第十二期)
前两天发表在Nature Mehtods一篇联合PacBio与BioNano数据组装人类基因组的文章在行业里引起了不小的震动(这其实也不是PacBio在动植物组装中的第一次表现了),大家惊讶的发现,原来大型动植物基因组的组装已经换了新玩法,平均读长数十kb的全基因组shotgun数据(PacBio)加上一张ScaffoldN50数Mb级别的酶切序列物理图谱(BioNano),轻松搞定那些让你梦寐以求的N50。
之前的那些基于NGS的BAC to BAC、Mate Pair的玩法跟它比真的有点low。
这期小编就通过对这篇文章的专业解读让大家快速了解下这一新型的基因组组装玩法。
原文题目:
Assembly and diploid architechure of an individual human genome viasingle-molecule technologies.
文献解读:
Ⅰ测序部分
1)PacBio部分:
使用PacBIO RS系统对个体NA12787基因组(diploid)进行了测序,最终使用了1013个SMRT Cell得到了46X PacBio数据,小编想说的是,该研究由于使用的是早期的XL-C2(851 SMRT Cells)或者P5 C3 (162 SMRTCells)测序试剂,所以46X的数据量便耗费了惊人的1000多个SMRT Cell。
我们目前使用的P6C4试剂在通量方面相较于该研究中提到的测序试剂提高了3-10倍,46X的个人基因组数据仅需150个左右的SMRTCell便可搞定,其实已经较好的解决了文章中“The High cost of long-read sequencing are the most obvious concerns”的烦恼。
2)BioNano部分:
使用核酸内切酶Nt.BspQ I对基因组DNA酶切,荧光标记dUTP修复切口,毛细电泳拉直酶切片段,之后便可在显微镜下根据荧光位置直接观察片段大小。
挑选180kb以上的酶切片段,最后利用大学生化上学到的“加减法”原理构建酶切物理图谱,最终得到Scaffold N50为4.6Mb的Genome map(物理图谱)。
这种方法无论是在操作的简洁程度还是最后的物理图谱质量均是Mate Pair、BAC end 无法比拟的。至于BioNano部分的价格据小编了解,不贵,具体价格需要大家自行去了解。
Ⅱ Denovo组装部分(总体流程见图1)
1)Contig 组装:
研究者使用了PacBio的shotgun数据进行了Contig组装,首先数据的校正部分主要是使用了FALCON(http://github.com/PacificBiosciences/FALCON)中的模块进行了三代数据的自我校正。
之后分别使用Celera Assembler 与 FALCON组装了两个版本的Contig,前者组装出22,433条Contig,N50为906kb,后者组装出29,742条Contig,N50为2.1Mb。
之前使用NGS数据(insert & fosmid)利用Allpaths-LG组装得到的的NA12787基因组的ContigN50为19kb。
2)Scaffoldding:
使用了一个FALCON的修改版本流程merge了Celera Assembler组装的Contig与BioNano技构建到的Genomemap,得到了第一个版本的377条Scaffold,N50为13.6Mb。
进一步整合FALCON组装的的另一个版本的Contig数据,最终得到202条Scaffold,N50为31.1Mb。
3)组装准确度评估:
分别将NGS版本的与PacBio版本(本研究)的NA12787基因组比对回人类参考基因组hg19,得到以下比对结果(PacBio VS NGS):
Scaffold accuracy:98.7% VS94.9%
Bases missing:7.6% VS 14.9%
New assembly sequence:58Mb VS 9Mb
Sequence identity:99.7% VS 99.8%。
可见,PacBio版本的NA12787单碱基准确率与NGS版本相当,而在完整性方面更胜一筹。此外,该研究中NA12787组装版本中的~2G序列分出了单倍体型,haptype N50 为145kb,这是之前NGS版本的NA12787所没有的。
图1 Denovo& Variants Calling
Ⅲ结构变异分析部分
结构变异分析是文章中除了Denovo组装指标之外另外一个亮点,传统的NGS对于这点基本是束手无策的。
如图2所示,PacBio的超长读取数据可以直接覆盖一些比较复杂的结构变异区域,包括“倒置伴随插入”、“倒置伴随缺失”、“倒置伴随复制”等复杂结构变异。研究中使用的检出流程主要为PacBio开发的PBHoney。
图2 利用PacBio 数据检出复杂结构变异
数百kb-数Mb的BioNano的光学图谱数据可以直接检出存在于NA12787基因组上数百kb的大型结构变异,图3中展示了利用BioNano数据发现的一段206.6kb的插入突变与一段577.3kb的一段导致突变。
图3 利用BioNano数据解读大型结构变异
这么看来,PacBio 与 BioNano 这两位10后小年轻联手的事儿很靠谱,你觉得呢?
PacBio & BioNano (Assembly and diploid architecture of an individual human genome via single-molecule technologies)的更多相关文章
- 10X Genomics vs. PacBio
10X Genomics已经广泛应用于单细胞测序.组装领域,现在也是火的不行. 10X Genomics原理 通过将来自相同DNA片段(10-100kb)的reads加上相同的barcode,然后在i ...
- 三代PacBio reads纠错 - 专题
三代纠错的重要性不言而喻,三代的核心优势就是长,唯一的缺点就是错误率高,但好就好在错误是随机分布的,可以通过算法解决,这也就是为什么现在有这么多针对三代开发的纠错工具. 纠错和组装是分不开的,纠错就是 ...
- PacBio下机数据解读
今天被人问起如何看懂三代的下机数据,虽然解决了别人的问题,但感觉自己还是没有搞透. 基本的目录结构: |-- HG002new_O1l_BP_P6_021315b_MB_100pM | |-- D01 ...
- PacBio长reads的大基因组组装
原文链接:Large Genome Assembly with PacBio Long Reads 可以以多种方式利用PacBio长reads来生成和改进大型基因组的de novo组装. 你可以用几种 ...
- ARM architecture
http://en.wikipedia.org/wiki/ARM_architecture ARM architecture ARM architectures The ARM logo De ...
- Hadoop官方文档翻译——HDFS Architecture 2.7.3
HDFS Architecture HDFS Architecture(HDFS 架构) Introduction(简介) Assumptions and Goals(假设和目标) Hardware ...
- PacBio全基因组测序和组装
PacBio公司的业务范围也就5个(官网): Whole Genome Sequencing Targeted Sequencing Complex Populations RNA Sequencin ...
- 【转载】Hadoop官方文档翻译——HDFS Architecture 2.7.3
HDFS Architecture HDFS Architecture(HDFS 架构) Introduction(简介) Assumptions and Goals(假设和目标) Hardware ...
- Pacbio 纯三代组装复活草基因组
对于植物等真核生物基因组来说,重复序列, 多倍体,高杂合度等特征在利用二代数据进行组装的时候都会有很大的问题: 利用二代数据组装出来的基因组,大多达不到完成图的水准,通常只是覆盖到编码蛋白的基因区域, ...
随机推荐
- stuts-security.xml
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "- ...
- Python3基础 random 产生置顶区间的随机整数
镇场诗:---大梦谁觉,水月中建博客.百千磨难,才知世事无常.---今持佛语,技术无量愿学.愿尽所学,铸一良心博客.------------------------------------------ ...
- c#调用cmd的ping命令
private static string CmdPing(string strIp) { Process p = new Process(); p.StartInfo.FileName = &quo ...
- raid0,raid1,raid10,raid5,raid50,raid6,raid60的功能总结简述
1,raid0的特性:采用剥离,数据将在几个磁盘上进行分割.数据被分成很多数据块,每一数据块会被写入不同的磁盘.从而, 每一磁盘的工作负荷都得到了降低,这有助于加速数据传输.RAID-0可让磁盘更好地 ...
- 2.建立exception包,建立Bank类,类中有变量double balance表示存款,Bank类的构造方法能增加存款,Bank类中有取款的发方法withDrawal(double dAmount),当取款的数额大于存款时,抛出InsufficientFundsException,取款数额为负数,抛出NagativeFundsException,
public class Bank { Double qian=0.0; double newBank(double a) { qian=qian+a; return qian; } double w ...
- BZOJ 2433 智能车比赛(计算几何+最短路)
题目链接:http://61.187.179.132/JudgeOnline/problem.php?id=2433 题意:若干个矩形排成一排(同一个x之上最多有一个矩形),矩形i和i+1相邻.给定两 ...
- RC4加密解密算法
RC4相对是速度快.安全性高的加密算法.在实际应用中,我们可以对安全系数要求高的文本进行多重加密,这样破解就有一定困难了.如下测试给出了先用RC4加密,然后再次用BASE64编码,这样双重锁定,保证数 ...
- bam/sam格式说明
在SAM输出的结果中每一行都包括十二项通过Tab分隔,从左到右分别是: 1 序列的名字(Read的名字) 2 概括出一个合适的标记,各个数字分别代表 1 序列是一对序列中的一个 2 比 ...
- [UVA11464]Even Parity(状压,枚举)
题目链接:https://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem ...
- [SAP ABAP开发技术总结]以二进制、字符模式下载文件
声明:原创作品,转载时请注明文章来自SAP师太技术博客( 博/客/园www.cnblogs.com):www.cnblogs.com/jiangzhengjun,并以超链接形式标明文章原始出处,否则将 ...