1)背景

组装:短的reads通过overlap来组装成contig

局限性:repeat 大于overlap导致ambiguous reconstructions and fragment the assembly

两个策略:increasing the effective read length(增加reads长度), and separating nonexact repeats based on copy-specific variants(通过特定的copy-变异分离repeats)

进展及缺点:单分子测序读长长>10kb,有助于组装,但是精度(错误率高)不行,因而需要灵敏的比对方法,这限制了对不同等位基因和非精确重复的识别。但是,pcbio smart 展示出了unbiased and random error model(非偏移及随机错误)。单分子测序的读取长度和较高的错误率的增加,对原本设计用于更短、更准确读取的基因组组装程序构成了挑战。为了解决这个问题,开发了几种新方法,大致分为混合方法( Hybrid methods)、分层方法(Hierarchical methods)或直接方法(direct methods)。

Hybrid methods(混合方法,二加三): 利用单分子reads构建基因组的长结构(long-range structure),利用短的精确的短reads提高准确度。

Hierarchical methods(分层方法):该技术不需要二代技术, instead use multiple rounds of read overlapping (alignment) and correction to improve the quality of the single-molecule reads prior to assembly。

direct methods(直接方法):最后,直接方法尝试从单个重叠步骤组装单个分子读数据,而不需要事先进行任何校正

这三种方法都可以组装出一个好的assembly,但是现在的目标是需要装出完整的entire genomes,这个只关注Hierarchical methods(分层方法),因为它生产了迄今为止最连续的从头组装。

2、结果

Canu是一种新的单分子组装软件,它改进并取代了目前不支持的Celera软件。最近,我们引入了MinHash比对过程(MHAP)来克服重叠噪声(overlapping noisy)、单分子测序读取的计算瓶颈。并与PBcR和Celera Assembler整合,仅用PacBio数据便展示了接近完整的真核细胞组装体

特点:

1) 将我们的方法集成到一个单一的、全面的汇编程序中;

2)支持PacBio和Oxford纳米孔数据

3)降低运行时和深度要求

4)改善重复和单倍体分离

具体:

1) as little as 20× single-molecule coverage

2) 在更高的覆盖率下,可以进行参照质量的从头组装(reference-quality de novo assemblies),包括从完全PacBio或纳米孔测序中完整组装单色染色体

3)Canu改进的图构造算法(graph construction algorithm)基于reads误差的统计模型分离出密切相关的重复序列和等位基因,这对今后二倍体、多倍体和宏基因组装配的研究具有重要意义

3、canu pipeline

包含三个步骤,correction, trimming, and assembly。每一个模块都可以单独或按顺序运行。当在并行环境中运行时,Canu将自动检测可用资源,并配置自身以最大限度地利用资源。它是目前最有效的单分子组装软件,可用于大基因组,大约需要20,000 CPU hours 组装一个人基因组, 相比之下,FALCON需要60,000 ,Celera Assembler需要250,000。

3.1、Adaptive MinHash k-mer weighting

重复的最佳处理是一个挑战,因为除了fragmenting assemblies,之外,重复还会在overlapping过程期间也会造成计算瓶颈。

Read overlapping过程需要两个过程:首先构建具有某些相似性的读对列表(a list of read pairs that share some similarity),然后对这些reads pair 执行更直接的比较。重复序列k-mers的频繁发生显著增加了必须由更昂贵的第二阶段处理的候选重叠的数量。针对该方法的一般有两个策略:mask low-complexity sequence,或者ignore highly repetitive k-mers during indexing。这两个策略在其它一些组装软件中普遍使用,比如 Celera Assembler、FALCON、Miniasm,然而,这忽略了多少重复的k-mers,将无法检测到一些正确重叠部分。Canu采用了一种更有弹性的方法来处理重复,这种方法在概率上减少了重复k-mer被选择用于overlapping阶段的机会,但并没有消除这种可能性。这个权重是通过MinHash重叠策略(MinHash overlapping strategy)实现的。与其比较单个k-mers来识别潜在的读重叠,Canu使用前面描述的MHAP来比较整个读取的压缩草图(候选overlap通常在第一阶段通过识别所有读对之间的共享k-mers(长度为k个子字符串)找到。因此重读

canu软件文献的更多相关文章

  1. JabRef 文献管理软件

    JabRef 文献管理软件简明教程 大多只有使用LaTeX撰写科技论文的研究人员才能完全领略到JabRef的妙不可言,但随着对Word写作平台上BibTeX4Word插件的开发和便利应用,使用Word ...

  2. 文献管理软件zotero的一点使用感受作者: 杨林畅

    作者是我的本科同学叶家鑫 http://www.renren.com/profile.do?id=240875124 文章写于去年12月,我做了一些排版上的修改,括号内的蓝字为我所加 ---- zot ...

  3. 安装三代组装canu、smartdenovo、wtdbg及矫正软件Racon、Nanopolish的安装

    1)三代组装软件 ------------------------------------------------------------------canu--------------------- ...

  4. [工具] Citavi – 文献管理软件(笔记记录)

    https://www.citavi.com/en/ 如果你有论文写作的需求,特别是对于科研人员.研究生来说,文献管理软件是不可或缺的.目前流行的文献管理软件有老牌的 EndNote,本土化的 Not ...

  5. Mendeley文献管理软件使用介绍

    <!DOCTYPE html> New Document /* GitHub stylesheet for MarkdownPad (http://markdownpad.com) / / ...

  6. 为文献管理软件Mendeley设置代理

    Mendeley由于某些原因无法在线同步,需要fq,在tools->option->connection中可以设置http代理或者sock5代理, sock5可以使用shadowsocks ...

  7. Zotero引用文献格式(软件学报)

    最近在写一篇综述,要处理大量引用文献,选用Zotero作为文献管理工具.在插入参考文献目录时需要遵循格式,奈何网上找不到<软件学报>对应的csl模板文件,所以决定自己动手修改.在此记录下自 ...

  8. 文献管理软件 Zotero 安装、配置与使用

    简介 Zotero优缺点 使用Zotero作为主力文献管理工具的原因: 软件本身完全免费并且开源,不存在盗版问题 注册后本身只包括 300M 空间同步,但支持 WebDAV 同步,例如 Dropbox ...

  9. endnote设置文献第二行悬挂缩进办法

    参考:http://blog.sina.com.cn/s/blog_62b13cf201014lfr.html  使用[endnote]插入文献后,如果文献稍长些,有第二行,第二行会顶格开始.并且这个 ...

随机推荐

  1. MySQL Developer

    1.The mysql Client Program 2.Data Types 3.Joins 4.Subqueries 5.Views 6.StoredRoutine . 1.Client/Serv ...

  2. Unable to locate Spring NamespaceHandler for XML schema namespace [http://www.springframework.org/schema/tx]

    ERROR - Context initialization failed org.springframework.beans.factory.parsing.BeanDefinitionParsin ...

  3. GitHub使用指南之快速入门

    出自http://blog.csdn.net/column/details/13170.html 1.Git安装 Git是一个版本控制系统,使用之前必须先下载安装,下面提供各平台的安装方式. Mac: ...

  4. php CURL模拟GET、POST请求。

    /** * get * @param string $url 请求地址 */ function GetHttp($url){ // 关闭句柄 $curl = curl_init(); // 启动一个C ...

  5. PHP + Nginx 在 Linux(centos7)系统下的环境搭建

    ( 选用的操作系统为 centos7 ) 01,安装 nginx => 请移步 https://www.cnblogs.com/lovling/p/9197572.html 02,下载 php  ...

  6. git openssl 模块生成 https 请求的 ssl 测试证书

    1,请先确定安装了相关模块 1.1,git --version 1.2,openssl version -a 2,创建一个目录, cd 到该目录下 3,生成私钥  key 文件   openssl g ...

  7. filter map reduce函数的使用

    #filter("处理逻辑","可迭代对象") 把可迭代对象依次处理逻辑处理,如果值为真就返回值,值为假就不返回; li = ['testA','yerA',' ...

  8. 使用STM32CubeMX生成USB_HOST_HID工程[添加对CAPS_LOCK指示灯的控制][SetReport]

    在之前(使用STM32CubeMX生成USB_HOST_HID工程)的基础上进行修改 在结合之前在pc上的测试 USB之HID类Set_Report Request[调试手记1] 测试代码如下: /* ...

  9. 机器学习进阶-图像形态学操作-开运算与闭运算 1.cv2.morphologyEx(进行各类形态学变化) 2.op=cv2.MORPH_OPEN(先腐蚀后膨胀) 3.op=cv2.MORPH_CLOSE(先膨胀后腐蚀)

    1.cv2.morphologyEx(src, op, kernel) 进行各类形态学的变化 参数说明:src传入的图片,op进行变化的方式, kernel表示方框的大小 2.op =  cv2.MO ...

  10. BBS-文章详情页、点赞功能

    文章详情页--布局中header和左边区域不变--用到继承 home_site和article_detail只是布局 中心区域 只是右侧不同-----用到继承原理 -------- url # 文章详 ...