svtools具有不同的子命令以实现不同的功能,其中一个就是lmerge。根据其帮助文档(merge LUMPY calls inside a single file from svtools lsort)可以看出,它是在lsort之后对一个vcf文件内的变异进行合并的,但只是知道它的功能而不知道它的原理,还是不能放心的使用它。所以就从它的代码看一下它是怎么操作的。

  

  图1. lsort后的vcf文件,没行代表一个变异。

  

  图2. 代码  

  由代码可知,它是对每个变异获得两个端点,一个就是vcf文件中的POS,把它作为第一个端点。然后获取第二个端点,根据变异类型不同,第二端点的获取方式也不同。如果变异类型是BND,则会解析vcf文件中REF位置的内容,获得其中的位置信息,作为第二端点。如果变异类型是INS的话,就把第一个端点加上SVLEN作为第二端点。其他情况获取vcf文件中END的信息作为第二端点。

  

  图3. vcf文件展示

  由于vcf文件每行内容都太长,所以上图换行展示。格外注意这里有CIPOS和CIEND两个信息。

  

  图4. 代码

  由以上代码可以看出,在获取到两个端点之后,又分别根据CIPOS和CIEND的信息,把两个端点分别扩展成了两个区间。

   

  图5. 把两个端点扩展为两个区间后的变异信息

  可以看出,每个变异都含有两个区间,剩下的就是对这两个区间进行判断,两个变异记录是否为同一个变异。判断的标准:若这两个区间同时有重叠,则认为这两个变异记录是同一个变异(当然他们所对应的染色体也应该是一样的)。然后就可以对他们进行合并。

  

  图6. vcf文件展示

  vcf文件里有一个信息,PRPOS,这个信息是一系列数字,个数等于CIPOS[1] - CIPOS[0] + 1,表示第一端点处在每个位置的概率。另一个信息是PREND,也是一列数字,个数等位CIEND[1] - CIEND[0] + 1,表示第二端点处在各个位置的概率。

  这里进行同一变异的合并,合并时,分别把第一区间和第二区间按照位置进行对齐,分别获得可以包含所有第一区间和第二区间的最大区间。例如一共有两个变异记录可能是同一变异,他们的第一区间分别为[start11=290 end11=390]和[start21=350 end21=580],则对齐后的区间为[start1=290 end2=580];若第二区间分别为[start12=680 end12=790]和[start22=780 end22=1000],则对齐后的区间为[start2=680 end2=1000]。按照区间的位置,也把PRPOS和PREDN进行对齐,前后空着的位置补0,然后把对齐后的PRPOS按位置进行相加,也把对齐后的PREND进行相加,就获得了与对齐区间长度一样的,PRPOS和PREND。然后找出PRPOS中数值最大的位置,然后对应到对齐后的第一区间,那就是变异合并后第一端点的位置。找到PREND中数值最大的位置,然后对应到对齐后的第二区间,那就是变异合并后第二端点的位置,这样就找到了变异合并后的两个端点的位置。

  

  同时vcf文件里还会有QUAL、SU、PE、SR这些值,这些值的含义在vcf的header里都可以找到,他们的值合并的时候是直接相加的。这样就把代表同一变异的不同记录进行了合并,这就是svtools lmerge进行变异合并的原理。

svtools lmerge具体算法的更多相关文章

  1. B树——算法导论(25)

    B树 1. 简介 在之前我们学习了红黑树,今天再学习一种树--B树.它与红黑树有许多类似的地方,比如都是平衡搜索树,但它们在功能和结构上却有较大的差别. 从功能上看,B树是为磁盘或其他存储设备设计的, ...

  2. 分布式系列文章——Paxos算法原理与推导

    Paxos算法在分布式领域具有非常重要的地位.但是Paxos算法有两个比较明显的缺点:1.难以理解 2.工程实现更难. 网上有很多讲解Paxos算法的文章,但是质量参差不齐.看了很多关于Paxos的资 ...

  3. 【Machine Learning】KNN算法虹膜图片识别

    K-近邻算法虹膜图片识别实战 作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...

  4. 红黑树——算法导论(15)

    1. 什么是红黑树 (1) 简介     上一篇我们介绍了基本动态集合操作时间复杂度均为O(h)的二叉搜索树.但遗憾的是,只有当二叉搜索树高度较低时,这些集合操作才会较快:即当树的高度较高(甚至一种极 ...

  5. 散列表(hash table)——算法导论(13)

    1. 引言 许多应用都需要动态集合结构,它至少需要支持Insert,search和delete字典操作.散列表(hash table)是实现字典操作的一种有效的数据结构. 2. 直接寻址表 在介绍散列 ...

  6. 虚拟dom与diff算法 分析

    好文集合: 深入浅出React(四):虚拟DOM Diff算法解析 全面理解虚拟DOM,实现虚拟DOM

  7. 简单有效的kmp算法

    以前看过kmp算法,当时接触后总感觉好深奥啊,抱着数据结构的数啃了一中午,最终才大致看懂,后来提起kmp也只剩下“奥,它是做模式匹配的”这点干货.最近有空,翻出来算法导论看看,原来就是这么简单(先不说 ...

  8. 神经网络、logistic回归等分类算法简单实现

    最近在github上看到一个很有趣的项目,通过文本训练可以让计算机写出特定风格的文章,有人就专门写了一个小项目生成汪峰风格的歌词.看完后有一些自己的小想法,也想做一个玩儿一玩儿.用到的原理是深度学习里 ...

  9. 46张PPT讲述JVM体系结构、GC算法和调优

    本PPT从JVM体系结构概述.GC算法.Hotspot内存管理.Hotspot垃圾回收器.调优和监控工具六大方面进行讲述.(内嵌iframe,建议使用电脑浏览) 好东西当然要分享,PPT已上传可供下载 ...

  10. 【C#代码实战】群蚁算法理论与实践全攻略——旅行商等路径优化问题的新方法

    若干年前读研的时候,学院有一个教授,专门做群蚁算法的,很厉害,偶尔了解了一点点.感觉也是生物智能的一个体现,和遗传算法.神经网络有异曲同工之妙.只不过当时没有实际需求学习,所以没去研究.最近有一个这样 ...

随机推荐

  1. luogu P3842 [TJOI2007] 线段

    link 好题,考虑如何设定状态. 设\(dp_{i,0/1}\)表示到了第\(i\)行走完后停在这一行的最左侧/最右侧. 设定\(l_i\)表示这一行该线段的最左侧,\(r_i\)表示这一行的最右侧 ...

  2. MongoDB面试专题33道解析

    大家好,我是 V 哥.今天给大家分享 MongoDB的道 V 哥整理的面试题,收藏起来,一定会对你有帮助. 1. 你说的 NoSQL 数据库是什么意思?NoSQL 与 RDBMS 直接有什么区别?为什 ...

  3. Spring-Event入门实践及执行原理

    一.入门案例 1. 添加依赖首先,在 pom.xml 文件中添加 Spring Boot 和 Spring Event 的依赖: <dependencies> <dependency ...

  4. ABC240Ex Sequence of Substrings

    ABC240Ex Sequence of Substrings LIS 的好题改编. 约定 \(S(l,r)\) 为字符串 \(s\) 中第 \(l\) 位到底 \(r\)​ 位. \(S(l,r)& ...

  5. 从零开始学机器学习——K-Means 聚类

    首先给大家介绍一个很好用的学习地址:https://cloudstudio.net/columns 在上一章节中,我们重点探讨了聚类的可视化分析方法,帮助我们更好地理解数据之间的关系和结构.今天,我们 ...

  6. MySQL 8.0 OCP 最新中文考试题库(如需完整版请联系作者)

    大家好!今天要给大家带来的是由Oracle公司研发的MySQL 8.0认证考试试题本次试题是全网最全面的试题,总共包含123道.试题正确率在95%以上.对于在今年报考MySQL8.0 中文版本的考生有 ...

  7. vue遇到Conflicting order. Following module has been added:(加载顺序冲突)

    其中article.vue和topGroup.vue这两个文件在模块unitTest和wrongBook上出现加载冲突 其中一个文件先加载topGroup.vue文件其中一个文件先加载article. ...

  8. 使用 LLVM 框架创建有效的编译器,第 2 部分

    使用 clang 预处理 C/C++ 代码 无论您使用哪一种编程语言,LLVM 编译器基础架构都会提供一种强大的方法来优化您的应用程序.在这个两部分系列的第二篇文章中,了解在 LLVM 中测试代码,使 ...

  9. MySQL之数据排序

    在MySQL中,我们经常需要从数据库中检索数据,并根据特定的要求对数据进行排序.通常情况下,我们会根据数据中某一列的值进行排序,例如按照价格从低到高或从高到低对商品进行排序.但有时候,我们需要在数据中 ...

  10. mysql5.7之JSON数据类型

    1.json对象 1.1.方法 使用对象操作的方法进行查询:字段->'$.json属性' 使用函数进行查询:json_extract(字段, '$.json属性') 获取JSON数组/对象长度: ...