简单DNA序列组装（非循环子图）

生物信息学原理作业第四弹：DNA序列组装（非循环子图）

原理：生物信息学（孙啸）

大致思想：

　　　　　　1. 这个算法理解细节理解比较困难，建议看孙啸的生物信息学相关章节。

　　　　　　2. 算法要求所有序列覆盖整个目标DNA，并保证相邻片段有足够的覆盖连接（引自孙啸生物信息学）。

　　　　　　3. 最后推导出符合条件的序列构成的有向图没有回路，并有哈密顿路径。

　　　　　　4. 利用拓扑排序，得到顶点的有序排列。

　　　　　　5. 组装。

贴上Python代码，发现问题我会及时更正。

转载请保留出处！

简单DNA序列组装（非循环子图）

 # -*- coding: utf-8 -*-

 """

 Created on Sat Dec  2 16:09:14 2017

 @author: zxzhu

 python3.6

 """

 from functools import reduce

 def get_weight(s1,s2):               #通过两条序列的overlap计算出权值

     l = min(len(s1),len(s2))

     while l>0:

         if s2[:l] == s1[-l:]:

             return l

         else:

             l-=1

     return 0

 def print_result(s1,s2):            #将两条序列去除首尾overlap后合并

     weight = get_weight(s1,s2)

     s = s1 + s2[weight:]

     #print(s)

     return s

 def dir_graph(l,t=3):              #得到满足条件的有向图(权值大于等于t)

     graph = {}

     for i in l:

         VW = []

         for j in l:

             if i!=j:

                 weight = get_weight(i,j)

                 if weight >= t:

                     VW.append(j)

         graph[i] = VW

     #print(graph)

     for i in graph.keys():        #不能有孤立顶点

         if not graph[i]:

             count = get_in_V(graph,i)

             if count ==0:

                 graph.clear()

                 print('The sequence:\n"{0}"\n can\'t align with others!'.format(i))

                 break

     return graph

 def get_in_V(graph,v):                   #得到某顶点入度

     count = 0

     all_in = reduce(lambda x,y:x+y,graph.values())

     for i in all_in:

         if i == v:

             count+=1

     return count

 def aligner(graph,topo=[]):             #得出顶点顺序

     while graph:

         V = graph.keys()

         for i in V:

             flag = 1

             in_num = get_in_V(graph,i)

             if in_num ==0:

                 topo.append(i)

                 graph.pop(i)

                 flag = 0

                 break

         if flag:                        #存在环

             #print('The t score is too small!')

             return None

         else:

             aligner(graph,topo)

     return topo

 x = 'CCTTTTGG'

 y = 'TTGGCAATCACT'

 w = 'AGTATTGGCAATC'

 u = 'ATGCAAACCT'

 z = 'AATCGATG'

 v = 'TCACTCCTTTT'

 graph = dir_graph([x,y,z,w,u],t=3)

 topo = aligner(graph)

 if topo:

     result = reduce(print_result,topo)

 else:

     result = topo

 print(result)

简单DNA序列组装（非循环子图）的更多相关文章

DNA序列组装（贪婪算法）
生物信息学原理作业第四弹:DNA序列组装(贪婪算法) 原理:生物信息学(孙啸) 大致思想: 1. 找到权值最大的边: 2. 除去以最大权值边的起始顶点为起始顶点的边: 3. 除去以最大权值边为终点为终 ...
DNA序列对齐问题
问题描述: 该问题在算法导论中引申自求解两个DNA序列相似度的问题. 可以从很多角度定义两个DNA序列的相似度,其中有一种定义方法就是通过序列对齐的方式来定义其相似度. 给定两个DNA序列A和B,对齐 ...
python实现DNA序列字符串转换，互补链，反向链，反向互补链
在生物信息学分析中,经常对DNA序列进行一系列操作,包括子序列截取,互补序列获取,反向序列获取,反向互补序列获取.在python语言中,可编写如下函数完成这些简单功能. 子序列截取 python中对序 ...
短序列组装Sequence Assembly（转载）
转载:http://blog.sina.com.cn/s/blog_4af3f0d20100fq5i.html 短序列组装(Sequence assembly)几乎是近年来next-generatio ...
[LeetCode] Repeated DNA Sequences 求重复的DNA序列
All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: "ACG ...
C代码实现非循环单链表
C代码实现非循环单链表, 直接上代码. # include <stdio.h> # include <stdlib.h> # include <malloc.h> ...
利用Python【Orange】结合DNA序列进行人种预测
http://blog.csdn.net/jj12345jj198999/article/details/8951120 coursera上 web intelligence and big data ...
华为OJ平台——DNA序列
题目描述: 一个DNA序列由A/C/G/T四个字母的排列组合组成.G和C的比例(定义为GC-Ratio)是序列中G和C两个字母的总的出现次数除以总的字母数目(也就是序列长度).在基因工程中,这个比例非 ...
环状DNA序列
大意: 一个DNA序列是环状的,这意味着有N个碱基的序列有N种表示方法(假设无重复).而这N个序列有一种最小的表示,这个最小表示的意思是这个序列的字典序最小(字典序的意思是在字典中的大小比如ABC& ...

随机推荐

了解 Python 语言中的时间处理
python 语言对于时间的处理继承了 C语言的传统,时间值是以秒为单位的浮点数,记录的是从1970年1月1日零点到现在的秒数,这个秒数可以转换成我们日常可阅读形式的日期和时间:我们下面首先来看一下p ...
JXLS 2.4.0系列教程（四）——拾遗如何做页面小计
注:阅读本文前,请先阅读第四篇文章. http://www.cnblogs.com/foxlee1024/p/7619845.html 前面写了第四篇教程,发现有些东西忘了讲了,这里补回来. 忘了讲两 ...
c++中的overload、overwrite、override
作为初学者,本文只从语法和简单的使用角度对overload.overwrite.override进行了区分,不曾涉及原理,记录下来以供查阅. 1.verload(重载) 1.1 基本要求: c++中的 ...
HDU 2682 Tree
题目: There are N (2<=N<=600) cities,each has a value of happiness,we consider two cities A and ...
WIN2016安装织梦没写入权限怎么办听语音
配置好了WINSERVER2016环境,一切看起来都弄得差不多了,可是安装织梦的时候提示我没有写入权限,不能继续安装,于是我很郁闷,开始寻求解决办法. 工具/原料 WINSERVER2016 织梦5. ...
SQL Constraints
每个表可以有多个 UNIQUE 约束,但是每个表只能有一个 PRIMARY KEY 约束. http://www.w3school.com.cn/sql/sql_unique.asp 另外相关:@On ...
eclipse中git解决冲突
摘录自http://blog.csdn.net/rosten/article/details/17068285 1. 工程->Team->同步 2.从远程pull至本地,就会出现如下内容 ...
WinForm中，设置不显示窗口的标题栏
1:ControlBox设置False,然后标题为""的时候标题就不显示了2:把窗体设置为无边的窗体 FormBoderStyle 设为 None (在Mdi中,关闭按钮会还在) ...
理解Python中的装饰器//这篇文章将python的装饰器来龙去脉说的很清楚，故转过来存档
转自:http://www.cnblogs.com/rollenholt/archive/2012/05/02/2479833.html 这篇文章将python的装饰器来龙去脉说的很清楚,故转过来存档 ...
python装饰器的用法
def logger(func): def inner(*args, **kwargs): #1 print "Arguments were: %s, %s" ...

简单DNA序列组装（非循环子图）

简单DNA序列组装（非循环子图）的更多相关文章

随机推荐

热门专题