Reverse complement DNA

用法：python rev_comp.py input.fa out.fa

输入文件为 fasta 格式文件，若输入文件中序列的 header 有 '+' 或 '-' 号标记正负链，则带有 '+' 的序列保持不变，带有 '-' 的序列反向互补；

若 header 没有 '+' 或 '-' 号标记，则默认按反义链处理。

cat input.fa

>seq1 +

AGATAGATGAATT

>seq2 -

GATAGAGAATAAA

AGATATAGATAGA

>seq3

GAATATAT

>seq4 -

CCAGTGGGATCC

cat  out.fa

>seq2 -

TCTATCTATATCTTTTATTCTCTATC

>seq4 -

GGATCCCACTGG

>seq1 +

AGATAGATGAATT

>seq3

ATATATTC

import sys

complement_table = {

'A': 'T',

'B': 'V',

'C': 'G',

'D': 'H',

'G': 'C',

'H': 'D',

'M': 'K',

'N': 'N',

'R': 'Y',

'S': 'S',

'T': 'A',

'U': 'A',

'V': 'B',

'W': 'W',

'X': 'X',

'Y': 'R',

'a': 't',

'b': 'v',

'c': 'g',

'd': 'h',

'g': 'c',

'h': 'd',

'm': 'k',

'n': 'n',

'r': 'y',

's': 's',

't': 'a',

'u': 'a',

'v': 'b',

'w': 'w',

'x': 'x',

'y': 'r'

}

def pqrse_fasta(seqs):

    new_seqs = {}

    for line in seqs:

        if line.startswith(">"):

            name = line.rstrip()

            new_seqs[name] = ""

        else:

            new_seqs[name] = new_seqs[name] + line.rstrip()

    return new_seqs

def rev_comp(seq):

    new_seq = []

    line = seq.rstrip()

    for letter in line:

        complement_letter = complement_table[letter]

        new_seq.append(complement_letter)

    new_seq.reverse()

    return "".join(new_seq)

in_file = open(sys.argv[1])

out_file = open(sys.argv[2], 'w')

seqs = pqrse_fasta(in_file)

for name in seqs.keys():

    if name.endswith("-"):

        print >> out_file, name + '\n' + rev_comp(seqs[name])

    elif name.endswith("+"):

        print >> out_file, name + '\n' + seqs[name]

    else:

        print >> out_file, name + '\n' + rev_comp(seqs[name]) # 如果文件没有 '+' 或 '-' 号标记正负链，则默认为负链。

Reverse complement DNA的更多相关文章

3.Complementing a Strand of DNA
Problem In DNA strings, symbols 'A' and 'T' are complements of each other, as are 'C' and 'G'. The r ...
03 Complementing a Strand of DNA
Problem In DNA strings, symbols 'A' and 'T' are complements of each other, as are 'C' and 'G'. The r ...
为什么Erlang比C慢那么多倍？
Erlang 一直以慢“著称”,本文就来看看 Erlang 慢在什么地方,为什么比实现同样功能的 C 语言程序慢那么多倍.Erlang 作为一种虚拟机解释的语言,慢是当然的.不过本文从细节上分析为什么 ...
het smooth 组装高杂合度二倍体基因组前期数据处理
http://sourceforge.net/projects/het-smooth/ equencing technologies, such as Illumina sequencing, pro ...
biopython
转载Part 2 Biopython的重头戏-生物学中序列的处理 Biopyhton的Seq和Python中标准字符串有两大重要的不同之处:首先,他们的处理方法不同.Seq适用于很多不同字符串的用的 ...
08 Translating RNA into Protein
Problem The 20 commonly occurring amino acids are abbreviated by using 20 letters from the English a ...
05 Computing GC Content
Problem The GC-content of a DNA string is given by the percentage of symbols in the string that are ...
安装生物信息学软件-bowtie2
好吧,这是本周(2016.10.21-28)的学习任务之一:安装bowtie2并学习其使用方法&参数设置所以,啃文档咯,官方文档Version 2.2.9 http://bowtie-bio ...
Canu Tutorial（canu指导手册）
链接:Canu Tutorial Canu assembles reads from PacBio RS II or Oxford Nanopore MinION instruments into u ...

随机推荐

对AppStore中的项目进行评分(转载)
在ios6.0前跳转到appstore评分一般是直接跳转到appstore评分NSString *evaluateString = [NSString stringWithFormat:@" ...
ios 字符串的操作汇总
//将NSData转化为NSString NSString* str = [[NSString alloc] initWithData:response encoding:NSUTF8S ...
USB LPT 端口映射
如何设置端口映射(以将LPT1端口映射到共享名为CutePDFW的虚拟打印机上为例),命令如下: NET USE LPT1: \\wcjxixi-d022704\CutePDFW /Persisten ...
C# WebRequest简单调用WebService方法
//get string res = GetStringByUrl("http://你的地址/WebService.asmx/方法名?参数=1"); //post string r ...
c语言-经验之谈
如果你是一个大牛,那就直接忽略这里. 如果你是一个新手,请继续向下看. 在自学计算机的路上真的很悲惨,如果你是在学校里面学习还算比较幸运. 针对编程来说,在学校里面学习的只是学会了语言,而很少有人学会 ...
WCF配置文件的问题(位置)
引用过了远程的WCF服务,会自动生成配置文件,但是这个配置的位置,尽量放在applicationSettings的前面刚才测试了,貌似放后面,会报错(执行的时候,这个问题,需要继续试验) (待验证) ...
javascript模板引擎template.render使用
<script type="text/javascript"> function test(){ //你的方法 } </script> 如上代码:通常我们见 ...
Java中的Builder模式
package com.mc.bsfram.others.entity; public class Person { private String name; private String addre ...
git基本命令--tag, alias,
git tag: 列出标签在 Git 中列出已有的标签是非常简单直观的. 只需要输入 git tag: $ git tag v0. v1. 这个命令以字母顺序列出标签:但是它们出现的顺序并不重要. ...
UTF8,UTF16,UTF32,UTF16-LE,UTF16-BE,GBK 之间的转换
Unicode是Unicode.org制定的编码标准,目前得到了绝大部分操作系统和编程语言的支持.Unicode.org官方对Unicode的定义是:Unicode provides a unique ...

Reverse complement DNA

Reverse complement DNA的更多相关文章

随机推荐

热门专题