从细菌GFF文件提取CDS序列并转换为氨基酸序列

最近在上生物信息学原理，打算记录一些课上的作业。第一次作业：如题。

基本思路：

　　　　　　1.从GFF中读取CDS的起始终止位置以及正负链信息。GFF格式见http://blog.sina.com.cn/s/blog_8a4f556e0102yd3l.html.

　　　　　　2.利用起始/终止位置等信息从FNA文件中提取CDS序列。FNA格式见 http://boyun.sh.cn/bio/?p=1192.

　　　　　　3.利用CDS序列及密码子表得到FAA文件并输出。

注意：最需要注意的一点是：当GFF中CDS位于负链时，需要进行碱基互补配对，即反向互补(5'到3'配3'到5')。

下面给出python代码。python3.6

转载请保留出处

从细菌GFF文件提取CDS序列并转换为氨基酸序列

 #bioinformatics homework

 import re

 class CDS2AA():

     pa = re.compile(r'\s+')

     Pa = re.compile(r'[TCAG]TG')                 # 细菌起始密码子NTG

     def __init__(self,fna,gff):

         self.fna = fna

         self.gff = gff

     def N2M(self,sequence):

         hash = {'A': 'T', 'T': 'A', 'C': 'G', 'G': 'C'}

         sequence = ''.join([hash[i] for i in sequence])     #正负链转换

         return sequence[::-1]

     def Get_CDS_index(self,line):               #获取CDS信息

         line = self.pa.split(line)

         CDS = (line[0], line[3], line[4], line[6], line[7])  #这里字符串分割有的文件是会出问题的，所以要看文件格式而定

         return CDS

     def Seq2AA(self,sequence,hash):

         AA = hash[sequence[:3]]

         if self.Pa.match(sequence[:3]):

             AA = 'M'                                 #起始密码子

         for i in range(3, len(sequence) - 3, 3):

             AA += hash[sequence[i:i + 3]]

         return AA

     def CDS2AA(self):

         fn = open(self.fna, 'r')

         gf = open(self.gff,'r')

         r = open('AA_sequence.txt', 'w')

         w = open('CDS.txt', 'w')

         hash_AA = {}  # AA hash,sequence2AA

         with open('AA.txt', 'r') as f:                         #AA.txt 为密码子表

             for line in f:

                 line = line.strip()

                 if line:

                     line = self.pa.split(line)

                     hash_AA[line[0]] = line[1]      #AA hash

         hash_CDS = {}  # CDS hash,CDS2sequence

         for line in fn:

             line = line.strip()

             if line.startswith('>'):

                 A = self.pa.split(line)[0].replace('>', '')

                 hash_CDS[A] = ''

             else:

                 hash_CDS[A] += line

         fn.close()

         for line in gf:

             line = line.strip()

             if 'CDS' in line:

                 i = self.Get_CDS_index(line)

                 sequence = hash_CDS[i[0]][int(i[1]) - 1:int(i[2])]

                 sequence = sequence[int(i[4]):]                         # i[4] 表示密码子开始位置

                 if i[3] == '-':

                     sequence = self.N2M(sequence)

                 #w.write(i[0] + '\n' + sequence + '\n')

                 #后面是一堆正则，主要是对序列做注释的，看文件格式而定

                 s1 = self.pa.split(line)

                 p1 = re.compile(r'ID=(.*?);.*?Dbxref=(.*?);.*?Name=(.*?);.*?gbkey=(.*?);.*?product=(.*?);.*?protein_id=(.*?);')

                 p2 = re.compile(r'.*?product=(.*?);.*?protein_id=(.*?);')

                 m1 = re.findall(p1,line)

                 m2 = re.findall(p2,line)

                 s = '>'+s1[0]+'_'+m1[0][0]+'\tName='+m1[0][2]+'\tdbxref='+m1[0][1]+'\tprotein='+m1[0][4]+'\tprotein_id='+m1[0][5]+'\tgbkey='+m1[0][3]

                 w.write(s + '\n' + sequence + '\n')

                 p = '>' + s1[0]+'\tproduct:'+m2[0][0]+'\tproduct_id:'+m2[0][1]

                 AA = self.Seq2AA(sequence, hash_AA)

                 r.write(p + '\n' + AA + '\n')

         w.close()

         r.close()

 if __name__=='__main__':

     fna = 'GCA_000160075.2_ASM16007v2_genomic.fna'

     gff = 'GCA_000160075.2_ASM16007v2_genomic.gff'

     m = CDS2AA(fna,gff)

     m.CDS2AA()

出现的一些问题我会慢慢完善。后面的有意思作业题目会陆续上传。

从细菌GFF文件提取CDS序列并转换为氨基酸序列的更多相关文章

gff文件提取cds
#!/usr/bin/perl use strict; use warnings; ########input######## ];my $cut = &cut($gff);my %cut = ...
苹果IPSW文件提取软件
ipsw文件提取系统文件方法总结由于修改运营商文件造成我的有锁4S无法使用移动卡了,在网上苦寻一番还是没有结果,最后萌生了从固件中提取文件的想法,于是便开始在网上搜集资料,最后文件终于提取成功并 ...
用MT.exe将exe中的manifest文件提取出来和将manifest文件放入exe中
前一种方法是将manifest文件放入exe中,但是要记得需要在工程中设置这样的话exe中就不存在manifest了,在debug目录下就会看到相应的manifest文件.后者是将exe中的man ...
遍历文件创建XML对象方法 python解析XML文件提取坐标计存入文件
XML文件??? xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. 里面的标签都是可以随心所欲的按照他的命名规则来定义的,文件名为roi.xm ...
webpack4对第三方库css，项目全局css和vue内联css文件提取到单独的文件(二十二)
在讲解提取css之前,我们先看下项目的架构如下结构: ### 目录结构如下: demo1 # 工程名 | |--- dist # 打包后生成的目录文件 | |--- node_modules # 所有 ...
Ajax获取 Json文件提取数据
摘自 Ajax获取 Json文件提取数据 1. json文件内容(item.json) [ { "name":"张国立", "sex":&q ...
【c++基础】从json文件提取数据
前言标注数据导出文件是json格式的,也就是python的dict格式,需要读取标注结果,可以使用c++或者python,本文使用c++实现的. JsonCpp简介 JsonCpp是一种轻量级的数据 ...
browserify 不打包某些文件或者把公共文件提取出来教程
var gulp = require('gulp') var fs = require("fs") var babelify = require('babelify') var b ...
PFX文件提取公钥私钥
jks是JAVA的keytools证书工具支持的证书私钥格式.pfx是微软支持的私钥格式. cer是证书的公钥. 如果是你私人要备份证书的话记得一定要备份成jks或者pfx格式,否则恢复不了. 简单来 ...

随机推荐

Equals()和GetHashCode()方法深入了解
最近在看Jeffrey Richter的CLR Via C#,在看到GetHashCode()方法的时候,有一个地方不是特别明白,就是重写Equals()方法时为什么要把GetHashCode()方法 ...
JS实现单选按钮回显时页面效果出现，但选中单选框的值为空
最近做了很多前端页面的工作,遇到的一个感觉很头疼的问题在这里记一下: 经常用JS回显单选框,但是明明从页面效果上来看,单选框已经被选中了,可是却不能触发单选框的change事件,取值的时候用某种方法取 ...
UEP-弹窗给选中数据赋值
弹窗给选中数据赋值:t/** * 设置分派员 */ function onDispatchMan(){ var rec=ajaxgrid.getCheckedRecords(); if(rec.len ...
C#历年来最受欢迎功能
不定时更新翻译系列,此系列更新毫无时间规律,文笔菜翻译菜求各位看官老爷们轻喷,如觉得我翻译有问题请挪步原博客地址本博文翻译自: http://www.dotnetcurry.com/csharp/1 ...
[国嵌笔记][005][Linux命令详解]
用户管理类命令添加用户:useradd name 删除用户:userdel -r name "-r"表示删除对应用户的目录修改密码:passwd name 切换用户:su - ...
[学习OpenCV攻略][001][Ubuntu安装及配置]
root登入配置 1.sudo passwd root 2.su - root 3.vim /etc/lightdm/lightdm.conf [SeatDefaults] user-session= ...
MLlib--SVD算法
转载请标明出处http://www.cnblogs.com/haozhengfei/p/4db529fa9f4c042673c6dc8218251f6c.html SVD算法 1.1什么是SVD? ...
github网站介绍、并使用git命令管理github(详细描述)
本章学习: 1)熟悉github网站 2)通过git命令远程管理github, 3)git命令使用ssh key密钥无需输入账号密码 1.首先我们来熟悉github网站 1.1 注册github 登录 ...
深入剖析Java编程中的中文问题及建议最优解决方法
摘录自:http://fafeng.blogbus.com/logs/3062998.html http://www.blogbus.com/fafeng-logs/3063006.html 深入剖析 ...
详解javascript中的闭包
全局变量与局部变量在说闭包之前先说明全局变量与局部变量全局变量:变量声明时如果不使用 var 关键字,那么它就是一个全局变量,即便它在函数内定义. 局部变量:使用var关键字定义全局变量/局部变 ...

从细菌GFF文件提取CDS序列并转换为氨基酸序列

从细菌GFF文件提取CDS序列并转换为氨基酸序列的更多相关文章

随机推荐

热门专题