从细菌GFF文件提取CDS序列并转换为氨基酸序列
最近在上生物信息学原理,打算记录一些课上的作业。第一次作业:如题。
基本思路:
1.从GFF中读取CDS的起始终止位置以及正负链信息。GFF格式见http://blog.sina.com.cn/s/blog_8a4f556e0102yd3l.html.
2.利用起始/终止位置等信息从FNA文件中提取CDS序列。FNA格式见 http://boyun.sh.cn/bio/?p=1192.
3.利用CDS序列及密码子表得到FAA文件并输出。
注意:最需要注意的一点是:当GFF中CDS位于负链时,需要进行碱基互补配对,即反向互补(5'到3'配3'到5')。
下面给出python代码。python3.6
转载请保留出处
#bioinformatics homework
import re
class CDS2AA():
pa = re.compile(r'\s+')
Pa = re.compile(r'[TCAG]TG') # 细菌起始密码子NTG
def __init__(self,fna,gff):
self.fna = fna
self.gff = gff
def N2M(self,sequence):
hash = {'A': 'T', 'T': 'A', 'C': 'G', 'G': 'C'}
sequence = ''.join([hash[i] for i in sequence]) #正负链转换
return sequence[::-1]
def Get_CDS_index(self,line): #获取CDS信息
line = self.pa.split(line)
CDS = (line[0], line[3], line[4], line[6], line[7]) #这里字符串分割有的文件是会出问题的,所以要看文件格式而定
return CDS
def Seq2AA(self,sequence,hash):
AA = hash[sequence[:3]]
if self.Pa.match(sequence[:3]):
AA = 'M' #起始密码子
for i in range(3, len(sequence) - 3, 3):
AA += hash[sequence[i:i + 3]]
return AA
def CDS2AA(self):
fn = open(self.fna, 'r')
gf = open(self.gff,'r')
r = open('AA_sequence.txt', 'w')
w = open('CDS.txt', 'w')
hash_AA = {} # AA hash,sequence2AA
with open('AA.txt', 'r') as f: #AA.txt 为密码子表
for line in f:
line = line.strip()
if line:
line = self.pa.split(line)
hash_AA[line[0]] = line[1] #AA hash
hash_CDS = {} # CDS hash,CDS2sequence
for line in fn:
line = line.strip()
if line.startswith('>'):
A = self.pa.split(line)[0].replace('>', '')
hash_CDS[A] = ''
else:
hash_CDS[A] += line
fn.close()
for line in gf:
line = line.strip()
if 'CDS' in line:
i = self.Get_CDS_index(line)
sequence = hash_CDS[i[0]][int(i[1]) - 1:int(i[2])]
sequence = sequence[int(i[4]):] # i[4] 表示密码子开始位置
if i[3] == '-':
sequence = self.N2M(sequence)
#w.write(i[0] + '\n' + sequence + '\n')
#后面是一堆正则,主要是对序列做注释的,看文件格式而定 s1 = self.pa.split(line)
p1 = re.compile(r'ID=(.*?);.*?Dbxref=(.*?);.*?Name=(.*?);.*?gbkey=(.*?);.*?product=(.*?);.*?protein_id=(.*?);')
p2 = re.compile(r'.*?product=(.*?);.*?protein_id=(.*?);')
m1 = re.findall(p1,line)
m2 = re.findall(p2,line)
s = '>'+s1[0]+'_'+m1[0][0]+'\tName='+m1[0][2]+'\tdbxref='+m1[0][1]+'\tprotein='+m1[0][4]+'\tprotein_id='+m1[0][5]+'\tgbkey='+m1[0][3]
w.write(s + '\n' + sequence + '\n')
p = '>' + s1[0]+'\tproduct:'+m2[0][0]+'\tproduct_id:'+m2[0][1]
AA = self.Seq2AA(sequence, hash_AA)
r.write(p + '\n' + AA + '\n')
w.close()
r.close() if __name__=='__main__':
fna = 'GCA_000160075.2_ASM16007v2_genomic.fna'
gff = 'GCA_000160075.2_ASM16007v2_genomic.gff'
m = CDS2AA(fna,gff)
m.CDS2AA()
出现的一些问题我会慢慢完善。后面的有意思作业题目会陆续上传。
从细菌GFF文件提取CDS序列并转换为氨基酸序列的更多相关文章
- gff文件提取cds
#!/usr/bin/perl use strict; use warnings; ########input######## ];my $cut = &cut($gff);my %cut = ...
- 苹果IPSW文件提取软件
ipsw文件 提取系统文件 方法总结 由于修改运营商文件造成我的有锁4S无法使用移动卡了,在网上苦寻一番还是没有结果,最后萌生了从固件中提取文件的想法,于是便开始在网上搜集资料,最后文件终于提取成功并 ...
- 用MT.exe将exe中的manifest文件提取出来和将manifest文件放入exe中
前一种方法是将manifest文件放入exe中,但是要记得需要在工程中设置 这样的话exe中就不存在manifest了,在debug目录下就会看到相应的manifest文件.后者是将exe中的man ...
- 遍历文件 创建XML对象 方法 python解析XML文件 提取坐标计存入文件
XML文件??? xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. 里面的标签都是可以随心所欲的按照他的命名规则来定义的,文件名为roi.xm ...
- webpack4对第三方库css,项目全局css和vue内联css文件提取到单独的文件(二十二)
在讲解提取css之前,我们先看下项目的架构如下结构: ### 目录结构如下: demo1 # 工程名 | |--- dist # 打包后生成的目录文件 | |--- node_modules # 所有 ...
- Ajax获取 Json文件提取数据
摘自 Ajax获取 Json文件提取数据 1. json文件内容(item.json) [ { "name":"张国立", "sex":&q ...
- 【c++基础】从json文件提取数据
前言 标注数据导出文件是json格式的,也就是python的dict格式,需要读取标注结果,可以使用c++或者python,本文使用c++实现的. JsonCpp简介 JsonCpp是一种轻量级的数据 ...
- browserify 不打包某些文件或者把公共文件提取出来教程
var gulp = require('gulp') var fs = require("fs") var babelify = require('babelify') var b ...
- PFX文件提取公钥私钥
jks是JAVA的keytools证书工具支持的证书私钥格式.pfx是微软支持的私钥格式. cer是证书的公钥. 如果是你私人要备份证书的话记得一定要备份成jks或者pfx格式,否则恢复不了. 简单来 ...
随机推荐
- ZOJ 1203 Swordfish
题目: There exists a world within our world A world beneath what we call cyberspace. A world protected ...
- 算法-java代码实现计数排序
计数排序 第10节 计数排序练习题 对于一个int数组,请编写一个计数排序算法,对数组元素排序. 给定一个int数组A及数组的大小n,请返回排序后的数组. 测试样例: [1,2,3,5,2,3], ...
- 从零开始学习前端开发 — 15、CSS3过渡、动画
一.css3过渡 语法: transition: 过渡属性 过渡时间 延迟时间 过渡方式; 1.过渡属性(transition-property) 取值:all 所有发生变化的css属性都添加过渡 e ...
- 立即掌握SSM框架的要诀
ssm框架的总结: 1. 首先是POM.xml 文件的配置,他的作用主要是添加依懒的关系和自动下载相关的包. 2.对jdbc.properties进行配置 ,作用就是连接你的数据库的配置. 3.对接着 ...
- GBK,UTF8是什么?有什么区别,做网站选择哪种好?
GBK包含全部中文字符: UTF-8则包含全世界所有国家需要用到的字符. GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准(好像还不是国家标准) UTF-8编码的文字可以在各国各种支持 ...
- 【开发技术】常用正则表达式大全!(例如:匹配中文、匹配html)
匹配中文字符的正则表达式: [u4e00-u9fa5] 评注:匹配中文还真是个头疼的事,有了这个表达式就好办了 匹配双字节字符(包括汉字在内):[^x00-xff] 评注:可以用来计算字符串的长度 ...
- 【绘图技巧】ps快捷键的用法
Ctrl+N:新建画布 Ctrl+O:打开对话框 F: 在三种画布中切换 Z:缩放工具(临时) Ctrl+0:满画面显示 空格:切换到手(临时) Ctrl+":网 ...
- Hive字段中文注释乱码解决办法
Hive字段中文乱码,如执行 show create table xxx 时,表级别注释.字段级别注释发现有乱码现象, 一般都是由hive 元数据库的配置不当造成的. 此时可按如下步骤进行配置调整: ...
- ASPNET5 依赖注入(Dependency Injection)
依赖注入一直是asp.net web框架(Web API,SignalR and MVC)中不可或缺的一部分,但是在以前,这个框架都是各自升级,都有各自的依赖注入实现方式,即使Katana项目想通过O ...
- 服务器大量的fin_wait1 状态长时间存在原因分析
有一台服务器,出现很多的fin_wait1状态的socket. 环境: [root@localhost ~]# uname -aLinux localhost.localdomain 2.6.32-3 ...