python3 反向互补

python实现DNA序列字符串转换，互补链，反向链，反向互补链

在生物信息学分析中,经常对DNA序列进行一系列操作,包括子序列截取,互补序列获取,反向序列获取,反向互补序列获取.在python语言中,可编写如下函数完成这些简单功能. 子序列截取 python中对序列截取使用字符串切片功能就可以完成,例如: >>> seq="ATGATATAGtatatatgCAAGAGg" >>> subseq = seq[1:6] >>> subseq "TGATA" 注意,切片操作是“0

mothur reverse.seqs 将序列反向互补

reverse.seqs 命令可以得到输入序列的反向互补序列用法: mothur "#reverse.seqs(fasta = "input.fasta")" input.fasta 的内容如下: >1 AGCAGCATCGACGACGACGACTC 运行成功后,会输出一个 input.rc.fasta 文件,该文件中就是input.fasta 的反向互补序列 input.rc.fasta 的内容如下: >1 GAGTCGTCGTCGTCGATGCTG

Python3 反向传播神经网络-Min-Batch(根据吴恩达课程讲解编写)

# -*- coding: utf-8 -*- """ Created on Sat Jan 20 13:47:54 2018 @author: markli """ import numpy as np; import random; def tanh(x): return np.tanh(x); def tanh_derivative(x): return 1.0 - np.tanh(x)*np.tanh(x); def logistic(x

C语言序列反向互补函数

1 static char *revers(char *s) 2 { 3 int len=strlen(s); 4 char *s2=(char *)malloc(sizeof(char)*(len+1)); 5 for(int i=len-1; i>=0; i--) 6 { 7 switch (s[i]) 8 { 9 case 'A': 10 s2[len-1-i] = 'T'; break; 11 case 'T': 12 s2[len-1-i] = 'A'; break; 13 case

从细菌GFF文件提取CDS序列并转换为氨基酸序列

最近在上生物信息学原理,打算记录一些课上的作业.第一次作业:如题. 基本思路: 1.从GFF中读取CDS的起始终止位置以及正负链信息.GFF格式见http://blog.sina.com.cn/s/blog_8a4f556e0102yd3l.html. 2.利用起始/终止位置等信息从FNA文件中提取CDS序列.FNA格式见 http://boyun.sh.cn/bio/?p=1192. 3.利用CDS序列及密码子表得到FAA文件并输出. 注意:最需要注意的一点是:当GFF中CDS位于负链时,需要

为什么Erlang比C慢那么多倍？

Erlang 一直以慢“著称”,本文就来看看 Erlang 慢在什么地方,为什么比实现同样功能的 C 语言程序慢那么多倍.Erlang 作为一种虚拟机解释的语言,慢是当然的.不过本文从细节上分析为什么 Erlang 这种虚拟机语言会慢. 本文从 shootout benchmark[注1]中选择了一个 Erlang 和 C 语言单核性能差距最大的例子——reverse complement[注2].根据 shootout 网站上给出的使用某款 64 位处理器单个核心的 benchmark 数据,

bam/sam格式说明

在SAM输出的结果中每一行都包括十二项通过Tab分隔,从左到右分别是: 1 序列的名字(Read的名字) 2 概括出一个合适的标记,各个数字分别代表 1 序列是一对序列中的一个 2 比对结果是一个pair-end比对的末端 4 没有找到位点 8 这个序列是pair中的一个但是没有找到位点 16 在这个比对上的位点,序列与参考序列反向互补 32 这个序列在pair-end中的的mate序列与参考序列反响互补 64 序列是 mate 1 128 序列是 m

Reverse complement DNA

用法:python rev_comp.py input.fa out.fa 输入文件为 fasta 格式文件,若输入文件中序列的 header 有 '+' 或 '-' 号标记正负链,则带有 '+' 的序列保持不变,带有 '-' 的序列反向互补: 若 header 没有 '+' 或 '-' 号标记, 则默认按反义链处理. cat input.fa >seq1 + AGATAGATGAATT >seq2 - GATAGAGAATAAA AGATATAGATAGA >seq3 GAATATAT

linux 的一些脑洞操作

把当前文件夹的文件名用","连接成一行,或者将多行转变为一行 ls | paste -s -d "," # -s 选项将输入进行一次性粘贴 ls | xargs | sed 's/ /,/g' #xargs 将输入作为参数(空格分隔)传入 ls | awk '{printf "%s,",$0}' 将行逆序输出 sed '1!G;h;$!d''file # 1!G 第一行不执行G命令,从第二行开始执行:$!d 最后一行不删除:第一行自动存入模式空间

bam文件softclip ， hardclip ，markduplicate的探究

测序产生的bam文件,有一些reads在cigar值里显示存在softclip,有一些存在hardclip,究竟softclip和hardclip是怎么判断出来的,还有是怎么标记duplicate的reads的,我怀着这些问题进行了探究. 测试步骤编辑两个bed文件,分别含有我们需要的read1和read2位置,这里每个文件包含两条read1或者两条read2,read1.read2一对作为原始的reads(序列名primer_pri),另一对作为截取的材料(这里取序列名为other) 使

生物结构变异分析软件meerkat 0.189使用笔记（二）

一. 运行meerkat 前面已经依序安装了meerkat 的环境和meerkat,运行了预处理一步,在相对应的bam文件目录下生成了大批文件,因此,当要用meerkat处理某个bam文件时,应先将该bam文件移动到专有的一个文件夹,manual中也建议这样用. 预处理生成的文件包括: 黑名单文件.gz isinfo文件:包括插入大小信息 pdf文件:插入大小的分布图,unmapped reads长度的分布图,softclip reads长度分布图 pre.log文件:日志文件,包括输入的参数,

生物信息学工具--bowtie&bowtie2

Bowtie和Bowtie2使用 [怪毛匠子整理] Source URL: http://www.bbioo.com/lifesciences/40-112837-1.html Bowtie和Bowtie2使用碱基序列种子前导链错配基因组末端标题: Bowtie和Bowtie2使用摘要: [Bowtie和Bowtie2使用]bowtie 比对http: bowtie-bio sourceforge net index shtmlhttp: www ncrna net bowti

SAM文件格式

帮朋友处理sam各式文件,又记不住sam各式每列代表的什么内容,干脆转个帖子留着以后查询. 在SAM输出的结果中每一行都包括十二项通过Tab分隔,从左到右分别是: 1 序列的名字 2 概括出一个合适的标记,各个数字分别代表 1? 序列是一对序列中的一个 2? 比对结果是一个pair-end比对的末端 4? 没有找到位点 8? 这个序列是pair中的一个但是没有找到位点 16? 在这个比对上的位点,序列与参考序列反向互补 32? 这个序列在pair-end中的的mate序列与参考序列反响互补 64

paired-end reads的拼接

paired-end reads的拼接发表于2012 年 8 月 13 日 Velvet中paired-end reads的拼接文件格式要将两头测序(paired-end)的reads放到同一个文件当中,fastq格式,必须成对的依次放置reads [interleaved],velvet是成对读取的,另外Velvet假设来自两头read是反向互补的,如果不是,需要用反向互补序列来代替第一个read.Fastq格式中paired-end reads的编号相同,但是其有/1或者/2的后缀,通

biopython

转载Part 2 Biopython的重头戏-生物学中序列的处理 Biopyhton的Seq和Python中标准字符串有两大重要的不同之处:首先,他们的处理方法不同.Seq适用于很多不同字符串的用的方法,如translate(),但是又有所不同.而且Biopython中加入了不同字符处理中没有的方法,如reverse_complement(); 第二,Seq模块中加入了重要的特性alphabet,这个对象可以解释序列代表的意思,即这个序列是一个DNA序列还是蛋白质序等. 是alphabet对象

QIIME1 聚OTU

qiime 本身不提供聚类的算法,它只是对其他聚otu软件的封装根据聚类软件的算法,分成了3个方向: de novo: pick_de_novo_otus.py closed-reference: pick_closed_reference_otus.py open-reference OTU: pick_open_reference_otus.py 不同算法的优缺点: de novo: pick_de_novo_otus.py 优

FrameBot 软件安装测试

背景: FrameBot 用于纠正DNA序列中的插入和缺失,然后正确的翻译成蛋白质序列,frameBot 工具集成在RDPTools 中源代码: https://github.com/rdpstaff/Framebot 安装: wget wget https://github.com/rdpstaff/RDPTools/archive/2.0.2.tar.gz 测试: java -

bam/sam格式说明--转载

在SAM输出的结果中每一行都包括十二项通过Tab分隔,从左到右分别是: 1 序列的名字(Read的名字) 2 概括出一个合适的标记,各个数字分别代表 1 序列是一对序列中的一个 2 比对结果是一个pair-end比对的末端 4 没有找到位点 8 这个序列是pair中的一个但是没有找到位点 16 在这个比对上的位点,序列与参考序列反向互补 32 这个序列在pair-end中的的mate序列与参考序列反响互补 64 序列是 mate 1 128 序列是 m

SNP问题大集锦

SNP问题大集锦 [2017-01-19] 最近小编对基因检测很感兴趣,也跟风去测了一下,这一测不要紧,吓得小编几天没睡着觉,这不,检测报告上称小编的减肥能力弱,虽然小编一家都是胖子,唯有小编一个瘦子,原本以为是基因发生了突变,然并卵,是未到时候...... 难过之后小编恢复了理智,凭什么你说小编减肥能力弱,小编表示不服,仔细读了报告后发现,原来是这些SNP位点搞的鬼,又是SNP! 话说小编最近收到许多关于SNP的问题,现整理如下: 1.什么是SNP? 单核苷酸多态性(single

为什么二代测序的原始数据中会出现Read重复现象？

为什么二代测序的原始数据中会出现Read重复现象? 要搞清楚这个read重复(duplicate)的问题,我想我们需要从NGS数据的产出过程说起,具体来说如下: 基因组DNA提取: DNA随机打断,最常用的是超声打断: 对被打断的DNA片段进行末端修复(通常是3'加A),然后在两端加接头,选择特定长度的片段文库进行PCR扩增(通过PCR的扩增会选!择!性!地提高加上了接头的文库分子数量): 文库上机与测序芯片(Flowcell)上的引物结合,经过桥式PCR扩增,在芯片上形成测序所需的cluste

NGS的duplicate的问题

NGS的duplicate的问题 duplicate的三个问题: 一.什么是duplicate? 二.duplicate来源? 三.既然PCR将1个reads复制得到成百上千copies,那为什么二代数据duplicate rate 一般才10+%? 什么是 duplicate? 摘自罗俊峰博士,阅尔基因研发总监陈云地博士,阅尔基因CTO http://www.biotrainee.com/thread-1382-1-1.html 一.什么是Duplicated Reads1谈到NGS数据

python3 反向互补

热门专题