首页
Python
Java
IOS
Andorid
NodeJS
JavaScript
HTML5
python3 反向互补
2024-08-23
python实现DNA序列字符串转换,互补链,反向链,反向互补链
在生物信息学分析中,经常对DNA序列进行一系列操作,包括子序列截取,互补序列获取,反向序列获取,反向互补序列获取.在python语言中,可编写如下函数完成这些简单功能. 子序列截取 python中对序列截取使用字符串切片功能就可以完成,例如: >>> seq="ATGATATAGtatatatgCAAGAGg" >>> subseq = seq[1:6] >>> subseq "TGATA" 注意,切片操作是“0
mothur reverse.seqs 将序列反向互补
reverse.seqs 命令可以得到输入序列的反向互补序列 用法: mothur "#reverse.seqs(fasta = "input.fasta")" input.fasta 的内容如下: >1 AGCAGCATCGACGACGACGACTC 运行成功后,会输出一个 input.rc.fasta 文件,该文件中就是input.fasta 的反向互补序列 input.rc.fasta 的内容如下: >1 GAGTCGTCGTCGTCGATGCTG
Python3 反向传播神经网络-Min-Batch(根据吴恩达课程讲解编写)
# -*- coding: utf-8 -*- """ Created on Sat Jan 20 13:47:54 2018 @author: markli """ import numpy as np; import random; def tanh(x): return np.tanh(x); def tanh_derivative(x): return 1.0 - np.tanh(x)*np.tanh(x); def logistic(x
C语言 序列反向互补函数
1 static char *revers(char *s) 2 { 3 int len=strlen(s); 4 char *s2=(char *)malloc(sizeof(char)*(len+1)); 5 for(int i=len-1; i>=0; i--) 6 { 7 switch (s[i]) 8 { 9 case 'A': 10 s2[len-1-i] = 'T'; break; 11 case 'T': 12 s2[len-1-i] = 'A'; break; 13 case
从细菌GFF文件提取CDS序列并转换为氨基酸序列
最近在上生物信息学原理,打算记录一些课上的作业.第一次作业:如题. 基本思路: 1.从GFF中读取CDS的起始终止位置以及正负链信息.GFF格式见http://blog.sina.com.cn/s/blog_8a4f556e0102yd3l.html. 2.利用起始/终止位置等信息从FNA文件中提取CDS序列.FNA格式见 http://boyun.sh.cn/bio/?p=1192. 3.利用CDS序列及密码子表得到FAA文件并输出. 注意:最需要注意的一点是:当GFF中CDS位于负链时,需要
为什么Erlang比C慢那么多倍?
Erlang 一直以慢“著称”,本文就来看看 Erlang 慢在什么地方,为什么比实现同样功能的 C 语言程序慢那么多倍.Erlang 作为一种虚拟机解释的语言,慢是当然的.不过本文从细节上分析为什么 Erlang 这种虚拟机语言会慢. 本文从 shootout benchmark[注1]中选择了一个 Erlang 和 C 语言单核性能差距最大的例子——reverse complement[注2].根据 shootout 网站上给出的使用某款 64 位处理器单个核心的 benchmark 数据,
bam/sam格式说明
在SAM输出的结果中每一行都包括十二项通过Tab分隔,从左到右分别是: 1 序列的名字(Read的名字) 2 概括出一个合适的标记,各个数字分别代表 1 序列是一对序列中的一个 2 比对结果是一个pair-end比对的末端 4 没有找到位点 8 这个序列是pair中的一个但是没有找到位点 16 在这个比对上的位点,序列与参考序列反向互补 32 这个序列在pair-end中的的mate序列与参考序列反响互补 64 序列是 mate 1 128 序列是 m
Reverse complement DNA
用法:python rev_comp.py input.fa out.fa 输入文件为 fasta 格式文件,若输入文件中序列的 header 有 '+' 或 '-' 号标记正负链,则带有 '+' 的序列保持不变,带有 '-' 的序列反向互补: 若 header 没有 '+' 或 '-' 号标记, 则默认按反义链处理. cat input.fa >seq1 + AGATAGATGAATT >seq2 - GATAGAGAATAAA AGATATAGATAGA >seq3 GAATATAT
linux 的一些脑洞操作
把当前文件夹的文件名用","连接成一行,或者将多行转变为一行 ls | paste -s -d "," # -s 选项将输入进行一次性粘贴 ls | xargs | sed 's/ /,/g' #xargs 将输入作为参数(空格分隔)传入 ls | awk '{printf "%s,",$0}' 将行逆序输出 sed '1!G;h;$!d''file # 1!G 第一行不执行G命令,从第二行开始执行:$!d 最后一行不删除:第一行自动存入模式空间
bam文件softclip , hardclip ,markduplicate的探究
测序产生的bam文件,有一些reads在cigar值里显示存在softclip,有一些存在hardclip,究竟softclip和hardclip是怎么判断出来的,还有是怎么标记duplicate的reads的,我怀着这些问题进行了探究. 测试步骤 编辑两个bed文件,分别含有我们需要的read1和read2位置,这里每个文件包含两条read1或者两条read2,read1.read2一对作为原始的reads(序列名primer_pri),另一对作为截取的材料(这里取序列名为other) 使
生物结构变异分析软件meerkat 0.189使用笔记(二)
一. 运行meerkat 前面已经依序安装了meerkat 的环境和meerkat,运行了预处理一步,在相对应的bam文件目录下生成了大批文件,因此,当要用meerkat处理某个bam文件时,应先将该bam文件移动到专有的一个文件夹,manual中也建议这样用. 预处理生成的文件包括: 黑名单文件.gz isinfo文件:包括插入大小信息 pdf文件:插入大小的分布图,unmapped reads长度的分布图,softclip reads长度分布图 pre.log文件:日志文件,包括输入的参数,
生物信息学工具--bowtie&bowtie2
Bowtie和Bowtie2使用 [怪毛匠子整理] Source URL: http://www.bbioo.com/lifesciences/40-112837-1.html Bowtie和Bowtie2使用 碱基 序列 种子 前导链 错配 基因组 末端 标题: Bowtie和Bowtie2使用 摘要: [Bowtie和Bowtie2使用]bowtie 比对http: bowtie-bio sourceforge net index shtmlhttp: www ncrna net bowti
SAM文件格式
帮朋友处理sam各式文件,又记不住sam各式每列代表的什么内容,干脆转个帖子留着以后查询. 在SAM输出的结果中每一行都包括十二项通过Tab分隔,从左到右分别是: 1 序列的名字 2 概括出一个合适的标记,各个数字分别代表 1? 序列是一对序列中的一个 2? 比对结果是一个pair-end比对的末端 4? 没有找到位点 8? 这个序列是pair中的一个但是没有找到位点 16? 在这个比对上的位点,序列与参考序列反向互补 32? 这个序列在pair-end中的的mate序列与参考序列反响互补 64
paired-end reads的拼接
paired-end reads的拼接 发表于2012 年 8 月 13 日 Velvet中paired-end reads的拼接 文件格式 要将两头测序(paired-end)的reads放到同一个文件当中,fastq格式,必须成对的依次放置reads [interleaved],velvet是成对读取的,另外Velvet假设来自两头read是反向互补的,如果不是,需要用反向互补序列来代替第一个read.Fastq格式中paired-end reads的编号相同,但是其有/1或者/2的后缀,通
biopython
转载Part 2 Biopython的重头戏-生物学中序列的处理 Biopyhton的Seq和Python中标准字符串有两大重要的不同之处:首先,他们的处理方法不同.Seq适用于很多不同字符串的用的方法,如translate(),但是又有所不同.而且Biopython中加入了不同字符处理中没有的方法,如reverse_complement(); 第二,Seq模块中加入了重要的特性alphabet,这个对象可以解释序列代表的意思,即这个序列是一个DNA序列还是蛋白质序等. 是alphabet对象
QIIME1 聚OTU
qiime 本身不提供聚类的算法,它只是对其他聚otu软件的封装 根据聚类软件的算法,分成了3个方向: de novo: pick_de_novo_otus.py closed-reference: pick_closed_reference_otus.py open-reference OTU: pick_open_reference_otus.py 不同算法的优缺点: de novo: pick_de_novo_otus.py 优
FrameBot 软件安装测试
背景: FrameBot 用于纠正DNA序列中的插入和缺失,然后正确的翻译成蛋白质序列,frameBot 工具集成在RDPTools 中 源代码: https://github.com/rdpstaff/Framebot 安装: wget wget https://github.com/rdpstaff/RDPTools/archive/2.0.2.tar.gz 测试: java -
bam/sam格式说明--转载
在SAM输出的结果中每一行都包括十二项通过Tab分隔,从左到右分别是: 1 序列的名字(Read的名字) 2 概括出一个合适的标记,各个数字分别代表 1 序列是一对序列中的一个 2 比对结果是一个pair-end比对的末端 4 没有找到位点 8 这个序列是pair中的一个但是没有找到位点 16 在这个比对上的位点,序列与参考序列反向互补 32 这个序列在pair-end中的的mate序列与参考序列反响互补 64 序列是 mate 1 128 序列是 m
SNP问题大集锦
SNP问题大集锦 [2017-01-19] 最近小编对基因检测很感兴趣,也跟风去测了一下,这一测不要紧,吓得小编几天没睡着觉,这不,检测报告上称小编的减肥能力弱,虽然小编一家都是胖子,唯有小编一个瘦子,原本以为是基因发生了突变,然并卵,是未到时候...... 难过之后小编恢复了理智,凭什么你说小编减肥能力弱,小编表示不服,仔细读了报告后发现,原来是这些SNP位点搞的鬼,又是SNP! 话说小编最近收到许多关于SNP的问题,现整理如下: 1.什么是SNP? 单核苷酸多态性(single
为什么二代测序的原始数据中会出现Read重复现象?
为什么二代测序的原始数据中会出现Read重复现象? 要搞清楚这个read重复(duplicate)的问题,我想我们需要从NGS数据的产出过程说起,具体来说如下: 基因组DNA提取: DNA随机打断,最常用的是超声打断: 对被打断的DNA片段进行末端修复(通常是3'加A),然后在两端加接头,选择特定长度的片段文库进行PCR扩增(通过PCR的扩增会选!择!性!地提高加上了接头的文库分子数量): 文库上机与测序芯片(Flowcell)上的引物结合,经过桥式PCR扩增,在芯片上形成测序所需的cluste
NGS的duplicate的问题
NGS的duplicate的问题 duplicate的三个问题: 一.什么是duplicate? 二.duplicate来源? 三.既然PCR将1个reads复制得到成百上千copies,那为什么二代数据duplicate rate 一般才10+%? 什么是 duplicate? 摘自罗俊峰博士,阅尔基因研发总监陈云地博士,阅尔基因CTO http://www.biotrainee.com/thread-1382-1-1.html 一.什么是Duplicated Reads1谈到NGS数据
热门专题
由于一个或多个对象访问此列,alter table失败
echart 环形图二级标题
利用shell脚本计算圆柱体体积
为什么装Tomcat9会有the superclass
获取json对象的某一条数据
java 读取并解析json格式文件
Xamarin的xaml怎么预览
ipa修改二进制代码文件
safari设置禁止访问网页
appscan使用外部浏览器不记录
微信小程序 云服务器 Flask框架开发
matlab disk的作用
.NET Core 3.1安装显示设置失败
Verilog 如何检测生成的电路中是否有锁存器
pycharm 远程调试开发doker odoo
TClientDataSet 返回xml串
virtualbox 比较快
linux安装kkfileview
arcpy遍历数据库
tbps等于多少gbps