首页
Python
Java
IOS
Andorid
NodeJS
JavaScript
HTML5
pbh5tools bax转成fasta
2024-09-04
pacbio bax.h5文件处理及ccs计算
1.NCBI文件格式如下: 2.格式转换 (1) bas.h5 -> ccs source /share/nas2/genome/biosoft/smrtanalysis/2.3.0/smrtanalysis/current/etc/setup.sh bash5tools.py --readType subreads --outType fasta /path/to/bas.h5 (2) bax.h5 -> ccs 需要各个文件进行转换并进行合并 source /opt/smrtanalys
sed 's/AA/BB/' file # 将文件中的AA替换成BB,只替换一行中第一次出现的AA,替换后的结果输出到屏幕 sed 's/AA/BB/g' file # 将文件中的所有AA都替换成BB,替换后的结果输出到屏幕
生信人的自我修养:Linux命令速查手册 简佐义 四川大学 生物信息学硕士 科学求真 赢 10 万奖金 · 院士面对面 209 人赞同了该文章 许多人做生物信息学,要么不重视Linux,要么不知道怎么才能学好.翻开厚厚的一本教材,却不知道哪些是重点.Linux的核心知识有哪些,就像英语的核心词汇一样.这篇文章,给你答案. 只要几个小时,掌握生信所需的90%以上的Linux知识,让你一举攻克Linux难关.--生信老司机 man - 获得帮助 man ls # 许多Linux自带命令可以通过m
fastx_toolkit软件使用说明
高通量测序数据下机后的原始fastq文件,包含4行,其中一行为质量值,另外一行则为对应序列,我们都了解高通量的数据处理首先要进行质量控制,这些过程包括去接头.过滤低质量reads.去除低质量的3'和5'端,去除N较多的reads等,而针对高通量测序数据的质控软件也有很多,在这里给大家介绍一款"老牌子"的质控工具fastx_toolkit,它是一个软件包,包含了多个质控命令,下面我们就逐个讲解其参数及使用: 1. fastq_quality_converter [-h] [-a] [-n
Jellyfish详解
一.Jellyfish简介 JELLYFISH是CBCB(Center for Bioinformatics and Computational Biology)的Guillaume Marçais 和 Carl Kingsford 研发的一款计数 DNA 的 k-mers 的软件.该软件运用 Hash 表来存储数据,同时能多线程运行,速度快,内存消耗小.该软件只能运行在64位的Linux系统下.其文章于2011年发表在杂志 Bioinformatics 上. 二.Jellyfish安装 123
RepBaseRepeatMaskerEdition下载 | RepeatMasker
开源的生物信息世界居然有这么个需要注册才能下载的工具,开源世界不是怎么方便怎么来吗? 这个注册真的麻烦,这里上传了一个可以使用的版本. RepBaseRepeatMaskerEdition-20170127.tar.gz 想转成fasta可以用如下命令: awk -f awk.sh RMRBSeqs.embl > raw.fasta cat raw.fasta | cut -f1-9 -d' '| sed -e 's/ID //g' | sed -e 's/repeatmasker\;//g'|
如何下载一个物种的全部EST序列 | NCBI | 表达序列标签
EST:表达序列标签,expressed sequence tags . 顾名思义,很好理解,就是表达出来的序列,即从基因组DNA上表达出来的RNA,但是我们没法测序RNA,所以我们最终测的是表达序列的cDNA片段. “标签”:就是指这些序列可能比较短,但是可以用来标定一个物种. 常见下载方式有两种: 1. NCBI Web下载 https://www.ncbi.nlm.nih.gov/dbEST/ 打开,搜索你要的物种,比如 Camellia ,可以看到结果EST (50287). Web下载
seqtk 的安装和使用
seqtk 是一款针对fasta/fastq 文件进行处理的小程序,有很多的功能,速度很快,很方便: 源代码:https://github.com/lh3/seqtk 安装: git clone https://github.com/lh3/seqtk cd seqtk make 测试: seqtk seq : 用途: 1)将fastq 文件转换成fasta 文件 seqtk seq -A input.fastq > output.fasta input.fastq的内容: @NB001 AT
NCBI SRA数据预处理
SRA数据的的处理流程大概如下 一.SRA数据下载. NCBI 上存储的数据现在大都存储为SRA格式. 下载以后就是以SRA为后缀名. 这里可以通过三种方式下载SRA格式的数据. 1.通过http方式,2.通过ftp方式,3.通过Aspera Aspera可以在NCBI网站上下载. 参阅:http://www.ncbi.nlm.nih.gov/books/NBK47540/ 二.SRA格式转换成FASTQ格式 ./fastq-dump -A SRR058977 ~/project/yanzi/d
NPInter数据集的奇葩标号的出坑秘籍
这篇恐怕是有始以来命名最无奈标题了.需要写一下攻略. 业内人士都熟知NPInter,但是该数据库一直以来访问受限.不过终于能访问得到数据集. 但是蛋疼的是2.0的数据库id的命名方法实在奇葩,想了很多办法都难以攻破瓶颈.于是想到用3.0的数据库ID联查一下ncIdentifier. 终于ncIdentifier被验证可行,但是问题又来了:noncode数据库里找不到其中的一些序列. 先得读读核酸研究,搞明白命名方法.https://www.ncbi.nlm.nih.gov/pmc/article
miRNA预测工具miRDeep-P2
之前讲过预测植物miRNA的一款软件miR-PREFER, 今天在介绍一款软件miRDeep-p2, 也叫miRDP2 安装 在此之前,应安装一下软件 Bowite, Bowtie2, Vienna (RNA二级结构预测软件大礼包) 安装以上软件以后,在mirdp2下载最新版的miRDP2,以及ncRNA_rfam.tar.g 1 tar -xf miRDP2-v1.1.4.tar 2mv 1.1.4 miRDP2-v1.1.4 在TestData下载测试数据集--TestData.tar.gz
爬虫_python3_requests
Requests 网络资源(URLs)撷取套件 改善Urllib2的缺点,让使用者以最简单的方式获取网络资源 可以使用REST操作(POST,PUT,GET,DELETE)存取网络资源 import requests newsurl='http://www.sina.com.cn/' res=requests.get(newsurl) print(res)#<Response [200]> print(res.encoding)#单字节编码ISO-8859-1 res.encoding='ut
fasta/fastq格式解读
1)知识简介--------------------------------------------------------1.1)测序质量值 首先在了解fastq,fasta之前,了解一下什么是质量值.phred软件在对reads进行base calling的时候会给出每一个碱基的质量值,这个质量值的计算与测序预期错误率相关(estimated probability of error): Phred Quality Score Probability of incorrect bas
fastx tookit 操作fasta/fastq 文件 (1)
准备测试文件 test.fq, 包含4条fastq 文件,碱基编码格式为phred64; @FC12044_91407_8_200_406_24 NTTAGCTCCCACCTTAAGATGTTTA +FC12044_91407_8_200_406_24 SXXTXXXXXXXXXTTSUXSSXKTMQ @FC12044_91407_8_200_720_610 CTCTGTGGCACCCCATCCCTCACTT +FC12044_91407_8_200_720_610 OXXXXXXXXXXXX
Linux文件排序和FASTA文件操作
文件排序 seq: 产生一系列的数字; man seq查看其具体使用.我们这使用seq产生下游分析所用到的输入文件. # 产生从1到10的数,步长为1 $ seq 1 10 1 2 3 4 5 6 7 8 9 10 # 产生从1到10的数,步长为1,用空格分割 $ seq -s ' ' 1 10 1 2 3 4 5 6 7 8 9 10 # 产生从1到10的数,步长为2 # 如果有3个数,中间的数为步长,最后一个始终为最大值 $ seq -s ' ' 1 2 10 1 3 5 7 9 $ cat
perl 多fasta文件匹配,并提取匹配文件第一条序列
目标如题,有多个fasta文件和一个文件名列表,将文件名列表中包含的文件匹配出来并提取第一条序列合并成一个fa文件. 这个采用perl实现,用法和代码如下: 1 #!/usr/bin/perl -w 2 use strict; 3 4 sub usage{ 5 die "usage:perl $0 <fa.list> <Fasta_Dir> <merged.fa>\n",unless(@ARGV==3); 6 } 7 usage(); 8 9 ope
perl练习——FASTA格式文件中序列GC含量计算&perl数组排序如何获得下标或者键
一.关于程序: FUN:计算FASTA文件中每条序列中G和C的含量百分比,输出最大值及其id INPUT:FASTA格式文件 >seq1 CGCCGAGCGCTTGACCTCCAGCAAGACGCCGTCTGGCACATGCAACGAGCTGTAGCAGAC >seq2 ATGCCTAGAACGTTCGAGACTTCTCGGGTGCGGTAGAATTAGCCATTCGACCGACTTCCA GCATCTGCGAGCCGCCTGTTGATTGCATCCGCCGGGGACGCAACAAGGCAAG
PHP-生成缩略图和添加水印图-学习笔记
1.开始 在网站上传图片过程,经常用到缩略图功能.这里我自己写了一个图片处理的Image类,能生成缩略图,并且可以添加水印图. 2.如何生成缩略图 生成缩略图,关键的是如何计算缩放比率. 这里,我根据图片等比缩放,宽高的几种常见变化,得出一个算缩放比率算法是,使用新图(即缩略图)的宽高,分别除以原图的宽高,看哪个值大,就取它作为缩放比率: 缩放比率 = Max( { 新图高度 / 原图高度 , 新图宽度 / 原图宽度 } ) 也就是: If ( (新图高度 / 原图高度) > (新
【探索】机器指令翻译成 JavaScript
前言 前些时候研究脚本混淆时,打算先学一些「程序流程」相关的概念.为了不因太枯燥而放弃,决定想一个有趣的案例,可以边探索边学. 于是想了一个话题:尝试将机器指令 1:1 翻译 成 JavaScript,这样就能在浏览器中,直接运行等价的逻辑. 为了简单起见,这里选择古董级 CPU -- MOS 6502. 本系列陆续更新了 8 篇,前面几篇只是理论分析: 跳转处理 流程分割 动态跳转 指令变化 深度优化 原本只打算遐想一下,分析下可行性而已.不过,后来发现实现也不难,于是又补了两篇: 过渡语言
结巴分词3--基于汉字成词能力的HMM模型识别未登录词
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 算法简介 在 结巴分词2--基于前缀词典及动态规划实现分词 博文中,博主已经介绍了基于前缀词典和动态规划方法实现分词,但是如果没有前缀词典或者有些词不在前缀词典中,jieba分词一样可以分词,那么jieba分词是如何对未登录词进行分词呢?这就是本文将要讲解的,基于汉字成词能力的HMM模型识别未登录词. 利用HMM模型进行分词,主要是将分词问题视为一个序列标注(
DataTable 转换成 Json的3种方法
在web开发中,我们可能会有这样的需求,为了便于前台的JS的处理,我们需要将查询出的数据源格式比如:List<T>.DataTable转换为Json格式.特别在使用Extjs框架的时候,Ajax异步请求的数据格式就是Json.鉴于此,我今天来分享将DataTable 转换成 Json的3种方法.换句话说如何在ASP.NET将一个DataTable序列化为 Json数组.或者如何从一个DataTable返回一个Json字符串.这篇文章将采用StringBuilder,JavaScriptSeri
热门专题
html好看的多级菜单
bom和dom的实验目的和要求
bashrc PS1 显示git分支
js 元素不跟随容器
给定不同面额的硬币和一个总金额
激光雷达pcap包解析
gnuplot pip安装
pyqt5和tkinter
nginx配置访问tomcat
t分布怎么转化为正态分布
svn .svn文件夹太大
nginx 重定向配置
opengl changeSize 保持图像
WebApiTestClient安装配置
vscode python环境
vs的cs文件中定义json字符串
javascript模拟点击div
android测试机推荐
springboot中mysql8.0查不到表的主键
数据怎么上传到prometheus