首页
Python
Java
IOS
Andorid
NodeJS
JavaScript
HTML5
pbh5tools bax转成fasta
2024-09-04
pacbio bax.h5文件处理及ccs计算
1.NCBI文件格式如下: 2.格式转换 (1) bas.h5 -> ccs source /share/nas2/genome/biosoft/smrtanalysis/2.3.0/smrtanalysis/current/etc/setup.sh bash5tools.py --readType subreads --outType fasta /path/to/bas.h5 (2) bax.h5 -> ccs 需要各个文件进行转换并进行合并 source /opt/smrtanalys
sed 's/AA/BB/' file # 将文件中的AA替换成BB,只替换一行中第一次出现的AA,替换后的结果输出到屏幕 sed 's/AA/BB/g' file # 将文件中的所有AA都替换成BB,替换后的结果输出到屏幕
生信人的自我修养:Linux命令速查手册 简佐义 四川大学 生物信息学硕士 科学求真 赢 10 万奖金 · 院士面对面 209 人赞同了该文章 许多人做生物信息学,要么不重视Linux,要么不知道怎么才能学好.翻开厚厚的一本教材,却不知道哪些是重点.Linux的核心知识有哪些,就像英语的核心词汇一样.这篇文章,给你答案. 只要几个小时,掌握生信所需的90%以上的Linux知识,让你一举攻克Linux难关.--生信老司机 man - 获得帮助 man ls # 许多Linux自带命令可以通过m
fastx_toolkit软件使用说明
高通量测序数据下机后的原始fastq文件,包含4行,其中一行为质量值,另外一行则为对应序列,我们都了解高通量的数据处理首先要进行质量控制,这些过程包括去接头.过滤低质量reads.去除低质量的3'和5'端,去除N较多的reads等,而针对高通量测序数据的质控软件也有很多,在这里给大家介绍一款"老牌子"的质控工具fastx_toolkit,它是一个软件包,包含了多个质控命令,下面我们就逐个讲解其参数及使用: 1. fastq_quality_converter [-h] [-a] [-n
Jellyfish详解
一.Jellyfish简介 JELLYFISH是CBCB(Center for Bioinformatics and Computational Biology)的Guillaume Marçais 和 Carl Kingsford 研发的一款计数 DNA 的 k-mers 的软件.该软件运用 Hash 表来存储数据,同时能多线程运行,速度快,内存消耗小.该软件只能运行在64位的Linux系统下.其文章于2011年发表在杂志 Bioinformatics 上. 二.Jellyfish安装 123
RepBaseRepeatMaskerEdition下载 | RepeatMasker
开源的生物信息世界居然有这么个需要注册才能下载的工具,开源世界不是怎么方便怎么来吗? 这个注册真的麻烦,这里上传了一个可以使用的版本. RepBaseRepeatMaskerEdition-20170127.tar.gz 想转成fasta可以用如下命令: awk -f awk.sh RMRBSeqs.embl > raw.fasta cat raw.fasta | cut -f1-9 -d' '| sed -e 's/ID //g' | sed -e 's/repeatmasker\;//g'|
如何下载一个物种的全部EST序列 | NCBI | 表达序列标签
EST:表达序列标签,expressed sequence tags . 顾名思义,很好理解,就是表达出来的序列,即从基因组DNA上表达出来的RNA,但是我们没法测序RNA,所以我们最终测的是表达序列的cDNA片段. “标签”:就是指这些序列可能比较短,但是可以用来标定一个物种. 常见下载方式有两种: 1. NCBI Web下载 https://www.ncbi.nlm.nih.gov/dbEST/ 打开,搜索你要的物种,比如 Camellia ,可以看到结果EST (50287). Web下载
seqtk 的安装和使用
seqtk 是一款针对fasta/fastq 文件进行处理的小程序,有很多的功能,速度很快,很方便: 源代码:https://github.com/lh3/seqtk 安装: git clone https://github.com/lh3/seqtk cd seqtk make 测试: seqtk seq : 用途: 1)将fastq 文件转换成fasta 文件 seqtk seq -A input.fastq > output.fasta input.fastq的内容: @NB001 AT
NCBI SRA数据预处理
SRA数据的的处理流程大概如下 一.SRA数据下载. NCBI 上存储的数据现在大都存储为SRA格式. 下载以后就是以SRA为后缀名. 这里可以通过三种方式下载SRA格式的数据. 1.通过http方式,2.通过ftp方式,3.通过Aspera Aspera可以在NCBI网站上下载. 参阅:http://www.ncbi.nlm.nih.gov/books/NBK47540/ 二.SRA格式转换成FASTQ格式 ./fastq-dump -A SRR058977 ~/project/yanzi/d
NPInter数据集的奇葩标号的出坑秘籍
这篇恐怕是有始以来命名最无奈标题了.需要写一下攻略. 业内人士都熟知NPInter,但是该数据库一直以来访问受限.不过终于能访问得到数据集. 但是蛋疼的是2.0的数据库id的命名方法实在奇葩,想了很多办法都难以攻破瓶颈.于是想到用3.0的数据库ID联查一下ncIdentifier. 终于ncIdentifier被验证可行,但是问题又来了:noncode数据库里找不到其中的一些序列. 先得读读核酸研究,搞明白命名方法.https://www.ncbi.nlm.nih.gov/pmc/article
miRNA预测工具miRDeep-P2
之前讲过预测植物miRNA的一款软件miR-PREFER, 今天在介绍一款软件miRDeep-p2, 也叫miRDP2 安装 在此之前,应安装一下软件 Bowite, Bowtie2, Vienna (RNA二级结构预测软件大礼包) 安装以上软件以后,在mirdp2下载最新版的miRDP2,以及ncRNA_rfam.tar.g 1 tar -xf miRDP2-v1.1.4.tar 2mv 1.1.4 miRDP2-v1.1.4 在TestData下载测试数据集--TestData.tar.gz
爬虫_python3_requests
Requests 网络资源(URLs)撷取套件 改善Urllib2的缺点,让使用者以最简单的方式获取网络资源 可以使用REST操作(POST,PUT,GET,DELETE)存取网络资源 import requests newsurl='http://www.sina.com.cn/' res=requests.get(newsurl) print(res)#<Response [200]> print(res.encoding)#单字节编码ISO-8859-1 res.encoding='ut
fasta/fastq格式解读
1)知识简介--------------------------------------------------------1.1)测序质量值 首先在了解fastq,fasta之前,了解一下什么是质量值.phred软件在对reads进行base calling的时候会给出每一个碱基的质量值,这个质量值的计算与测序预期错误率相关(estimated probability of error): Phred Quality Score Probability of incorrect bas
fastx tookit 操作fasta/fastq 文件 (1)
准备测试文件 test.fq, 包含4条fastq 文件,碱基编码格式为phred64; @FC12044_91407_8_200_406_24 NTTAGCTCCCACCTTAAGATGTTTA +FC12044_91407_8_200_406_24 SXXTXXXXXXXXXTTSUXSSXKTMQ @FC12044_91407_8_200_720_610 CTCTGTGGCACCCCATCCCTCACTT +FC12044_91407_8_200_720_610 OXXXXXXXXXXXX
Linux文件排序和FASTA文件操作
文件排序 seq: 产生一系列的数字; man seq查看其具体使用.我们这使用seq产生下游分析所用到的输入文件. # 产生从1到10的数,步长为1 $ seq 1 10 1 2 3 4 5 6 7 8 9 10 # 产生从1到10的数,步长为1,用空格分割 $ seq -s ' ' 1 10 1 2 3 4 5 6 7 8 9 10 # 产生从1到10的数,步长为2 # 如果有3个数,中间的数为步长,最后一个始终为最大值 $ seq -s ' ' 1 2 10 1 3 5 7 9 $ cat
perl 多fasta文件匹配,并提取匹配文件第一条序列
目标如题,有多个fasta文件和一个文件名列表,将文件名列表中包含的文件匹配出来并提取第一条序列合并成一个fa文件. 这个采用perl实现,用法和代码如下: 1 #!/usr/bin/perl -w 2 use strict; 3 4 sub usage{ 5 die "usage:perl $0 <fa.list> <Fasta_Dir> <merged.fa>\n",unless(@ARGV==3); 6 } 7 usage(); 8 9 ope
perl练习——FASTA格式文件中序列GC含量计算&perl数组排序如何获得下标或者键
一.关于程序: FUN:计算FASTA文件中每条序列中G和C的含量百分比,输出最大值及其id INPUT:FASTA格式文件 >seq1 CGCCGAGCGCTTGACCTCCAGCAAGACGCCGTCTGGCACATGCAACGAGCTGTAGCAGAC >seq2 ATGCCTAGAACGTTCGAGACTTCTCGGGTGCGGTAGAATTAGCCATTCGACCGACTTCCA GCATCTGCGAGCCGCCTGTTGATTGCATCCGCCGGGGACGCAACAAGGCAAG
PHP-生成缩略图和添加水印图-学习笔记
1.开始 在网站上传图片过程,经常用到缩略图功能.这里我自己写了一个图片处理的Image类,能生成缩略图,并且可以添加水印图. 2.如何生成缩略图 生成缩略图,关键的是如何计算缩放比率. 这里,我根据图片等比缩放,宽高的几种常见变化,得出一个算缩放比率算法是,使用新图(即缩略图)的宽高,分别除以原图的宽高,看哪个值大,就取它作为缩放比率: 缩放比率 = Max( { 新图高度 / 原图高度 , 新图宽度 / 原图宽度 } ) 也就是: If ( (新图高度 / 原图高度) > (新
【探索】机器指令翻译成 JavaScript
前言 前些时候研究脚本混淆时,打算先学一些「程序流程」相关的概念.为了不因太枯燥而放弃,决定想一个有趣的案例,可以边探索边学. 于是想了一个话题:尝试将机器指令 1:1 翻译 成 JavaScript,这样就能在浏览器中,直接运行等价的逻辑. 为了简单起见,这里选择古董级 CPU -- MOS 6502. 本系列陆续更新了 8 篇,前面几篇只是理论分析: 跳转处理 流程分割 动态跳转 指令变化 深度优化 原本只打算遐想一下,分析下可行性而已.不过,后来发现实现也不难,于是又补了两篇: 过渡语言
结巴分词3--基于汉字成词能力的HMM模型识别未登录词
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 算法简介 在 结巴分词2--基于前缀词典及动态规划实现分词 博文中,博主已经介绍了基于前缀词典和动态规划方法实现分词,但是如果没有前缀词典或者有些词不在前缀词典中,jieba分词一样可以分词,那么jieba分词是如何对未登录词进行分词呢?这就是本文将要讲解的,基于汉字成词能力的HMM模型识别未登录词. 利用HMM模型进行分词,主要是将分词问题视为一个序列标注(
DataTable 转换成 Json的3种方法
在web开发中,我们可能会有这样的需求,为了便于前台的JS的处理,我们需要将查询出的数据源格式比如:List<T>.DataTable转换为Json格式.特别在使用Extjs框架的时候,Ajax异步请求的数据格式就是Json.鉴于此,我今天来分享将DataTable 转换成 Json的3种方法.换句话说如何在ASP.NET将一个DataTable序列化为 Json数组.或者如何从一个DataTable返回一个Json字符串.这篇文章将采用StringBuilder,JavaScriptSeri
热门专题
白噪声序列可以进行拟合吗
centos增加yum镜像源
合计函数中哪个是用于求字段值的数量
css 过滤 紧挨着的元素
v-model 循环多层,不响应
评价指标auc的种类
reqsetattribute的用法
js获取id后替换元素名
Alamofire 5 简单封装
createBrowserhistory跳转页面,页面不刷新
P5661 [CSP-J2019] 公交换乘
监听程序当前无法识别连接描述符中所给出的SID
postman 有鉴权信息的怎么测
bledevicemonitor安卓下载
kangle面板端口在哪个配置文件
golang mongo driver 连接池
如何显示每次for循环的数据
sql 根据字段值切分多条数据
MongoDB 怎么看tables 长度
GAN的金融应用场景