之前讲过预测植物miRNA的一款软件miR-PREFER, 今天在介绍一款软件miRDeep-p2, 也叫miRDP2

  • 安装

  在此之前,应安装一下软件

  Bowite, Bowtie2, Vienna (RNA二级结构预测软件大礼包)

安装以上软件以后,在mirdp2下载最新版的miRDP2,以及ncRNA_rfam.tar.g

1 tar -xf miRDP2-v1.1.4.tar

2mv 1.1.4 miRDP2-v1.1.4

TestData下载测试数据集--TestData.tar.gz

  • miRNA数据处理

(1)去接头,长度选择在18-30 bp,选用cutadapt

(2) 去低质量reads, 可以用fastp

(3)将fastq 文件转成fasta文件,并去除冗余序列,每个reads的编号:read0_x29909,x后面表示相同的序列数,最后要保证FASTA中的每个序列都唯一。

可以选用以下脚本(将.fq 放在一个文件夹):

 1 #!/usr/bin/env python
2
3 import os,re
4 from collections import defaultdict
5
6 li = os.listdir(os.getcwd())
7 oli = filter(lambda x: x.endswith(".fa"),li)
8 oli.sort()
9
10
11 for fil in oli:
12 info = defaultdict(int)
13 with open(fil) as f,\
14 open("%s.fa" %fil,"w") as o:
15 while 1:
16 name = f.readline()
17 seq = f.readline()
18 plus = f.readline()
19 qual = f.readline()
20 if name == '':
21 break
22 info[seq.strip()] +=1
23 count = -1
24 for k,v in info.items():
25 count +=1
26 o.write(">read%s_x%s\n%s\n" %(count,v,k))
  • 运行

再次之前,修改一下miRDP2-v1.1.4_pipeline.bash中的一个参数,因为我的RNAfold跑不通,所以修改

RNAfold --noPS  中的 --noPS参数。为-noPS

新建文件夹,用于存放测试数据

1 mkdir miRDP2_Test

将下载的测试数据以及Rfam文件上传到改文件夹,并压缩

1 tar xf ncRNA_rfam.tar.gz 2 tar xf TestData.tar.gz

建立索引

1 bowtie-build -f ./TestData/TAIR10_genome.fa ./TestData/TAIR10_genome.fa
3 ##为Rfam建立索引,一定得在流程中script/index 下目录下
5 bowtie-build -f ./ncRNA_rfam.fa miRDP2-v1.1.4/scripts/ram_index

其中ncRNA_rfam.fa 为Rfam中非编码RNA (包括rRNA, tRNA,snRNA, and snoRNA), 也可以从Rfam上自行下载所有RNA.fa序列,并根据RNA类型进行分类合并。

运行流程

1 miRDP2-v1.1.4_pipeline.bash -g ./TestData/TAIR10_genome.fa -x ./TestData/TAIR10_genome -f -i ./TestData/GSM2094927.fa -o ./ 

2
3 #-g 基因组序列
4 #-x 索引
5 #-f sRNA-seq 为fasta格式
6 #-i 输入RNA文件,多个文件用逗号隔开
7 #可选
8 #-L:reads匹配到最少的位置,默认15, 以防有重复序列
9 #-M:bowtie 的错配,默认为0

结果:

  • miRNA预测结果: GSM2094927-15-0-10_filter_P_prediction, 每列的内容分别为,“染色体编号”,“所在链”,“代表性的短读编号”,“前体编号”,“成熟miRNA位置”,“前体位置”,“成熟序列”,“前体序列 ”
  • 日志文件: script_log和 script_err, 在运行出错时用于排除
  • 软件大概步骤

1)将reads 比对到ncRNA seq,和known miR mature seq得到 rfam_reads.aln, known_miR.aln

利用脚本 preprocess_reads.pl 对上述 rfam_reads.aln, known_miR.aln 过滤reads,得到 *.fa 以及 *-precessed.fa,*.total_reads

(2)mapping filtered reads

将 *-precessed.fa 比对参考基因组, 得到 *_processed.aln

用 convert_bowtie_to_blast.pl 将 *_processed.aln --》 *-processed.bst (

用 filter_alignments.pl 过滤掉比对到一定次数以上(默认15)的reads, *-processed.bst ---》 *-processed_filter${len}.bst

(3)根据比对位置,提取上下游一定长度序列作为前提序列,并预测二级结构

利用 excise_candidate.pl ,将 *-processed_filter${len}.bst --》 *_precursors.fa

利用 RNAfold 软件 预测2级结构, *_precursors.fa --》 _structures

(4)提取不是ncRNA的reads 作为signature preparation

将 *.fa 比对到参考基因组, 得到 *.aln

利用convert_bowtie_to_blast.pl 将 *.aln --》*.bst

用 filter_alignments.pl 过滤掉比对到一定次数以上(默认15)的reads, 将 *.bst ---》 *_filter${len}.bst

用 filter_alignments.pl 将  *_filter${len}.bst --》 *_filtered.fa

准备 reads signature file

对 *_precursors.fa 进行bowtie-build 建库

将  *_filtered.fa 比对到 *_precursors.fa, 得到  *_precursors.aln

利用convert_bowtie_to_blast.pl 将 **_precursors.aln --》*_precursors.bst

将 *_precursors.bst  --〉*_signatures

 (5)miRDP core algorithm

利用  mod-miRDP.pl 将 *_signatures, *_structures --》_predictions

------END------

关注下方公众号可获得更多精彩

miRNA预测工具miRDeep-P2的更多相关文章

  1. facebook开源的prophet时间序列预测工具---识别多种周期性、趋势性(线性,logistic)、节假日效应,以及部分异常值

    简单使用 代码如下 这是官网的quickstart的内容,csv文件也可以下到,这个入门以后后面调试加入其它参数就很简单了. import pandas as pd import numpy as n ...

  2. Facebook支持python的开源预测工具Prophet

    Facebook 宣布开源一款基于 Python 和 R 语言的数据预测工具――“Prophet”,即“先知”.取名倒是非常直白. Facebook 表示,Prophet 相比现有预测工具更加人性化, ...

  3. 七种常见的核酸序列蛋白编码能力预测工具 | ncRNAs | lncRNA

    注:这些工具的应用都是受限的,有些本来就是只能用于预测动物,在使用之前务必用ground truth数据来测试一些.我想预测某一个植物的转录本,所以可以拿已经注释得比较好的拟南芥来测试一下.(测试的结 ...

  4. Ensembl突变数据描述之(一)——突变物种数据库及预测工具

    以下是对Ensembl突变数据库中储存的数据的描述,对于Ensembl数据库中不同的物种,我们从各种来源(例如,dbSNP数据库)导入突变数据(SNP.CNV.等位基因频率.基因型等),导入的突变数据 ...

  5. 5、预测和鉴定miRNA的靶基因

    转载:http://www.oebiotech.com/Article/mirnabjyyc.html http://www.ebiotrade.com/newsf/2014-9/2014925941 ...

  6. R+先知︱Facebook大规模时序预测『真』神器——Prophet(遍地代码图)

    经统专业看到预测的packages都是很眼馋的.除了之前的forecast包,现在这个prophet功能也很强大.本packages是由机器之心报道之后,抽空在周末试玩几小时.一些基本介绍可见机器之心 ...

  7. DNA sequence open reading frames (ORFs) | DNA序列的开放阅读框ORF预测

    常见的ORF预测工具 Open Reading Frame Finder- NCBI ORF Finder - SMS OrfPredictor  - YSU 基本概念 开放阅读框(英语:Open r ...

  8. 植物 miRNA 研究

    相比动物miRNA 而言, 植物miRNA 的研究相对较少. 植物miRNA 相比动物miRNA , 有以下特点: 1) 植物miRNA 的长度为 21 nt 左右, 动物miRNA 长度在 22 ~ ...

  9. 蛋白质组DIA深度学习之谱图预测

    目录 1. 简介 2. 近几年发表的主要工具 1.DeepRT 2.Prosit 3. DIANN 4.DeepDIA 1. 简介 基于串联质谱的蛋白质组学大部分是依赖于数据库(database se ...

随机推荐

  1. spring cloud zuul的回退

    当我们使用 @EnableZuulProxy 注解来开启zuul的路由时,默认在@EnableZuulProxy注解上就包含了@EnableCircuitBreaker注解,即开启了断路器功能.那么在 ...

  2. Redis核心原理与实践--Redis启动过程源码分析

    Redis服务器负责接收处理用户请求,为用户提供服务. Redis服务器的启动命令格式如下: redis-server [ configfile ] [ options ] configfile参数指 ...

  3. (四)、Docker 镜像

    1.Docker镜像是什么? 镜像是一种轻量级.可执行的独立软件包,用来打包软件运行环境和基于运行环境开发的软件,它包含运行某个软件所需的所有内容,包括代码.运行时.库.环境变量和配置文件. 2.Do ...

  4. 為什麼我的手機連Wi-Fi速度總是卡在75Mbps?Wi-Fi速度解惑~帶你一次看懂!

    正文字体大小:大 中 小 為什麼我的手機連Wi-Fi速度總是卡在75Mbps?Wi-Fi速度解惑-帶你一次看懂! (2017-02-21 10:57:48) 转载▼ 标签: wi-fi速度 手機wi- ...

  5. 为什么用于开关电源的开关管一般用MOS管而不是三极管

    区别: 1.MOS管损耗比三极管小,导通后压降理论上为0. 2.MOS管为电压驱动型,只需要给电压即可,意思是即便串入一个100K的电阻,只要电压够,MOS管还是能够导通. 3.MOS管的温度特性要比 ...

  6. NOIP模拟85(多校18)

    前言 好像每个题目背景所描述的人都是某部番里的角色,热切好像都挺惨的(情感上的惨). 然后我只知道 T1 的莓,确实挺惨... T1 莓良心 解题思路 首先答案只与 \(w\) 的和有关系,于是问题就 ...

  7. hdu 5185 Equation(分析+DP)

    题意: Gorwin is very interested in equations. Nowadays she gets an equation like thisx1+x2+x3+⋯+xn=n, ...

  8. hdu 2586 How far away? (LCA模板)

    题意: N个点,形成一棵树,边有长度. M个询问,每个询问(a,b),询问a和b的距离 思路: 模板题,看代码.DFS预处理算出每个结点离根结点的距离. 注意: qhead[maxn],而不是qhea ...

  9. .NET Core资料精选:架构篇

    .NET 6.0 马上就要发布,高性能云原生开发框架.希望有更多的小伙伴加入大.NET阵营.这是本系列的第三篇文章:架构篇,喜欢的园友速度学起来啊. 本系列文章,主要分享一些.NET Core比较优秀 ...

  10. 一个疏忽损失惨重!就因为把int改成Integer,第2天被辞了

    1 故事背景 一个程序员就因为改了生产环境上的一个方法参数,把int型改成了Integer类型,因为涉及到钱,结果上线之后公司损失惨重,程序员被辞退了.信不信继续往下看.先来看一段代码: public ...