snakemake使用笔记
snakemake是一个用来编写任务流程的工具,用python编写的,因此其执行的流程脚本也比较通俗易懂,易于理解。
一、从一个简单的例子开始
1、安装snakemake
安装snakemake的方法有多种,snakemake官方推荐的是conda,安装方法如下:
conda install -c bioconda snakemake
2、一个简单的snakemake脚本
虽然snakemake广泛的应用于生物信息方面的流程编写,但是snakemake的应用并不局限于编写生物信息学的流程,这里以一个简单的合并文件的例子开始介绍snakemake的简单使用。
#首先我们建立两个文件
$ echo "Here is hello." > hello.txt
$ echo "Here is world." > world.txt
#接下来开始编写我们的Snakefile
rule concat: # 这里的rule可视为snakemake定义的关键字,concat使我们自定义的这一步任务的名称
input: # input同样是snakemake的关键字,定义了在这个任务中的输入文件
expand("{file}.txt", file=["hello", "world"]) #expand是一个snakemake定义的替换命令
output: # output也是snakemake的关键字,定义输出结果的保存文件
"merged.txt"
shell: # 这里表示我们下面的命令将在命令行中执行
"cat {input} > {output}"
#最后就可以在Snakefile的路径执行snakemake命令即可
$ snakemake
$ cat merge.txt
Here is hello.
Here is world.
在上面的Snakefile脚本中,rule
、input
、output
、shell
、expand
均为snakemake中的关键字或者命令。同时Snakefile中的每一个rule
其实都可以看作是一个简单的shell脚本,通过Snakefile将多个rule
组织在一起并按照我们定义的顺序来执行。另外,在output
中的结果文件可以是未存在目录中的文件,这时会自动创建不存在的目录。
二、snakemake中的一些命令与规则
1、rule
rule
是Snakefile中最主要的部分。如上面的例子所说,每一个rule定义了一系列pipe中的一步,每一个rule都可以当作一个shell脚本来处理,一般主要包括input
、output
、shell
3个部分。同时还有许多上面没有列出来的用法:
rule all
。不同于其他的rule,在rule all
里面一般不会去定义要执行的命令,他一般用来定义最后的输出结果文件。除了rule all
中定义的文件外最后输出结果不会保存任何中间文件。例如将上面的脚本改成如下文件则没有输出结果:
rule all:
input:
#"merged.txt" 取消注释后,则能正常输出文件
rule concat:
input:
expand("{file}.txt", file=["hello", "world"])
output:
"merge.txt"
shell:
"cat {input} > {output}"
wildcards
。用来获取通配符匹配到的部分,例如对于通配符"{dataset}/file.{group}.txt"
匹配到文件101/file.A.txt
,则{wildcards.dataset}
就是101,{wildcards.group}
就是A。threads
。通过在rule里面指定threads
参数来指定分配给程序的线程数,egthreads: 8
。resources
。可用来指定程序运行的内存,eg.resources: mem_mb=800
。message
。使用message
参数可以指定每运行到一个rule时,在终端中给出提示信息,eg.message: "starting mapping ..."
。priority
。可用来指定程序运行的优先级,默认为0,eg.priority: 20
。log
。用来指定生成的日志文件,eg.log: "logs/concat.log"
。params
。指定程序运行的参数,eg.params: cat="-n"
,调用方法为{params.cat}
。run
。在run
的缩进区域里面可以输入并执行python代码。scripts
。用来执行指定脚本,eg.scripts: "rm_dup.py"
temp
。通过temp
方法可以在所有rule
运行完后删除指定的中间文件,eg.output: temp("f1.bam")
。protected
。用来指定某些中间文件是需要保留的,eg.output: protected("f1.bam")
。ancient
。重复运行执行某个Snakefile时,snakemake会通过比较输入文件的时间戳是否更改(比原来的新)来决定是否重新执行程序生成文件,使用ancient方法可以强制使得结果文件一旦生成就不会再次重新生成覆盖,即便输入文件时间戳已经更新,eg.input: ancient("f1.fastq")
。- Rule Dependencies。可通过快捷方式指定前一个rule的输出文件为此rule的输入文件:
rule a:
input: "path/to/input"
output: "path/to/output"
shell: ...
rule b:
input: rules.a.output #直接通过rules.a.output 指定rule a的输出
output: "path/to/output/of/b"
shell: ...
report
。使用snakemake定义的report
函数可以方便的将结果嵌入到一个HTML文件中进行查看。
2. configuration
每计算一次数据都要重写一次Snakefile有时可能会显得有些繁琐,我们可以将那些改动写入配置文件,使用相同流程计算时,将输入文件的文件名写入配置文件然后通过Snakefile读入即可。
配置文件有两种书写格式——json和yaml。在Snakefile中读入配置文件使用如下方式:
configfile: "path/to/config.json"
configfile: "path/to/config.yaml"
# 也可直接在执行snakemake命令时指定配置
$ snakemake --config yourparam=1.5
在shell命令中直接调用config文件中的内容的话,不需要引号,如config[a]
而不是config["a"]
。
集群计算配置
三、snakemake的执行
一般讲所有的参数配置写入Snakefile后直接在Snakefile所在路径执行snakemake
命令即可开始执行流程任务。一些常用的参数:
--snakefile, -s 指定Snakefile,否则是当前目录下的Snakefile
--dryrun, -n 不真正执行,一般用来查看Snakefile是否有错
--printshellcmds, -p 输出要执行的shell命令
--reason, -r 输出每条rule执行的原因,默认FALSE
--cores, --jobs, -j 指定运行的核数,若不指定,则使用最大的核数
--force, -f 重新运行第一条rule或指定的rule
--forceall, -F 重新运行所有的rule,不管是否已经有输出结果
--forcerun, -R 重新执行Snakefile,当更新了rule时候使用此命令
#一些可视化命令
$ snakemake --dag | dot -Tpdf > dag.pdf
#集群投递
snakemake --cluster "qsub -V -cwd -q 节点队列" -j 10
# --cluster /-c CMD: 集群运行指令
# qusb -V -cwd -q, 表示输出当前环境变量(-V),在当前目录下运行(-cwd), 投递到指定的队列(-q), 如果不指定则使用任何可用队列
# --local-cores N: 在每个集群中最多并行N核
# --cluster-config/-u FILE: 集群配置文件
作者:To_2019_1_4
链接:https://www.jianshu.com/p/14b9eccc0c0e
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
snakemake使用笔记的更多相关文章
- snakemake学习笔记
什么是snakemake? snakemake 是一个流程搭建的工具,这里主要用来记录一些snakemake的使用方法 对于run或者shell部分的需要使用sample变量可以使用wildcards ...
- git-简单流程(学习笔记)
这是阅读廖雪峰的官方网站的笔记,用于自己以后回看 1.进入项目文件夹 初始化一个Git仓库,使用git init命令. 添加文件到Git仓库,分两步: 第一步,使用命令git add <file ...
- js学习笔记:webpack基础入门(一)
之前听说过webpack,今天想正式的接触一下,先跟着webpack的官方用户指南走: 在这里有: 如何安装webpack 如何使用webpack 如何使用loader 如何使用webpack的开发者 ...
- SQL Server技术内幕笔记合集
SQL Server技术内幕笔记合集 发这一篇文章主要是方便大家找到我的笔记入口,方便大家o(∩_∩)o Microsoft SQL Server 6.5 技术内幕 笔记http://www.cnbl ...
- PHP-自定义模板-学习笔记
1. 开始 这几天,看了李炎恢老师的<PHP第二季度视频>中的“章节7:创建TPL自定义模板”,做一个学习笔记,通过绘制架构图.UML类图和思维导图,来对加深理解. 2. 整体架构图 ...
- PHP-会员登录与注册例子解析-学习笔记
1.开始 最近开始学习李炎恢老师的<PHP第二季度视频>中的“章节5:使用OOP注册会员”,做一个学习笔记,通过绘制基本页面流程和UML类图,来对加深理解. 2.基本页面流程 3.通过UM ...
- NET Core-学习笔记(三)
这里将要和大家分享的是学习总结第三篇:首先感慨一下这周跟随netcore官网学习是遇到的一些问题: a.官网的英文版教程使用的部分nuget包和我当时安装的最新包版本不一致,所以没法按照教材上给出的列 ...
- springMVC学习笔记--知识点总结1
以下是学习springmvc框架时的笔记整理: 结果跳转方式 1.设置ModelAndView,根据view的名称,和视图渲染器跳转到指定的页面. 比如jsp的视图渲染器是如下配置的: <!-- ...
- 读书笔记汇总 - SQL必知必会(第4版)
本系列记录并分享学习SQL的过程,主要内容为SQL的基础概念及练习过程. 书目信息 中文名:<SQL必知必会(第4版)> 英文名:<Sams Teach Yourself SQL i ...
随机推荐
- こだわり者いろはちゃん / Iroha's Obsession (暴力枚举)
题目链接:http://abc042.contest.atcoder.jp/tasks/arc058_a Time limit : 2sec / Memory limit : 256MB Score ...
- [转载]表单校验之datatype
凡要验证格式的元素均需绑定datatype属性,datatype可选值内置有10类,用来指定不同的验证格式. 如果还不能满足您的验证需求,可以传入自定义datatype,自定义datatype是一个非 ...
- 编写一个JavaWeb项目
基本流程:JSP文件显示页面,在前端页面输入赋值,使用form或href超链接传值到Servlet中方法,在Servlet方法中调用Dao层的类对象,将数据传到数据库中,并实现对数据库里的数据的增删改 ...
- 三张图搞懂JavaScript的原型对象与原型链 / js继承,各种继承的优缺点(原型链继承,组合继承,寄生组合继承)
摘自:https://www.cnblogs.com/shuiyi/p/5305435.html 对于新人来说,JavaScript的原型是一个很让人头疼的事情,一来prototype容易与__pro ...
- B/S开发介绍
b/s 的优势: 1.开发成本低 2.管理维护简单 3.产品升级便利 4.对用户的培训费用低 5.用户使用方便,出现故障的概率小 b/s 的不足: 1.安全性不足 2.客户端不能随心变化,受浏览器限制
- Spring 注入的两种方式
Spring 的两种注入方式: 1. 属性注入:通过无参构造函数+setter方法注入 2. 构造注入:通过有参的构造函数注入. 优缺点: 1. 属性注入直白易懂,缺点是对于属性可选的时候,很多个构造 ...
- http状态码204/206/200/302/303/307
HTTP的状态码有很多种,主要有1xx(临时响应).2xx(成功).3xx(已重定向).4xx(请求错误)以及5xx(服务器错误)五个大类,每个大类还对应一些具体的分类.平时我们接触比较多的是200. ...
- 13: openpyxl 读写 xlsx文件
1.1 openpyxl 基本使用 1.openpyxl 将xlsx读成json格式 #! /usr/bin/env python # -*- coding: utf-8 -*- # -*- codi ...
- http请求记录
Request Headers 请求头 Content-Type 默认值: "application/x-www-form-urlencoded".发送信息至服务器时内容编码类型 ...
- [c/c++] programming之路(10)、格式符后续
一.格式符 1. f格式符 #include<stdio.h> #include<stdlib.h> void main(){ printf("%f",10 ...