LEfSe分析
LEfSe软件用于发现两组或两组以上的biomarker,主要是通过非参数因子Kruskal-Wallis秩和检验来实现的。
运行LEfSe软件主要分三大步骤:第一步:需要把普通的物种、基因等等的丰度信息的表格转化成LEfSe识别的格式。这一步会生成.in结尾的文件
第二步:这一步也是最关键的一步,统计显著差异的biomarker、统计子组组间差异、统计effect sizes(LDA score),会生成.res格式的文件。如下图所示Step1:两组或两组以上的样本中采用的非参数因子Kruskal-Wallis秩和检验检测出biomarker。
Step2:基于上步的显著差异物种基因,进行两两组之间的Wilcoxon秩和检验,检测出组间差异。
Step3:线性判别分析(LDA)对biomarker进行评估差异显著的物种的影响力(即LDA score),最终获得biomarker。
第三步:基于第二大步的数据,绘制各种图片。如下图所示
Example:format_input.py hmp_aerobiosis_small.txt hmp_aerobiosis_small.in -c 1 -s 2 -u 3 -o 1000000options  -c:大分组信息所在行。-s:小分组信息所在行,如果没有小的分组可以不填。-u:样品信息所在行。-o:标准值,输入的丰度值按照该值重新计算,让输入的丰度值变大。如果输入的hmp_aerobiosis_small.txt数值是1.0e-5左右,则可以设置1000000,可以设置的更大,如果设置成负数,则不做任何处理。
run_lefse.py hmp_aerobiosis_small.in hmp_aerobiosis_small.resoptions -a:Kruskal-Wallis秩和检验筛选biomarker的p-value值。-w:两组组间Wilcoxon秩和检验筛选biomarker的p-value值。-l:LDA score--wilc:是否需要运行Wilcoxon step    0是运行,1是不运行,默认是运行Output:输出.res格式文件内容如下两行。Bacteria.Firmicutes.Clostridia.Clostridiales.Ruminococcaceae 5.0923016841 Low_O2 4.74694106197 2.91304680962e-07Bacteria.Tenericutes.Mollicutes.Mycoplasmatales.Mycoplasmataceae.Mycoplasma 2.55257491798   -总共5列,第一列biomarker名称,第二列是平均丰度最大的log10的值,如果平均丰度小于10的按照10来计算,第三列是差异基因或物种富集的组名称,第四列是LDA值,第五列是Kruskal-Wallis秩和检验的p值,如果不是biomarker则用“-”表示。
plot_res.py hmp_aerobiosis_small.res hmp_aerobiosis_small.pngoptions --feature_font_size:设置feature字体的大小--format:图片输出的格式      --dpi:图片的像素      --title:标题名称,默认为空      --title_font_size:标题字体大小      --class_legend_font_size :图例字体大小      --width:图片宽度。。。。      --height:图片高度      --left_space:左边距      --right_space:右边距plot_cladogram.py hmp_aerobiosis_small.res hmp_aerobiosis_small.cladogram.png --format pngoptions --max_point_size:大点的大小,默认是6--min_point_size:小点的大小,默认是1--point_edge_width:圈的边线粗细,默认0.25--siblings_connector_width:同一级的宽度--parents_connector_width:上一级连接的宽度--title:标题--label_font_size:label字体大小--background_color:背景颜色plot_features.py hmp_aerobiosis_small.in hmp_aerobiosis_small.res biomarkers_raw_images/
LEfSe分析的更多相关文章
- 16S 基础知识、分析工具和分析流程详解
		工作中有个真理:如果你连自己所做的工作的来龙去脉都讲不清楚,那你是绝对不可能把这份工作做好的. 这适用于任何行业.如果你支支吾吾,讲不清楚,那么说难听点,你在混日子,没有静下心来工作. 检验标准:随时 ... 
- [Linux] 非root安装Lefse软件及其数据分析
		说明 Lefse软件是宏组学物种研究常用软件,一般大家用在线版本即可.但要搭建在Linux集群环境中有点烦,记录一下折腾过程. 安装 这个软件是python2写的,因此假设我已经安装好了较高版本的py ... 
- alias导致virtualenv异常的分析和解法
		title: alias导致virtualenv异常的分析和解法 toc: true comments: true date: 2016-06-27 23:40:56 tags: [OS X, ZSH ... 
- 火焰图分析openresty性能瓶颈
		注:本文操作基于CentOS 系统 准备工作 用wget从https://sourceware.org/systemtap/ftp/releases/下载最新版的systemtap.tar.gz压缩包 ... 
- 一起来玩echarts系列(一)------箱线图的分析与绘制
		一.箱线图 Box-plot 箱线图一般被用作显示数据分散情况.具体是计算一组数据的中位数.25%分位数.75%分位数.上边界.下边界,来将数据从大到小排列,直观展示数据整体的分布情况. 大部分正常数 ... 
- 应用工具 .NET Portability Analyzer 分析迁移dotnet core
		大多数开发人员更喜欢一次性编写好业务逻辑代码,以后再重用这些代码.与构建不同的应用以面向多个平台相比,这种方法更加容易.如果您创建与 .NET Core 兼容的.NET 标准库,那么现在比以往任何时候 ... 
- UWP中新加的数据绑定方式x:Bind分析总结
		UWP中新加的数据绑定方式x:Bind分析总结 0x00 UWP中的x:Bind 由之前有过WPF开发经验,所以在学习UWP的时候直接省略了XAML.数据绑定等几个看着十分眼熟的主题.学习过程中倒是也 ... 
- 查看w3wp进程占用的内存及.NET内存泄露,死锁分析
		一 基础知识 在分析之前,先上一张图: 从上面可以看到,这个w3wp进程占用了376M内存,启动了54个线程. 在使用windbg查看之前,看到的进程含有 *32 字样,意思是在64位机器上已32位方 ... 
- ZIP压缩算法详细分析及解压实例解释
		最近自己实现了一个ZIP压缩数据的解压程序,觉得有必要把ZIP压缩格式进行一下详细总结,数据压缩是一门通信原理和计算机科学都会涉及到的学科,在通信原理中,一般称为信源编码,在计算机科学里,一般称为数据 ... 
随机推荐
- jQuery工具函数(转)
			原文地址:http://www.cnblogs.com/kissdodog/archive/2012/12/27/2835561.html 作者:逆心 ------------------------ ... 
- ElasticSearch 入门笔记1
			1. 起步 1. 建demo工程,看文档,做典型demo 2. 资源列表: http://es.xiaoleilu.com/010_Intro/10_Installing_ES.html 3. 启动: ... 
- 新上市Lighthouse专用芯片TS3633规格介绍
			背景介绍 Valve 有远大的愿景.它决心要把 SteamVR 追踪系统推向世界,从虚拟现实里的空间定位,到机器人领域,Valve 想为各种环境下的跟踪应用提供支持. 上个月,Valve 方面宣布会把 ... 
- 今天携程出事了:让我们来学习下http的响应码
			就在今天,2015年5月28日,中国最大的旅游机票预订网站--携程网粗大事了.据传携程网的数据库被人物理删除了,而容灾备份的数据又无法正常使用,服务器全面遭受瘫痪.每小时给携程带来的损失约100万美元 ... 
- 启动Tomcat服务器报错
			启动Tomcat服务器报错: Several ports (8005, 8080, 8009) required by Tomcat v5.5 Server at localhost are alre ... 
- C# 获取当前路径7种方法
			//获取模块的完整路径. string path1 = System.Diagnostics.Process.GetCurrentProcess().MainModule.FileName; //获取 ... 
- C++ 模拟Map
			JDK中的Map类型采用键值对的方式保存数据,且键(key)不能重复.在HashMap的实现中实际采用了Hash分类加数组排序的方式.在C++中我没有采用这样的算法.而是通过首先对Key值进行二叉树排 ... 
- Node.js入门教程:Node.js如何安装配置并部署第一个网站
			前言:作为一个资深的前端开发人员,不懂的Node.js 那你绝对是不能跟别人说你是资深的前端程序猿滴! 今天洋哥就来和大家一起学习被大牛称之为前端必学的技能之一Node! 那么Node到底是什么呢? ... 
- 基于bootstrap 的datatable插件的使用(php版)
			Datatables是一款jquery表格插件.它是一个高度灵活的工具,可以将任何HTML表格添加高级的交互功能.详细学习请参考其官网:http://datatables.net/中文网:http:/ ... 
- Linux C 学习
			int main() { int64_t test = ; printf("%lld\n",test); float f_test = 100.2123; printf(" ... 
