转载:https://mp.weixin.qq.com/s/xsL9GuLs7b3nRF8VeRtinQ

建立在高通量测序基础上的微生物群落研究,当前主要有三大类:基于16S/18S/ITS等扩增子做物种分类的Metataxanomics、鸟枪法打断全基因组DNA序列的Metagenomics和基于mRNA信息的宏转录组方法Meta-transcriptomics。

16S,也即是我们通常所说的微生物多样性,是一种相对快速和经济适用的方法,但是PCR导致了偏好的产生,这就降低了注释准确度。此外,由于原核、真核生物的“分类标签”完全不同,即使细菌和古菌的16S也相去甚远,以进化快著称的病毒更难以捕获。宏基因组有效避免了扩增偏差,由于是直接打断,理论上不限制物种(细菌、真菌、古菌、真核生物等,事实上当前宏基因组测序多还是以细菌为主),可能组装获得新基因乃至新物种信息,但根据取样情况可能存在少量或大量的宿主污染,因需组装,数据量要求大,成本贵、周期长。宏转录组的好处是,跳出了DNA层面的束缚,可以获得实时活跃的、真正对群落有贡献的基因和通路,然而mRNA不如DNA稳定,此外多纯化和扩增的步骤也可能引入错误。

表1 三种技术的选择策略

关于16S的全流程,我在生信者言的千聊直播间里和大家做过系列课程分享,ppt可联系小秘书Anymore(微信号:genegogo007)获取,另外,专门针对16S的生信分析,也给大家做过一个详细的工具单和点评:《9个模块+40余款软件+老司机辣评 | 16S信息分析流程软件和数据库合集》。这里就不具体展开讲了。

下面来说说大家关注的宏基因组。宏基因组这部分,生信者言李木子童鞋也曾经给大家做过系统梳理和点评:《精选30余款宏基因组分析软件,来自老司机的使用经验总结(上篇)》《精选30余款宏基因组分析软件,来自老司机的使用经验总结(中篇)》《精选30余款宏基因组分析软件,来自老司机的使用经验总结(下篇)》《句句干货!一文读懂宏基因组binning》

在17年发表于Briefings in Bioinformatics的一篇题为《A review of methods and databases for metagenomic classification and assembly》的综述中,也有很多可参考的思路和软件汇总。

宏基因组经典流程:环境微生物样本--Total DNA提取--文库构建--上机测序(经典短读长: illumina系列;长读长选择: PB, ONT)--数据质控(去除低质量和接头等,去除宿主基因组等干扰信息)--宏基因组组装--Contig Binning--基因组重建--分类注释(可基于reads、contig、bins、还原出来的基因组做物种注释)--其他下游分析。

质控常用工具列表:

分类注释工具汇总:

组装和binning工具汇总:

嫌软件太多、想要主流软件推荐和评测的童鞋,可以转回去看上一段给大家写出来的来自李木子老师的流程软件评测文。

此外,再给大家推荐两个流程集成软件,MetAMOS ( https://github.com/marbl/metAMOS ) 和MOCAT2 ( https://github.com/mocat2/mocat2 ) ,有兴趣的小伙伴可以试用下。

下面我们再扩展一下,如何从宏基因组数据中鉴定病毒序列?15年PeerJ上介绍了一个适用于组装后contig集中病毒序列识别的工具--Virsorter ( https://github.com/simroux/VirSorter ),同年发表在Nucleic Acids Research上的另一篇文章提出了一个能把细菌和病毒序列分别识别鉴定出来的软件--GOTTCHA ( Genomic Origins Through Taxonomic CHAllenge)。16年Microbiome上又报道了一款比Virsorter更适合短contig、真阳性更高的软件--VirFinder ( https://github.com/jessieren/VirFinder ),这块软件主要通过利用细菌和病毒在Kmer上的差异将病毒从宏基因组序列中抽离出来。此外,宏病毒组也有流程集成类软建,如16年发表于BMC genomics的ViromeScan ( https://sourceforge.net/projects/viromescan/ )和15年发表于Scientific Reports上的VIP ( https://github.com/keylabivdc/VIP )等。

再说说宏转录组,东拼西凑的日子不好过,现在宏转录组也迎来了自己的专属软件--IMSA+A ( https://github.com/JeremyCoxBMI/IMSA-A )。IMSA+A在17年1月发表于Microbiome,是一种可应用于任意读长宏转录组学数据、可高效在同一份样品中鉴定出细菌、真菌、病毒的准确的分类分析的方法。

事实上,在微生物组学研究中,往往不会只使用一种检测方法,多组学联用几乎是各大研究论文必备杀器。宏转录组的单独应用就更少,多需和宏基因组结果结合起来分析。现在的方法多是各组学单独分析,从基因集和功能注释结果做比较,但这样其实并未解决不同组学天上地下十万八千里的误差,算作联合分析也比较牵强。

16年底,卢森堡大学Paul Wilmes发表于Genome Biology的一篇Method介绍了一款神器--IMP。IMP把整合宏基因组和宏转录组40多个工具整合在同一个平台上,使用 docker  engine 驱动以确保多系统的兼容性和可重复性。IMP重复性好,同时非常灵活方便,适用于很多宏基因组plus课题,而且相较MOCAT和MetAMOS能提供更多目标基因,给后续其他组学(如宏蛋白组学)研究提供更好基础。

在当年的冷泉港会议上Dr. Paul Wilmes也做了多组学联合分析(MuSt)的工具流程(IMP)的报告,有兴趣的小伙伴可以测试下,IMP的home在这里:http://r3lab.uni.lu/web/imp/。

微生物组学研究正处在井喷期,研究工具也更新换代的很快,这里总结的,仅可算沧海一粟。欢迎大家留言回复你的使用偏好和心得,或来微信讨论群里一起头脑风暴!

参考文献:

1. A review of methods and databases for metagenomic classification and assembly.

2. MetAMOS: a modular and open source metagenomic assembly and analysis pipeline.

3. MOCAT2: a metagenomic assembly, annotation and profiling framework.

4.  VirSorter: mining viral signal from microbial genomic data.

5. Accurate read-based metagenome characterization using a hierarchical suite of unique signatures

6. VirFinder: a novel k-mer based tool for identifying viral sequences from assembled metagenomic data.

7. ViromeScan: a new tool for metagenomic viral community profiling.

8. VIP: an integrated pipeline for metagenomics of virus identification and discovery.

9. A fast and robust protocol for metataxonomic analysis using RNAseq data.

10. IMP: a reproducible pipeline for reference-independent integrated metagenomic and metatranscriptomic analyses.

微生物组学数据分析工具综述 | 16S+宏基因组+宏病毒组+宏转录组--转载的更多相关文章

  1. Development of a High Coverage Pseudotargeted Lipidomics Method Based on Ultra-High Performance Liquid Chromatography−Mass Spectrometry(基于超高效液相色谱-质谱法的高覆盖拟靶向脂质组学方法的开发)

    文献名:Development of a High Coverage Pseudotargeted Lipidomics Method Based on Ultra-High Performance ...

  2. 【讲座】朱正江——基于LC-MS的非靶向代谢组学

    本次课程主题为<基于LC-MS的非靶向代谢组学>,主要分为代谢组学简介.代谢组学技术简介.非靶向代谢组学方法和数据采集.非靶向代谢组学数据分析和代谢物结构鉴定几个方面. 一.代谢组简介 基 ...

  3. 组学航母----OMICtools

    OMICtools可谓是组学研究的航空母舰,其收集了基因组学.转录组学.蛋白质组学和代谢组学等分析研究常用的4400余个工具和数据库.它允许用户submit自己的工具/数据库,每一个上传的工具/数据库 ...

  4. 从零开始学数据分析,什么程度可以找到工作?( 内附20G、5000分钟数据分析工具教程大合集 )

    从零开始学数据分析,什么程度可以找到工作?( 内附20G.5000分钟数据分析工具教程大合集 )   我现在在Coursera上面学data science 中的R programming,过去很少接 ...

  5. 多组学分析及可视化R包

    最近打算开始写一个多组学(包括宏基因组/16S/转录组/蛋白组/代谢组)关联分析的R包,避免重复造轮子,在开始之前随便在网上调研了下目前已有的R包工具,部分罗列如下: 1. mixOmics 应该是在 ...

  6. 宏基因组扩增子图表解读2散点图:组间整体差异分析(Beta多样性)

    散点图 数据点在直角坐标系平面上的分布图.在宏基因组领域,散点图常用于展示样品组间的Beta多样性,常用的分析方法有主成分分析(PCA),主坐标轴分析(PCoA/MDS)和限制条件的主坐标轴分析(CP ...

  7. ComplexBrowser: a tool for identification and quantification of protein complexes in large-scale proteomics datasets(大规模蛋白组学数据集中鉴定和定量蛋白复合物)

    文献名:ComplexBrowser: a tool for identification and quantification of protein complexes in large-scale ...

  8. MetaboAnalyst的多组学分析

    MetaboAnalyst是做代谢的R包,功能十分强大.也开发了web版本,代谢组学的分析这里不介绍,主要讲讲它开发的多组学分析的相关内容. 既然是做代谢的工具,即使是增加了多组学内容,肯定也是以代谢 ...

  9. MCP|MZL|Accurate Estimation of Context- Dependent False Discovery Rates in Top- Down Proteomics 在自顶向下蛋白组学中精确设定评估条件估计假阳性

    一. 概述: 自顶向下的蛋白质组学技术近年来也发展成为高通量蛋白定性定量手段.该技术可以在一次的实验中定性上千种蛋白,然而缺乏一个可靠的假阳性控制方法阻碍了该技术的发展.在大规模流程化的假阳性控制手段 ...

随机推荐

  1. C#实现WinForm禁止最大化、最小化、双击标题栏、双击图标等操作的方法

    from:http://www.jb51.net/article/71319.htm 本文实例讲述了C#实现WinForm禁止最大化.最小化.双击标题栏.双击图标等操作的方法.分享给大家供大家参考.具 ...

  2. C# 封装winio.dll 驱动级按键鼠标操作模拟

    using System;using System.Collections.Generic;using System.Text;using System.Runtime.InteropServices ...

  3. 使用docker容器运行MySQL数据库并持久化数据文件

    1.下载mysql镜像 # docker pull mysql 2.启动mysql容器 # docker run -itd -v /data:/var/lib/mysql -p 33060:3306 ...

  4. openERP笔记 自定义模块开发

    ##需求描述 输入和查询课程,把信息储存到课程对象里 课程包含以下信息:名称,价格,天数,开始日期,教师,学员 每个课程可以有多个学员,要记录学员的姓名.电话.电子邮件 课程可以添加教材和作业等文档附 ...

  5. python摸爬滚打之day16----类的成员

    1.变量(字段) 实例变量(普通字段): 实例变量封装在对象中, 用的时候直接用对象来调用. 类变量(静态字段): 类变量封装在类中的, 同一个类不同对象都可以用, 用的时候直接用类名调用(对象也能调 ...

  6. java框架之Quartz-任务调度&整合Spring

    准备 介绍 定时任务,无论是互联网公司还是传统的软件行业都是必不可少的.Quartz,它是好多优秀的定时任务开源框架的基础,使用它,我们可以使用最简单基础的配置来轻松的使用定时任务. Quartz 是 ...

  7. ORACLE——NVL()、NVL2() 函数的用法

    NVL和NVL2两个函数虽然不经常用,但是偶尔也会用到,所以了解一下. 语法: --如果表达式1为空则显示表达式2的值,如果表达式1不为空,则显示表达式1的值 NVL(表达式1,表达式2); --如果 ...

  8. Windows平台搭建Kafka

    1. 安装JDK 1.1 安装文件:http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.htm ...

  9. hive 基础

    Apache的顶级项目,(java) 2008年Facebook公司开源给Apache基金会 官网:http://hive.apache.org/ hive 将SQL转换成MapReduce程序,并将 ...

  10. tensorflow输出

    在Session对象上调用run()函数,执行流图,即可得到输出, 可获取单个输出,也可获取多个输出 import tensorflow as tf import numpy as np consta ...