MEME(Motif-based sequence analysis tools)使用说明

MEME是用于从一堆序列中搜索功能结构域的工具。比如说当你拿到了许多CHIP-chip或者CHIP-seq的数据,当分析出峰所处的位置之后可以得到一些这些峰所代表的序列,这就是蛋白质与DNA相到作用所保护下来的片段。所以使用MEME搜索其中非常相似的序列片段就可能是有一定功能的结构域。

所以,MEME的输入必须至少有一个Pearson/FASTA格式的序列文件。

命令:meme <dataset> [optional arguments]

这里的<dataset>就是那个序列文件,必须是Pearson/FASTA格式,文件格式示例:

          >ICYA_MANSE INSECTICYANIN A FORM (BLUE BILIPROTEIN)
GDIFYPGYCPDVKPVNDFDLSAFAGAWHEIAK
LPLENENQGKCTIAEYKYDGKKASVYNSFVSNGVKEYMEGDLEIAPDA
>LACB_BOVIN BETA-LACTOGLOBULIN PRECURSOR (BETA-LG)
MKCLLLALALTCGAQALIVTQTMKGLDI
QKVAGTWYSLAMAASDISLLDAQSAPLRVYVEELKPTPEGDLEILLQKW

FASTA文件使用 “>”来进行注释,其后第一个单词为序列名,其后是一些说明性的文字。而后另起一行为序列,直到下一个注释符号截止。

MEME可以读取FASTA文件当中的权重。权重为单独的一行注释,以>WEIGHT这一注释符号开始,注意WEIGHT必须全部大写。其后是介于0~1的数字。这些数字按照序列的排序排布。

          >WEIGHTS 0.5 .5 1.0
>seq1
GDIFYPGYCPDVKPVNDFDLSAFAGAWHEIAK
>seq2
GDMFCPGYCPDVKPVGDFDLSAFAGAWHELAK
>seq3
QKVAGTWYSLAMAASDISLLDAQSAPLRVYVEELKPTPEGDLEILLQKW

下面就是meme的相关参数的说明:

输出位置:

默认值为 meme_out/目录。如果这个目录不存在,会新建一个。输出的文件会有meme.html,meme.xml, meme.txt, meme.xsl以及一些LOGO图片。当然你也可以设置输出的位置。

  • -o <output dir> 输出目录名;如果已经存在的话覆盖该目录;
  • -oc <output dir> 输出目录名;如果已经存在的话覆盖该目录;
  • -text 只输出meme.txt文件。

DNA还是蛋白质:

MEME可以处理DNA序列和蛋白质序列文件,但是不能同时处理这两种不同格式的序列。所以必须指定是dna还是protein。MEME默认值为蛋白质。

对于DNA序列来说,可以包含ACGT,以及BDHKMNRSUVWY*-

对于蛋白质序列来说,可以包含ACDEFGHIKLMNPQRSTVWY,以及BUXZ*-

而其它的字符,MEME全部会转换为X(未知)。

  • -dna 序列为DNA序列
  • -protein 序列为蛋白质序列

功能域分布

一般来讲,你必须对功能域可能的分布有一定概念。默认值认为每一个功能域在每段序列中至多只能出现一次,要不就不出现。

 
  • -mod <string> 分布类型

    • oops 每个功能域在每一段序列中都会出现一次,而且只出现一次。这种模式是运算速度最快,而且最为敏感的。但是如果并不是每个序列都包含功能域,那就可能会有不正确的结果。
    • zoops 每个功能域在每一段序列中至多只出现一次,可能不出现。这种模式运算速度较快,敏感性稍弱。
    • anr 每个功能域在每一段序列中出现的次数不定。这种模式运算速度最慢,可能会多花十倍以上的时间。但是对于功能分布的情况完全未知的情况下,这一参数可能会有帮助。

与之关联的一个参数是

  • -maxsites

,这个后面会讲到。

搜索选项:

log likelihood ration (LLR) 以及 E-value是MEME用于搜索功能域排序的两个重要的依据。llr = log ( Pr ( sites | motif ) / Pr (sites | back ) )。其中,Pr ( sites | motif ) 是功能域序列每个残基出现的可能性,集合起来,就是一个距阵,被称为position-specific probability matrix (PSPM)。而Pr(sites|back)则是功能域在背景序列中出现的可能性,如果你提供了背景序列文件的话,与参数

  • -bfile

相关。

搜索选项分别为:

    1. 功能域数

      • -nmotifs <n> 一共搜索多少个功能域就停止。默认值为1。
      • -evt <p> 如果E-value大于<p>时,就停止搜索。默认值为无穷大。
    2. 功能域出现的次数
      • -nsites <n>
        -minsites <n>
        -maxsites <n>
        nsites设定之后,MEME搜索到一个功能域出现n次之后就停止该功能域的搜索并进入下一个功能域搜索。而出现次数的最小值和最大值由minsites和maxsites来设定。默认值为-minsites:2,-maxsites: zoops: 序列总数,anr:5倍序列总数或者50之间的最小值。而对于oops,这两参数不起作用。对于anr,如果你不设定,那MEME会至多搜索50次功能域。
      • -wnsites <n> 每次搜索到功能域时的权重设置,介于0~1之间 [0..1)。默认值为0.8。
    3. 功能域长度
      • -w <n>
        -minw <n>
        -maxw <n>
        功能域长度值。如果-w指定,那么只尝试指定长度的功能域。要不就设定最大值和最小值。默认值为 -minw 8, -maxw 50
      • -nomatrim
        -wg <a>
        -ws <a>
        -noendgaps
        序列比对相关的参数,-wg gap扣分 -ws 空隔扣分 -noendgaps 不扣分
    4. 背景模型
      • -bfile <bfile>
    5. 优先模型
      • -psp <pspfile>
        背景模型及优先模型可以使用MEME Suite的psp-gen工具来生成。
    6. DNA序列正反义及回文可能性
      • -revcomp 是否搜索互补链,默认不搜索,加上这个参数后就变成为搜索
      • -pal 是否优先回文结构,默认不搜索。
    7. Expectation Maximization (EM)算法
    8. Expectation Maximization (EM)初始化
    9. Expectation Maximization (EM)分枝搜索
      以上三组因为都比较复杂,就不讲述了。

MEME(Motif-based sequence analysis tools)使用说明的更多相关文章

  1. Predicting effects of noncoding variants with deep learning–based sequence model | 基于深度学习的序列模型预测非编码区变异的影响

    Predicting effects of noncoding variants with deep learning–based sequence model PDF Interpreting no ...

  2. Top 40 Static Code Analysis Tools

    https://www.softwaretestinghelp.com/tools/top-40-static-code-analysis-tools/ In this article, I have ...

  3. SGU 455 Sequence analysis(Cycle detection,floyd判圈算法)

    题目链接:http://acm.sgu.ru/problem.php?contest=0&problem=455 Due to the slow 'mod' and 'div' operati ...

  4. TCP/IP capture/analysis tools in Unix/Linux

    There are some useful tools in Unix/Linux to check out how the system is going on. Here is a short s ...

  5. Pure C static coding analysis tools

    Cppcheck - A tool for static C/C++ code analysiscppcheck.sourceforge.netCppcheck is a static analysi ...

  6. Comparison of Static Code Analysis Tools for Java

    http://www.sw-engineering-candies.com/blog-1/comparison-of-findbugs-pmd-and-checkstyle https://stack ...

  7. [SLAM] ***AR Tracking based on which tools?

    SLAM虽然小复杂,但对于开发者而言,ar sdk通常会解决这个问题. 所以相对于识别,跟踪是个看上去高大上但实则不需要关注细节的部分. 识别,要技术深耕:跟踪,需行业深耕. 在此了解下常见的ar s ...

  8. Analysis Tools(分析工具)

    分析工具 1.叠加分析 # Process: 交集取反 arcpy.SymDiff_analysis("", "", 输出要素类, "ALL" ...

  9. Open source and free log analysis and log management tools.

    Open source and free log analysis and log management tools. Maintained by Dr. Anton Chuvakin Version ...

随机推荐

  1. linux操作系统1 Linux入门

    知识内容: 1.操作系统简介 2.Linux操作系统简介 3.Linux安装 4.Linux各大发行版本介绍 一.操作系统介绍 1.为什么需要操作系统 现代的计算机系统由处理器,主存,硬盘,键盘,鼠标 ...

  2. 一,Android Studio笔记

    转自:https://developer.android.com/studio/intro/index.html 一.界面 Android Studio 主窗口由图 3 标注的几个逻辑区域组成. 工具 ...

  3. 框架之Tornado(简单介绍)

    引言 回想Django的部署方式 以Django为代表的python web应用部署时采用wsgi协议与服务器对接(被服务器托管),而这类服务器通常都是基于多线程的,也就是说每一个网络请求服务器都会有 ...

  4. 最近学习下,nohup和&的区别

    nohup是永久执行 &是指在后台运行 运行 nohup --helpRun COMMAND, ignoring hangup signals. 可以看到是“运行命令,忽略挂起信号” 就是指, ...

  5. MOCK 基本使用例子

    package com.icil.esolution.orders; import static org.springframework.test.web.servlet.request.MockMv ...

  6. VBA 判断单元格是否为公式,可用于数组

    Function ISFORMULA(ByVal rg As Object) As Variant      Dim temp As Variant      Dim i As Integer, j ...

  7. UI5-文档-4.2-Bootstrap

    在使用SAPUI5做一些事情之前,我们需要加载并初始化它.加载和初始化SAPUI5的过程称为引导.一旦引导完成,我们只需显示一个警告. Preview An alert "UI5 is re ...

  8. 键值集合List转换成datatable

    /// <summary> /// 键值集合List转换成datatable /// </summary> /// <param name="data" ...

  9. 常用HTTP状态码

    1.常用状态码介绍 在http响应协议中,我们通过HttpWatch抓包抓取到响应信息.其中响应首行中就包含一个状态码.状态码由三位数字组成,表示请求是否被理解或者被满足.HTTP响应状态码的第一个数 ...

  10. 吴裕雄 实战PYTHON编程(5)

    text = '中华'print(type(text))#<class 'str'>text1 = text.encode('gbk')print(type(text1))#<cla ...