本文是马克思普朗克心肺研究所的三名研究者Marina Kiweler、Mario Looso和Johannes Graumann发表在8月刊的MCP的一篇文章。

由于Omics实验经常涉及数百个数据文件,元数据信息对于结果的评估和再现至关重要;然而数据通常以二进制或专有文件格式存在,元数据信息提取过程繁琐。以Thermo Fischer Scientific质谱仪生产的RAW文件为例,除了光谱数据之外,还包括了仪器设置,这都是实验评估和结果再现所必需的。目前提取RAW文件信息的方法是使用特定供应商的Xcalibur软件手动打开RAW文件并且复制所需信息,然而手动提取容易出错并且存在访问量过大的问题。迄今为止没有软件能够解决将大量RAW文件或其他元数据简化成具有共识参数的报告的问题。通过供应商提供的RAWFileReader应用程序的API接口,作者基于R的基础架构编写了一个工具,可以从元数据中提取并生成用于实验室质量控制的数据报告。

图1 MARMoSET处理过程概览

MARMoSET分为两部分,第一部分是C#应用程序,它的作用是从Thermo Fischer Scientific RAW文件中提取元数据信息为JSON文件。通过RAWFileReader API访问的RAW文件格式包含了多个层次的元数据信息。固定标题包括日期,原始文件名和样本信息等信息。标题后面是一个列表,其中包含使用的仪器模块以及它们各自的方法作为字符串。API还为检测器相关数据(如紫外分光光度法或质谱法)提供单独的入口点。MARMoSET目前仅实现对MS数据的访问。使用RAWFileReader API中的“IRAW DataPlus”接口,在使用EASY-nLC超高压液相色谱仪器(Thermo Fisher Scientific)的液相色谱/质谱(LC / MS)的背景下,LC参数可在方法串中获得,并由MARMoSET提取和分析。根据提供的是单个RAW文件还是文件目录的路径,MARMoSET可以判断作用于单个文件或迭代目录中的RAW文件集合,并根据计算机的硬件资源作并行化处理。在第一步中,分别从每个RAW文件收集信息。第二步,为了将来自多个文件的数据减少为描述整个集合的最小参数集,所得到的数据结构是在字典中评估和排序过后的哈希码。然后,此信息用于将RAW文件分类为可以共享所有相关参数的组。最后编写成可以连接到相应RAW文件名的JSON文件。为了方便直观地处理JSON文件中的结构化数据,作者又同时提供了一个名为MARMoSET的R包。它能够根据预先定义的日志文件创建表格,此外还支持通过单独选择参数来过滤数据。

图2 MARMoSET处理过程

在windows操作系统上,通过直接运行C#命令行工具,可以生成JSON文件,基于R包中自带的术语匹配表,使用函数“match_terms()”可以提取对应参数的子集并生成日志特定要求的表格,然后使用函数“save_all_groups”导出表格。元数据的标准化报告对于实验的评估和再现极为重要,MARMoSET工具套件的诞生填补了其空白,生成了面向机器可读的JSON文件和面向人类可读的txt或excel文件。

一方面解决了Omics实验高吞吐量元数据的处理问题,另一方面R包所提供的自定义参数设置可以灵活满足不同实验的要求,过滤不必要的信息。

MARMoSET C#应用程序:https://github.molgen.mpg.de/loosolab/MARMoSET_C

MARMoSET R包:https://github.molgen.mpg.de/loosolab/MARMoSET

解读人:马臻

文章引用:10.1074/mcp.TIR119.001505

文章连接:https://www.mcponline.org/content/18/8/1700

Mol Cell Proteomics. | MARMoSET – Extracting Publication-ready Mass Spectrometry Metadata from RAW Files的更多相关文章

  1. Mol Cell Proteomics. |胡丹丹| 雷公藤红素通过SIRT1-FXR 信号通路保护胆汁淤积性肝损伤

    期刊:Mol Cell Proteomics 题目:Celastrol protects from cholestatic liver injury though modulation of SIRT ...

  2. Mol Cell Proteomics. | 粪便微生物蛋白质的组成与饮食诱导肥胖倾向的关联研究

    题目:Associations of the Fecal Microbial Proteome Composition and Proneness to Diet-induced Obesity 期刊 ...

  3. Mol Cell Proteomics. | Elevated Hexokinase II Expression Confers Acquired Resistance to 4-Hydroxytamoxifen in Breast Cancer Cells(升高的己糖激酶II表达使得乳腺癌细胞获得对他莫昔芬的抗性)(解读人:黄旭蕾)

    文献名:Elevated Hexokinase II Expression Confers Acquired Resistance to 4-Hydroxytamoxifen in Breast Ca ...

  4. Mol Cell Proteomics. | A Targeted Mass Spectrometry Strategy for Developing Proteomic Biomarkers: A Case Study of Epithelial Ovarian Cancer(利用靶向质谱策略进行上皮性卵巢癌病例的蛋白质组生物标志物研究) (解读人:王聚)

    文献名:利用靶向质谱策略进行上皮性卵巢癌病例的蛋白质组生物标志物研究 期刊名:Molecular & Cellular Proteomics 发表时间:(2019年7月) IF:5.41 单位 ...

  5. Mol Cell Proteomics. |彭建祥| 人胃肠道间质瘤亚群蛋白质组图谱

    大家好,本周分享的是发表在Molecular & Cellular Proteomics 上的一篇关于人胃肠道间质瘤亚群蛋白质组图谱的文章,题目是Proteomic maps of human ...

  6. Mol Cell Proteomics. | Mapping Spatio-temporal Microproteomics Landscape in Experimental Model of Traumatic Brain Injury Unveils a link to Parkinson’s Disease

    期刊:Molecular & Cellular Proteomics 发表时间:June 16, 2019 通讯作者:Michel Salzet,Isabelle Fournier 一.  概 ...

  7. Mol. Cell. Proteomics | 癌细胞衍生的小细胞外囊体通过促进HGF-Met途径促进受体细胞转移

    题目:Cancer cell derived small extracellular vesicles contribute to recipient cell metastasis through ...

  8. Mol Cell Proteomics. |马臻| psims-一个用于编写HUPO-PSI标准下的mzML和mzIdentML的python库

    大家好,本周分享的是发表在MCP(MOLECULAR&CRLLULAR PROTEOMICS)上的一篇关于质谱数据处理和识别的文章,题目是psims - A Declarative Write ...

  9. Mol Cell Proteomics. |赵赟| 全面地分析个人尿蛋白质组学的变化揭示出不同的性别变化

    大家好,本周分享的是发表在Molecular & Cellular Proteomics上的一篇关于人的尿蛋白质组学的文章,题目是Comprehensive analysis of indiv ...

随机推荐

  1. 《JavaScript算法》常见排序算法思路与代码实现

    冒泡排序 通过相邻元素的比较和交换,使得每一趟循环都能找到未有序数组的最大值或最小值. 最好:O(n),只需要冒泡一次数组就有序了. 最坏: O(n²) 平均: O(n²) *单项冒泡 functio ...

  2. WWW 2015:一个神奇的会议

    2015:一个神奇的会议" title="WWW 2015:一个神奇的会议"> 作者:微软亚洲研究院研究员 袁进辉 WWW 2015(24th Internatio ...

  3. Mac 安装Android Studio 及环境变量配置

    我翻开历史一查,这历史没有年代.歪歪斜斜的每页上都写着"仁义道德"几个字,我横竖睡不着,仔细看了半夜,才从字缝里看出来,满本上都写着两个字"吃人"! –鲁迅&l ...

  4. android activity 启动过程分析(source code 4.4)

    说实话,android source code从2.3到4.4变化是蛮多的,尤其是media部分,虽然总的框架是没有多大变化,但是找起代码来看还是挺麻烦的.在android里面最受伤的是使用了java ...

  5. 通俗易懂DenseNet

    目录 写在前面 Dense Block与Transition Layer DenseNet网络架构与性能 理解DenseNet Plain Net.ResNet与DenseNet 参考 博客:博客园 ...

  6. 你有哪些相见恨晚的Chrome 扩展?

    「Chrome 没插件,香味少一半」,本期我们就来一起盘点一下chrome上那些相见恨晚的扩展. 1 JSONView2 Adblock Plus3 Keylines4 彩云小译5 单词发现者6 鼠标 ...

  7. sed 分组替换

    将文件以help开头的句子前加# [root@localhost]# cat a.txthelp b helphelp1helphelp2help c help[root@localhost]# se ...

  8. java ThreadPoolExecutor初探

    导读:线程池是开发中使用频率比较高的组件之一,但是又有多少人真正了解其内部机制呢. 关键词:线程池 前言 线程池是大家开发过程中使用频率比较高的组件之一,但是其内部原理又有多少人真正清楚呢.最近抽时间 ...

  9. Kali系统中20个超好用黑客渗透工具,你知道几个?

    1. Aircrack-ng Aircrack-ng是用来破解WEP/WAP/WPA 2无线密码最佳的黑客工具之一! 它通过接收网络的数据包来工作,并通过恢复的密码进行分析.它还拥有一个控制台接口.除 ...

  10. APPium+Python+iOS屏幕滑动方法对比

    最近在学习appium自动化,对iOS手机进行滑动操作进行总结: 1.mobile:scroll;该方法在实际使用调用时,会滚动2次.执行时间很长. 向下滚动整个屏幕driver.execute_sc ...