通过深度学习技术根据肽段序列预测其LC-MS/MS谱特征

解读人:梅占龙  质谱平台

文献名:Prediction of LC-MS/MS properties of peptides from sequence by deep learning

期刊名:Molecular & Cellular Proteomics

发表时间:2019年9月

IF4.828

作者:

Shenheng Guan​ 1,2,*​ , Michael F. Moran​ 2,3 ​, and Bin Ma​ 1

单位:

1加拿大滑铁卢大学滑铁卢大学戴维·R·切里顿计算机科学学院,加拿大N2L 3G1

2儿童医院细胞生物学和SPARC生物中心, 安大略省多伦多市湾街686号, 加拿大,M5G 0A4

3多伦多大学分子遗传学系,安大略省多伦多市Bay Bay 686号,M5G 0A4,加拿大

 

一、 概述:

本文开发了根据肽段序列预测来三个关键LC-MS/MS特性的深度学习模型。 LC-MS/MS的特性指的是保留时间(iRT),MS1电荷分布以及HCD谱图的子离子强度分布。利用核心深度监督学习体系结构,双向长期短期记忆(LSTM)递归神经网络来构建这三个预测模型。本文提出并展示了两种个性化方案以对修饰进行分析。使用2 X 106实验谱图对HCD碎裂谱图预测模型进行了训练。与文献中可用的最新模型相比,iRT预测模型和HCD谱图预测模型的准确性更高。 MS1电荷分布预测模型预测性能更出色。预测模型可用于在数据依赖采集(DDA)和数据非依赖采集(DIA)实验中增强肽段的鉴定和定量准确性,以及协助MRM​​和PRM实验设计。

二、 研究背景:

从肽段序列直接预测LC-MS/MS特性的能力将为下一代蛋白质组学研究提供助力。当前,肽段的主要行为或性质是通过实验获得的,成本高,准确性也有较大差异。这项工作旨在使用经过实验数据训练得到的深度学习模型来解决这些问题,以预测有用的LC-MS/MS特性,例如保留时间(iRT),MS1电荷状态分布以及MS/MS子离子强度。

从本世纪初开始,基于神经网络的深度学习模型对图像和自然语言处理产生了重大影响。对于肽段属性预测,循环神经网络模型(例如长期短期记忆(LSTM)模型)深度学习都是不错的选择,因为它们能够处理长度可变的输入数据,例如肽段序列。深度监督学习模型擅长处理分类和回归任务。我们的iRT和谱图预测模型是经典的回归模型,但电荷分布预测模型也是一种分类方法,其输出为电荷分布概率。这里展示的三个预测模型代表LC-MS/MS中的三个特征:用于表征LC行为的iRT,用于MS1的电荷分布以及MS/MS级别的HCD子离子强度。它们的输出维数也不同:iRT是标量,电荷状态分布是矢量,HCD子离子强度是二维矩阵。核心学习模块采用的是双向LSTM层,这保障了深度学习模型在各种问题上的适用性。肽段特性预测模型的性能主要取决于大量和高质量的训练数据。我们的HCD子离子强度预测模型的训练集就是从发表的研究中收集的大量高质量谱图。

三、 实验方法:

模型构建:所有模型都由一个掩膜层(masking layer)和两个双向的长期短期记忆(LSTM)层组成。为了得到无偏的模型,在训练集的建立中,应用了有放回和无放回取样。三个模型在输出层上有所不同:对于iRT模型,输出为标量,使用了两个具有双曲正切函数的致密层,最终输出的维度为1。对于电荷分布模型,存在两个密集层,其输出为长度为5的一维数组(对应于电荷状态1至5)。对于谱图预测模型,主要使用时间分布密集层。所有使用Keras框架实现的LSTM模型都在带有11GB显存的GeForce RTX 2080 Ti显卡上进行训练。 HCD子离子预测模型的一个子集(1074898谱图)的最长训练时间为7.2小时。

四、研究成果:

1. 建立了三个深度学习模型,用以预测肽段的三个关键LC-MS/MS属性:保留时间(iRT),MS1电荷分布和HCD子离子强度。 这三个特性在三个不同的实验水平上表征了肽段的行为:色谱,MS1以及MS/MS水平。

2. 如图1,2所示,iRT模型的预测效果较为准确。其中有一些异常点可能是错误的实验鉴定结果引起的。与DeepRT模型的预测相比,该模型iRT预测的准确度高约28%。 iRT预测的95%置信区间几乎比DeepRT的小两倍。

3. 对于电荷分布预测,预测得到的电荷分布与实验得到的结果,其皮尔逊相关系数(PCC)中位数为0.997(图3)。并且该模型还可以进行常见的肽段修饰的设置(图4)。

4. 如图5所示,在训练集和测试集中,预测的子离子强度分布与实验得到的子离子强度分布的皮尔逊相关系数(PCC)分布非常相似,表明该模型并没有过拟合(若训练集的结果远好于测试集则可能过拟合了)。训练和测试集的PCC中位数分别为0.955和0.953。 这个测试数据集的皮尔逊系数中值PPC略好于pDeep得到的结果。

6. 提供了用于LC-MS/MS属性预测的Web服务。 可以从Zenodo(附件S6部分)下载经过训练的模型,训练和测试数据以及相关的python代码。

图1.测得的iRT与预测的iRT的散点图。左:训练数据集。右:测试数据集。

图2. iRT预测模型的误差分布。蓝色曲线是误差分布,橙色曲线是相应的高斯拟合。左:训练错误。右:测试错误。

图3.电荷分布预测与测试数据集实验测量的结果的皮尔逊相关系数分布。用126,876个实验得到的电荷分布中的90%来训练MS1电荷分布预测模型。其中10%被用作测试数据集以评估该图所示的模型。左:全范围。右:[0.99,1]的放大范围。

图4.肽VLPGMHHPIQMKPADSEK的电荷分布预测(右)及其Q酰胺化形式(左)。上面的柱子(蓝色)是测量数据,下面的柱子(绿色)是预测值。

图5.实验和预测的HCD子离子强度之间的皮尔逊相关系数分布。左:训练数据集的预测结果;右:测试数据集预测结果。

阅读人:梅占龙

原文链接:https://www.mcponline.org/content/early/2019/06/27/mcp.TIR119.001412

DOI:https://doi.org/10.1074/mcp.TIR119.001412

Mol Cell Proteomics. | Prediction of LC-MS/MS properties of peptides from sequence by deep learning (通过深度学习技术根据肽段序列预测其LC-MS/MS谱特征) (解读人:梅占龙)的更多相关文章

  1. Mol Cell Proteomics. | Elevated Hexokinase II Expression Confers Acquired Resistance to 4-Hydroxytamoxifen in Breast Cancer Cells(升高的己糖激酶II表达使得乳腺癌细胞获得对他莫昔芬的抗性)(解读人:黄旭蕾)

    文献名:Elevated Hexokinase II Expression Confers Acquired Resistance to 4-Hydroxytamoxifen in Breast Ca ...

  2. Mol Cell Proteomics. | 用于鉴定新型融合转录本及其在癌细胞中的潜在翻译产物的多功能蛋白质组基因组学工具FusionPro

    期刊:Molecular & Cellular Proteomics 发表时间:June 17, 2019 DOI:10.1074/mcp.RA119.001456 分享人:任哲 内容与观点: ...

  3. Mol Cell Proteomics. |胡丹丹| 雷公藤红素通过SIRT1-FXR 信号通路保护胆汁淤积性肝损伤

    期刊:Mol Cell Proteomics 题目:Celastrol protects from cholestatic liver injury though modulation of SIRT ...

  4. Mol Cell Proteomics. | 粪便微生物蛋白质的组成与饮食诱导肥胖倾向的关联研究

    题目:Associations of the Fecal Microbial Proteome Composition and Proneness to Diet-induced Obesity 期刊 ...

  5. Mol Cell Proteomics. | MARMoSET – Extracting Publication-ready Mass Spectrometry Metadata from RAW Files

    本文是马克思普朗克心肺研究所的三名研究者Marina Kiweler.Mario Looso和Johannes Graumann发表在8月刊的MCP的一篇文章. 由于Omics实验经常涉及数百个数据文 ...

  6. Mol. Cell. Proteomics | 糖蛋白基因组学:一种常见的基因多态性影响人血清胎球蛋白/α-2-HS-糖蛋白的糖基化形式

    大家好,本次分享的是发表在Molecular & Cellular Proteomics上的一篇关于糖蛋白基因组学的文章,题目是Glycoproteogenomics: A Frequent ...

  7. Mol Cell Proteomics. | Proteomics Analysis of Extracellular Matrix Remodeling During Zebrafish Heart Regeneration (解读人:徐宁)

    文献名:Proteomics Analysis of Extracellular Matrix Remodeling During Zebrafish Heart Regeneration(斑马鱼心脏 ...

  8. Mol Cell Proteomics. |王欣然| 基于微粒的蛋白聚合物捕获技术让能满足多种不同需求的蛋白质组学样品制备方法成为可能

    大家好,本周分享的是发表在Molecular & Cellular Proteomics. 上的一篇关于蛋白质组学样本质谱分析前处理方法改进的文章,题目是Protein aggregation ...

  9. Mol Cell Proteomics. | A Targeted Mass Spectrometry Strategy for Developing Proteomic Biomarkers: A Case Study of Epithelial Ovarian Cancer(利用靶向质谱策略进行上皮性卵巢癌病例的蛋白质组生物标志物研究) (解读人:王聚)

    文献名:利用靶向质谱策略进行上皮性卵巢癌病例的蛋白质组生物标志物研究 期刊名:Molecular & Cellular Proteomics 发表时间:(2019年7月) IF:5.41 单位 ...

随机推荐

  1. Win10下JDK环境搭建的两种方法

    jdk1.8--64位官网下载的百度网盘 https://pan.baidu.com/s/1A7jYfupwMWZawb5z_RSdJg 提取码:    92eu 第一种方法(建议)    变量名:  ...

  2. 使用 javascript 配置 nginx

    在上个月的 nginx.conf 2015 大会上, 官方宣布已经支持通过 javascript 代码来配置 nginx,并把这个实现称命名为--nginscript.使用 nginscript,可以 ...

  3. POI之下载模板(或各种文件)

    该例基于Nutz框架 前台代码: <a href="" id="errordownload" onclick="downloadErrorLog ...

  4. QIs for Spread

    玩了好几天,看了好多剧,所以这几天的进度稍微有点慢,另外,<一起同过窗>真香! 延展特性涉及解集覆盖的区域.一个具有良好分布的解集应该包含来自PF每个部分的解集,而不遗漏任何区域.然而,大 ...

  5. Spring AOP使用方式

    AOP:全称是Aspect Oriented Programming,面向切面编程 Spring AOP的作用和优势: 作用:在程序运行期间,不修改源码对已有方法进行增强 优势:减少重复代码:提高开发 ...

  6. 第二章 表与指针Pro SQL Server Internal (Dmitri Korotkev)

    聚集索引 聚集索引就是表中数据的物理顺序,它是按照聚集索引分类的.表只能定义一个聚集索引. 如果你要在一个有数据的堆表中创建一个聚集索引,如2-5所示,第一步要做的就是SQL服务器创建另一个根据聚集索 ...

  7. python 写入 execl 文件 之 xlwt 模块

    1. xlwt 安装 pip install xlwt 2. xlwt 操作, 代码 #!/usr/bin/env python3 import xlwt # 只能创建 新的 excel 文件 # 1 ...

  8. Roma - Facebook工具链大一统

    什么是roma roma,中文名罗马,是Facebook的rn团队的产出,是一个试验性质的javascript工具链,集编译,linter,格式化,打包,测试等等于一体.目标是成为一个处理javasc ...

  9. Linux +Docker +Nginx 部署代理转发初探

    很多开发人员仅仅只会码代码,如果让开发人员部署一些深入点的东西,或者做负载均衡等,很多开发人员估计就懵逼了,作为一个专业的开发还需要懂一些基本的运维知识:虽然说在互联网行业中,中小企业都有一个牛逼的运 ...

  10. HandlerInterceptor ModelAndView null springMVC @ResponseBody

    本文来源https://blog.csdn.net/whiteforever/article/details/77457109 用了@RestController或者@ResponseBody注解之后 ...