本文使用深度神经网络完成计算蛋白质设计去预测20种氨基酸概率。

Introduction

针对特定结构和功能的蛋白质进行工程和设计,不仅加深了对蛋白质序列结构关系的理解,而且在化学、生物学和医学等领域都有广泛的应用。在过去的三十年里,蛋白质设计取得了显著的成功,其中一些设计是由计算方法指导的。最近一些成功的计算蛋白设计的例子包括新折叠,酶设计,疫苗,抗体,新的蛋白质组装,配体结合蛋白和膜蛋白。

Results

Networks architecture, input, and training

数据集:数据集来源于PDB且具有如下特征:
(1)用x射线晶体学确定结构;
(2)分辨率优于$$2 \r A $$;
(3)链长大于50;
(4)结构没有任何DNA/RNA分子。
移除同源蛋白质后分为三个数据集非别是30%、50%、90%(SI30,SI50,SI90)
 
输入:对于每个数据集,提取每个残基及其基于Cα-Cα距离的N(N=10、15、20、25、30)最近邻残基为聚类。
 
过程:目标残基及其领域的残基的特征作为一个input输入到残基概率网络得到目标残基的概率(图A),同时也将input输入到权重网络中得到一个权重输出(图B)。残差概率网路和权重网络本文模型架构的子网络,将这两个输出concat后输入到后续网络最终输出概率。
 
训练:线性层ReLU作为所有层的激活函数。训练采用交叉熵(categorical cross entropy )作为损失函数,采用随机梯度下降法进行优化,学习率为0.01,批处理大小为40,000,epoch是1000

Overall and amino acid specific accuracy

表 神经网络在不同邻域残基的不同数据集上的交叉验证的总体精度
Indentity cutoff
N=10
N=15
N=20
N=25
N=30
30%
0.329
$$(0.001)^*$$
0.340
$$\mathbf{(0.005)} $$
0.333
$$(0.009)$$
0.331
$$(0.006)$$
0.321
$$(0.015)$$
50%
0.353
$$(0.003) $$
0.364
$$\mathbf{(0.005)} $$
0.358
$$(0.005) $$
0.359
$$(0.006) $$
0.342
$$(0.007) $$
90%
0.367
$$(0.001) $$
0.383
$$\mathbf{(0.004)} $$
0.382
$$(0.006) $$
0.379
$$(0.007) $$
0.352
$$(0.013) $$
*括号中为标准差
正如预期的那样,由于更多的数据样本和样本之间的相似性,具有更高蛋白质确定率的数据集显示出更好的准确性。但从SI30到SI90数据集的数据样本数量几乎翻了一番,精度的提高并不显著。N=15时准确性最好,小于15时较少的相邻残基可能不足以代表目标残基的环境,而大于15时包含太多的领域残基会在输入中产生噪声。
针对总体精度最好的SI90N15分析每种氨基酸的召回率和精确度。其中Gly(甘氨酸)和Pro(脯氨酸)的召回率和准确率都较好。因为Pro具有特殊的刚性构象,而Gly在主链二面体方面具有高度的灵活性。召回、精度较低的氨基酸在训练集中的丰度通常较低,例如Met、Gln和His。
计算了每个天然氨基酸被预测为20个氨基酸的概率,并将其绘制在二维天然氨基酸和预测的热图中(如上图)。x轴和y轴上的氨基酸是根据它们的性质和彼此之间的相似性来排序的。正如预期的那样,对角线网格显示出更高的概率。有趣的是,沿着对角线有几个组,包括
网络的输出是20个氨基酸的概率在一个目标位置,除了上面提到的准确性,也可以计算top-K精度:如果源氨基酸在top-K预测(K氨基酸概率最高),预测被认为是正确的。在SI90N15数据集上训练的网络的前2、3、5和10个准确率分别达到54.3%、64.0%、76.3%和91.7%。
表 Rosetta固定主干设计在三个蛋白质有/没有残基类型约束的平均序列准确率
Protein
No-restrain*
Top 1
Top 3*
Top 5*
Top 10*
2B8I
$$0.276 \pm 0.033 $$
0.337
$$0.306 \pm 0.017$$
(0.558)
$$\mathbf{0.354 \pm 0.021} $$
(0.688)
$$0.293 \pm 0.037 $$
(0.883)
1HOE
$$0.408 \pm 0.026 $$
0.338
$$\mathbf {0.473 \pm 0.018} $$
(0.635)
$$0.441 \pm 0.018 $$
(0.689)
$$0.416 \pm 0.028 $$
(0.851)
2IGD
$$0.409 \pm 0.034$$
0.475
$$0.473 \pm 0.023 $$
(0.705)
$$0.401 \pm 0.028 $$
(0.754)
$$0.408 \pm 0.032 $$
(0.967)
应用Top-3、5和10预测限制设计三个蛋白质包括all-α蛋白(2B8I60),all-β蛋白质(1HOE61)和混合αβ蛋白(2IGD),这些蛋白质都不包含在训练集中。蛋白质的晶体结构被用作在SI90N15数据集上训练的神经网络的输入。每个位置的固定主干设计程序中的Top-3、5和10个氨基酸作为约束条件。作为对照,列出了这些蛋白质上神经网络的最高准确性,并且进行了固定主干设计(每个位置允许所有20种天然氨基酸)。由于fixbb使用了一种随机设计算法,为每个蛋白质生成了500个序列,并计算出与天然蛋白质的平均序列一致性。

PS

  1. 特征包括基本的几何和结构属性的残留,如Cα-Cα距离,主干二面体φ,ψ,ω的$$cos$$和$$sin$$的值,通过一个中心$$C_{\alpha} $$残基到领域$$C_{\alpha}$$残基的单位向量确定相邻残基和目标残基的相对位置,三种二级结构(螺旋、片状和环状),主链骨架氢键的数量,和溶剂访问骨干原子的表面积。
  1. 召回是正确预测(恢复)的原生残基的百分比,精度是正确预测的百分比。

Computational Protein Design with Deep Learning Neural Networks的更多相关文章

  1. (转) Ensemble Methods for Deep Learning Neural Networks to Reduce Variance and Improve Performance

    Ensemble Methods for Deep Learning Neural Networks to Reduce Variance and Improve Performance 2018-1 ...

  2. 深度学习的集成方法——Ensemble Methods for Deep Learning Neural Networks

    本文主要参考Ensemble Methods for Deep Learning Neural Networks一文. 1. 前言 神经网络具有很高的方差,不易复现出结果,而且模型的结果对初始化参数异 ...

  3. AlexNet论文翻译-ImageNet Classification with Deep Convolutional Neural Networks

    ImageNet Classification with Deep Convolutional Neural Networks 深度卷积神经网络的ImageNet分类 Alex Krizhevsky ...

  4. Image Scaling using Deep Convolutional Neural Networks

    Image Scaling using Deep Convolutional Neural Networks This past summer I interned at Flipboard in P ...

  5. 中文版 ImageNet Classification with Deep Convolutional Neural Networks

    ImageNet Classification with Deep Convolutional Neural Networks 摘要 我们训练了一个大型深度卷积神经网络来将ImageNet LSVRC ...

  6. Deep learning_CNN_Review:A Survey of the Recent Architectures of Deep Convolutional Neural Networks——2019

    CNN综述文章 的翻译 [2019 CVPR] A Survey of the Recent Architectures of Deep Convolutional Neural Networks 翻 ...

  7. Understanding the Effective Receptive Field in Deep Convolutional Neural Networks

    Understanding the Effective Receptive Field in Deep Convolutional Neural Networks 理解深度卷积神经网络中的有效感受野 ...

  8. 《ImageNet Classification with Deep Convolutional Neural Networks》 剖析

    <ImageNet Classification with Deep Convolutional Neural Networks> 剖析 CNN 领域的经典之作, 作者训练了一个面向数量为 ...

  9. ImageNet Classification with Deep Convolutional Neural Networks(译文)转载

    ImageNet Classification with Deep Convolutional Neural Networks Alex Krizhevsky, Ilya Sutskever, Geo ...

随机推荐

  1. 基于.NetCore开发博客项目 StarBlog - (8) 分类层级结构展示

    系列文章 基于.NetCore开发博客项目 StarBlog - (1) 为什么需要自己写一个博客? 基于.NetCore开发博客项目 StarBlog - (2) 环境准备和创建项目 基于.NetC ...

  2. 下篇:技术 Leader 的思考方式

    作者: 朱春茂(知明) 技术 Leader 是一个对综合素质要求非常高的岗位,不仅要有解具体技术问题的架构能力,还要具备团队管理的能力,更需要引领方向带领团队/平台穿越迷茫进阶到下一个境界的能力.所以 ...

  3. goose消元

    ps.改了标题 魔板 思路:按序消除变量,用当前行(i)[行i消\(x_i\)元素],消后面的每一行的i元素 最后按逆序回代值 注意若有i~n行i元素系数都为0说明没有唯一解(其余x的解跟i元素有关) ...

  4. nazo.io 通关记录

    游戏网址 说在前面 答案错误页面 nazo.io/wrong 攻略 第0关 谜.io 纯粹是欢迎你来游戏. 所以他给你的start就是答案. 第1关 欢迎 它用灰体字写了key: welcome 直接 ...

  5. Jmeter接口参数化<自动化>(csv文件)管理测试用例以及断言

    1.创建相关线程组(不解释) 2.创建相应的请求(在请求中设置变量) 下面截图中①②③④⑤⑥⑦皆可以设置为变量 3.新建CSV文件 将请求中设置的变量为明确了解每个字段的含义(皆可以将变量填写到列表的 ...

  6. JAVA 异常 基本知识

    异常 异常定义 异常是运行过程中出现的错误 人为错误:填写错误等 随机错误:网络中断.内存耗尽等 一个健壮的程序必须处理各种各样的错误 Java的异常是class Object Throwable E ...

  7. 27.MySQL 索引、事务与存储引擎

    MySQL 索引.事务与存储引擎 目录 MySQL 索引.事务与存储引擎 MySQL 索引 索引的概念 索引的作用及副作用 索引的作用 索引的副作用 创建索引的原则依据 索引的分类和创建 普通索引 唯 ...

  8. 《Java基础——IO流》

    Java基础--IO流       一.字节流:   1.输入流 (InputStream) 规则: 此处用于读取txt文件中的内容.   代码: import java.io.*; public c ...

  9. python实现人脸关键部位检测(附源码)

    人脸特征提取 本文主要使用dlib库中的人脸特征识别功能. dlib库使用68个特征点标注出人脸特征,通过对应序列的特征点,获得对应的脸部特征.下图展示了68个特征点.比如我们要提 取眼睛特征,获取3 ...

  10. NC16618 [NOIP2008]排座椅

    NC16618 [NOIP2008]排座椅 题目 题目描述 上课的时候总有一些同学和前后左右的人交头接耳,这是令小学班主任十分头疼的一件事情.不过,班主任小雪发现了一些有趣的现象,当同学们的座次确定下 ...