有什么特征可以帮助我们来区分导致功能和表型变化的变异和其他变异,然后我们如何综合特征来做出一个预测模型?


表型或功能的改变(phenotypical/functional effect)
a,个体表型上的体现(导致疾病的或不导致疾病的)
b,演化上的概念(它是不是会影响这个人的适应性,deleterious,还是说它对人的 这个 适应性没有影响,即neutral)
c,特征(比如头发,身高)
……
……
一般来说,蛋白序列的改变,它就更有可能结构和功能的改变,就更有可能在细胞水平的改变,可能最终造成人的各个的表现的改变,但所有的这些都不是绝对的,都是统计的一个概念

我们如何预测非同义突变对功能表现的影响?

一、简介

SIFT是基于保守性的一个算法,这个方法是2001年由Pauline和Henikoff发表的,SIFT和BLOSUM(作者是Hennikoff)作者是一个课题组,虽然替代矩阵可以评估两个氨基酸的相似性和可替代性,但是其实在不同的蛋白,不同的位点,它对氨基酸替代的容忍程度是不一样的,所以它后来就做了一个基于同源蛋白每一个位点上的氨基酸保守性的评估,有一些位点,它就是超级保守,在所有的物种中都没有看到过其他的任何别的氨基酸,那你如果在一个个体中看到那个位点有一个变异,哪怕它不是很严重的一个变异,但可能在那个位点,它就是严重的,还有一些位点呢,就在不同物种的同源蛋白中,你看他什么氨基酸都可能出现。(说了好绕口啊,其实就是保守性嘛)
SIFT基于一个重要位点它应该在一个物种中的同源蛋白中应该是比较保守的,如果在这些位点上发生了突变,那这些突变更有可能会导致个体的适应性的下降。
第一步:把可能的同源蛋白先找出来,这就是一个数据库搜索,也就是BLAST(PSI-blast是BLAST的一个变种,比BLAST更好一点)做的事情。
第二步:只挑那些相似度比较高的,那更有可能在功能上仍然一致的序列来进行后续的比对,它挑的是在比对上的这些区间要有90%的一致性。
第三部:然后做多序列比对

你可以看到有些位点就是完全保守的,有些位点会有一些变化,而有的一些位点变化比较多
第四步 根据每一个位点,你所看到的氨基酸的分布就可以算一个概率,基于这个概率,他得到最后一个值,一个数值的预测值,如果这个SCORE分数小于0.05,它就预测它是deleterious,如果是大于0.05,它就是中性的,不会造成功能和表现的改变
这个是可以通过软件实现的,应该是傻瓜式的操作不,06年他们发表一个文章,假阴性(False Negative rate)是31%,即31%影响功能和表型的变异被它预测了不影响,False Positive(假阳性),预测出来是影响表型功能其实是不影响的,Coverage,所有这些同义突变里,有60%是它可以用来做预测的。
当然啦,这个准确度还是不太尽人意的。那么我们怎样地应一个准确度呢?
首先,你希望预测的是什么?你希望真正知道的就是这样的变异是不是真的影响表型,Positive就是说的确影响表型,Negative就是不影响表型
我们要有模中实验或者计算的策略做一个评估,所有的实验的结果,或者预测的结果。下面的图你一看就懂了,有点点像博弈论中的矩阵图


PolyPhen同时结合序列和结果上的信息,主要的假设就是说有一些氨基酸的改变可能会影响蛋白的折叠,影响蛋白的的相互作用区间,影响它的稳定性 ,而蛋白结构如果有改变,那蛋白的功能就更可能会发生改变,所以它整合了序列和三维结构的一些特征

第一步 跟SIFT相似,先做一个多序列比对,即把同源蛋白,功能一样的蛋白做一个多序列比对

第二步 然后找到这个蛋白的三维结构,或者这个三维结构没有,但是有一个和你这个蛋白序列比较相类似的另外一个蛋白结构有,那你可以做一个同源建模,来预测它的三维结构

第三步 有了这个结构呢,PolyPhen就开始来算,你的这个看到的变异位点,它在结构上有什么特征,比如它是不是位于一个二硫键,因为二硫键对结构带来比较大的影响,它是不是处于一个位点呢,是不是处于一个重要的活性位点呢,它是不是出于跨膜区呢,跨膜区的变异经常会对结构和功能造成比较大的影响,它是不是出于信号肽的区域呢等等,这都是它评估的一些特征。

第四步 它也评估这个位点所在的二级结构是是什么?它是在蛋白的表面。还是在蛋白的内部,它有没有影响到它能形成的氢键的数目的改变等等。最后它做判断就是用一个所谓的rule-based,基于经验的
它的好处是在有三维结构的时候,还是比较好的,但是,没有三维结构,那它方法就用不了,也只能用在这个序列的信息,并且它的这些规则是完全基于经验的,那你的经验是对还是不对呢?

在2010年,他们课题组又开发了PolyPhen2这个版本:

  1. 增加了更多用来做预测的特征;
  2. 改成了用机器学习的一个方法,就是一个叫Naive Bayes的一种极其学习方法,这个算法的评估比原来基于经验的方法准确度是有很高的提高。

基于保守性和规则性的预测方法SIFT和PolyPhen的更多相关文章

  1. spring基于@Value绑定属Bean性失

    用spring注解@Value绑定属性失败 环境: eclipse Version: Luna Release (4.4.0) spring 4.0 Junit4 其他依赖包 描述: JsrDAO类, ...

  2. 理解DDoS防护本质:基于资源较量和规则过滤的智能化系统

    本文由  网易云发布. 随着互联网生态逐渐形成,DDoS防护已经成为互联网企业的刚需要求,网易云安全(易盾)工程师根据DDoS的方方面面,全面总结DDoS的攻防对抗. 1.什么是DDoS DDoS全称 ...

  3. 使用 CSS perfer-* 规范,提升网站的可访问性与健壮性

    文本将介绍 CSS 媒体查询中新增的几个特性功能: prefers-reduced-motion prefers-color-scheme prefers-contrast prefers-reduc ...

  4. 【CPU微架构设计】利用Verilog设计基于饱和计数器和BTB的分支预测器

    在基于流水线(pipeline)的微处理器中,分支预测单元(Branch Predictor Unit)是一个重要的功能部件,它负责收集和分析分支/跳转指令的执行结果,当处理后续分支/跳转指令时,BP ...

  5. atitit.编程语言 程序语言 的 工具性 和 材料性 双重性 and 语言无关性 本质

    atitit.编程语言 程序语言 的 工具性 和 材料性 双重性 and 语言无关性 本质 #---语言的 工具和材料双重性 有的人说语言是个工具,有的人说语言是个材料..实际上语言同时属于两个属性. ...

  6. TensorFlow-Bitcoin-Robot:一个基于 TensorFlow LSTM 模型的 Bitcoin 价格预测机器人

    简介 TensorFlow-Bitcoin-Robot:一个基于 TensorFlow LSTM 模型的 Bitcoin 价格预测机器人. 文章包括一下几个部分: 1.为什么要尝试做这个项目? 2.为 ...

  7. pfSense配置基于时间的防火墙规则

    基于时间的规则允许防火墙规则在指定的日期和/或时间范围内激活.基于时间的规则与任何其他规则的功能相同,只是它们在预定时间之外的规则集中实际上不存在. 基于时间的规则逻辑处理基于时间的规则时,调度计划确 ...

  8. 基于 Keras 用 LSTM 网络做时间序列预测

    目录 基于 Keras 用 LSTM 网络做时间序列预测 问题描述 长短记忆网络 LSTM 网络回归 LSTM 网络回归结合窗口法 基于时间步的 LSTM 网络回归 在批量训练之间保持 LSTM 的记 ...

  9. 事务传播性、隔离性与MVCC

    一.事务传播性 1.1 什么是事务的传播性 事务的传播性一般在事务嵌套时候使用,比如在事务A里面调用了另外一个使用事务的方法,那么这俩个事务是各自作为独立的事务执行提交,还是内层的事务合并到外层的事务 ...

随机推荐

  1. json用法常见错误

    Json用法三个常见错误   net.sf.json.JSONException: java.lang.NoSuchMethodException

  2. 1103 Integer Factorization

    题意:给出一个正整数N,以及k,p,要求把N分解成k个因式,即N=n1^p + n2^p + ... + nk^p.要求n1,n2,...按降序排列,若有多个解,则选择n1+n2+...+nk最大的, ...

  3. 在单板上使用WIFI网卡的固件问题

    (在单板上使用WIFI网卡的固件问题)(我的wifi网卡是RT3070) (一般买的网卡说是支持LINUX免驱的话,那么在/lib/firmware/ 下一定有相应的固件) 我将USB网卡接入UBUN ...

  4. IOCP的缓冲区

    IOCP的缓冲区: 应用程序的缓冲区 套接字的缓冲区 TCP的缓冲区 两个会造成WSAENOBUFS错误的原因: 锁定页面达到上限 非分页页面达到上限

  5. 【POJ】3616 Milking Time(dp)

    Milking Time Time Limit: 1000MS   Memory Limit: 65536K Total Submissions: 10898   Accepted: 4591 Des ...

  6. DataFactory+MySQL数据构造

    前言:DataFactory是一种快速生产测试数据的可视化工具,是一种强大的数据生成器,该工具支持DB2.Oracle.Sybase.SQL Server数据库,支持ODBC连接方式,且通过ODBC连 ...

  7. TypeScript--deno前置学习

    第一节:前言: 1.JavaScript 的发展简史图: 2.关于node与deno: (1)Node与Deno 的区别:Node 可以工作,而 Deno 不行,Deno 只是一个原型或实验性产品. ...

  8. Python实践练习:电话号码和 E-mail 地址提取程序

    题目: 假设你有一个无聊的任务,要在一篇长的网页或文章中,找出所有电话号码和邮件地址.如果手动翻页,可能需要查找很长时间.如果有一个程序,可以在剪贴板的文本中查找电话号码和 E-mail 地址,那你就 ...

  9. 使用Spring MVC创建 REST API--2

    1.提供资源之外的其他内容 @ResponseBody提供了一种很有用的方式,能够将控制器返回的Java对象转换为发送到客户端的资源表述.实际上,将资源表述发送给客户端只是整个过程的一部分.一个好的R ...

  10. 「小程序JAVA实战」小程序的flex布局(22)

    转自:https://idig8.com/2018/08/09/xiaochengxu-chuji-22/ 之前已经把小程序的框架说完了,接下来说说小程序的组件,在说组件之前,先说说布局吧.源码:ht ...