题目:Improving Silkworm Genome Annotation Using a Proteogenomics Approach

期刊:Journal of Proteome Research

发表时间:June 28, 2019

DOI:10.1021/acs.jproteome.8b00965

分享人:张霞

内容与观点:

1、 文章研究概述

桑蚕是一种重要的经济昆虫,并作为鳞翅目模式昆虫用于基础研究。作者通过以往的研究发现,目前对于桑蚕的基因测序和组装研究已基本解决,在基因注释研究方面,基于ESTs和基因序列鉴定了277可变剪接类型;基于RNA-seq鉴定了1923可变剪接,58反式剪接;基于转录蛋白组学分析,发现3247 基因可能存在可变剪接,可见对基因的注释并不完全,同时有研究表明注释误差较大,误差主要发生在阅读框架,外显子界线的确定,可变剪接额类型,使得基因模型难于预测。同时,目前的分析预测软件也存在一定的错误率。作者认为,基于质谱的蛋白数据可以为蛋白编码基因提供直接证据,所以本文欲以蛋白基因组学方法试图对桑蚕的基因进行注释研究,并辅以转录蛋白质组学进行加以验证。本文以桑蚕不同发育时期的不同组织进行质谱检测,获得980万张谱图,通过与数据库比对,经由软件分析,共鉴定了1838新转录本和1593可变剪接基因;证实了14个不确定基因和10个跳跃外显子;校正了5074个现有基因和2581非转录区。

2、 实验流程

2.1 MS 数据

选用培养和野生桑蚕不同发育阶段的不同组织(后部丝腺PSG,中部丝腺,卵巢,睾丸,头部,大脑,前胸腺,食管下神经节,血淋巴,脂肪和胚胎)进行bottom-up分析,先进行SDS-PAGE,对蛋白进行分离,接着胶内酶解,用0.1%甲酸重悬用于LC-MS/MS上机,使用iTRAQ对PSG组织进行标记定量。

2.2 数据库构建和肽段鉴定

从Silk Genome Database Website 上下载蛋白数据库Silk PDB(14623),从NCBI上下载BmPDB(7859),构建数据库SilkGDB(B.mori genome的六帧翻译数据库)和SilkASDB(外显子-外显子连接肽段数据库)以及混合数据库(Silk PDB+SilkGDB和Silk PDB+SilkASDB),质谱得到的数据通过以上数据库进行搜索鉴定。参数设置时注意以下五点:①trypsin酶切设置:允许一个missed cleavage。② 肽段谱图错误容忍度为20ppm。③片段谱图中iTRAQ容忍度为0.02Da,其他为0.6Da。④固定修饰为半胱氨酸的脲基化;可变修饰为N端乙酰化,甲硫氨酸的氧化,谷氨酰胺和天冬酰胺的脱酰胺。⑤通过decoy库比对,以FDR为1% 过滤肽段。

2.3 基因注释工作流程

通过数据库搜索,定义GSSP为仅存在于SilkGDB数据库,而不存在于Silk PDB数据库。以GSSP用来修正基因注释;以Silk PDB数据库和SilkASDB数据库搜索的肽段鉴定新的可变剪接。使用TBLASTN软件以GSSP获得相对应的ORF,若ORF与现有基因模型重叠,为固有基因;若ORF与基因间区域重叠,则为新基因。为确保结果可靠,ORF序列与EST序列进行比对鉴定单一基因,用BLAST搜索同源蛋白,以GSSP,单一基因和同源蛋白共同质控固有和新基因的鉴定。

2.4 RNA-seq分析

对桑蚕不同发育阶段的PSG进行RNA提取并测序,得9600万读数,与参考基因进行比对,鉴定可变剪接位点,校正基因模型,鉴定新基因。

2.5 GO和KEGG路径分析

以桑蚕全基因作为背景,用agriGO和Blast2GO软件对可变剪接和全基因进行GO注释。用线上KEGG进行路径注释。

3、 实验结果

3.1 传统蛋白组学

通过MS/MS谱图与参考蛋白数据库(Silk PDB和BmPDB)比对,去掉多余数据后,共鉴定4307蛋白,933个蛋白是两个数据库共有,不同的组织蛋白也不同。PSG为桑蚕中合成蛋白的主要器官,对比培养组和野生组,分别鉴定了3487和1957个蛋白,共享蛋白为1823个。结果如下表1和下图2所示。

3.2 GSSPs完善基因注释

质谱图通过与SilkGDB和SilkPDB的混合数据库的匹配对比,共鉴定14378肽段序列,其中1701个为新肽段。GSSP与基因相比对,找到了74个新ORF位置,根据上述流程中介绍,结合肽段,同源蛋白,单一基因的证据,当ORF与注释基因模式重叠时为固有基因,共鉴定3593个;与注释基因不重叠的为新基因,共1404个。结果如下表2所示。

3.3 新基因

74个新ORF中,53个有同源蛋白为支撑证据,1个有单一基因为支撑证据,20个除了至少有两个GSSP外没有其他支撑证据。很多新的ORF被注释为相同预测蛋白。例如,在18号染色体上大约50kbp基因内,在26个GSSPs中证实了10个新ORF。如下图3所示。

3.4 修正注释基因模型

使用GSSPs与SilkPDB数据库中固有基因进行比对,以重叠结果校正了121个基因模型,这些基因中的大部分(68个基因)是外显子延伸,其中37个为第一个外显子的5‘端延伸。例如下图4所示,两个特殊新肽段比对到一个固有基因的上游;再如下图5所示,12和13外显子之间的内含子区域鉴定了2个特有GSSP,新外显子序列与Danaus plexippus (EHJ72156.1) and Manduca sexta (AAF18300.1) 蛋白具有高度相似性。

基于核苷酸的传统基因注释很难鉴定读写框,但基于肽段的方法能特异证实对应基因的转录读写框并能对错误注释进行校正。如下图6所示,两个特异GSSP比对到该基因的最后外显子上,但注释外显子frame与肽段的不同,可进行校正。

3.5 可变剪接

由于可变剪接的表达不高,所以很难判断, 且一般从mRNA判定,容易包含可变剪接前体序列;基于蛋白质水平的质谱数据,可通过鉴定连接肽段,进而鉴定剪接连接以及发现新的剪接类型。可构建外显子跳跃数据库SilkASDB(一个基因中有两个外显子),搜索连接肽段,通过与质谱图进行比对,找到1330个剪接交界跨肽,从527个基因中找到1105个剪接位点,从148个剪接交界跨肽中找到132个已知剪接连接。下图7所示为5个剪接连接肽段鉴定了基因的多个跳跃外显子并发现了新的剪接类型。

3.6 通过RNA-seq提高基因注释

结合RNA-seq方法以提高蛋白基因组学的可靠性。得到的样品RNA序列与参考基因数据库SilkTransDB比对后发现1704个新转录本,1325个序列数>1000bp,1007个仅有一个外显子。除此之外,还在注释基因的内含子区发现11368个新外显子,在3482个基因模型中具有一定作用;在2153个基因中发现2581个UTRs。共鉴定2017个可变剪接,可分为四种不同类型:①1498为保留内含子,②514为跳跃外显子,③4个为5‘和3‘可变剪接位点,④一个为可变5’外显子。

3.7 蛋白基因组学和转录蛋白组学分析的比较

由蛋白基因组学鉴定的74个新ORFs中有39个可以从转录数据库中鉴定到,这39个外显子大多被注释为外显子,但两种方法的外显子鉴定界限不同。蛋白基因组学和转录组学对许多未发现基因具有更精确的注释。当前注释误差的主要来源为传统注释途径的不准确以及可变剪接的存在,发现的新基因可能是保留内含子,也可能是注释错误,很难区分。由蛋白基因组学鉴定的外显子结构和转录组学鉴定的外显子结构有很大的不同。由蛋白基因组学和转录组学共同鉴定1838个新转录本,1593个可变剪接;校正了5074个固有基因。

3.8 可变剪接和新转录本的GO和KEGG路径分析

用所有桑蚕基因作为背景,对1838个新转录本和1593个可变剪接基因做GO功能分类,1838个新转录本中仅350个在GO中被分类。在分子功能分类中,新转录本和全基因没有明显区别,值得注意的是,没有基因参与抗氧化过程,有一个新的转录本与蛋白辅助转导活性特异相关。大多数GO terms与细胞和代谢过程相关,Six GO terms 与多细胞有机体过程,生物调节,发育过程,色素沉着,细胞成分组织和位置相关。最终1593个可变剪接中有1074个被GO注释,大都包含于细胞,细胞器,结合,催化活性,细胞和代谢过程中。

KEGG的通路分析显示1024个可变剪接基因包含于285个KEGG通路中,46个可变剪接基因参与RNA传输通路,40个可变剪接基因参与于"剪接体通路"。共有40个可变剪接基因与内质蛋白处理有关,38个可变剪接基因参与核糖体,表明可变剪接基因的蛋白合成活性。

4、 结论

最终,共鉴定1838个新转录本,1593个可变剪接基因;使用蛋白基因组学和转录组学分析校正了5074个固有基因。

5、创新点

本文通过使用蛋白基因组学的方法对基因进行注释,扩大了鉴定范围并提高了注释准确度。

Journal of Proteome Research | Improving Silkworm Genome Annotation Using a Proteogenomics Approach (分享人:张霞)的更多相关文章

  1. Journal of Proteome Research | SAAVpedia: identification, functional annotation, and retrieval of single amino acid variants for proteogenomic interpretation | SAAV的识别、功能注释和检索 | (解读人:徐洪凯)

    文献名:SAAVpedia: identification, functional annotation, and retrieval of single amino acid variants fo ...

  2. Journal of Proteome Research | Prediction of an Upper Limit for the Fraction of Interprotein Cross-Links in Large-Scale In Vivo Cross-Linking Studies (分享人:张宇星)

    题目:Prediction of an Upper Limit for the Fraction of Interprotein Cross-Links in Large-Scale In Vivo ...

  3. Journal of Proteome Research | 人类牙槽骨蛋白的蛋白质组学和n端分析:改进的蛋白质提取方法和LysargiNase消化策略增加了蛋白质组的覆盖率和缺失蛋白的识别 | (解读人:卜繁宇)

    文献名:Proteomic and N-Terminomic TAILS Analyses of Human Alveolar Bone Proteins: Improved Protein Extr ...

  4. Journal of Proteome Research | iHPDM: In Silico Human Proteome Digestion Map with Proteolytic Peptide Analysis and Graphical Visualizations(iHPDM: 人类蛋白质组理论酶解图谱的水解肽段分析和可视化展示)| (解读人:邓亚美)

    文献名:iHPDM: In Silico Human Proteome Digestion Map with Proteolytic Peptide Analysis and Graphical Vi ...

  5. Journal of Proteome Research | Down-Regulation of a Male-Specific H3K4 Demethylase, KDM5D, Impairs Cardiomyocyte Differentiation (男性特有的H3K4脱甲基酶基因(KDM5D)下调会损伤心肌细胞分化) | (解读人:徐宁)

    文献名:Down-Regulation of a Male-Specific H3K4 Demethylase, KDM5D, Impairs Cardiomyocyte Differentiatio ...

  6. Journal of Proteome Research | Quantitative Subcellular Proteomics of the Orbitofrontal Cortex of Schizophrenia Patients (精神分裂症病人眶额叶皮层亚细胞结构的定量蛋白质组学研究)(解读人:王聚)

    期刊名:Journal of Proteome Research 发表时间:(2019年10月) IF:3.78 单位: 里约热内卢联邦大学 坎皮纳斯州立大学 坎皮纳斯州立大学神经生物学中心 卡拉博大 ...

  7. Journal of Proteome Research | Proteomic Profiling of Rhabdomyosarcoma-Derived Exosomes Yield Insights into Their Functional Role in Paracrine Signaling (解读人:孙国莹)

    文献名:Proteomic Profiling of Rhabdomyosarcoma-Derived Exosomes Yield Insights into Their Functional Ro ...

  8. Journal of Proteome Research | Global Proteomic Analysis of Lysine Succinylation in Zebrafish (Danio rerio) (解读人:关姣)

    文献名:Global Proteomic Analysis of Lysine Succinylation in Zebrafish (Danio rerio)(斑马鱼赖氨酸琥珀酰化的全球蛋白质组学分 ...

  9. Journal of Proteome Research | An automated ‘cells-to-peptides’ sample preparation workflow for high-throughput, quantitative proteomic assays of microbes (解读人:陈浩)

    文献名:An automated ‘cells-to-peptides’ sample preparation workflow for high-throughput, quantitative p ...

随机推荐

  1. babel-loader的原理

    本文转载自默语的博客. Babel包的构成 核心包 babel-core:是babel转译器本身,提供转译的API,例如babel.transform等,webpack的babel-loader就是调 ...

  2. DOS命令编译JAVA程序

    上篇文章给大家写了怎么安装JDK配置,现在这篇文章我们就来学习下怎么在DOS命令下编译JAVA程序,以后没编译器都可以直接编译啦(嘻嘻!) 我这里就用永远的 “Hello wrold!”来演示下吧. ...

  3. CSAPC08台湾邀请赛_T1_skyline

    题目链接:CSAPC08台湾邀请赛_T1_skyline 题目描述 一座山的山稜线由许多片段的45度斜坡构成,每一个片段不是上坡就是下坡. / /​ * / ​/ * /  // ​/ // / 在我 ...

  4. Dykin's blog

    回归分析是一种很重要的预测建模技术.主要是研究自变量与因变量之间的因果关系.本文将会从数学角度与代码角度分析不同类型的回归.当你想预测连续型的非独立变量,或者对一系列独立变量或输入项有所反应时,就会使 ...

  5. android-interview

    如何减小安装包的大小 主要是减小资源的大小 不常使用的资源,使用时再从网络下载. 绘制代替图片资源 OOM (Out Of Memory) https://www.zhihu.com/question ...

  6. Jun

    Contents 数据来源 代码演示 讨论 一.数据来源 为了节省时间,我直接用了官方所给的数据,分别是雄性和雌性小鼠的肝脏芯片数据 Female Data Male Data 二.代码演示 数据输入 ...

  7. 3D打印如何重组制造格局?

    ​全球化的竞争正变得毫无底线,国与国之间只有利益,没有同情,也就是说美国品牌想把自己的工厂移回本土,是不会考虑中国工人的生存现状的,更不会顾及这里的GDP和环境问题,甚至还会依靠经济能力去奴役其他国家 ...

  8. C++走向远洋——55(项目一3、分数类的重载、>>

    */ * Copyright (c) 2016,烟台大学计算机与控制工程学院 * All rights reserved. * 文件名:text.cpp * 作者:常轩 * 微信公众号:Worldhe ...

  9. FPGA小白学习之路(2)error:buffers of the same direction cannot be placed in series

    锁相环PLL默认输入前端有个IBUFG单元,在输出端有个BUFG单元,而两个BUFG(IBUFG)不能相连,所以会报这样的错: ERROR:NgdBuild:770 - IBUFG 'u_pll0/c ...

  10. Mariadb 修改root密码及跳过授权方式启动数据库

    默认情况下,yum方式新安装的 mariadb 的密码为空,在shell终端直接输入 mysql 就能登陆数据库. 如果是刚安装第一次使用,请使用 mysql_secure_installation ...