KEGG数据库

参考：KEGG数据库中文教程 - 博奥 &【学习笔记】KEGG数据库 - 微信

学习一个技能最主要的事情你必须知道，那就是能通过它来做什么？

KEGG数据库里面有什么？
如何查询某一特定的代谢途径(pathway)的信息，例如Glycolysis / Gluconeogenesis?
如何查询某一化合物的信息,例如Pyruvate?
如何查询Pyruvate涉及了哪些生化反应?
如何查询某一基因的信息,例如gltA ?
如何知道Bacillus subtilis是否有gltA?
如何查询 gltA在其他物种中的同源基因?
如何列出某一代谢途径中涉及的所有的酶？例如cytrate cycle pathway（TCA循环）
如何知道人类的cytrate cycle中pyruvate carboxylase这种酶有多少化合物与其发生相互作用？
如何查询人类由Citrate生成Acetyl-CoA的可能步骤？
有一条未知的序列，如何查询KEGG数据库中是否有基因或酶与其对应?

生物信息的最上游就是测序，测序直接得到的就是序列信息，然后通过组装就可以得到基因组或转录组信息，接下来就会得到基因的信息，以及基因表达的信息。

那么，我们知道了测出来的物种中的某个基因的序列，及其在转录中的表达情况，我们如何确定该基因的功能呢？百度知乎

这种思路是不对的，基本没有人挨个去研究验证计算机得到的基因，因为太漫无目的，没人有那么多金钱精力。

现实的是，我对某个重要的现象感兴趣（意义重大，好发文章），然后控制该现象最主要的基因，去发现基因的功能，这才是可行的套路。

所以一般是先有表型再去找基因，也就是所谓的正向遗传学。当然你也可以用反向遗传学，挨个敲掉基因看有没有你要的表型。因为科学家一般只关注自己感兴趣的基因，所以不会出现你说的那种情况，就是不会追着一个基因非要知道它的功能，而是有目的地找他所关心的基因。

基因功能定位这个很复杂，可以专门开一篇文章了，暂且到此。

假设我们现在有了基因序列及其功能，我们接下来也会知道该基因合成了哪些蛋白，参与了哪些化学反应。

代谢是细胞内各种化学反应的总称，一个代谢途径包括代谢的前提、产物和酶。

正文

KEGG就是用来查询代谢途径、酶、酶编码基因和代谢物的，此外还有GenMAPP、BioRag等同类型数据库。

KEGG还可以通过BLAST来查询未知序列的代谢途径信息，主要就是同源比对，找相似信息吧。

KEGG网站的逻辑框架：（问题1：KEGG数据库里面有什么？）

目前KEGG太大了，所以拆成了很多子数据库，其中最核心的为 KEGG PATHWAY 和 KEGG ORTHOLOGY 数据库。

PATHWAY（代谢途径数据库），可以查询各种代谢途径。
BRITE（代谢通路及同源基因数据库），这个数据与PATHWAY数据库不同的是，可以查询酶和底物之间的关系，也可以查询某种酶的同源基因。 
GENES（基因数据库），可以查询不同的基因或基因组的信息。 
LIGAND（配体数据库），可以查询反应中各种化合物的信息。

PATHWAY数据库的使用

点击进入后会发现KEGG收录了如下代谢途径：

在 KEGG PATHWAY 数据库中，将生物代谢通路划分为 6 类，分别为：细胞过程（Cellular Processes）、环境信息处理（Environmental Information Processing）、遗传信息处理（Genetic Information Processing）、人类疾病（Human Diseases）、新陈代谢（Metabolism）、生物体系统（Organismal Systems），其中每类又被系统分类为二、三、四层。第二层目前包括有 43 种子 pathway；第三层即为其代谢通路图；第四层为每个代谢通路图的具体注释信息。

问题2：如何查询某一特定的代谢途径(pathway)的信息，例如Glycolysis / Gluconeogenesis?

可以直接在首页上搜索Glycolysis / Gluconeogenesis，也可以点击Carbohydrate Metabolism中的Glycolysis / Gluconeogenesis

怎么看懂代谢途径图：

方框中表示的是反应中的酶，例如2.7.1.41，这是酶的EC number，国际酶学委员会的编号。
小圆圈代表的是反应中的化合物，例如α-D-Glucose-1P。
箭头代表的是反应的方向。
虚线表示此反应可以通过中间产物与其他途径发生联系。

还可以选择相对应的物种，如Homo Sapiens(human)。

还可以点进去了解指定酶的详细信息

以ko04151为例：

ORTHOLOGY 数据库的使用

在 KEGG ORTHOLOGY（直系同源）数据库中，将行使相同功能的基因聚在一起，称为 Ortholog Groups (KO entries)，每个 KO 包含多个基因信息，并在一至多个 pathway 中发挥作用。

LIGAND数据库的使用
GENES数据库的使用
KO数据库的使用
LinkDB的使用
PathComp的使用
BLAST的使用

代谢通路可视化

使用 pathview, KEGGREST和KEGGgraphR包绘制

正确认识代谢通路富集分析（转）

我一直建议不要仅仅基于Pathway富集分析的结果解读数据，人为的解读和挑选是必不可少的。因为生物数据的解读，在现阶段更多是生物学问题，而不是数学问题。原因大体如下：

（1）基因调控是个系统，不要仅仅看成1个孤立的pathway。

在今年参加的第二届植物抗逆会议上，1个教授说了一句话，我认为很有道理。“在植物体内其实根本就不存在pathway，什么脱落酸通路，水杨酸通路，其实这些调控因子都是相互联通，相互影响的，是个整体。只是我们人类为了研究方便，人为将这些系统拆分各个子集。 ” 所以，如果你真的将pathway看成1个个破碎的途径，以为某种处理只会影响某个pathway，富集分析必须在数学上或统计学上得到1个指向性很强的结论，那是不大可能的。
具体说了，说基因调控是个系统，可以从两个层面进行解读：

a）1个基因的改变可以造成整个系统的改变；
举几个例子：把1个生命活动必须的蛋白敲除后，整个细胞会发生紊乱。而植物抗病应激，也往往是1个受体蛋白识别了病原的外源蛋白，然后导致整个细胞系统的变化。
b）1个基因往往有多个功能，但执行具体的功能往往是不同蛋白复合物共同作用的结果。
例如，基因X理论上在不同情况下，有可能参与A、B、C通路。在某个生物处理下，或许基因X 只在A通路里起作用。但如果进行基因注释的话，X同样也会被注释到B、C。所以，富集分析的结果总是会涉及特别多的通路。例如，研究人的项目，无论什么研究背景，常常会富集到帕金森综合症通路。不是你的材料真的得了帕金森综合症，只是那些与你实验处理相关的基因，在一定条件下也可以参与到帕金森综合症的过程，所以被注释到了这个通路里。
小结：所以，我们也看到了。无论什么实验处理，总有可能导致整个系统的变化。同时，基因的通路注释也有欺骗性。那么，从这一堆冗余信息中，想得到与我们研究相关的结论，离不开人为的筛选也解读。从那个复杂的整体中，筛选出核心的局部片段，这是个技术活。“这样的话是否存在一个问题就是在结果的解释上比较主观，也会因自身背景知识的不足而漏掉一些新颖的结果”。那当然，同样的结果1个外行可能什么都没有看见。但1个资深的学者可能会把握到很精彩的内容。好像任何领域都是如此，除了提高内功好像没有其他捷径。
（2）pathway富集分析的统计假设，并非在任何情况下都适用

pathway富集分析，在生物学上的假设是：1个pathway上游基因的改变，会导致下游相关基因改变，从而改变通路中大量基因的表达，达到统计学上富集的效果。但很多pathway中，基因A、B、C并不是相互调控的关系，而是共同参与某个过程的不同部分。
例如，代谢物X的合成修饰。基因A、B、C分步骤参与合成的3个步骤。基因A给X前体加了羟基，然后传递到下游；基因B又给X前体加了苯环，再传递到下游；基因C又给X的前体加了个乙酰基，完成X的合成。那么，基因A、B、C是参与了的相同的通路。如果基因A发生表达量变化，会直接调控影响B、C的表达量变化吗？看来很有可能不会，所以从RNA-seq差异分析的富集分析结果中，这个通路是不显著的。那么基因A的表达变化是否有生物学意义？当然有，因为代谢物X的合成的确受影响了。
类似的例子，理论上DNA差异甲基化的结果，就不能看pathway富集分析的结果。1个pathway 1个基因的DNA甲基化变化，就足以改变这个通路的基因表达，而不需要整个通路的甲基化都发生变化。DNA甲基化、组蛋白CHIP-seq的结果，其实只看功能注释、或通路注释就足够了，不需要考虑富集。
所以，我们还是要观察、理解某个核心pathway中基因的相互作用，才能判断其中的基因变化是否有生物学意义，而不仅仅看富集分析的p value或Q value。

（3）目前的pathway是不完整的。

目前KEGG等数据库，收录的是已有的研究结果。但这些pathway的信息，远没有到达完善的水准。大部分通路只是了解1个大概的调控途径，而中间有什么转录因子参与、是否还有其他代谢物的生成，都是不知道的。这些通路的完整性，也会影响pathway富集分析结果。例如，基因A发生变化了，看起来下游基因没有变化。也许是还有其他的调控在起作用，只是这些调控作用现在还不知道而已。
总结：pathway 和 GO富集分析结果的解读，应该从生物学意义的角度出发，P value 和 Q value只是个参考而已，那些不显著的通路也值得解读（从功能注释的角度解读，而不是从富集分析的角度解读）。只要结果可以解释，有意义，不用太迷信P value。

KEGG数据库的更多相关文章

KEGG数据库的使用方法与介绍
KEGG数据库的使用方法与介绍 KEGG的数据 KEGG中的pathway是根据相关知识手绘的,这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系:基因组信息主要是从NCBI等数据库中 ...
GO 和 KEGG 的区别 | GO KEGG数据库用法 | 基因集功能注释 | 代谢通路富集
一直都搞不清楚这两者的具体区别. 其实初学者搞不清楚很正常,因为它们的本质是相通的,都是对基因进行归类注释的数据库. 建议初学者自己使用一下这两个数据库,应该很快就能明白其中的区别. (抱歉之前没讲清 ...
KEGG数据库介绍
转载自https://mp.weixin.qq.com/s/pqbMXMkuqEXbLf31PTxGZQ KEGG简介 KEGG 数据库于 1995 年由 Kanehisa Laboratories ...
【数据库】本地KEGG数据库如何拆分子库？
目录 KEGG本地库文件按物种拆分KEGG数据库 1.获得物种分类信息 2.获得物种分类的序列信息并建库 3.获得物种分类的K-ko对应文件根据相似性原理,序列相似,功能相似,所有功能注释无非是用 ...
如何构建自己的KEGG数据库
本文转自Y叔公众号自己KEGG数据库好处: 可重复性好没网也可以进行分析步骤 1 在KEGG官网找到自己物种的3字符缩写 2 加载Y叔获取kegg.db 的R包 1 ##安装Y叔的包 2 lib ...
KEGG数据库整理示例
已知KEGG数据库中ko_map.tab文件,K-->ko: 目标文件:map-->K 代码示例: #! /usr/bin/perl -w use strict; my %seq; ope ...
（转）基因芯片数据GO和KEGG功能分析
随着人类基因组计划(Human Genome Project)即全部核苷酸测序的即将完成,人类基因组研究的重心逐渐进入后基因组时代(Postgenome Era),向基因的功能及基因的多样性倾斜.通过 ...
kegg富集分析之：KEGGREST包（9大功能）
这个包依赖极有可能是这个:https://www.kegg.jp/kegg/docs/keggapi.html ,如果可以看懂会很好理解由于KEGG数据库分享数据的策略改变,因此KEGG.db包不在 ...
利用KEGG的API获取基因对应的pathway 信息
KEGG 官网提供了API, 可以方便的访问KEGG 数据库中的内容,链接如下: http://www.kegg.jp/kegg/rest/keggapi.html 利用API可以得到某一个基因参与的 ...

随机推荐

jexus部署ASP.NET MVC网站
1.新建项目,我这里新建的空项目中的MCV 2.用nuget删除这两个类库 Microsoft.CodeDom.Providers.DotNetCompilerPlatform Microsoft.N ...
调优SQL思路
--调优SQL --sqlreview ->logshipping -> ag辅助副本 --查看正确的执行计划打开实际的执行计划set statistics io on --查看错误的执 ...
git操作笔记
首先本文参考廖雪峰的git学习教程,写的非常好,值得学习. http://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b80 ...
新手入门 keil MDK5 建立STM32工程
keil uvison 是用来开发单片机的,Keil mdk 是用来开发 ARM 的. 芯片型号是:STM32F103RB6 1,新建工程配置属性晶振为8M 根据实际晶振选择生成 HEX 文件 ...
Web Compiler
Web Compiler The easiest and most powerful way to compile LESS, Scss, Stylus, JSX and CoffeeScript f ...
kafka0.9.0及0.10.0配置属性
问题导读1.borker包含哪些属性?2.Producer包含哪些属性?3.Consumer如何配置?borker(0.9.0及0.10.0)配置Kafka日志本身是由多个日志段组成(log segm ...
[已解决][HTML5]基于WebSocket开发小蝌蚪应用
前端时间在网上看到别人用WebSocket开发的小蝌蚪应用很炫酷,不过是php,于是想着用java也实现一套, 找到前端 https://github.com/danielmahal/Rumpetro ...
Oracle Grid Infrastructure安装部署文档
1. 部署环境步骤 1.1 软件环境操作系统: CentOS release 6.5 oracle安装包: linux.x64_11gR2_grid.zip linux.x64_11gR2_data ...
SQL 语句调优 where 条件数据类型临时表索引
基本原则避免全表扫描建立索引尽量避免向客户端返回大数据量,若数据量过大,应该考虑相应需求是否合理尽量避免大事务操作,提高系统并发能力使用基于游标的方法或临时表方法之前,应先寻找基于集的解决方 ...
处理session跨域几种的方案
常用跨域共用session的是登录模块,我相信很多开发的朋友的都遇到过,只需要一个地方登录,相关联的网站也是处于登录状态.两种情况:一种9streets.cn和a.9streets.cn之间,另一种是 ...