如何基于Perl实现批量蛋白名转换为基因名?以做后续GO与KEGG分析
众所周知,在完成蛋白组学组间差异蛋白筛选后,往往要做GO与KEGG功能富集分析,这就需要我们首先将蛋白名转换为基因名,或者找出基因ID。将蛋白名转化为基因名可能涉及不同的转换工具或数据库,这里有几种常见的方法:
①UniProt数据库:UniProt数据库提供了蛋白和其对应基因的关联信息。可以通过查询UniProt数据库来找到蛋白名对应的基因名。
② 基因注释工具:一些基因注释工具(如DAVID、Enrichr等)能够接受蛋白名作为输入,并返回与之关联的基因信息。
③文献和数据库搜索:通过文献或特定的生物信息学数据库(如NCBI、Ensembl等),可以手动查找蛋白名和基因名之间的关联。
④转录本和基因组数据库:有时蛋白和基因之间的映射可以通过转录本和基因组序列的对应关系来确定。
以上四种方法虽然可以实现蛋白名与基因名的转换,但是只适应于小样本的处理,如果差异有几百或者上千个蛋白,那么用以上方法处理起来会非常麻烦。下面我们将介绍如何用perl进行批量处理。源代码可关注本公众号(皮蛋笔记)私信获取。
1、首先下载并安装Perl脚本
网页搜索Perl直接进入即可(Strawberry Perl for Windows),点击下载并安装。

2、准备所需文件
Protein name.txt为筛选到的差异蛋白文件如下图所示,包含蛋白名称或者蛋白ID,本例中所使用的为蛋白名称。uniprot_Human.tsv为从uniprot数据库下载的物种蛋白数据库,如何下载之前笔记已经讲述。addSymbol文件就是Perl脚本,可关注本公众号(皮蛋笔记)私信获取。

3.打开addSymbol文件,更改代码中的文件名,以输入、输出文件

4.在电脑搜索框中输入“cmd”,打开命令提示符。

5.如下图所示,输入“cd ”(cd后有空格),将文件所在工作路径复制或粘贴至cd后面,并按下“enter”打开工作路径



6.手动输入addSymbol.pl文件名,按下“enter”键运行即可得结果。

7.可以发现在文件夹里已经多了结果文件,打开进行后处理即可

在获取蛋白质的基因的名称后,需要获取基因的ID以为后续进行GO和KEGG分析,下篇笔记将会展示如何应用R语言进行GO分析,敬请关注与期待。本篇内容代码与文件见以下链接
链接:https://pan.baidu.com/s/1oQ9dqOeHdO5I08skBt40VQ
提取码:r3ml
内容转自公众号:皮蛋笔记,欢迎关注,获取第一时间咨询和相关资料。

如何基于Perl实现批量蛋白名转换为基因名?以做后续GO与KEGG分析的更多相关文章
- Python基于Python实现批量上传文件或目录到不同的Linux服务器
基于Python实现批量上传文件或目录到不同的Linux服务器 by:授客 QQ:1033553122 实现功能 1 测试环境 1 使用方法 1 1. 编辑配置文件conf/rootpath_fo ...
- perl命令批量替换文件内容
转自:http://www.jbxue.com/article/12638.html 使用perl命令批量替换文件内容. 对linux下的文件内容进行替换,有时不用编写perl脚本,用perl命令就可 ...
- Python 基于Python实现批量创建目录
基于Python实现批量创建目录 by:授客QQ:1033553122 测试环境: Python版本:Python 2.7 代码实践 #!/usr/bin/env python # -*- cod ...
- JavaScript字符串转换为变量名
1.将一个字符串转换为变量名 [javascript] view plain copy print? function string_to_name(string){ let _name = 'var ...
- 详解:数据库名、实例名、ORACLE_SID、数据库域名、全局数据库名、服务名及手工脚本创建oracle数据库
数据库名.实例名.数据库域名.全局数据库名.服务名 , 这是几个令很多初学者容易混淆的概念.相信很多初学者都与我一样被标题上这些个概念搞得一头雾水.我们现在就来把它们弄个明白. 一.数据库名 什么是数 ...
- Oracle数据库名、实例名、数据库域名、全局数据库名、服务名之间的区别
数据库名.实例名.数据库域名.全局数据库名.服务名 这是几个令很多初学者容易混淆的概念.相信很多初学者都与我一样被标题上这些个概念搞得一头雾水.我们现在就来把它们弄个明白. 一.数据库名 什么是数据库 ...
- 让Oracle 大小写敏感 表名 字段名 对像名
一.解决方案 1.在表名.字段名.对象名上加上双引号,即可实现让oracle大小写区分. 2.但是这又引起了另一个问题:在数据库操作中,sql语句中相应的表名.字段名.对象名上一定要加双引号. 解决办 ...
- C语言中变量名及函数名的命名规则与驼峰命名法
一.C语言变量名的命名规则:(可以字母,数字,下划线混合使用) 1. 只能以字母或下划线开始:2. 不能以数字开始:3. 一般小写:4. 关键字不允许用(eg:int float=2//error ...
- 基于spring-boot的社区社交微信小程序,适合做脚手架、二次开发
基于spring-boot的社区社交微信小程序,适合做脚手架.二次开发 代码地址如下:http://www.demodashi.com/demo/13867.html 1 概述 笔者做的一个后端基于s ...
- oracle10G 数据库名、实例名、ORACLE_SID 及创建数据库- hl3292转载修改(实践部分待校验)
数据库名.实例名.数据库域名.全局数据库名.服务名 , 这是几个令很多初学者容易混淆的概念.相信很多初学者都与我一样被标题上这些个概念搞得一头雾水.我们现在就来把它们弄个明白. 一.数据库名 什么是数 ...
随机推荐
- K8s场景下Logtail组件可观测方案升级-Logtail事件监控发布
简介: SLS针对Logtail本身以及Logtail的管控组件alibaba-log-controller,采用K8s事件的方式,将处理流程中的关键事件透出,从而让用户能够更清楚的感知其中发生的异常 ...
- Serverless 应用引擎 SAE 携手谱尼测试共同抗疫
简介:潮落江平未有风,扁舟共济与君同. 阿里云联合乘云至达与谱尼测试携手, 共同筑建抗疫堡垒,共抗疫情.共克时艰. 作者 | 计缘 背景 当前疫情形势依然严峻,各行各业众志成城,携手抗疫.新冠病毒核 ...
- 新型DDoS来袭 | 基于STUN协议的DDoS反射攻击分析
简介: 作为新型反射类型,目前仍存绕过防御可能性. 阿里云安全近期发现利用STUN(Session Traversal Utilities for NAT,NAT会话穿越应用程序)服务发起的DDoS反 ...
- Kettle on MaxCompute使用指南
简介: Kettle是一款开源的ETL工具,纯java实现,可以运行于Windows, Unix, Linux上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑.Kett ...
- 请查收这份 6.3k star的 Java 攻城狮学习指南!
大家好,我是 Java陈序员. 自从一入 Java 开发的坑,可谓是每天过得神清气爽(水深火热). 每天不是被项目经理赶进度,就是被测试小姐姐追着改 Bug!都没有时间好好学习(摸鱼)了! 今天给大家 ...
- 从零在win10上测试whisper、faster-whisper、whisperx在CPU和GPU的各自表现情况
Anaconda是什么? Anaconda 是一个开源的 Python 发行版本,主要面向数据科学.机器学习和数据分析等领域.它不仅包含了 Python 解释器本身,更重要的是集成了大量的用于科学计算 ...
- JDK源码阅读-------自学笔记(十八)(java.lang.Enum枚举类)
枚举类简介 如果有必要定义一组常量的时候使用 所有的枚举类型隐性地继承自 java.lang.Enum,枚举实质上还是类. 每一个枚举中的成员,就相当于枚举的一个对象,默认都是public stati ...
- C 语言编程 — 基本语法
目录 文章目录 目录 前文列表 C 语言 C 语言的版本 C 语言的特点 C 语言的优点 C 语言的缺点 搭建编程环境 基本语法 前文列表 <程序编译流程与 GCC 编译器> C 语言 C ...
- 通过XML标记生成word
思路 word生成可以通过标签,也可以通过XML元素. word文档实际上是由文档对象模型描述的,因此我们能够通过对文档对象进行操作去生成word. 由于word允许我们附加XML结构(元素),如下: ...
- winform 使用Clipboard 和windows Word Com组件 把Html 导出到word
首先是把Html复制到剪贴板 见:https://www.cnblogs.com/HelloQLQ/p/16289343.html 然后使用: private void saveAsWordCopy( ...