No.2 R语言在生物信息中的应用

目的：

　　1. 计算自定义模序在所有蛋白质的匹配位点和次数

　　2. 输出超过阈值的蛋白质序列到Hit_sequences.fasta

　　3. Hit_sequences.fasta中序列用小写字母，匹配用大写字母

　　4. 返回一个数据框，内容包存储ID、注释行(anno)括——、长度(len)、匹配位置（Position），匹配次数(Hits)，相应序列（tag）

一、问题思考：

1. 如何快速计算匹配位点

2. 输出文件如何构建

>序列ID（ACCESSION）

序列内容

二、流程图

三、代码详解

 1 pattern_match<-function(pattern, sequences, hit_num){

 2   # 1. 因为字符型在数据框中被设置为因子型所以需要转换；

 3   # 2. 返回匹配起始位置，以及匹配长度（属性值：match.length）,返回值为列表

 4   pos<-gregexpr(pattern, as.character(sequences[, 4]), perl=T)

 5   posv<-unlist(lapply(pos, paste, collapse=",")) # 把每条序列的匹配起始位置用“，”连接

 6   posv[posv == -1]<-0

 7   fun<-function(x){

 8     if(x[1] == -1)

 9       0

10     else

11       length(x)

12   }

13   hitsv<-unlist(lapply(pos, fun)) # 获取每条序列匹配次数

14   sequences<-data.frame(sequences[, 1:3], Position = as.vector(posv),

15                         Hits = hitsv, sequences[, 4]) # 构建数据框：序列id，注释，长度，Position（匹配位置），Hits(匹配次数)，序列内容

16   tag<-gsub("([A-Z])", "\\L\\1", as.character(sequences[sequences[, 5]>hit_num,6]),

17             perl=T, ignore.case = T) # 把蛋白质序列中匹配次数大于阈值的序列转换成小写字母，这里的perl = T 为必须

18   pattern2<-paste("(", pattern, ")", sep="" ) # 重新构建模式，这样做是因为没法在模式中引入变量，变通之后就可以

19   tag<-gsub(pattern2, "\\U\\1", tag, perl=T, ignore.case=T ) # 把匹配到的模式转换为大写

20   export<-data.frame(sequences[sequences[, 5]>hit_num, -6], tag) # 构建输出数据框，大于阈值的蛋白质序列所有信息

21   selected<-export

22   # 构建写入文件的数据框格式，包括“>序列号”和序列内容

23   export<-data.frame(Acc = paste(">",export[, 1], sep = ""), seq = export[, 6])

24   # 先转置->转换为字符型->转换为向量（按列合并）

25   # e.g:x<-matrix(1:4,nrow = 2, byrow = T); as.vector(x); 结果为1 3 2 4

26   write.table(as.vector(as.character(t(export))), file="Hit_sequences.fasta", quote = F,

27               row.names = F, col.names = F)

28   cat("含有模序\"", pattern, "\"超过", hit_num,

29       "个的所有蛋白序列已写入当前工作目录下的文件‘Hit_sequences.fasta’", "\n", seq = "")

30   cat("极度嗜盐古菌蛋白组中以下序列含有模序\"", pattern, "\"的数量超过", hit_num, "个：", "\n", seq = "")

31   print(selected[, 1:5])

32   selected

33 }

四、调用函数，查看结果（这里需要用到No.1 R语言在生物信息中的应用——序列读取及格式化输出的结果）

setwd("E:/bioinfor/bioBook/") # 设定工作目录

rm(list = ls()) # 清空变量

my_file<-"seq.txt" # 指定序列文件

source("./seq_import.R") # 载入函数

my_sequences<-seq_import(file = my_file) # 调用函数

source("./pattern_match.R") # 载入函数

hit_sequences<-pattern_match(pattern = "H..H{1,2}", sequences = my_sequences,

                             hit_num = 2) # 调用函数

五、结果截图：

六、问题解决

　　1. 如何快速计算匹配位点

gregexpr(pattern, text, ignore.case = FALSE, perl = FALSE,

                 fixed = FALSE, useBytes = FALSE)

作用：返回匹配到的字串的起始位置，以及匹配长度（属性值），匹配所有元素的所有位置.未匹配到返回-1

　　　-> grepexpr函数可以返回匹配位点的起始位置，计算起始位置个数就可以快速计算匹配位点

　　2. 输出文件如何构建

No.2 R语言在生物信息中的应用—模式匹配的更多相关文章

No.1 R语言在生物信息中的应用——序列读取及格式化输出
目的:读入序列文件(fasta格式),返回一个数据框,内容包括--存储ID.注释行(anno).长度(len).序列内容(content) 一.问题思考: 1. 如何识别注释行和序列内容行 2. 如何 ...
R语言作为BI中ETL的工具
R语言作为BI中ETL的工具,增删改 R语言提供了强大的R_package与各种数据库进行数据交互. 外加其强大数据变换清洗函数,为ETL提供一条方便快捷的道路. RODBC ROracal RMys ...
概率图模型基于R语言这本书中的第一个R语言程序
概率图模型基于R语言这本书中的第一个R语言程序 prior <- c(working =0.99,broken =0.01) likelihood <- rbind(working = ...
[R语言]forecast.Arima中使用xreg报错
问题: 使用forecast.Arima对带xreg的arima模型进行预测,报xreg Error pre.m4x <- forecast.Arima(m4x, h = 20, xreg = ...
R语言读取matlab中数据
1. 在matlab中将数据保存到*.mat 文件夹 save("data.mat","data","label")#将data和label ...
R语言使用过程中出现的问题--读取EXCEL文件
方法一: 按照R导论中的方法,使用RODBC包, library(RODBC) channel<-odbcConnectExcel("file.xlsx") da2<- ...
R语言数据框中，用0替代NA缺失值
1.用0替代数据框中的缺失值NA 生成数据框: > m <- matrix(sample(c(NA, :), , replace = TRUE), ) > d <- as.da ...
R语言判断向量中是否存在一个元素
判断ori_data[,1]中是否存在元素a: a %in% ori_data[,1] 如果存在返回 true,否则返回 false
R语言使用过程中出现的问题--attach()函数的使用
使用attach(file)时,一定要配合使用detach(file),否则再此运行程序时极易出现问题,The following objects are masked ... 此外工作空间中不能有与 ...

随机推荐

[no_code]团队任务拆解Alpha
项目内容这个作业属于哪个课程 2020春季计算机学院软件工程(罗杰任健) 这个作业的要求在哪里团队任务拆解我们在这个课程的目标是远程协同工作,采用最新技术开发软件这个作业在哪个具体方面帮 ...
所驼门王的宝藏（Tarjan）
题目描述在宽广的非洲荒漠中,生活着一群勤劳勇敢的羊驼家族.被族人恭称为"先知"的Alpaca L. Sotomon是这个家族的领袖,外人也称其为"所驼门王". ...
VirtualBox Share Folder
转载:https://www.cnblogs.com/Dennis-mi/articles/5896586.html 使用virtualbox最方便的host-guest交换文件方案莫过于共享文件夹功 ...
如何抓取直播源及视频URL地址-疯狂URL（教程）
直播源介绍首先,我们来快速了解一下什么是直播源,所谓的直播源,其实就说推流地址,推流地址可能你也不知道是什么,那么我再简单说一下,推流地址就是,当某个直播开播的时候,需要将自己的直播状态实时的展示给 ...
redis 集群环境搭建
原理: 1,每个Redis群集的节点都需要打开两个TCP连接,由于这两个连接就需要两个端口,分别是用于为客户端提供服务的常规Redis TCP命令端口(例如6379)以及通过将10000和命令端口相加 ...
CSS学习（三）特指度和层叠
一.特指度特制度的一般形式是0,0,0,0 行内样式,第一位的特指度加一 id选择符,第二位的特指度加一类选择符.属性选择符.伪类,第三位的特指度加一元素选择符.伪元素,第四位的特指度加一特指 ...
Pytorch中stack()方法的理解
Torch.stack() 1. 概念在一个新的维度上连接一个张量序列 2. 参数 tensors (sequence)需要连接的张量序列 dim (int)在第dim个维度上连接注意输入的张量s ...
记录一个很傻的错误（C++）
使用的vscode写代码,导入了vector,memory,然后忘了导入string.但是代码中能够提示std::string也就让我忘了导入string.然后就莫名其妙的报错了.找了很久的错.记录下 ...
airflow 并发上不去
airflow.cfg parallelism配置是否合适任务池slot是否足够
C# 两个具有相同属性的类赋值
最近有遇到两个类之间的赋值问题,两个类的属性几乎都一样的,所以写了个通过反射获取属性的然后赋值的方法,把一个类的属性的值赋值给另一个类. 框架是.net 4.5 public static D Map ...

No.2 R语言在生物信息中的应用—模式匹配

No.2 R语言在生物信息中的应用—模式匹配的更多相关文章

随机推荐

热门专题