No.2 R语言在生物信息中的应用—模式匹配
目的:
1. 计算自定义模序在所有蛋白质的匹配位点和次数
2. 输出超过阈值的蛋白质序列到Hit_sequences.fasta
3. Hit_sequences.fasta中序列用小写字母,匹配用大写字母
4. 返回一个数据框,内容包存储ID、注释行(anno)括——、长度(len)、匹配位置(Position),匹配次数(Hits),相应序列(tag)
一、问题思考:
1. 如何快速计算匹配位点
2. 输出文件如何构建
>序列ID(ACCESSION)
序列内容
二、 流程图
三、 代码详解
1 pattern_match<-function(pattern, sequences, hit_num){
2 # 1. 因为字符型在数据框中被设置为因子型所以需要转换;
3 # 2. 返回匹配起始位置,以及匹配长度(属性值:match.length),返回值为列表
4 pos<-gregexpr(pattern, as.character(sequences[, 4]), perl=T)
5 posv<-unlist(lapply(pos, paste, collapse=",")) # 把每条序列的匹配起始位置用“,”连接
6 posv[posv == -1]<-0
7 fun<-function(x){
8 if(x[1] == -1)
9 0
10 else
11 length(x)
12 }
13 hitsv<-unlist(lapply(pos, fun)) # 获取每条序列匹配次数
14 sequences<-data.frame(sequences[, 1:3], Position = as.vector(posv),
15 Hits = hitsv, sequences[, 4]) # 构建数据框:序列id,注释,长度,Position(匹配位置),Hits(匹配次数),序列内容
16 tag<-gsub("([A-Z])", "\\L\\1", as.character(sequences[sequences[, 5]>hit_num,6]),
17 perl=T, ignore.case = T) # 把蛋白质序列中匹配次数大于阈值的序列转换成小写字母,这里的perl = T 为必须
18 pattern2<-paste("(", pattern, ")", sep="" ) # 重新构建模式,这样做是因为没法在模式中引入变量,变通之后就可以
19 tag<-gsub(pattern2, "\\U\\1", tag, perl=T, ignore.case=T ) # 把匹配到的模式转换为大写
20 export<-data.frame(sequences[sequences[, 5]>hit_num, -6], tag) # 构建输出数据框,大于阈值的蛋白质序列所有信息
21 selected<-export
22 # 构建写入文件的数据框格式,包括“>序列号”和序列内容
23 export<-data.frame(Acc = paste(">",export[, 1], sep = ""), seq = export[, 6])
24 # 先转置->转换为字符型->转换为向量(按列合并)
25 # e.g:x<-matrix(1:4,nrow = 2, byrow = T); as.vector(x); 结果为1 3 2 4
26 write.table(as.vector(as.character(t(export))), file="Hit_sequences.fasta", quote = F,
27 row.names = F, col.names = F)
28 cat("含有模序\"", pattern, "\"超过", hit_num,
29 "个的所有蛋白序列已写入当前工作目录下的文件‘Hit_sequences.fasta’", "\n", seq = "")
30 cat("极度嗜盐古菌蛋白组中以下序列含有模序\"", pattern, "\"的数量超过", hit_num, "个:", "\n", seq = "")
31 print(selected[, 1:5])
32 selected
33 }
四、调用函数,查看结果(这里需要用到No.1 R语言在生物信息中的应用——序列读取及格式化输出的结果)
setwd("E:/bioinfor/bioBook/") # 设定工作目录
rm(list = ls()) # 清空变量
my_file<-"seq.txt" # 指定序列文件
source("./seq_import.R") # 载入函数
my_sequences<-seq_import(file = my_file) # 调用函数
source("./pattern_match.R") # 载入函数
hit_sequences<-pattern_match(pattern = "H..H{1,2}", sequences = my_sequences,
hit_num = 2) # 调用函数
五、结果截图:
六、问题解决
1. 如何快速计算匹配位点
gregexpr(pattern, text, ignore.case = FALSE, perl = FALSE,
fixed = FALSE, useBytes = FALSE) 作用:返回匹配到的字串的起始位置,以及匹配长度(属性值),匹配所有元素的所有位置.未匹配到返回-1
-> grepexpr函数可以返回匹配位点的起始位置,计算起始位置个数就可以快速计算匹配位点
2. 输出文件如何构建
No.2 R语言在生物信息中的应用—模式匹配的更多相关文章
- No.1 R语言在生物信息中的应用——序列读取及格式化输出
目的:读入序列文件(fasta格式),返回一个数据框,内容包括--存储ID.注释行(anno).长度(len).序列内容(content) 一.问题思考: 1. 如何识别注释行和序列内容行 2. 如何 ...
- R语言作为BI中ETL的工具
R语言作为BI中ETL的工具,增删改 R语言提供了强大的R_package与各种数据库进行数据交互. 外加其强大数据变换清洗函数,为ETL提供一条方便快捷的道路. RODBC ROracal RMys ...
- 概率图模型 基于R语言 这本书中的第一个R语言程序
概率图模型 基于R语言 这本书中的第一个R语言程序 prior <- c(working =0.99,broken =0.01) likelihood <- rbind(working = ...
- [R语言]forecast.Arima中使用xreg报错
问题: 使用forecast.Arima对带xreg的arima模型进行预测,报xreg Error pre.m4x <- forecast.Arima(m4x, h = 20, xreg = ...
- R语言读取matlab中数据
1. 在matlab中将数据保存到*.mat 文件夹 save("data.mat","data","label")#将data和label ...
- R语言使用过程中出现的问题--读取EXCEL文件
方法一: 按照R导论中的方法,使用RODBC包, library(RODBC) channel<-odbcConnectExcel("file.xlsx") da2<- ...
- R语言数据框中,用0替代NA缺失值
1.用0替代数据框中的缺失值NA 生成数据框: > m <- matrix(sample(c(NA, :), , replace = TRUE), ) > d <- as.da ...
- R语言判断向量中是否存在一个元素
判断ori_data[,1]中是否存在元素a: a %in% ori_data[,1] 如果存在返回 true,否则返回 false
- R语言使用过程中出现的问题--attach()函数的使用
使用attach(file)时,一定要配合使用detach(file),否则再此运行程序时极易出现问题,The following objects are masked ... 此外工作空间中不能有与 ...
随机推荐
- 一套比较好用的公众号UI框架-weui
最近工作原因 需要在pd端弄一套js类似bootstrap框架 由于使用环境是在公众号终端用的比较多! 类似上面这样的样式 所以我从微信官方开始找起 最后找到了WEUI 还别说 真的挺好用的 这是大佬 ...
- Noip模拟61 2021.9.25
T1 交通 考场上想了一个$NPC$.应该吧,是要求出图里面的所有可行的不重复欧拉路 无数种做法都无法解出,时间也都耗在这个上面的,于是就考的挺惨的 以后要是觉得当前思路不可做,就试着换一换思路,千万 ...
- 小白学习C语言必背的18个经典程序
1./*输出9*9口诀.共9行9列,i控制行,j控制列.*/ #include "stdio.h" main() {int i,j,result; for (i=1;i<10 ...
- 期望 概率DP
期望 \(x\) 的期望 \(E(x)\) 表示平均情况下 \(x\) 的值. 令 \(C\) 表示常数, \(X\) 和 \(Y\) 表示两个随机变量. \(E(C)=C\) \(E(C \time ...
- svg的animate动画动态加载删除遇到删除animate后再次加载的animate动画没有效果问题
svg上有多个圆圈,当选中特定圆圈后给其加上animate动画效果,并把其他圆圈的animate效果去除. 第一次选择一个点实现动画效果完全达到效果,因为是第一次所以不需要把其他圆圈的animate子 ...
- (原创)WinForm中莫名其妙的小BUG——ComboBox 尺寸高度问题
一.前言 使用WinForm很久了,多多少少遇到一些小BUG. 这些小BUG影响并不严重,而且只要稍微设置一下就能正常使用,所以微软也一直没有修复这些小BUG. 本来并不足以写篇文章去记录,但是昨天遇 ...
- CentOS服务器的网络配置与部署
1.系统安装与软件安装 1.1选择CentOs7.9release版本用作所研发系统部署服务器,官网以及所选择镜像为地址为:http://ftp.sjtu.edu.cn/centos/7.9.2009 ...
- Unity——技能系统(三)
Unity技能系统(三) Unity技能系统(一) Unity技能系统(二) Demo展示 六.Buff系统 buff分为增益和减益buff,应该区分开来: /// <summary> / ...
- 『学了就忘』Linux基础命令 — 39、挂载U盘和挂载NTFS分区
目录 1.在Linux系统中挂载U盘 (1)插入U盘 (2)查询U盘设备文件名 (3)挂载U盘 (4)U盘中的中文乱码 (5)U盘卸载 2.在Linux系统中挂载NTFS分区 (1)Linux的驱动加 ...
- 要web开发精品教程吗?免费无广告一百期连讲的那种-逐浪CMS前端开发100期入门教程全面开放
要web开发精品教程吗?免费无广告一百期连讲的那种-逐浪CMS前端开发100期入门教程全面开放 大师主讲 经验难得 由逐浪CMS首席架构师发哥老师,亲自主理讲解. 历时一年精心打造, 汇聚了互联网诞生 ...