R语言-正则表达式1
R语言的正则表达式主要用来处理文本资料,比如进行查找、替换等等。
首先是一些处理文本时会用到的函数:
字符串分割:strsplit()
字符串连接:paste(),paste0()
计算字符串长度:nchar(),length()
字符串截取:substr(),substring()
查看是否存在某个字符:grep(p,x) <返回匹配到的元素的下标(位置),p是一个正则表达式
grepl(p,x)<返回逻辑值false or true
举个栗子:
s<-c("123abc\\456","abc123edf")
grep("",s) #匹配“"的位置,返回元素的下标
grepl("xcd",s)#”“是否匹配成功,返回逻辑值
> grep("",s)
[]
> grepl("xcd",s)
[] FALSE FALSE
字符替换:sub(p,replace,x) <对查找到的第一个字符进行替换
gsub(p,replace,x) <对查找到的所有内容进行替换
eg:
s1<-c("123edf123")
sub("","sss",s1) #替换s1里""为“sss",注意:找到即停止
gsub("","sss",s1) #对找到的所有内容进行替换
> sub("","sss",s1)
[] "sssedf123"
> gsub("","sss",s1)
[] "sssedfsss"
____________________________________________________________________
下面介绍R语言里的正则表达式
直接用例子说明问题:
1、\d 是否匹配到任意一个数字
s3<-c("123abc\\456","abc123\\def123","")
grepl("\\d",s3) #是否匹配到任意一个数字
[1] TRUE TRUE
#等价于:
grepl("[0-9]",s3)
2、\D是否匹配到任意一个非数字
grepl("\\D",s3) #是否匹配到任意一个非数字
#等价于:
grepl("[^0-9]",s3) #^表示逻辑非
3、\w是否匹配到任何一个数字、字母、下划线
grepl("\\w",s3) #是否匹配到任何一个数字、字母、下划线
等价于:
grepl("[a-zA-Z0-9]",s3)
4、\W是否匹配到任何一个非数字、字母、下划线
grepl("\\W",s3) 
5、\\ 转义
grepl("\\\\",s3) #是否匹配到\\
6、. 是否匹配到任意字符
grepl (".",s3)
7、| 表示或
grepl("56|ab",s) #是否匹配到“”或“ab"
8、^
grepl("^a",s3) #是否以a开头
9、$
grepl("6$",s3) #是否以6结尾
10、()
grepl("abc(.+)456",s3)  #"abc"和""之间是否存在任意(.)大于等于1个(+)字符
11、[ ]
grepl("[123,456]",s3)
#等价于:
grepl("123|456",s3)
12、{ }
grepl("[def]{2}",s3)  #"def"是否出现了不超过3次
13、*
grepl(".*",s3)  #任意字符是否匹配0次以上,肯定返回true啦(包括空格)
14、+
grepl(".+",s3)  #任意字符至少能匹配一次,空格返回FALSE
15、?
grepl("[456]?",s3) #匹配0次为true,匹配1次也为true
R语言-正则表达式1的更多相关文章
- R语言︱文本(字符串)处理与正则表达式
		
处理文本是每一种计算机语言都应该具备的功能,但不是每一种语言都侧重于处理文本.R语言是统计的语言,处理文本不是它的强项,perl语言这方面的功能比R不知要强多少倍.幸运的是R语言的可扩展能力很强,DN ...
 - R语言:文本(字符串)处理与正则表达式
		
R语言:文本(字符串)处理与正则表达式 (2014-03-27 16:40:44) 转载▼ 标签: 教育 分类: R 处理文本是每一种计算机语言都应该具备的功能,但不是每一种语言都侧重于处理文本.R语 ...
 - R语言中的正则表达式(转载:http://blog.csdn.net/duqi_yc/article/details/9817243)
		
转载:http://blog.csdn.net/duqi_yc/article/details/9817243 目录 Table of Contents 1 正则表达式简介 2 字符数统计和字符翻译 ...
 - R语言爬虫初尝试-基于RVEST包学习
		
注意:这文章是2月份写的,拉勾网早改版了,代码已经失效了,大家意思意思就好,主要看代码的使用方法吧.. 最近一直在用且有维护的另一个爬虫是KINDLE 特价书爬虫,blog地址见此: http://w ...
 - R语言-用R眼看琅琊榜小说的正确姿势
		
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html 目录: 零:写在前面的一些废话 一.R眼看琅琊榜的基本原理 1.导入数据 2.筛选数据 3.多条 ...
 - R语言:用简单的文本处理方法优化我们的读书体验
		
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html 前言 延续之前的用R语言读琅琊榜小说,继续讲一下利用R语言做一些简单的文本处理.分词的事情.其实 ...
 - R语言实战(二)数据管理
		
本文对应<R语言实战>第4章:基本数据管理:第5章:高级数据管理 创建新变量 #建议采用transform()函数 mydata <- transform(mydata, sumx ...
 - R语言学习笔记:字符串处理
		
想在R语言中生成一个图形文件的文件名,前缀是fitbit,后面跟上月份,再加上".jpg",先不百度,试了试其它语言的类似语法,没一个可行的: C#中:"fitbit&q ...
 - 笔记整理——Linux下C语言正则表达式
		
Linux下C语言正则表达式使用详解 - Google Chrome (2013/5/2 16:40:37) Linux下C语言正则表达式使用详解 2012年6月6日Neal627 views发表评论 ...
 
随机推荐
- Python 处理脚本的命令行参数-getopt
			
# -*- coding:utf-8 -*- import sys def test(): """ 参数列表:sys.argv 参数个数:len(sys.argv) 脚本 ...
 - php模式设计
			
1,策略模式 2,个体模式 3,工厂模式 4,观察者模式 <?php class ExchangeRate { static private $instance = NULL; private ...
 - ubuntu服务器下tomcat安装(不推荐使用apt-get)
			
最近在阿里云服务器上装tomcat,一开始为了省事直接使用了apt-get安装,结果整个程序被拆开散到了好多地方,尤其是像网上说要把打包好了.war文件放到webapps文件夹下,但是开始并没有在/u ...
 - Django中模型(二)
			
Django中模型(二) 三.定义模型 1.模型.属性.表.字段间的关系: 一个模型类在数据库中对应一张表:在模型类中定义的属性,对应该模型对照表中的字段. 2.定义属性 A.概述 ·django根据 ...
 - Emgu学习之(五)——图像模糊处理
			
Visual Studio Community 2015 工程和代码:http://pan.baidu.com/s/1Qia0Q 内容 在这篇文章中将提到以下内容: 中值模糊 高斯模糊 图像模糊能有效 ...
 - Unity3D-射线效果
			
基于airplane_02 下面新建 Line Renderer 将上面的几个地方设置下 添加Script脚本: 脚本代码为: using System.Collections; using Syst ...
 - PAT——1050. 螺旋矩阵
			
本题要求将给定的N个正整数按非递增的顺序,填入“螺旋矩阵”.所谓“螺旋矩阵”,是指从左上角第1个格子开始,按顺时针螺旋方向填充.要求矩阵的规模为m行n列,满足条件:m*n等于N:m>=n:且m- ...
 - 《STL源码剖析》要点摘抄
			
1. STL的空间配置器 SGI STL设计了双层级配置器,第一级配置器直接使用malloc().free(),第二级配置器则视情况采用不同的策略:当配置区块超过128bytes时,视为“足够大”,便 ...
 - SDN测量论文粗读(二)9.21
			
Monocle: Dynamic,Fine-Grained Data Plane Monitoring 论文来源:CoNext 发表时间:2015 解决问题及所做贡献:Monocle:检测交换机中硬件 ...
 - C#中HttpWebRequest的用法详解(转载)
			
1.HttpWebRequest和HttpWebResponse类是用于发送和接收HTTP数据的最好选择.2.命名空间:System.Net3.HttpWebRequest对象不是利用new关键字创建 ...