一 简介

概括而言,使用正则表达式处理字符串的流程包括:

  1. 用正则表达式定义要匹配的字符串的规则
  2. 然后对目标字符串进行匹配
  3. 最后对匹配到的结果进行操作。

C++ 的 regex 库提供了用于表示正则表达式和匹配结果的基本类型,以及搜寻、匹配、替换等函数。

二 基本类型

2.1 basic_regex 及其实例化类型 regexwregex

模板类型 basic_regex 用于表示正则表达式对象,<regex> 库提供了它的两种实例化类型:

typedef basic_regex<char>     regex;
typedef basic_regex<wchar_t> wregex;

构造函数一般接受一个字符串作为参数,如

std::regex reg ("[0-9A-Z]+");

构造函数中还有一个默认参数flags,默认值为 std::regex::ECMAScript,该参数可以用来设置正则表达式所采用的语法,如 std::regex::grep, std::regex::awk 等,也可以设置 case insensitive。flags 的多个值用比特位 OR 操作|连接,如

std::regex ninth ("\\bd\\w+", ECMAScript | icase );

但是正则语法的flag只能设置一种。

具体的构造函数声明及fags值的定义参考basic_regex::basic_regex - C++ Reference

2.2 match_resultssub_match 及其实例化类型

match_results 是一种 container-like 的模板类,用于存放对目标串执行完 regex matching 操作后匹配到的结果,其中的每个元素(即每个匹配结果)是一个 sub_match 的实例化对象。

match_results 的实例类型有下列四种:

typedef match_results<const char*> cmatch;
typedef match_results<const wchar_t*> wcmatch;
typedef match_results<string::const_iterator> smatch;
typedef match_results<wstring::const_iterator> wsmatch;

match_results 相似,sub_match 的实例化类型也有四种:

typedef sub_match<const char*> csub_match;
typedef sub_match<const wchar_t*> wcsub_match;
typedef sub_match<string::const_iterator> ssub_match;
typedef sub_match<wstring::const_iterator> wssub_match;

sub_match 对象存储的不是匹配到的字符串本身,而是指向这个串开始(initial)和结束后一个字符(past-the-end)的 bidirectional iterators,但是它们表现起来类似于一个字符串:

  • 成员函数 length 返回字符串长度;
  • compare 用于和一个字符串或另一个 sub_match 对象比较,相等则返回0,不等则:若它比参数小(字典序)返回一个负值,否则返回一个正值;
  • str 返回对应的字符串。

根据一次匹配的结果,match_results 可能为空也可能不空,使用 match_results::empty() 来判空,使用 match_results::size() 来获取元素个数。对于一个不空的 match_results 对象,其第一个 sub_match 元素([0])对应着整个完整匹配,后续的元素对应着正则表达式中的 sub-match(即用()括起来的各个分组匹配),未匹配的部分可以通过 prefixsuffix 来获取。下面是一个简单的例子,参考自 boost的文档

#include <regex>
#include <iostream>
#include <string> int main() {
std::string target = "@abc def--";
std::regex e("(\\w+)\\W+(\\w+)");
std::smatch sm;
std::regex_search(target, sm, e); std::cout << "sm.prefix: " << sm.prefix() << std::endl;
for (int i = 0; i < sm.size(); ++i) {
std::cout << "sm[" << i << "]: " << sm[i] << std::endl;
}
std::cout << "sm.suffix: " << sm.suffix() << std::endl; return 0;
}
Output:
======================================
sm.prefix: @
sm[0]: abc def
sm[1]: abc
sm[2]: def
sm.suffix: --

三 正则操作

3.1 regex_match

用于将目标串和正则表达式匹配,返回一个 bool 值,true 为匹配,false 为不匹配。匹配的含义是目标字符串必须完全和正则表达式相匹配,不能有多余的字符,如果需要部分匹配则应使用regex_search。函数签名有很多,详见cplusplus.com

构造函数分成两种:

  • 一种接受一个 match_results 作为对象,参数顺序为:

    - 待匹配的字符串,

    - match_results 对象,

    - 正则表达式对象;
  • 另一种没有 match_results,参数顺序为:

    - 待匹配的字符串,

    - 正则表达式对象。

    此外,构造函数还接受一个可选的 flags 参数,用于控制匹配选项,详见上述链接。

3.2 regex_search

只要目标字串中有一个字串(无论该子串在字符串中什么位置)能和正则表达式相匹配就返回true。函数签名同regex_match相似。

3.3 regex_replace

该函数有多个重载版本,常用的版本中参数顺序基本上为 srgxfmtflags,其中:

  • s 为要处理的字符串,
  • rgx 为要匹配的正则表达式,
  • fmt 为要替换的字符串,其中可以包含格式化字符,
  • flags为可选的参数,用于设置一些选项。

参数 fmt 中可以包含下列格式化字符:

characters replacement
$n 表示第n组匹配,n大于0
$& 表示整个匹配
$` prefix
suffix
$$ 表示$这个字符本身

在替换时,会先将参数 fmt 中的格式化字符替换成相应的内容,然后再将这个字符串替换掉目标字符串中的完整匹配(相当于 $&match_results[0])。

C++正则表达式 <regex>的更多相关文章

  1. JS正则表达式常用总结

    正则表达式的创建 JS正则表达式的创建有两种方式: new RegExp() 和 直接字面量. //使用RegExp对象创建 var regObj = new RegExp("(^\\s+) ...

  2. Python高手之路【五】python基础之正则表达式

    下图列出了Python支持的正则表达式元字符和语法: 字符点:匹配任意一个字符 import re st = 'python' result = re.findall('p.t',st) print( ...

  3. C# 正则表达式大全

    文章导读 正则表达式的本质是使用一系列特殊字符模式,来表示某一类字符串.正则表达式无疑是处理文本最有力的工具,而.NET提供的Regex类实现了验证正则表达式的方法.Regex 类表示不可变(只读)的 ...

  4. C#基础篇 - 正则表达式入门

    1.基本概念 正则表达式(Regular Expression)就是用事先定义好的一些特定字符(元字符)或普通字符.及这些字符的组合,组成一个“规则字符串”,这个“规则字符串”用来判断我们给定的字符串 ...

  5. JavaScript正则表达式,你真的知道?

    一.前言 粗浅的编写正则表达式,是造成性能瓶颈的主要原因.如下: var reg1 = /(A+A+)+B/; var reg2 = /AA+B/; 上述两个正则表达式,匹配效果是一样的,但是,效率就 ...

  6. Python 正则表达式入门(中级篇)

    Python 正则表达式入门(中级篇) 初级篇链接:http://www.cnblogs.com/chuxiuhong/p/5885073.html 上一篇我们说在这一篇里,我们会介绍子表达式,向前向 ...

  7. 【JS基础】正则表达式

    正则表达式的() [] {}有不同的意思. () 是为了提取匹配的字符串.表达式中有几个()就有几个相应的匹配字符串. (\s*)表示连续空格的字符串. []是定义匹配的字符范围.比如 [a-zA-Z ...

  8. JavaScript 正则表达式语法

    定义 JavaScript定义正则表达式有两种方法. 1.RegExp构造函数 var pattern = new RegExp("[bc]at","i"); ...

  9. [jquery]jquery正则表达式验证(手机号、身份证号、中文名称)

    数字判断方法:isNaN()函数 test()方法 判断字符串中是否匹配到正则表达式内容,返回的是boolean值 ( true / false ) // 验证中文名称 function isChin ...

  10. JS中给正则表达式加变量

    前不久同事询问我js里面怎么给正则中添加变量的问题,遂写篇博客记录下.   一.字面量 其实当我们定义一个字符串,一个数组,一个对象等等的时候,我们习惯用字面量来定义,例如: var s = &quo ...

随机推荐

  1. JS 从零手写一个深拷贝(进阶篇)

    壹 ❀ 引 在深拷贝与浅拷贝的区别,实现深拷贝的几种方法一文中,我们阐述了深浅拷贝的概念与区别,普及了部分具有迷惑性的浅拷贝api.当然,我们也实现了乞丐版的深拷贝方法,能解决部分拷贝场景,虽然它仍有 ...

  2. 图解3种常见的深度学习网络结构:FC、CNN、RNN

    01 全连接网络结构 全连接(FC)网络结构是最基本的神经网络/深度神经网络层,全连接层的每一个节点都与上一层的所有节点相连. 全连接层在早期主要用于对提取的特征进行分类,然而由于全连接层所有的输出与 ...

  3. Js的GC机制

    Js的GC机制 在Js七种基本类型中的引用类型Object的变量其占据内存空间大且大小不固定,在堆内存中实际存储对象,在栈内存中存储对象的指针,对于对象的访问是按引用访问的.在栈区中执行的变量等是通过 ...

  4. springboot jpa自定义SQL查询

    说明 在使用JPA实现数据持久化过程中经常会遇到这种情况:我有2张表是一对多的关系,需要通过一个外键ID去关联查询到另外一张表的字段.例如,1张商品表food_info其中存有商品分类ID categ ...

  5. 【Python爬虫】手刃豆瓣近十多年电影排行数据!

    源码见我github仓库:https://github.com/xzajyjs/Python_FilmInfo_reptile 爬取豆瓣上2009-2021年共13年的年度电影排行榜数据,可全自动爬取 ...

  6. 统信UOS系统开发笔记(一):国产统信UOS系统搭建开发环境之虚拟机安装

    前言   开发国产应用,需要使用到统信UOS系统,之前已经开发过国产银河麒麟V4.V7和V10版本了,本次新项目使用到统信UOS,记录UOS虚拟机安装流程,方便快捷进行相关开发工作.   提前准备 V ...

  7. os.path.relpath和os.path.basename,返回文件路径中的文件名

    from os import path print(path.relpath("/home/hpcadmin/lw/demo.py", start="/home/hpca ...

  8. django1.11和django2.2中namespace的用法

    django1.11中namespace用法 urlpatterns = [ url(r'^user/', include('user.urls', namespace='user')) ] djan ...

  9. DataGear 制作自定义柱状图条目颜色的数据可视化看板

    DataGear 看板提供了dg-chart-options图表选项配置功能,可自定义样式.位置.显示内容等图表选项,其中的processUpdateOptions回调函数配置项,可以在图表更新数据前 ...

  10. 面试官:说说volatile底层实现原理?

    在 Java 并发编程中,有 3 个最常用的关键字:synchronized.ReentrantLock 和 volatile. 虽然 volatile 并不像其他两个关键字一样,能保证线程安全,但 ...