今天翻google reader的时候看到这样一篇文章,介绍的是sscanf的高级用法。直到今天我才知道sscanf是可以直接用正则表达式的,惭愧。

在msdn中sscanf的声明如下

int sscanf( const char *buffer, const char *format [, argument ] ... );

双字节版本的是这样的

int swscanf( const wchar_t *buffer, const wchar_t *format [, argument ] ... );

第一个参数是源字符串,这没什么好讲。第三个及以后的参数是可变参数列表,用于接收解析出来之后的值,可变参数列表不是本文的重点,暂且不提。最有玄机的是第二个参数,也就是所谓的format。我们知道prinft,sprintf,scanf,sscanf这四个函数(以及相应的双字节版本)都接收一个名为format的字符串作为参数,以便对输入输出做格式化,比如

sscanf(“12”, "%d", &in)

可以把字符串"12"(念做一二)格式化成10进制数12(念做十二),并赋值给in,而

sscanf(“12”, "%s", str)

可以把字符串"12"格式化成字符串12,并拷贝到str指向的内存区域。如此种种。如果你仔细看过c语言手册,那么你一定对次非常熟悉,并喜欢在中间夹杂点啊三啊啥的组成诸如%.4ld之类的format赢取初学者(或者老板)的赞扬。但是你可真不一定了解,format里是可以直接用正则表达式的,比如

sscanf("123334abcd123", "%[0-9]*", str);

执行完后str的内容是字符串"123334"。[0-9]*是一个非常简单的正则表达式,意思是匹配数字任意次。关于正则表达式的更多内容请参看这个

我们在写程序时经常会碰到需要解析字符串的情况,而正则表达式则是解决此类问题的利器。如果我们能善用c标准库函数就能使用的正则表达式,一定可以做到事半而功倍。

------------

附正则表达式完整列表

字元

描述

\

將下一個字元標記為一個特殊字元、或一個原義字元、或一個向後引用、或一個八進位轉義符。例如,「n」匹配字元「n」。「\n」匹配一個換行符。序列「\\」匹配「\」而「\(」則匹配「(」。

^

匹配輸入字元串的開始位置。如果設置了RegExp對象的Multiline屬性,^也匹配「\n」或「\r」之後的位置。

$

匹配輸入字元串的結束位置。如果設置了RegExp對象的Multiline屬性,$也匹配「\n」或「\r」之前的位置。

*

匹配前面的子表達式零次或多次。例如,zo*能匹配「z」以及「zoo」。*等價于{0,}。

+

匹配前面的子表達式一次或多次。例如,「zo+」能匹配「zo」以及「zoo」,但不能匹配「z」。+等價于{1,}。

?

匹配前面的子表達式零次或一次。例如,「do(es)?」可以匹配「do」或「does」中的「do」。?等價于{0,1}。

{n}

n是一個非負整數。匹配確定的n次。例如,「o{2}」不能匹配「Bob」中的「o」,但是能匹配「food」中的兩個o。

{n,}

n是一個非負整數。至少匹配n次。例如,「o{2,}」不能匹配「Bob」中的「o」,但能匹配「foooood」中的所有o。「o{1,}」等價于「o+」。「o{0,}」則等價于「o*」。

{n,m}

mn均為非負整數,其中n<=m。最少匹配n次且最多匹配m次。例如,「o{1,3}」將匹配「fooooood」中的前三個o。「o{0,1}」等價于「o?」。請注意在逗號和兩個數之間不能有空格。

?

當該字元緊跟在任何一個其他限制符(*,+,?,{n},{n,},{n,m})後面時,匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字元串,而默認的貪婪模式則盡可能多的匹配所搜索的字元串。例如,對於字元串「oooo」,「o+?」將匹配單個「o」,而「o+」將匹配所有「o」。

.

匹配除「\n」之外的任何單個字元。要匹配包括「\n」在內的任何字元,請使用像「[.\n]」的模式。

(pattern)

匹配pattern並獲取這一匹配。所獲取的匹配可以從產生的Matches集合得到,在VBScript中使用SubMatches集合,在JScript中則使用$0…$9屬性。要匹配圓括號字元,請使用「\(」或「\)」。

(?:pattern)

匹配pattern但不獲取匹配結果,也就是說這是一個非獲取匹配,不進行存儲供以後使用。這在使用「或」字元(|)來組合一個模式的各個部分是很有用。例如,「industr(?:y|ies)就是一個比」industry|industries'更簡略的表達式。

(?=pattern)

正向預查,在任何匹配pattern的字元串開始處匹配查找字元串。這是一個非獲取匹配,也就是說,該匹配不需要獲取供以後使用。例如, 「Windows(?=95|98|NT|2000)」能匹配「Windows2000」中的「Windows」,但不能匹配「Windows3.1」中 的「Windows」。預查不消耗字元,也就是說,在一個匹配發生後,在最後一次匹配之後立即開始下一次匹配的搜索,而不是從包含預查的字元之後開始。

(?!pattern)

負向預查,在任何不匹配pattern的字元串開始處匹配查找字元串。這是一個非獲取匹配,也就是說,該匹配不需要獲取供以後使用。例如 「Windows(?!95|98|NT|2000)」能匹配「Windows3.1」中的「Windows」,但不能匹配「Windows2000」中 的「Windows」。預查不消耗字元,也就是說,在一個匹配發生後,在最後一次匹配之後立即開始下一次匹配的搜索,而不是從包含預查的字元之後開始

x|y

匹配x或y。例如,「z|food」能匹配「z」或「food」。「(z|f)ood」則匹配「zood」或「food」。

[xyz]

字符集合。匹配所包含的任意一個字元。例如,「[abc]」可以匹配「plain」中的「a」。

[^xyz]

負值字符集合。匹配未包含的任意字元。例如,「[^abc]」可以匹配「plain」中的「p」。

[a-z]

字元範圍。匹配指定範圍內的任意字元。例如,「[a-z]」可以匹配「a」到「z」範圍內的任意小寫字母字元。

[^a-z]

負值字元範圍。匹配任何不在指定範圍內的任意字元。例如,「[^a-z]」可以匹配任何不在「a」到「z」範圍內的任意字元。

\b

匹配一個單詞邊界,也就是指單詞和空格間的位置。例如,「er\b」可以匹配「never」中的「er」,但不能匹配「verb」中的「er」。

\B

匹配非單詞邊界。「er\B」能匹配「verb」中的「er」,但不能匹配「never」中的「er」。

\cx

匹配由x指明的控制字元。例如,\cM匹配一個Control-M或回車符。x的值必須為A-Z或a-z之一。否則,將c視為一個原義的「c」字元。

\d

匹配一個數字字元。等價于[0-9]。

\D

匹配一個非數字字元。等價于[^0-9]。

\f

匹配一個換頁符。等價于\x0c和\cL。

\n

匹配一個換行符。等價于\x0a和\cJ。

\r

匹配一個回車符。等價于\x0d和\cM。

\s

匹配任何空白字元,包括空格、製表符、換頁符等等。等價于[\f\n\r\t\v]。

\S

匹配任何非空白字元。等價于[^\f\n\r\t\v]。

\t

匹配一個製表符。等價于\x09和\cI。

\v

匹配一個垂直製表符。等價于\x0b和\cK。

\w

匹配包括下劃線的任何單詞字元。等價于「[A-Za-z0-9_]」。

\W

匹配任何非單詞字元。等價于「[^A-Za-z0-9_]」。

\xn

匹配n,其中n為十六進位轉義值。十六進位轉義值必須為確定的兩個數字長。例如,「\x41」匹配「A」。「\x041」則等價于「\x04」&「1」。正則表達式中可以使用ASCII編碼。.

\num

匹配num,其中num是一個正整數。對所獲取的匹配的引用。例如,「(.)\1」匹配兩個連續的相同字元。

\n

標識一個八進位轉義值或一個向後引用。如果\n之前至少n個獲取的子表達式,則n為向後引用。否則,如果n為八進位數字(0-7),則n為一個八進位轉義值。

\nm

標識一個八進位轉義值或一個向後引用。如果\nm之前至少有nm個獲得子表達式,則nm為向後引用。如果\nm之前至少有n個獲取,則n為一個後跟文字m的向後引用。如果前面的條件都不滿足,若nm均為八進位數字(0-7),則\nm將匹配八進位轉義值nm

\nml

如果n為八進位數字(0-3),且ml均為八進位數字(0-7),則匹配八進位轉義值nml。

\un

匹配n,其中n是一個用四個十六進位數字表示的Unicode字元。例如,\u00A9匹配版權符號(©)。

sscanf与正则表达式(转)的更多相关文章

  1. sscanf和正则表达式

    sscanf() - 从一个字符串中读进与指定格式相符的数据.      函数原型: Int sscanf( string str, string fmt, mixed var1, mixed var ...

  2. sscanf函数和正则表达式

    看了几篇介绍sscanf函数,真是发现自己好多东西没理解透,详细介绍使用在sscanf中使用正则表达式. 第一篇: 此文所有的实验都是基于下面的程序: char str[10]; for (int i ...

  3. sscanf,sscanf_s及其相关用法

    #include<stdio.h> 定义函数 int sscanf (const char *str,const char * format,........); 函数说明  sscanf ...

  4. linux C sscanf()函数

    linux sscanf() 类似正则表达式,又不完全是正则表达式. 分割 ”/“ 或 "@" 或空格 要用 [^/] 例如: sscanf("iios/12DDWDFF ...

  5. sscanf

    #include<stdio.h> 1.sscanf和scanf的不同是输入来源,前者是一个字符串,后者则是标准输入设备 2.sscanf的使用,以解析时间字符串为例,将字符串“2009- ...

  6. sscanf sscanf_s使用

    #include<stdio.h> 定义函数 int sscanf (const char *str,const char * format,........); 函数说明  sscanf ...

  7. sscanf_强大的数据读取-转换

    function <cstdio> sscanf int sscanf ( const char * s, const char * format, ...); Read formatte ...

  8. gets() 与 scanf() 的小尴尬

    gets() 与 scanf() 函数相处呢有点小尴尬的,就是 gets() 在 scanf() 后边就爱捣乱.为什么呢,先了解它们两者之间的异同: 同: 都是可以接受连续的字符数据 并在字符结束后自 ...

  9. C/C++下scanf的%匹配以及过滤字符串问题

    最近在写一个测试的小程序,由于用到了sscanf函数对字符串进行标准读入,而sscanf在很多方面都与scanf比较相像,于是对scanf进行了一番测试,遇到了一系列基础性的问题,恶补基础的同时也体现 ...

随机推荐

  1. 深入研究js构造函数和原型

    很快就要从新浪离职了,最近心情比较轻松,抽点空整理一下构造函数和原型的机理. 我们都知道,在经典设计模式中我们最常用的就是工厂模式.构造函数模式.原型模式这几种,听起来‘模式’好像很高大上的样子,实际 ...

  2. 新华龙电子推出最新网络开发板(W5100&W5500方案)

    2014/12/16 | Filed under: TCP/IP芯片 and tagged with: C8051, W5100, W5500, 新华龙电子, 网络开发板 42 Views 深圳新华龙 ...

  3. MYSQL中UNIX时间戳与日期的转换

    select FROM_UNIXTIME(1464973385.641,'%Y-%m-%d %H:%i:%s'); select UNIX_TIMESTAMP('2016-06-04 01:03:05 ...

  4. angularjs上传图片

    通过AngularJS实现图片上传及缩略图展示(读取文件内容) AngularJS图片上传功能的实现(读取文件内容) AngularJs实现Multipart/form-data 文件的上传(上传文件 ...

  5. gdb汇编调试

    GDB调试汇编堆栈分析 代码: sudo apt-get install libc6-dev-i386命令安装所需库 进入之后先在main函数处设置一个断点,再run一下,使用disassemble指 ...

  6. Thoughtful function is also good for investigation

    Did you know how many friends in your IM? Some of them you are not familiar with, but your friends c ...

  7. Rasterizer Stage(读书笔记3 --- Real-Time rendering)

    rasterizer stage的目标:计算和设置每个像素的颜色.将屏幕空间的二维顶点和每个顶点的shading信息转换为屏幕上的像素. rasterizer stage可以分为几个阶段:triang ...

  8. sql 时间(datetime)计算

    SELECT *FROM sc_sowu_orderreturnWHERE STATUS = '0'AND submit_time < DATE_ADD(now(), INTERVAL - 4 ...

  9. editplus工具支持sql高亮提示

    editplus默认不识别sql关键件,添加文件使其对sql高亮提示. 首先就是要自己编写一段代码,存为.stx 文件(例如sql.stx) 然后在editplus的菜单栏 工具-> 配置用户工 ...

  10. 『c++』 模板(template)--- 参数化多态性

    ---恢复内容开始--- 题外话: 模板机制的设计和细节是由Bjarne Stroustrup在其1988年10月发表的名为“Parameterized Types for C++”一文中披露的. 引 ...