希望能帮到有需要的朋友。-----转载请注明出处。

对于正则处理相关的知识,我一开始是从网上找资料配合使用Java API1.6的一个中文版进行学习,很感谢翻译这个版本的团队(机构)或者个人,很感谢那些无私分享自己的知识的朋友。

下文中对于正则的相关知识,现在我是从oracle提供的最新的Java API,可能和以前我看得1.6有些出入,贴出API地址:http://docs.oracle.com/javase/8/docs/api/

一,概括

在Java中,使用java.util.regex包下的Pattern和Matcher类对字符串进行处理。在这其中,其实最为重要还是正则匹配表达式(下文统称正表)的编写。大家可以在写完正表以后再这个网站上测试一下,我就经常在这网站上测试。这是链接:http://tool.oschina.net/regex/

但是有些正则表达式它不能识别,大家最好自己在as或者eclipse上写个单元测试,测试一下。

二,Pattern

该类继承自java.lang.Object类,并且实现了Serializable接口。

该类有两个获取实例的静态方法,分别是compile(String regex)和compile(String regex,int flag)。第二个方法多了个flag,主要用于定制获取的实例的匹配模式。

API中已经标示出Pattern的Field Summary,标识出来该类有9个常量。如下

CANON_EQ  Enables canonical equivalence.(启用规范的等价,应该是默认的,只匹配)

CASE_INSENSITIVE  Enables case-insensitive matching.(不区分大小写)

COMMENTS  Permits whitespace and comments in pattern.(模式中允许空白和注释)

DOTALL  Enables dotall mode.(这种模式下.匹配行尾)

LITERAL  Enables literal parsing of the pattern.(启动字面量解析模式)

MULTILINE  Enables multiline mode.(多行模式)

UNICODE_CASE  Enables Unicode-aware case folding.(If your code is intended to be portable and uses case-insensitive matching on non-ASCII characters, you should use this flag.)

UNICODE_CHARACTER_CLASS  Enables the Unicode version of Predefined character classes and POSIX character classes.(启用预定义的字符类和POSIX字符类的Unicode版本)

UNIX_LINES  Enables Unix lines mode.(启动Unix的行模式)

当使用Pattern.complie(regex)获取Pattern实例时,由于没有指定flag,系统默认传递了0。其它的就不细说了。对于上面几个flag,在看源码之前我一般都使用Pattern.complie(regex)获取Pattern实例,多行模式的话,在写正表的时候注意一下也是可以匹配多行的。

另使用flag()方法还可以取得当前Pattern实例的模式整数值。

如果只需要判断能否匹配成功,可以调用Pattern.matches(regex,input)。返回true就是匹配成功

三,Matcher

使用Patter的实例patter,调用patter.matcher(CharSequence input),input需要传入实现的CharSequence接口的实参,一般就是字符串。

Matcher中有大量的方法,我只写下少量我用过。

boolean find();是否从下个子序列中找出符合规则的内容。

String group();返回之前的捕获组内容。

String group(int);返回给定组的捕获内容

int gourpCount();返回捕获组的个数

在find()匹配成功一个后,有个类似于指针的东西,移到这个成功捕获的捕获组后面。此时使用group()捕获出来的是指针之前的捕获组内容。我们可以写个单元测试验证一下。

这是输入whatab1whatab2wahtab3whatab4ss,这是正表ab[\d]。匹配的是输入中

下面是方法

 public static String method(String regex, String input) {
Matcher matcher = Pattern.compile(regex).matcher(input);
StringBuilder builder = new StringBuilder();
int i = 0;
while (matcher.find()) {
builder.append("这是第").append((++i)).append("组:捕获到【");
builder.append(matcher.group()).append("】。\n");
}
return builder.toString();
}

输出结果是:

调用方法,参数是
Utils.method("ab[\\d]","whatab1whatab2whatab3whatab4ss")
这是第1组:捕获到【ab1】。
这是第2组:捕获到【ab2】。
这是第3组:捕获到【ab3】。
这是第4组:捕获到【ab4】。  

如果使用group(int),指定具体的匹配位置,需要有多个捕获组,既是"()"。

使用同样的输入,把正表改成.*?(ab([\d])).*?

在Utils的method方法中,分别使用group(),group(0),group(1)和group(2)拼接捕获数组,打印内容如下。

group()打印结果

这是第1组:捕获到【whatab1】。
这是第2组:捕获到【whatab2】。
这是第3组:捕获到【whatab3】。
这是第4组:捕获到【whatab4】。

group(0)打印结果

这是第1组:捕获到【whatab1】。
这是第2组:捕获到【whatab2】。
这是第3组:捕获到【whatab3】。
这是第4组:捕获到【whatab4】。

group(1)打印结果

这是第1组:捕获到【ab1】。
这是第2组:捕获到【ab2】。
这是第3组:捕获到【ab3】。
这是第4组:捕获到【ab4】。

group(2)打印结果

这是第1组:捕获到【】。
这是第2组:捕获到【】。
这是第3组:捕获到【】。
这是第4组:捕获到【】。

从打印结果我们可以看出,group()和group(0)捕获的内容一致。这里有个特俗情况,如果以"()"将整个正表括起来,那么group(0)和group(1)有什么区别呢?

正表改成(.*?(ab([\d])).*?),下面是打印结果

group(0)和group()

这是第1组:捕获到【whatab1】。
这是第2组:捕获到【whatab2】。
这是第3组:捕获到【whatab3】。
这是第4组:捕获到【whatab4】。

group(1)

这是第1组:捕获到【whatab1】。
这是第2组:捕获到【whatab2】。
这是第3组:捕获到【whatab3】。
这是第4组:捕获到【whatab4】。

group(2)

这是第1组:捕获到【ab1】。
这是第2组:捕获到【ab2】。
这是第3组:捕获到【ab3】。
这是第4组:捕获到【ab4】。

group(3)

这是第1组:捕获到【】。
这是第2组:捕获到【】。
这是第3组:捕获到【】。
这是第4组:捕获到【】。

如果要捕获"()"里内容,需要注意的是,最好获取一下groupCount()的整型数值,以免没有匹配到该捕获组的内容,导致程序异常。

四,正则表达式

对于正表的编写,首先需要了解其各个符合的含义。

下面是对常用的一些符号进行说明,当然还有绝大部分没有涵盖,大家可以从Java的API中的java.util.regex.Pattern类下查看。

"()":捕获组,在Matcher中已做说明

"[]":匹配范围,注意的是,如果输入[ac]就只匹配a或者c,并不是匹配字符串ac。例如输入,abcac,使用[ac]可以匹配出四组,

  分别是:1.a  2.c  3.a  4.c

"{}":出现次数,有若干写法,{n,m}表示最少出现n次,最多m次,{n}表示出现n次。{n,}表示最少n次。{}一般与[]配合使用,规定[]匹配范围内的字符出现了几次。在这种情况下,有时还会和"|"链接使用。例如XXabXXabXXacXXa1XXdav11 ,使用[abvc]{2}|[a\d]{2}可以匹配出来

ab
ab
ac
a1
av
11

".":一般来说,代表了除空格和其它行尾行首的任何字符(个人理解有误求指出)。

"\d":等价于[0-9],代表0到9的任何数字。

"\D":与\d相反,标示除了\d以外的任意字符

"\w":单词字符

"\W":非单词字符

"\s":空白字符

"\S":非空白字符。在对字符串处理时,如果没有自定多行模式,可将"."替换成"[\\s\\S]"。

"^":如果放置在"[]"里头,表示取其余范围。如"[^a]"表示出了a的任意字符。^也可以表示行首。

"$":表示行尾。

————————————————————————————————————————————————————————

以下三个符号加"{}"在正则表达式中有三种匹配模式,分别是Greedy ,Reluctant 和Possessive ,下面会仔细说区别

"X?":如X?,表示X匹配到一次或者一次也没有。注意的是,在正表后面加个?以后,就成了非贪婪模式。

"X+":如X?,表示X匹配到一次或者多次。

"X*":如X*,表示X匹配到0次或者多次。

"X?"是贪婪模式,会匹配尽可能的内容。"X??"是非贪婪模式,会匹配符合条件的最少的内容。"X?+"是Possessive quantifiers,这个模式我没有用过,也不知道是怎么回事,求分享指导。

——————————————————————————————————————————————————————————

"|":如X|Y,表示匹配X或者Y。

"\Q"和"\E":如\Q|.?\E使得中间的字符失去正则含义,作为普通字符匹配。如ab|.?ab,如果要匹配|.?,需要使用\|\.\?来匹配,但是使用\Q|.?\E就可以直接匹配,不用写那么多转移字符。

"\b":单词边界,如果用来匹配特定单词,可以使用它。如\bregex\b它可以匹配到hello regex!中的regex,但是匹配不到helloregex!中的regex,原因就在于后者的regex不是单词,边界被混杂。

"\B":同"\d"和"\w"将单词变成大写,表示相反的范围。此处表示的是非单词的边界。这玩意儿真心不知道怎么用。试一下。同样的,输入是hello regex!。使用\Be\B,可以匹配到三个e.但是使用\Bregex\B,就匹配不到,因为hello regex!中的regex已经到边界了,把输入改成helloregexs!就可以使用\Bregex\B,匹配到regex。

"\A":表示从输入的开端开始匹配。例如输入"abcdcfg",使用"[\\w]*?c"可以匹配到abc和dc,但是使用"\\A[\\w]*?c"只能匹配到abc。就是因为\A表示从开端开始匹配。

"\G":表示上一次匹配到的结尾。这个真心没用过,求分享,求指导。

"Z"和"z":不知道什么意思,求分享。

"(?=X)":直译是零宽度正向的预测先行。首先这个预测先行,指的是左边的字符,不是右边的字符。如XXabSS,XX是ab的先行,SS是ab的后行。这个东西就匹配在"X"前面的内容。如"XXabcYYabc","[\\s\\S]*?(?=abc)"可以匹配出来XX和YY。API里面的这个解析太特么不好懂了。需要注意的是(?=X)中的X是可以被捕获的。如输入"XabcSabc",匹配"[\\w](?=abc)[\\w]{2}",会匹配出来2个结果,分别是Xab和Sab。

"(?!X)":直译是零宽度的负向预测先行。负个鸡毛,英死早,不会意译。(?=X)表示的是匹配内容右边是X,这个就表示匹配内容的是右边不是X。如输入"XXabcYYabc",正表是"[\\w]{2}(?!X)[\\w]{2}",匹配出来XXab和cYYa。有些朋友可能疑惑,为什么呢?因为XXab前面没有内容,所以可以匹配出来XXab。如果输入不变,将正表换成"[^X]{2}(?!XX)[\\w]{2}",匹配出来的就是abcY和Yabc。

"(?<=X)":直译是零宽度的正向预测后行。表示匹配内容右边的字符串是X。测试一下,输入"XXabcYYabc",正表是"[\\w].*?(?<=abc)",匹配到了"XXabc"和"YYabc"。

"(?<!X)":直译是零宽度的负向预测后行。表示匹配内容右边不是X。测试一下,输入"XXabcYYabc",正表是"[\\w].*?(?<!abc)abc",匹配打印结果如下

这是第1组:捕获到【XXabc】。
这是第2组:捕获到【YYabc】。

第一组中"[\\w].*?(?<!abc)"先捕获到"XX",后面加个"abc"。第二组同理。

"(?>X)":作为一个独立的非捕获组。

五,总结

由于本人水平有限,对于很多东西还未能进行讲解,包括正则匹配时各种模式的匹配原理,包括java.regex.utils包中的其它类的各种方法,包括Pattern类中其它标明的正则符号,文中可能还有很多地方有误,求指出。 

 

java中关于正则一些基础使用的更多相关文章

  1. Java中实现异常处理的基础知识

    Java中实现异常处理的基础知识 异常 (Exception):发生于程序执行期间,表明出现了一个非法的运行状况.许多JDK中的方法在检测到非法情况时,都会抛出一个异常对象. 例如:数组越界和被0除. ...

  2. java中的正则操作总结

    http://www.cnblogs.com/nerxious/archive/2013/01/03/2842910.html 正则表达式在处理字符串的效率上是相当高的 关于正则表达式的使用,更多的是 ...

  3. Java 中的正则(Pattern)

    /**String 中 replaceAll(),matches(),split() 等方法,都是调用Pattern中的方法.学习了,瞬间觉得Pattern强大了 public String repl ...

  4. java中使用 正则 抓取邮箱

    我们来抓取豆瓣网的邮箱吧!把这个页面的所有邮箱都抓取下来 如https://www.douban.com/group/topic/8845032/: 代码如下: package cn.zhangzon ...

  5. java中的几种基础排序

    import java.util.Random;import java.util.Arrays; public class Puppy {     public static void main(St ...

  6. Java中CSS&JS篇基础笔记

    HTML就是由一组标签所组成的.HTML的字体标签: <font>标签: 属性:color,size,face HTML的排版标签: h标签:标题标签. p标签:段落标签. b标签:加粗标 ...

  7. java中url正则regex匹配

    String regex = "^(?:https?://)?[\\w]{1,}(?:\\.?[\\w]{1,})+[\\w-_/?&=#%:]*$"; 解释说明: ^ : ...

  8. 并发王者课-铂金1:探本溯源-为何说Lock接口是Java中锁的基础

    欢迎来到<并发王者课>,本文是该系列文章中的第14篇. 在黄金系列中,我们介绍了并发中一些问题,比如死锁.活锁.线程饥饿等问题.在并发编程中,这些问题无疑都是需要解决的.所以,在铂金系列文 ...

  9. Java中关于String类型的一些思考

    作为初学者在学习Java的时候,变量类型是不可避免会遇到的,在以往我们的印象中字符串String都是作为基本类型而存在的,但是在Java中String类型确是一个实实在在的引用类型,是可以通过new关 ...

随机推荐

  1. How secure FB Messenger is?

    It's reported that FB Messenge is the most secure App for instant messaging service. Let's see if FB ...

  2. 1117 冲刺一(Day 1)

    冲刺一(第一天) 项目需求确定 现阶段我们进行的项目是到店点餐系统.主要是开发手机端app为用户提供方便快捷的点餐服务.免去顾客到店后遇到因吃饭的人太多而找不到服务人员点餐的窘境.减少了服务人员因为忙 ...

  3. android开发--ormlite

    ORMlite是类似hibernate的对象映射框架,主要面向java语言,同时,是时下最流行的android面向数据库的的编程工具. 官方网站:http://ormlite.com/ 如果需要开发a ...

  4. 泛型(Generic)

    本质:限制集合类型 我们在编写泛化类的时候,我们要时刻提醒自己,我们传入的参数T仅仅是一个Object类型,任何具体类型信息我们都是未知的. 小例子: package day02.generic; i ...

  5. 生产uuid

    uuid生产功能 近端时间要做一个获取唯一流水号的功能,于是有了:ip+starttime+pid+flow的方式. import java.lang.management.ManagementFac ...

  6. paramiko与MySQL数据库

    一.paramiko 1.利用paramiko连接远端服务器 import paramiko ssh = paramiko.SSHClient() ssh.set_missing_host_key_p ...

  7. SQL Server 索引(index) 和 视图(view) 的简单介绍和操作

    --索引(index)和视图(view)-- --索引(index)----概述: 数据库中的索引类似于书籍的目录,他以指针形式包含了表中一列或几列组合的新顺序,实现表中数据库的逻辑排序.索引创建在数 ...

  8. Python爬虫抓取糗百的图片,并存储在本地文件夹

    思路: 1.观察网页,找到img标签 2.通过requests和BS库来提取网页中的img标签 3.抓取img标签后,再把里面的src给提取出来,接下来就可以下载图片了 4.通过urllib的urll ...

  9. try it, then you know . Emacs

     原来Emacs能做时间管理 http://sachachua.com/blog/2012/07/transcript-emacs-chat-john-wiegley/ http://blog.csd ...

  10. ubuntu使用 服务

    在这里写了很多篇linux,习惯了在这里写 centos中定时任务命令是crond ubuntu中定时任务命令是cron 这两种linux系统不一样的地方还是挺多的, 既然我目前的专注点是ubuntu ...