Java与正则表达式

标签: Java基础


正则

正如正则的名字所显示的是描述了一个规则, 通过这个规则去匹配字符串. 学习正则就是学习正则表达式的语法规则


正则语法

普通字符

字母, 数字, 汉字, 下划线, 以及没有特殊定义的标点符号都是普通字符. 表达式中的普通字符在匹配一个字符串时, 匹配与之相同的一个字符.


转义字符

字符 解释
\n 换行符
\t 制表符
\^ \$ \( \) \{ \} \? \+ \* | \\ \[ \] 匹配这些字符本身

标准字符集合

字符 匹配
\d 任意一个数字
\w 任意一个字母/数字/下划线
\s 任意一个空格/制表符/换行符等空白字符
. 小数点在内的任意一个字符(除\n外)
[\s\S] 匹配\n在内的任意一个字符
  • 注意大小写: 大写是取反

自定义字符集合

[] 方括号匹配方式, 能够匹配方括号中的任意一个字符.

表达式 解释
[ab5@v] 匹配a b 5 @ v中任意一个
[^ab5@v] 匹配a b 5 @ v之外任意一个
[f-k] 匹配f-k之间任意一个字母
[^f-k] 匹配f-k之外任意一个
[f-k0-3] 匹配f-k0-3之间任意一个字母
[^f-k0-3] 不匹配f-k0-3之间任意一个字母

注:

  • 正则表达式中的特殊符号, 被包含到[]中, 则失去特殊意义, 除了- ^之外.

    • []中的^表示取反的含义.
    • []中的-表示范围的含义
  • 标准字符集合(除小数点外),如果被包含于中括号中,则自定义集合将包含该集合.

    [\d.\-+]将匹配: 数字, 小数点, -, +

量词

量词 解释
{n} 表达式重复n次
{m,n} 表达式至少重复m次,最多重复n次
{m,} 表达式至少重复m次
? 匹配表达式0次或者1次
+ 表达式至少出现1次,相当于 {1,}
* 表达式不出现或出现任意次,相当于 {0,}
  • 贪婪模式与非贪婪模式

    贪婪模式: 匹配字符越多越好, 默认.

    非贪婪模式: 匹配字符越少越好, 需要在量词后再加上一个?.

  • 示例

    • 匹配手机号1[358]\d{9}
    • 匹配邮箱 ([\w\-\.]+)@([0-9a-zA-Z\-]+)(\.[a-zA-Z]{2,4}){1,2}

字符边界

零宽匹配: 匹配的不是字符而是位置(符合某种条件的位置),不匹配任何字符.

字符 解释
^ 与字符串开始的地方匹配
$ 与字符串结束的地方匹配
\b 匹配一个单词边界,也就是单词和空格之间的位置

注: \b会匹配这样一个位置: 前面的字符与后面的字符不全是\w


选择符与分组

表达式 解释
| 左右两边表达式之间 “或” 关系,匹配左边或右边
() 捕获组 被修饰时,()中的表达式可以作为整体被修饰; 取匹配结果时, ()中的表达式匹配到的内容可以被单独得到; 每一对括号会被分配一个编号(以(为准,从左到右: 从1开始)
(?:exp) 非捕获组 一些表达式中, 不得不使用(), 但又不需保存()中子表达式匹配的内容, 这时可以使用非捕获组来抵消()带来的副作用

注: 非捕获组可以用于当处理大量文本时用于优化内存分配.

  • 反引用\nnn

    由上面可知, 捕获组默认被分配了编号, 通过反向引用, 可以对分组已捕获的字符串进行引用
  • 示例

    (\w{2})\1 匹配类似toto dodo gogo这样由一个单词复制而来得到的字符串

    (img)\w+\1 匹配前后都是img的字符串

零宽断言(预搜索)

  • 零宽度: 只进行子表达式的匹配, 匹配内容不计入最终的匹配结果.
  • 位置匹配: 判断当前位置的前后字符是否符合指定的条件, 但不保留前后的字符.

正则表达式中, 如果子表达式匹配到得是字符内容, 而非位置, 并被保留到最终的匹配结果中, 那么就认为这个子表达式是占有字符的; 如果子表达式匹配的仅仅是位置, 或者匹配的内容并不保存到最终的匹配结果中, 那么就认为这个子表达式是零宽度的(占有字符或零宽度, 是针对匹配的内容是否保留到最终结果而言的)

表达式 解释
(?=exp) 断言自身出现的位置的后面能够匹配表达式exp
(?!exp) 断言自身出现的位置的后面不能匹配表达式exp
(?<=exp) 断言自身出现的位置的前面能够匹配表达式exp
(?<\!exp) 断言自身出现的位置的前面不能匹配表达式exp
  • 示例

    [a-z]+(?=ing) 匹配所有以ing结尾的单词, 但ing并不放入字符串

    [a-z]+(?=\d+) 匹配所有以数字结尾的单词

    [a-z]+(?!\d+) 匹配不以数字结尾的单词

    (?<=(href=\")) 匹配以href="开头的字符串

Java Pattern与Matcher

  • java.util.regex包下提供的PatternMatcher两个类提供了在Java中的正则支持;
  • Pattern对象是正则表达式编译后在内存中的表现形式, 因此, 正则表达式字符串必须先被编译为Pattern对象Pattern pattern = Pattern.compile("\\w+");然后再利用该Pattern对象创建对象的Matcher对象Matcher matcher = pattern.matcher(input);.
  • Matcher对象是一个对CharSequence执行匹配操作的正则引擎: 执行匹配所涉及的状态保留在Matcher对象中, 多个Matcher对象可共享同一个Pattern对象.
/**
* Created by jifang on 15/12/15.
*/
public class LearnRegexp { @Test
public void testSearch() {
String input = "hello1997&&2000"; // 将一个正则表达式编译成Pattern对象
Pattern pattern = Pattern.compile("\\w+");
Matcher matcher = pattern.matcher(input); // matches尝试将整个字符序列与该模式匹配
System.out.println(matcher.matches()); // reset将matcher中的指针重新定位
matcher.reset();
// find 方法扫描整个字符串, 查找能否找到下一个符合该模式字符串
while (matcher.find()) {
String group = matcher.group();
System.out.println(group);
}
} /**
* 将所有的数字都替换成'#'
*/
@Test
public void testReplace() {
String input = "1j2h3h4g5o";
Matcher replace = Pattern.compile("[0-9]").matcher(input);
input = replace.replaceAll("#");
System.out.println(input);
} /**
* 将字符串按数字分割
*/
@Test
public void testSplit() {
String input = "1j24h356h467g589o";
String[] strings = input.split("\\d+");
for (String str : strings) {
System.out.println(str);
}
}
}

由上例可以看到: 其实String中某些方法也支持正则表达式, 如split, replace等(Pattern,Matcher与String的其他用法请参考JDK文档).

小实验-抓取网页中所有的超链接

/**
* 模仿网络爬虫, 抓取网站html, 将里面所有的超链接都分析出来
* Created by jifang on 15/12/15.
*/
public class HtmlAnalyzer { private final String FILE_PATH = "/Users/jifang/save.txt"; @Test
public void client() throws IOException {
String html = downloadHtml("http://www.163.com/", "gbk");
// (?<=(href=\"))(?:[\w.\/\:\?\=\&]+)(?=\") 匹配url的正则
Set<String> urlSet = analyzeHtml(html, "(?<=(href=\\\"))(?:[\\w.\\/\\:\\?\\=\\&]+)(?=\\\")");
saveToFile(urlSet);
System.out.println();
} private String downloadHtml(String url, String charset) throws IOException {
URL readUrl = new URL(url);
BufferedReader reader = new BufferedReader(new InputStreamReader(readUrl.openStream(), charset));
return CharStreams.toString(reader);
} private Set<String> analyzeHtml(String html, String regex) { Set<String> urlSet = new HashSet<>();
// 匹配url的正则表达式
Matcher matcher = Pattern.compile(regex).matcher(html);
while (matcher.find()) {
String group = matcher.group();
urlSet.add(group);
} return urlSet;
} private void saveToFile(Set<String> urlSet) throws IOException {
PrintStream printer = new PrintStream(new FileOutputStream(FILE_PATH));
for (String url : urlSet) {
printer.println(url);
}
printer.flush();
printer.close();
}
}
  • 附- 运行上程序需要在pom.xml中添加以下依赖
<dependency>
<groupId>com.google.guava</groupId>
<artifactId>guava</artifactId>
<version>18.0</version>
</dependency>

推荐几个正则验证工具:


参考

Java与正则表达式的更多相关文章

  1. java中正则表达式基本用法

    正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符(例如字符a到z)以及特殊字符(元字符)组成的文字模式,它 用以描述在查找文字主体时待匹配的一个或多个字符串.正则表达式作为 ...

  2. java基础---->java中正则表达式二

    跟正则表达式相关的类有:Pattern.Matcher和String.今天我们就开始Java中正则表达式的学习. Pattern和Matcher的理解 一.正则表达式的使用方法 一般推荐使用的方式如下 ...

  3. Java的正则表达式

    package RegexTest; /** * Created by hu on 2016/3/29. */ /* * Java的正则表达式 在正则表达式中,用\d表示一位数字,如果在其它语言中使用 ...

  4. Java中正则表达式去除html标签

    Java中正则表达式去除html的标签,主要目的更精确的显示内容,比如前一段时间在做类似于博客中发布文章功能,当编辑器中输入内容后会将样式标签也传入后台并且保存数据库,但是在显示摘要的时候,比如显示正 ...

  5. Java面向对象 正则表达式

     Java面向对象 正则表达式 知识概要:                (1)正则表达式的特点 (2)正则表达的匹配 (3)正则表达式的切割,替换,获取 (4)正则表达式的练习 正则表达式:符合 ...

  6. Java 常用正则表达式,Java正则表达式,Java身份证校验,最新手机号码正则表达式

    Java 常用正则表达式,Java正则表达式,Java身份证校验,最新手机号码校验正则表达式 ============================== ©Copyright 蕃薯耀 2017年11 ...

  7. JAVA中正则表达式常用的四个方法

    JAVA中正则表达式处理字符串的四个常用方法:匹配.分割.替换.截取.其跟字符串的常用函数相似,但是使用正则表达式会更简单.更加简洁.下面是具体的例子: public class TestRegex ...

  8. Java对正则表达式的支持(一)

    Java对正则表达式的支持主要体现在String.Pattern.Matcher和Scanner类. 1.Pattern.Matcher 先看一个Pattern和Matcher类使用正则表达式的例子. ...

  9. Java中用正则表达式判断日期格式是否正确

    1.Java中用正则表达式判断日期格式是否正确 DateType.java: /** * @Title:DateType.java * @Package:com.you.dao * @Descript ...

随机推荐

  1. 《C++Primer》复习——with C++11 [1]

    1.头文件中不应包含using声明,因为头文件的内容会拷贝到所有引用到他的文件中去,如果头文件里有谋个using声明,那么每个使用了该头文件的文件就会有这个声明,由于不经意间包含了一些名字,反而可能产 ...

  2. HTML+CSS入门

    <strong>加粗</strong> <em>斜体</em> <p>段落</p> <span>设置单独样式< ...

  3. Luence简单实现1

    初步认识Luence,简单按照官方文档做了个例子,大牛绕开,仅供小白路过参考.如有错误,欢迎指正批评. 建一个简单工程,并且加入这几个小奶瓶,如下图: 注:版本不同,可能对jdk的需求是不同的,这个需 ...

  4. HTML的标签-W3School读后总结

    学习前端知识有一段时间了,前两天想做个博客园的皮肤的静态页面.虽然做完了,但是有很多不如意的地方,反思一下,还是基础不够好,所以现在把html再过一遍.(这个是Xmind生成的图片)

  5. 【SharePoint 文档管理解决方案设计系列一】文档使用分析

    在我们在 SharePoint 端设计文档管理解决方案之前我们要了解目前客户在他们已有的系统里是怎么对文档进行使用和管理的.只有了解了当前的使用情况才能根据客户的需求量身定做一套适合他们的有效的解决方 ...

  6. 【转载】Spring加载resource时classpath*:与classpath:的区别

    免责声明:     本文转自网络文章,转载此文章仅为个人收藏,分享知识,如有侵权,请联系博主进行删除.     原文作者:kyfxbl     原文地址: spring配置中classpath和cla ...

  7. fork 函数 和vfork 函数的区别

    问题描述:         fork 函数 和vfork 函数的区别 问题解决: fork函数使用: 注:         以上printf 属于标准IO库带缓冲,如果标准输出链接到终端设备,则它是行 ...

  8. 【CodeForces】【148D】Bag of mice

    概率DP kuangbin总结中的第9题 啊……题目给的数据只有白鼠和黑鼠的数量,所以我们只能在这个上面做(gao)文(D)章(P)了…… 明显可以用两种老鼠的数量来作为状态= = 我的WA做法: 令 ...

  9. gcd,lcm,ext_gcd,inv

    Least Common Multiple http://acm.hdu.edu.cn/showproblem.php?pid=1019 #include<cstdio> int gcd( ...

  10. PAT-乙级-1051. 复数乘法 (15)

    1051. 复数乘法 (15) 时间限制 400 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者 CHEN, Yue 复数可以写成(A + Bi)的常规 ...