一、概念

语法:

\D :就是不是0-9数字的其它字符;

\W:与\w相反;

a\d?b:表示在字符a和b之间可以有一个数字或者没有数字都可以;如:ab 、a3b

a\d+b:表示在字符a和b之间至少有一个数字,如:a3b 、a34b,

a\d*b:表示在字符a和b之间至少有0个数字或者多次(不仅限于1次),如:ab、a3b 、a34b,

^i :假如有很多i,只有字符串开头的i符合条件(默认的是整个文本都是一个字符串,不管你是否换行,整个文本只有一个开头)。

i$:匹配结尾的i

\b:用love\b去匹配love9love love结果是后边2个love符合条件。\b找到是个位置,第一个当光标在第一个love后边,光标的前边是e后边是9都属于\w的范围,

所以不符合。但是第2个love,光标前边e后边是空格,空格不属于\w的范围,符合要求。第3个同理。\w:字母数字下划线。

例如:lo goto goto gogo toto dododo

([a-z]{2})\1:匹配到gogo toto dodo 加了括号表示一个捕获组,因为只有一个括号\1表示即可。系统把2个字母保存一下,只有再次重复一下才表示匹配成功

[a-z]+ 表示匹配一个小写字母或者无限个小写字母,或者说匹配一个单词,这个单词至少一个字母,没有字母它也不是单词。

[a-z]+(?=ing) 匹配一个ing结尾的单词,但是ing不计入匹配结果,在匹配中ing不高亮显示。

[a-z]+(?<!\d) 匹配非数字结尾单词

[a-z]+(?<=ing) 匹配一个ing结尾的单词,ing计入匹配结果,在匹配中ing高亮显示。

解:(0\d{2,3}-\d{7,9})|(1[35789]\d{9})

解:"^[a-z0-9A-Z]+[- | a-z0-9A-Z . _]+@([a-z0-9A-Z]+(-[a-z0-9A-Z]+)?\\.)+[a-z]{2,}$"

[\w\-]+@[a-z0-9A-Z]+(\.[A-Za-z]{2,4}){1,2}

【Java代码】

/**
*
*/
package expression; import java.util.Arrays;
import java.util.regex.Matcher;
import java.util.regex.Pattern; public class Demo01 {
public static void main(String[] args) {
//字符串shdjkj890 是否符合正则表达式\w+
Pattern pattern=Pattern.compile("\\w+");//表达式对象,Java中在正则前加个\一个斜杠变两杠
Matcher matcher=pattern.matcher("shdjkj890&ik90*7k");//要匹配的目标对象
//matches()是将整个字符串序列与正则表达式匹配.find() 扫描输入的字符序列,查找与该模式匹配的下一个值序列
//System.out.println(matcher.matches());//matcher.matches();返回一个Boolean变量,返回true。 /*System.out.println(matcher.find());//它的输出结果受到matches()的影响。matches()已经匹配过,指针已经移动了
System.out.println(matcher.group());//返回第一个符合条件的
System.out.println(matcher.find());
System.out.println(matcher.group());//返回第二个符合条件的 ,以此类推*/ /*while (matcher.find()) {//等价于上边的
System.out.println(matcher.group());//group()和group(0)匹配整个表达式的子字符串
}*/ Pattern pattern2=Pattern.compile("([a-z]+)([0-9]+)");
Matcher matcher2=pattern2.matcher("aa232&ik90*7k56");
while (matcher2.find()) {
System.out.println(matcher2.group());//同时符合1组和2组的要求
System.out.println(matcher2.group(1));//第1组([a-z]+) 单词
System.out.println(matcher2.group(2));//第2组([0-9]+) 数字
} //替换操作,把数字换成#,matcher3.replaceAll("#")
Pattern pattern3=Pattern.compile("[0-9]");
Matcher matcher3=pattern3.matcher("aa232&ik90*7k56");
System.out.println(matcher3.replaceAll("#")); //分割操作,以数字作为边界切割字符
String str="d5678ghh678gh56";
String arr[]=str.split("\\d+");
System.out.println(Arrays.toString(arr));
}
}

【爬虫模拟】

/***
* 用正则表达式 去做网络爬虫
*/
package expression; import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.nio.charset.Charset;
import java.util.regex.Matcher;
import java.util.regex.Pattern; public class Demo02 { //获得网页源码的方法
public static String getURLContent(String urlStr,String charset) throws Exception {
StringBuilder sb=new StringBuilder();
URL url=new URL(urlStr);
BufferedReader reader=new BufferedReader(new InputStreamReader(url.openStream(),Charset.forName(charset) ));
String temp="";
while ((temp=reader.readLine())!=null) {
sb.append(temp);
}
return sb.toString();
} public static void main(String[] args) throws Exception {
String destString=getURLContent("https://www.163.com/","GBK"); //Pattern p=Pattern.compile("<a[\\s\\S]+?</a>");
Pattern p2=Pattern.compile("href=\"([\\w\\s./:]+?)\"");
Matcher m=p2.matcher(destString);
while (m.find()) {
System.out.println(m.group(1)); }
}
}

[19/05/04-星期六] 正则表示式(Regular Expression)的更多相关文章

  1. python(4): regular expression正则表达式/re库/爬虫基础

    python 获取网络数据也很方便 抓取 requests 第三方库适合做中小型网络爬虫的开发, 大型的爬虫需要用到 scrapy 框架 解析 BeautifulSoup 库, re 模块 (一) r ...

  2. Python正则表达式Regular Expression基本用法

    资料来源:http://blog.csdn.net/whycadi/article/details/2011046   直接从网上资料转载过来,作为自己的参考.这个写的很清楚.先拿来看看. 1.正则表 ...

  3. Python 模块 re (Regular Expression)

    使用 Python 模块 re 实现解析小工具   概要 在开发过程中发现,Python 模块 re(Regular Expression)是一个很有价值并且非常强大的文本解析工具,因而想要分享一下此 ...

  4. python learning Regular Expression.py

    # 正则表达式,又称规则表达式.(英语:Regular Expression,在代码中常简写为regex.regexp或RE),计算机科学的一个概念.正则表达式通常被用来检索.替换那些符合某个模式(规 ...

  5. Java基础-正则表达式(Regular Expression)语法规则简介

    Java基础-正则表达式(Regular Expression)语法规则简介 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.正则表达式的概念 正则表达式(Regular Exp ...

  6. Python -- 正则表达式 regular expression

    正则表达式(regular expression) 根据其英文翻译,re模块 作用:用来匹配字符串.  在Python中,正则表达式是特殊的字符序列,检查一个字符串是否与某种模式匹配. 设计思想:用一 ...

  7. grep(Global Regular Expression Print)

    .grep -iwr --color 'hellp' /home/weblogic/demo 或者 grep -iw --color 'hellp' /home/weblogic/demo/* (-i ...

  8. Does FTK index search support regular expression?

    Some of my friends ask me a question: "Does FTK index search support regular expression?" ...

  9. Microsoft Word Regular Expression

    Microsoft Word Regular Expression Word裏的正則表達式-不一樣的符號. 一.Normal Find and Replace 二.Search by using wi ...

随机推荐

  1. 设计模式Design Pattern(3) -- 责任链模式

    什么是责任链模式? 责任链模式(Chain of Responsibility Pattern):请求知道公开接口,但不知道那个具体类处理,这些具体处理类对象连接成一条链.请求沿着这条链传递,直到有对 ...

  2. 【NOIP2015模拟11.2晚】我的天

    题目 很久很以前,有一个古老的村庄--xiba村,村子里生活着n+1个村民,但由于历届村长恐怖而且黑暗的魔法统治下,村民们各自过着独立的生活,完全没有意识到其他n个人的存在. 但有一天,村民xiba臻 ...

  3. mysql INNER JOIN关键字 语法

    mysql INNER JOIN关键字 语法 作用:在表中存在至少一个匹配时,INNER JOIN 关键字返回行.大理石平台维修 语法:SELECT column_name(s) FROM table ...

  4. HDU 6623 Minimal Power of Prime

    Time limit 1000 ms Memory limit 65536 kB OS Windows 中文题意 给一个数n,设将n质因数分解后可以得到 \[n=\prod_{i=1}^{\omega ...

  5. JPA Hibernate 等面向对象持久化框架难以解决的问题

    1+N查询性能问题 单个更新实体对象,而不是使用单调语句 在Java端做了很重的数据处理,数据库端反而很少 多层次 fetch inner join 难以实现 关联映射难以自定义条件 级联操作难以掌控 ...

  6. HTTP入门(二):用Chrome开发者工具查看 HTTP 请求与响应

    HTTP入门(二):用Chrome开发者工具查看 HTTP 请求与响应 本文简单总结HTTP的请求与响应. 本文主要目的是对学习内容进行总结以及方便日后查阅. 详细教程和原理可以参考HTTP文档(MD ...

  7. linux 下 一步一步安装odb

    Introduction This guide presents step-by-step instructions for installing the ODB system on UNIX-lik ...

  8. TreeSet 源码分析

    TreeSet 1)底层由 TreeMap 支持的 Set 接口实现,Set 中的元素按照自然顺序或指定的比较器排序. 创建实例 /** * 支持此 Set 的底层的 TreeMap 对象 */ pr ...

  9. VMware 虚拟化编程(8) — 多线程中的 VixDiskLib

    目录 目录 前文列表 多线程注意事项 多线程中的 VixDiskLib 前文列表 VMware 虚拟化编程(1) - VMDK/VDDK/VixDiskLib/VADP 概念简析 VMware 虚拟化 ...

  10. 阶段1 语言基础+高级_1-3-Java语言高级_1-常用API_1_第6节 static静态_12_静态static关键字修饰成员变量

    创建一个学生类 定义成员变量,无参构造,全参构造.成员变量的getter和setter 所在教室必须是一样的,定义所在教室 下面来创建两个学生 只给one的room赋值了.two的教室并没有赋值.都输 ...