正则表达式基础以及Java中使用正则查找

定义: 正则表达式是一些用来匹配和处理文本的字符串

正则的基础(先大致了解下)

1. 正则表达式的作用

  1. 查找特定的信息(搜索)

  2. 替换一些文本(替换)

2. 正则基础知识

1. 元字符

  • . 匹配除换行符(\n)以外的任何单个字符
  • w 匹配字母、数字、下划线、汉字
  • s 匹配任意空白字符(包括空格、制表符、换页符等)
  • d 匹配数字,匹配单词的开始或结束
  • ^ 匹配字符串的开始
  • $ 匹配字符串的结束

例子:

#匹配abc开头的字符串
^abd #匹配8位数字的QQ号
^dddddddd$ #匹配以153开头的11位数字手机号
^153dddddddd$

2. 重复限定符

  • * 重复0次或更多次
  • + 重复1次或更多次
  • ? 重复0次或1次
  • {n} 重复n次
  • {n,} 重复n次或更多次
  • {n,m} 重复n到m次
#匹配8位数字QQ号
^d{8}$ #匹配153开头11位手机号
^(153)d{8}$ #匹配身份证号第7到14位(出生日期)
^d{7,14}$ #匹配以a开头的,0个或者多个以b结尾的字符串
^ab*$

3. 分组

#匹配字符串中包含0到多个ab开头
^(ab)*$

4. 条件或

正则用【|】表示或,当满足分支里任何一种条件时,就会匹配成功

#匹配手机号中联通的手机(联通号段130/131/132等)
^(130|131|132)d{8}$

5. 区间

正则提供‘[]’表示区间条件

  • [0-9] 限定0到9
  • [a-z] 限定a-z
  • [165] 限定某些数字

Java中使用正则表达式

这里会说一个例子:在一段txt文档中找出所有的网址

Java与正则

1. 这里有一段100000000(自己数,我也不知道几个0)行的文本,如图

2. 高手写好的匹配url的正则(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]当然还有n多种方式

3. Java代码献上

正则表达式匹配使用方式

/**
* 参数1 regex:我们的正则字符串
* 参数2 就是一大段文本,这里用data表示
*/
private String filterSpecialStr(String regex, String data) {
//sb存放正则匹配的结果
StringBuffer sb = new StringBuffer();
//编译正则字符串
Pattern p = Pattern.compile(regex);
//利用正则去匹配
Matcher matcher = p.matcher(data);
//如果找到了我们正则里要的东西
while (matcher.find()) {
//保存到sb中,"\r\n"表示找到一个放一行,就是换行
sb.append(matcher.group() + "\r\n");
}
return sb.toString();
}

4. 这里增加两个文件的读写

Java读取文本文件

private String readFile(String pathName) {
//读取到的文件内容放到这个sb里
StringBuffer sb = new StringBuffer();
//The Java 7 try-with-resources syntax (Automatic Resource Management) is nice (这种写法是Java7的一种语法,自动管理资源,不理解自行百度)
try (BufferedReader br = new BufferedReader(new FileReader(pathName))) {
String line;
while ((line = br.readLine()) != null) {
sb.append(line + "\r\n");
}
System.out.println("读取文件完成");
} catch (IOException e) {
e.printStackTrace();
}
return sb.toString();
}

Java写入文本文件

private void writeFile(String pathName, String data) {
try {
//文件不存在的话新建,存在覆盖
File file = new File(pathName);
file.createNewFile();
//The Java 7 try-with-resources syntax (Automatic Resource Management) is nice
try (BufferedWriter bw = new BufferedWriter(new FileWriter(file))) {
bw.write(data);
bw.flush();
System.out.println("文件写入完成");
} catch (IOException e) {
e.printStackTrace();
}
} catch (IOException e) {
e.printStackTrace();
}
}

5. 执行结果

测试代码

把文档.txt读取到Java中,然后处理完,最后写到我指定的文件中

public static void main(String[] args) {
//0. 准备好正则
String regex = "(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]";
//1. 读取文档
String data = readFile("F:\\test\\文档.txt");
//2. 正则查找
String needData = filterSpecialStr(regex, data);
//3. 写到某个文件中
writeFile("F:\\test\\needData.txt", needData);
}

结果

备注:这里看到有位大神讲正则的,真好:点我去参观QAQ

Java提取文本文档中的所有网址(小案例介绍正则基础知识)的更多相关文章

  1. Java 写一段字符到指定的文本文档中,如果该文本文档不存在,则创建该文本文档

    写一段字符到指定的文本文档中,如果该文本文档不存在,则创建该文本文档 import java.io.File; import java.io.FileNotFoundException; import ...

  2. 编写Java程序,读取文本文档的内容,去除文本中包含的“广告”字样,把更改后的内容保存到一个新的文本文档中

    查看本章节 查看作业目录 需求说明: 读取文本文档的内容,去除文本中包含的"广告"字样,把更改后的内容保存到一个新的文本文档中 实现思路: 在main() 方法中,使用 new F ...

  3. oracle数据库中将clob字段内容利用java提取出至文本文档中

    代码段: 1.执行clob转String public static String ClobToString(Clob sc) throws SQLException, IOException { S ...

  4. 文本文档中各字母出现次数汇总(java)

    package 字母频率统计; import java.io.*; public class Inputfile { public static void main(String args[]) { ...

  5. Java 单字节、多字节读取文本文档中的内容

    文本文档位于工程下. 鼠标右击工程,选择“new - File”,即可创建. 文本文档的格式:GBK 单字节读取 import java.io.File; import java.io.FileInp ...

  6. 使用 AWK 去掉文本文档中的空白行

    在 Linux 操作系统中,可以使用 AWK 命令高效地处理文本文档.AWK 命令通过执行使用 AWK 语言编写的脚本程序,处理文本文档.AWK 脚本程序是由模式(patterns)与相关操作(cor ...

  7. 过滤文本文档中的数据并插入Cassandra数据库

    代码如下: package com.locationdataprocess; import java.io.BufferedReader; import java.io.File; import ja ...

  8. python 读取文本文档中的数据

    import os dir = input('Please input the file dir:')#提示输入文件路径 while not os.path.exists(dir):#判断文件是否存在 ...

  9. jenkins job构建后汇总结果到同一个文本文档中去

    jenkins 构建后,执行下shell脚本,把结果汇总到同一个文件中,这样多个job构建后的结果可以在一个文件中展示 result_all_dir="/app/jenkins_result ...

随机推荐

  1. 多线程 - 内存屏障和cpu缓存

    CPU性能优化 - 缓存 为了提高程序运行的性能,现代CPU在很多方面会对程序进行优化.CPU的处理速度是很快的,内存的速度次之,硬盘速度最慢.在cpu处理内存数据中,内存运行速度太慢,就会拖累cpu ...

  2. PAT Basic 1014 福尔摩斯的约会 (20 分) Advanced 1061 Dating (20 分)

    大侦探福尔摩斯接到一张奇怪的字条:我们约会吧! 3485djDkxh4hhGE 2984akDfkkkkggEdsb s&hgsfdk d&Hyscvnm.大侦探很快就明白了,字条上奇 ...

  3. PAT Advanced 1065 A+B and C (64bit) (20 分)(关于g++和clang++修改后能使用)

    Given three integers A, B and C in [−], you are supposed to tell whether A+B>C. Input Specificati ...

  4. Codeforces 918 括号匹配 SGdp[i][j][k]

    A B C #include <bits/stdc++.h> #define PI acos(-1.0) #define mem(a,b) memset((a),b,sizeof(a)) ...

  5. 树莓派vnc连接时PyQt(或Qt)键盘键位混乱的解决办法

    使用树莓派通过vnc连接到PC端,运行PyQt时会发现键盘输入时候乱码,按下abcde对应出现asdfg.是由于vnc版本不合适造成的. 解决方法: 1.删除原有vnc sudo apt-get re ...

  6. test dword ptr [eax],eax ; probe page.局部数组变量定义所分配的最大空间为1M

    问题的出现 使用VS2017编写程序时,程序编译可以通过,但运行时就会弹出错误 经过查证发现: 这跟局部数组变量定义所分配的最大空间设置大小有关. 局部变量的申请空间是存放于栈中,windows里默认 ...

  7. 043:Django使用原生SQL语句操作数据库

    Django使用原生SQL语句操作数据库 Django配置连接数据库: 在操作数据库之前,首先先要连接数据库.这里我们以配置 MySQL 为例来讲解. Django 连接数据库,不需要单独的创建一个连 ...

  8. c++ string转char*

    1.如果要将string转换为char*,可以使用string提供的函数c_str() ,或是函数data(),data除了返回字符串内容外,不附加结束符'\0',而c_str()返回一个以‘\0’结 ...

  9. 面试题常考&必考之--js中的call()和apply()

    apply: 接受两个参数,第一个参数是要绑定给this的值,第二个参数是一个参数数组.当第一个参数为null.undefined的时候,默认指向window. call: 第一个参数是要绑定给thi ...

  10. requiredBackgroundModes

    申明需要后台运行的能力,类型为数组.目前支持以下项目: audio: 后台音乐播放如: { "pages": ["pages/index/index"], &q ...