Java提取文本文档中的所有网址(小案例介绍正则基础知识)
正则表达式基础以及Java中使用正则查找
定义: 正则表达式是一些用来匹配和处理文本的字符串
正则的基础(先大致了解下)
1. 正则表达式的作用
查找特定的信息(搜索)
替换一些文本(替换)
2. 正则基础知识
1. 元字符
- . 匹配除换行符(\n)以外的任何单个字符
- w 匹配字母、数字、下划线、汉字
- s 匹配任意空白字符(包括空格、制表符、换页符等)
- d 匹配数字,匹配单词的开始或结束
- ^ 匹配字符串的开始
- $ 匹配字符串的结束
例子:
#匹配abc开头的字符串
^abd
#匹配8位数字的QQ号
^dddddddd$
#匹配以153开头的11位数字手机号
^153dddddddd$
2. 重复限定符
- * 重复0次或更多次
- + 重复1次或更多次
- ? 重复0次或1次
- {n} 重复n次
- {n,} 重复n次或更多次
- {n,m} 重复n到m次
#匹配8位数字QQ号
^d{8}$
#匹配153开头11位手机号
^(153)d{8}$
#匹配身份证号第7到14位(出生日期)
^d{7,14}$
#匹配以a开头的,0个或者多个以b结尾的字符串
^ab*$
3. 分组
#匹配字符串中包含0到多个ab开头
^(ab)*$
4. 条件或
正则用【|】表示或,当满足分支里任何一种条件时,就会匹配成功
#匹配手机号中联通的手机(联通号段130/131/132等)
^(130|131|132)d{8}$
5. 区间
正则提供‘[]’表示区间条件
- [0-9] 限定0到9
- [a-z] 限定a-z
- [165] 限定某些数字
Java中使用正则表达式
这里会说一个例子:在一段txt文档中找出所有的网址
Java与正则
1. 这里有一段100000000(自己数,我也不知道几个0)行的文本,如图
2. 高手写好的匹配url的正则(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]当然还有n多种方式
3. Java代码献上
正则表达式匹配使用方式
/**
* 参数1 regex:我们的正则字符串
* 参数2 就是一大段文本,这里用data表示
*/
private String filterSpecialStr(String regex, String data) {
//sb存放正则匹配的结果
StringBuffer sb = new StringBuffer();
//编译正则字符串
Pattern p = Pattern.compile(regex);
//利用正则去匹配
Matcher matcher = p.matcher(data);
//如果找到了我们正则里要的东西
while (matcher.find()) {
//保存到sb中,"\r\n"表示找到一个放一行,就是换行
sb.append(matcher.group() + "\r\n");
}
return sb.toString();
}
4. 这里增加两个文件的读写
Java读取文本文件
private String readFile(String pathName) {
//读取到的文件内容放到这个sb里
StringBuffer sb = new StringBuffer();
//The Java 7 try-with-resources syntax (Automatic Resource Management) is nice (这种写法是Java7的一种语法,自动管理资源,不理解自行百度)
try (BufferedReader br = new BufferedReader(new FileReader(pathName))) {
String line;
while ((line = br.readLine()) != null) {
sb.append(line + "\r\n");
}
System.out.println("读取文件完成");
} catch (IOException e) {
e.printStackTrace();
}
return sb.toString();
}
Java写入文本文件
private void writeFile(String pathName, String data) {
try {
//文件不存在的话新建,存在覆盖
File file = new File(pathName);
file.createNewFile();
//The Java 7 try-with-resources syntax (Automatic Resource Management) is nice
try (BufferedWriter bw = new BufferedWriter(new FileWriter(file))) {
bw.write(data);
bw.flush();
System.out.println("文件写入完成");
} catch (IOException e) {
e.printStackTrace();
}
} catch (IOException e) {
e.printStackTrace();
}
}
5. 执行结果
测试代码
把文档.txt读取到Java中,然后处理完,最后写到我指定的文件中
public static void main(String[] args) {
//0. 准备好正则
String regex = "(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]";
//1. 读取文档
String data = readFile("F:\\test\\文档.txt");
//2. 正则查找
String needData = filterSpecialStr(regex, data);
//3. 写到某个文件中
writeFile("F:\\test\\needData.txt", needData);
}
结果
备注:这里看到有位大神讲正则的,真好:点我去参观QAQ
Java提取文本文档中的所有网址(小案例介绍正则基础知识)的更多相关文章
- Java 写一段字符到指定的文本文档中,如果该文本文档不存在,则创建该文本文档
写一段字符到指定的文本文档中,如果该文本文档不存在,则创建该文本文档 import java.io.File; import java.io.FileNotFoundException; import ...
- 编写Java程序,读取文本文档的内容,去除文本中包含的“广告”字样,把更改后的内容保存到一个新的文本文档中
查看本章节 查看作业目录 需求说明: 读取文本文档的内容,去除文本中包含的"广告"字样,把更改后的内容保存到一个新的文本文档中 实现思路: 在main() 方法中,使用 new F ...
- oracle数据库中将clob字段内容利用java提取出至文本文档中
代码段: 1.执行clob转String public static String ClobToString(Clob sc) throws SQLException, IOException { S ...
- 文本文档中各字母出现次数汇总(java)
package 字母频率统计; import java.io.*; public class Inputfile { public static void main(String args[]) { ...
- Java 单字节、多字节读取文本文档中的内容
文本文档位于工程下. 鼠标右击工程,选择“new - File”,即可创建. 文本文档的格式:GBK 单字节读取 import java.io.File; import java.io.FileInp ...
- 使用 AWK 去掉文本文档中的空白行
在 Linux 操作系统中,可以使用 AWK 命令高效地处理文本文档.AWK 命令通过执行使用 AWK 语言编写的脚本程序,处理文本文档.AWK 脚本程序是由模式(patterns)与相关操作(cor ...
- 过滤文本文档中的数据并插入Cassandra数据库
代码如下: package com.locationdataprocess; import java.io.BufferedReader; import java.io.File; import ja ...
- python 读取文本文档中的数据
import os dir = input('Please input the file dir:')#提示输入文件路径 while not os.path.exists(dir):#判断文件是否存在 ...
- jenkins job构建后汇总结果到同一个文本文档中去
jenkins 构建后,执行下shell脚本,把结果汇总到同一个文件中,这样多个job构建后的结果可以在一个文件中展示 result_all_dir="/app/jenkins_result ...
随机推荐
- 【转】Linux下的磁盘分区方法
转自:https://www.cnblogs.com/lbole/p/8904298.html 一.硬盘接口类型 硬盘的接口主要有IDE.SATA.SCSI .SAS和光纤通道等五种类型.其中IDE和 ...
- 魔咒词典 HDU - 1880 (字符串hash 单hash转int或者 双hash )
哈利波特在魔法学校的必修课之一就是学习魔咒.据说魔法世界有100000种不同的魔咒,哈利很难全部记住,但是为了对抗强敌,他必须在危急时刻能够调用任何一个需要的魔咒,所以他需要你的帮助. 给你一部魔咒词 ...
- 分岔 Bifurcations
1. saddle-node bifurcation 2. transcritical bifurcation 3.pitchfork bifurcation 4. Hopf bifurcation ...
- Codeforces 913 二进制背包(柠檬水) 暴力贪心特殊背包(选题)
A B C 给你N(N<=30)种水瓶每种水瓶有无限个 每个的体积是2^(i-1)价格是cost[i] 要求你花最少的钱弄出L体积的水 先从前到后扫一遍cost[i+1]=min(cost[i+ ...
- ThreadLocal 解决simpledateformat线程不安全
SimpleDateFormat在多线程情况下会出现线程不安全的情况,故用ThreadLoacl 处理/** * 用ThreadLocal处理simplDateFormat线程不安全 */public ...
- larval 使用redis做缓存
1.存redis 使用setex命令可以同时设置数据和保存时间 $data = [ 'name'=>zhangsan, 'age' => 28, 'sex' => 1 ]; Redi ...
- nacos 动态刷新@ConfigurationProperties
使用@ConfigurationProperties 可以替换@value @ConfigurationProperties @Value 注解功能 可以批量注入配置文件中的属性 只能一个个指定注 ...
- [CF1208D] Restore Permutation
传送门 题意:有一个长为\(n\)的排列\(p\),设\(S_i=\sum_{j=1}^{i-1}p_j\cdot[p_j<p_i]\),给出\(S\),要求还原出\(p\).保证有解,\(n\ ...
- MySQL技巧--伪哈希索引
哈希索引 哈希索引就是通过一个哈希函数计算出某个key的hash值,并以这个hash值去找到目标数据.例如:对于数据库的一行数据,对其主键进行hash运算,得到一个地址,这个地址指向这行记录的存储地址 ...
- Intraweb IIS发布,数据连接问题
日前,用IW做了小东西,开始用单独的执行程序发布,一切都没有什么问题,但是发布到正式环境中,用windows IIS发布,怎么也获取不了程序所在的物理路径,而后看了万一的博客,试了一下程序能正常运行, ...