正则表达针对html(九)
前言
关于处理一些html的东西。
正文
假设有一段html文本:
<?xml version="1.0" encoding="UTF-8"?>
<!PUBLIC "-//OASIS//DTD DITA Topic//EN" "topic.dtd">
<topic id="lorem">
<title>Lorem Ipsum</title>
<body>
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Cras non commodo mi. Donec cursus condimentum dignissim. Nulla ac ipsum vel nisi placerat posuere. Curabitur eleifend aliquam rhoncus. Quisque sodales tempor metus commodo vehicula. Suspendisse potenti. Aliquam at tortor risus. Curabitur eget mi ut magna fringilla auctor. Fusce nibh sem, facilisis id volutpat eu, convallis in nibh. Maecenas mauris risus, gravida sed tempor sit amet, aliquam quis lectus. Mauris id metus vel lacus facilisis cursus. Aenean venenatis elementum eros, nec sollicitudin enim vulputate sed. Morbi eget neque ac dui ullamcorper ullamcorper. In convallis ligula eu purus rutrum bibendum.</p>
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit:</p>
<ul>
<li>Lorem ipsum dolor sit amet</li>
<li>Lorem ipsum dolor sit amet</li>
<li>Lorem ipsum dolor sit amet</li>
</ul>
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Cras non commodo mi. Donec cursus condimentum dignissim. Nulla ac ipsum vel nisi placerat posuere. Curabitur eleifend aliquam rhoncus. Quisque sodales tempor metus commodo vehicula. Suspendisse potenti. Aliquam at tortor risus. Curabitur eget mi ut magna fringilla auctor. Fusce nibh sem, facilisis id volutpat eu, convallis in nibh. Maecenas mauris risus, gravida sed tempor sit amet, aliquam quis lectus. Mauris id metus vel lacus facilisis cursus. Aenean venenatis elementum eros, nec sollicitudin enim vulputate sed. Morbi eget neque ac dui ullamcorper ullamcorper. In convallis ligula eu purus rutrum bibendum.</p>
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Cras non commodo mi. Donec cursus condimentum dignissim. Nulla ac ipsum vel nisi placerat posuere. Curabitur eleifend aliquam rhoncus. Quisque sodales tempor metus commodo vehicula. Suspendisse potenti. Aliquam at tortor risus. Curabitur eget mi ut magna fringilla auctor. Fusce nibh sem, facilisis id volutpat eu, convallis in nibh. Maecenas mauris risus, gravida sed tempor sit amet, aliquam quis lectus. Mauris id metus vel lacus facilisis cursus. Aenean venenatis elementum eros, nec sollicitudin enim vulputate sed. Morbi eget neque ac dui ullamcorper ullamcorper. In convallis ligula eu purus rutrum bibendum.</p>
</body>
</topic>
如何匹配标签:
<[_a-zA-Z][^>]*>

思路很简单,根据命名规则来的。
如果要匹配前后标签:

未完
后续
正则表达针对html(九)的更多相关文章
- HttpGet协议与正则表达
使用HttpGet协议与正则表达实现桌面版的糗事百科 写在前面 最近在重温asp.net,找了一本相关的书籍.本书在第一章就讲了,在不使用浏览器的情况下生成一个web请求,获取服务器返回的内容.于 ...
- 正则表达示 for Python3
前情提要 从大量的文字内容中找到自己想要的东西,正则似乎是最好的方法.也是写爬虫不可缺少的技能.所以,别墨迹了赶紧好好学吧! 教程来自http://www.runoob.com/python3/pyt ...
- 使用HttpGet协议与正则表达实现桌面版的糗事百科
写在前面 最近在重温asp.net,找了一本相关的书籍.本书在第一章就讲了,在不使用浏览器的情况下生成一个web请求,获取服务器返回的内容.于是在网上搜索关于Http请求相关的资料,发现了很多资料都是 ...
- Javascript正则构造函数与正则表达字面量&&常用正则表达式
本文不讨论正则表达式入门,即如何使用正则匹配.讨论的是两种创建正则表达式的优劣和一些细节,最后给出一些常用正则匹配表达式. Javascript中的正则表达式也是对象,我们可以使用两种方法创建正则表达 ...
- js正则表达test、exec和match的区别
test的用法和exec一致,只不过返回值是 true false. 以前用js很少用到js的正则表达式,即使用到了,也是诸如邮件名称之类的判断,网上代码很多,很少有研究,拿来即用. 最近开发遇到一些 ...
- Python之面向对象和正则表达(代数运算和自动更正)
面向对象 一.概念解释 面对对象编程(OOP:object oriented programming):是一种程序设计范型,同时也是一种程序开发的方法,实现OOP的程序希望能够在程序中包含各种独立而又 ...
- JS写法 数值与字符串的相互转换 取字符中的一部分显示 正则表达规则
http://www.imooc.com/article/15885 正则表达规则 <script type="text/javascript"> </scrip ...
- shell正则表达
shell正则表达 .*和.?的比较: 比如说匹配输入串A: 101000000000100 使用 1.*1 将会匹配到1010000000001,匹配方法:先匹配至输入串A的最后, 然后向前匹配,直 ...
- python 正则表达提取方法 (提取不来的信息print不出来 加个输出type 再print信息即可)
1,正则表达提取 (findall函数提取) import re a= "<div class='content'>你大爷</div>"x=re.finda ...
- grep 正则表达
常见的 grep 正则表达参数 -c # 显示匹配到得行的数目,不显示内容 -h # 不显示文件名 -i # 忽略大小写 -l # 只列出匹配行所在文件的文件名 -n # 在每一行中加上相对行号 -s ...
随机推荐
- C++ //类模板与友元 //全局函数类内实现 -直接在类内声名由于即可 //全局函数类外实现 -需要提前让编译器知道全局函数的存在
1 //类模板与友元 2 //全局函数类内实现 -直接在类内声名由于即可 3 //全局函数类外实现 -需要提前让编译器知道全局函数的存在 4 5 #include <iostream> 6 ...
- 关于Java并发多线程的一点思考
写在开头 在过去的2023年双11活动中,天猫的累计访问人次达到了8亿,京东超60个品牌销售破10亿,直播观看人数3.0亿人次,订单支付频率1分钟之内可达百万级峰值,这样的瞬间高并发活动,给服务端带来 ...
- 摆脱鼠标系列 - vscode 上一个编辑器 下一个编辑器 Ctrl + h Ctrl + l
摆脱鼠标系列 - vscode 上一个编辑器 下一个编辑器 Ctrl + H Ctrl + L 为什么 根据 hjkl h是左边的原则 h 左移一位 b 左移一个单词 H 移动到句首 0 是行首 I是 ...
- period 发音 per + iod 没有ri音 (per=round od=hod=way)
period 发音 per + iod 没有ri音 pɪər iə d peri-在周围 + od-=hod-路,引申词义时期,阶段,句号等. per = round period 美: [ˈpɪrɪ ...
- vue-cli-service build 时间戳 方便查看bug发布时间和项目发布时间对比
vue.config.js let ret = '' const date = new Date() ret += date.getFullYear() ret += '-'+ (date.getMo ...
- 【预训练语言模型】使用Transformers库进行GPT2预训练
基于 HuggingFace的Transformer库,在Colab或Kaggle进行预训练. 本教程提供:英文数据集wikitext-2和代码数据集的预训练. 注:可以自行上传数据集进行训练 目的: ...
- 【深度学习】神经网络正则化方法之Dropout
前言 正则化是一种广泛用于机器学习和深度学习的手段,它的目的就是阻碍模型过度学习(过拟合),从而提升算法的泛化能力. Dropout 是一种常见的缓解过拟合的方法.接下来,本文将从原理和实践来介绍Dr ...
- Python根据时间命名并创建文件源码
自己写的,产品中验证ok的代码,直接上实例: import time def file_create_func(): loca = time.strftime('%Y-%m-%d-%H-%M-%S') ...
- 基于python的指定时段执行实例解析
一 概念: python中库很多,这里熟悉下time和interval的用法 二 实例解析 切记这里的interval,输出的是目前的时间是一个数组. import time from interva ...
- Android Studio 下载jcenter依赖失败问题及解决
优先国内的镜像下载即可 我用的华为和阿里云的国内镜像 google() maven { url 'https://jitpack.io' } maven { url 'http://maven.ali ...