Python:使用正则去除HTML标签(转)

利用正则式处理，不知道会不会有性能问题，没有经过太多测试。
目前我有很多还是使用BeautifulSoup进行这种处理。
HTML实体处理的只是用于处理一些常用的实体。

 # -*- coding: utf-8-*-

 import re

 ##过滤HTML中的标签

 #将HTML中标签等信息去掉

 #@param htmlstr HTML字符串.

 def filter_tags(htmlstr):

 #先过滤CDATA

     re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA

     re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script

     re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style

     re_br=re.compile('<br\s*?/?>')#处理换行

     re_h=re.compile('</?\w+[^>]*>')#HTML标签

     re_comment=re.compile('<!--[^>]*-->')#HTML注释

     s=re_cdata.sub('',htmlstr)#去掉CDATA

     s=re_script.sub('',s) #去掉SCRIPT

     s=re_style.sub('',s)#去掉style

     s=re_br.sub('\n',s)#将br转换为换行

     s=re_h.sub('',s) #去掉HTML 标签

     s=re_comment.sub('',s)#去掉HTML注释

 #去掉多余的空行

     blank_line=re.compile('\n+')

     s=blank_line.sub('\n',s)

     s=replaceCharEntity(s)#替换实体

 return s

 ##替换常用HTML字符实体.

 #使用正常的字符替换HTML中特殊的字符实体.

 #你可以添加新的实体字符到CHAR_ENTITIES中,处理更多HTML字符实体.

 #@param htmlstr HTML字符串.

 def replaceCharEntity(htmlstr):

     CHAR_ENTITIES={'nbsp':' ','':' ',

 'lt':'<','':'<',

 'gt':'>','':'>',

 'amp':'&','':'&',

 'quot':'"','':'"',}

     re_charEntity=re.compile(r'&#?(?P<name>\w+);')

     sz=re_charEntity.search(htmlstr)

 while sz:

         entity=sz.group()#entity全称，如&gt;

         key=sz.group('name')#去除&;后entity,如&gt;为gt

 try:

             htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)

             sz=re_charEntity.search(htmlstr)

 except KeyError:

 #以空串代替

             htmlstr=re_charEntity.sub('',htmlstr,1)

             sz=re_charEntity.search(htmlstr)

 return htmlstr

 def repalce(s,re_exp,repl_string):

 return re_exp.sub(repl_string,s)

 if __name__=='__main__':

     s=file('Google.htm').read()

     news=filter_tags(s)

 print news

输出结果：

Google网页图片地图资讯视频财经更多博客生活热榜网站导航日历照片文档协作平台输入法工具栏软件精选更多个性化首页 | 登录

高级搜索

使用偏好

语言工具所有网页中文网页简体中文网页中国的网页

广告计划 – Google 大全 – Google.com in English2009 – 隐私权 – ICP证合字B2-20070004号

Python:使用正则去除HTML标签(转)的更多相关文章

正则去除html标签属性保留指定标签
/// <summary> /// 去除标签里面的属性保留IMG标签属性 /// </summary> /// <param name="strText&quo ...
正则去除html标签
String.prototype.stripHtml=function(){ var re=/<(?:.)*?>/g; // *? 意味着匹配任意数量的重复 return this.rep ...
正则去除字符串中的html标签，但不去除<br>标签
一.去除html标签 filterHTMLTag(msg) { var msg = msg.replace(/<\/?[^>]*>/g, ''); //去除HTML Tag msg ...
正则去除html字符串中的注释、标签、属性
var str = '<h1 style="color:#00ff00;text-align: center;">ProsperLe ...
java正则表达式去除html标签
当我们用ckeditor或其他一些在线文本编辑器的时候内容里会有很多的标签如下片段: <p><img alt="" src="/img/upload ...
python 速记正则使用(转)
目录 python 速记正则使用(转) 正则表达式语法字符与字符类量词组与捕获断言与标记条件匹配正则表达式的标志 Python正则表达式模块四大功能两种方法常用方法匹配对象的属性与 ...
Python3正则去掉HTML标签
Python3正则去掉HTML标签 1.引用一段代码 import re html = '<pre class="line mt-10 q-content" accuse=& ...
PHP 去除HTML标签 HTML实体转字符 br转\n
1.去除HTML标签 strip_tags(string,allow)//剥去字符串中的 HTML 标签,但允许使用 <img> 标签:$str = strip_tags($str,&q ...
python处理html的table标签
转载:http://www.xuebuyuan.com/583071.html python处理html的table标签 2012年01月06日 ⁄ 综合 ⁄ 共 5279字 ⁄ 字号小中大 ⁄ ...

随机推荐

kubernetes--应用程序健康检查
版权声明:本文属于原创,欢迎转载,转载请保留出处:http://blog.csdn.net/liyingke112 http://blog.csdn.net/liyingke112/article/d ...
Bigbluebutton中文乱码问题
Bigbluebutton中文乱码问题 Libreoffice安装中文桌面版:在新立得软件包管理器中搜索下面两个文件,之后安装: libreoffice-l10n-zh-cn 和 libreoffi ...
面包旅行Android业务设计分析
面包旅行的业务设计不错,Android app也是清晰简洁又大方的样子,所以画了个业务脑图出来. 重要的几个业务特点分析如下: 1.账号绑定社交账号,方便社交推广 2.城市猎人活动,通过内容.时间.地 ...
如何生成Java Key以及sign一个jar
1. 生成Java Key: keytool -genkey -alias mydomain -keyalg RSA -keystore keystore.jks -keysize mydomain ...
【设计模式】模式PK：代理模式VS装饰模式
1.概述对于两个模式,首先要说的是,装饰模式就是代理模式的一个特殊应用,两者的共同点是都具有相同的接口,不同点则是代理模式着重对代理过程的控制,而装饰模式则是对类的功能进行加强或减弱,它着重类的功能 ...
Maven -- 将引用的本地jar文件打进war包里
我们在做maven项目开发中有时候引用了本地第三方包,例如: <dependency> <groupId>org.artofsolving.jodconverter</g ...
spring mvc 注解详解
1.@Controller 在SpringMVC 中,控制器Controller 负责处理由DispatcherServlet 分发的请求,它把用户请求的数据经过业务处理层处理之后封装成一个Model ...
CAS（硬件CPU同步原语）
CAS有3个操作数.内存值V,旧的预约值A,要修改后的新值B.当且仅当预期值A和预期值V相同时,将内存值V修改为新值B.当且仅当预期值A和内存值V相同时,将内存值V修改为B,否则什么都不做. 应用1. ...
RSA host key has changed 错误
RSA host key for mysharebook.cn has changed and you have requested strict checking.Host key verifica ...
【BZOJ】1954: Pku3764 The xor-longest Path
[算法]trie树+xor路径 [题解] 套路1:统计从根到每个点的xor路径和,由于xor的自反性,两个点到根的xor路径和异或起来就得到两点间路径和. 然后问题就是找到n个值中异或值最大的两个值, ...

Python:使用正则去除HTML标签(转)

Python:使用正则去除HTML标签(转)的更多相关文章

随机推荐

热门专题