Python通过正则表达式去除(过滤)HTML标签，提取文字

# -*- coding: utf-8-*-

import re

##过滤HTML中的标签

#将HTML中标签等信息去掉

#@param htmlstr HTML字符串.

def filter_tags(htmlstr):

    #先过滤CDATA

    re_cdata=re.compile('//<![CDATA[[^>]*//]]>',re.I) #匹配CDATA

    re_script=re.compile('<s*script[^>]*>[^<]*<s*/s*scripts*>',re.I)#Script

    re_style=re.compile('<s*style[^>]*>[^<]*<s*/s*styles*>',re.I)#style

    re_br=re.compile('<brs*?/?>')#处理换行

    re_h=re.compile('</?w+[^>]*>')#HTML标签

    re_comment=re.compile('<!--[^>]*-->')#HTML注释

    s=re_cdata.sub('',htmlstr)#去掉CDATA

    s=re_script.sub('',s) #去掉SCRIPT

    s=re_style.sub('',s)#去掉style

    s=re_br.sub('n',s)#将br转换为换行

    s=re_h.sub('',s) #去掉HTML 标签

    s=re_comment.sub('',s)#去掉HTML注释

    #去掉多余的空行

    blank_line=re.compile('n+')

    s=blank_line.sub('n',s)

    s=replaceCharEntity(s)#替换实体

    return s

##替换常用HTML字符实体.

#使用正常的字符替换HTML中特殊的字符实体.

#你可以添加新的实体字符到CHAR_ENTITIES中,处理更多HTML字符实体.

#@param htmlstr HTML字符串.

def replaceCharEntity(htmlstr):

    CHAR_ENTITIES={'nbsp':' ','':' ',

                'lt':'<','':'<',

                'gt':'>','':'>',

                'amp':'&','':'&',

                'quot':'"','':'"',}

    re_charEntity=re.compile(r'&#?(?P<name>w+);')

    sz=re_charEntity.search(htmlstr)

    while sz:

        entity=sz.group()#entity全称，如>

        key=sz.group('name')#去除&;后entity,如>为gt

        try:

            htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)

            sz=re_charEntity.search(htmlstr)

        except KeyError:

            #以空串代替

            htmlstr=re_charEntity.sub('',htmlstr,1)

            sz=re_charEntity.search(htmlstr)

    return htmlstr

def repalce(s,re_exp,repl_string):

    return re_exp.sub(repl_string,s)

if __name__=='__main__':

    str=''  # 需要提取的html字符串

    str=filter_tags(str)

    print(str)

Python通过正则表达式去除(过滤)HTML标签，提取文字的更多相关文章

js如何使用正则表达式实现过滤HTML标签？（/<[^<>]+>/g）
js如何使用正则表达式实现过滤HTML标签?(/<[^<>]+>/g) 一.总结 js进阶正则表达式实现过滤HTML标签(<>标签中不能包含标签实现过滤HTML标签 ...
利用正则表达式去除所有html标签，只保留文字
后台将富文本编辑器中的内容返回到前端时如果带上了标签,这时就可以利用这种方法只保留文字. 标签的格式有以下几种 1.<div class="test"></div ...
python爬虫2：按html标签提取信息和中文域名处理（BeautifulSoup用法初步）
#!/usr/bin/env python # -*- coding: utf- -*- # python3 import string import urllib from urllib impor ...
Java中正则表达式去除html标签
Java中正则表达式去除html的标签,主要目的更精确的显示内容,比如前一段时间在做类似于博客中发布文章功能,当编辑器中输入内容后会将样式标签也传入后台并且保存数据库,但是在显示摘要的时候,比如显示正 ...
服务器文档下载zip格式 SQL Server SQL分页查询 C#过滤html标签 EF 延时加载与死锁在JS方法中返回多个值的三种方法（转载） IEnumerable,ICollection,IList接口问题不吹不擂，你想要的Python面试都在这里了【315+道题】基于mvc三层架构和ajax技术实现最简单的文件上传事件管理
服务器文档下载zip格式刚好这次项目中遇到了这个东西,就来弄一下,挺简单的,但是前台调用的时候弄错了,浪费了大半天的时间,本人也是菜鸟一枚.开始吧.(MVC的) @using Rattan.Co ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
运用正则表达式在Asp中过滤Html标签代码的四种不同方法
Function RemoveHTML(strHTML)Dim objregExp, Match, MatchesSet objRegExp = New RegexpobjRegExp.IgnoreC ...
java正则表达式去除html标签
当我们用ckeditor或其他一些在线文本编辑器的时候内容里会有很多的标签如下片段: <p><img alt="" src="/img/upload ...
java正则表达式过滤html标签
import java.util.regex.Matcher; import java.util.regex.Pattern; /** * <p> * Title: HTML相关的正则表达 ...

随机推荐

SQLServer------基本操作
代码: --新增字段 ) --编辑字段名称 --注意: 更改对象名的任一部分都可能会破坏脚本和存储过程 EXEC sp_rename 'FTTxUser.[Modifiersss]','Creator ...
spring学习之springMVC 返回类型选择以及 SpringMVC中model,modelMap.request,session取值顺序
spring mvc处理方法支持如下的返回方式:ModelAndView, Model, ModelMap, Map,View, String, void.下面将对具体的一一进行说明: ModelAn ...
MySQL---循环语句
mysql 操作同样有循环语句操作,网上说有3中标准的循环方式: while 循环 . loop 循环和repeat循环.还有一种非标准的循环: goto. 鉴于goto 语句的跳跃性会造成使用的的思 ...
mongodb 按照时间聚类 java
当存储到mongodb中的是string类型的时间,小tips: 1. 那么在对此域按照时间聚类(每周,每月)时就不能直接使用mongodb的time关键字了,因为mongodb有自己的时间类型,且目 ...
精神状态: Confused
阿里和网易都已开放简历投递入口,本以为招聘季9月才开始的我,着实被震惊到了. 我还没准备好呢,远没有准备好. 这次日志,主要是想写三点.实习经历.接下来的计划.最后,自已在未来应该维持的心态. 关于实 ...
ssh事务回滚，纪念这几个月困扰已久的心酸
以前的事务采用的是JTA,xml注入的方式.本人就着开发要优雅合理利用轮子的态度,一直不满意JTA式的申明和切入方式. spring的注解方式多优雅,可是万恶的直到项目快要上线时终于找到了注解式不能回 ...
Git Step by Step – (1) Git 简介
由于工作的需要,代码版本控制工具要从Perforce换成Git.说实话,刚开始真的很不适应,要从一个可以很好的支持用户界面的工具转到一个命令行工具,而且Git中有几百个命令,一下子就傻眼了. 但是经过 ...
ios开发之--比较两个数组里面的值是否相同
比较两个数组里面的内容是否相同,代码如下: NSArray *array1 = [NSArray arrayWithObjects:@"a", @"b", @& ...
LabelTTF 设置字体时的问题
使用cc.LabelTTF:create(txt, fontname, fontsize); 字体没能显示出来, 这里使用的是系统字体, 比如我使用"微软雅黑", 作为font ...
Android开发-- The content of the adapter has changed but ListView did not receive a notification - With AsyncTask
最近在联系开发DaysMatter时遇到一个问题: app中使用ListView来展示所有事件,每次添加完事件后使用下面代码来更新ListView. toDoListView.refreshDrawa ...

Python通过正则表达式去除(过滤)HTML标签，提取文字

Python通过正则表达式去除(过滤)HTML标签，提取文字的更多相关文章

随机推荐

热门专题