python中的网页标签等字符处理

# -*- coding: utf-8-*-

import re

##过滤HTML中的标签

#将HTML中标签等信息去掉

#@param htmlstr HTML字符串.

def filter_tags(htmlstr):

#先过滤CDATA

    re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA

    re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script

    re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style

    re_br=re.compile('<br\s*?/?>')#处理换行

    re_h=re.compile('</?\w+[^>]*>')#HTML标签

    re_comment=re.compile('<!--[^>]*-->')#HTML注释

    s=re_cdata.sub('',htmlstr)#去掉CDATA

    s=re_script.sub('',s) #去掉SCRIPT

    s=re_style.sub('',s)#去掉style

    s=re_br.sub('\n',s)#将br转换为换行

    s=re_h.sub('',s) #去掉HTML 标签

    s=re_comment.sub('',s)#去掉HTML注释

#去掉多余的空行

    blank_line=re.compile('\n+')

    s=blank_line.sub('\n',s)

    s=replaceCharEntity(s)#替换实体

return s

##替换常用HTML字符实体.

#使用正常的字符替换HTML中特殊的字符实体.

#你可以添加新的实体字符到CHAR_ENTITIES中,处理更多HTML字符实体.

#@param htmlstr HTML字符串.

def replaceCharEntity(htmlstr):

    CHAR_ENTITIES={'nbsp':' ','160':' ',

'lt':'<','60':'<',

'gt':'>','62':'>',

'amp':'&','38':'&',

'quot':'"','34':'"',}

    re_charEntity=re.compile(r'&#?(?P<name>\w+);')

    sz=re_charEntity.search(htmlstr)

while sz:

        entity=sz.group()#entity全称，如>

        key=sz.group('name')#去除&;后entity,如>为gt

try:

            htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)

            sz=re_charEntity.search(htmlstr)

except KeyError:

#以空串代替

            htmlstr=re_charEntity.sub('',htmlstr,1)

            sz=re_charEntity.search(htmlstr)

return htmlstr

def repalce(s,re_exp,repl_string):

return re_exp.sub(repl_string,s)

if __name__=='__main__':

    s=file('Google.htm').read()

    news=filter_tags(s)

print news

# -*- coding: utf--*-

import re

##过滤HTML中的标签

#将HTML中标签等信息去掉

#@param htmlstr HTML字符串.

def filter_tags(htmlstr):

#先过滤CDATA

    re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA

    re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script

    re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style

    re_br=re.compile('<br\s*?/?>')#处理换行

    re_h=re.compile('</?\w+[^>]*>')#HTML标签

    re_comment=re.compile('<!--[^>]*-->')#HTML注释

    s=re_cdata.sub('',htmlstr)#去掉CDATA

    s=re_script.sub('',s) #去掉SCRIPT

    s=re_style.sub('',s)#去掉style

    s=re_br.sub('\n',s)#将br转换为换行

    s=re_h.sub('',s) #去掉HTML 标签

    s=re_comment.sub('',s)#去掉HTML注释

#去掉多余的空行

    blank_line=re.compile('\n+')

    s=blank_line.sub('\n',s)

    s=replaceCharEntity(s)#替换实体

return s

##替换常用HTML字符实体.

#使用正常的字符替换HTML中特殊的字符实体.

#你可以添加新的实体字符到CHAR_ENTITIES中,处理更多HTML字符实体.

#@param htmlstr HTML字符串.

def replaceCharEntity(htmlstr):

    CHAR_ENTITIES={'nbsp':' ','':' ',

'lt':'<','':'<',

'gt':'>','':'>',

'amp':'&','':'&',

'quot':'"','':'"',}

    re_charEntity=re.compile(r'&#?(?P<name>\w+);')

    sz=re_charEntity.search(htmlstr)

while sz:

        entity=sz.group()#entity全称，如&gt;

        key=sz.group('name')#去除&;后entity,如&gt;为gt

try:

            htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,)

            sz=re_charEntity.search(htmlstr)

except KeyError:

#以空串代替

            htmlstr=re_charEntity.sub('',htmlstr,)

            sz=re_charEntity.search(htmlstr)

return htmlstr

def repalce(s,re_exp,repl_string):

return re_exp.sub(repl_string,s)

if __name__=='__main__':

    s=file('Google.htm').read()

    news=filter_tags(s)

print news

python中的网页标签等字符处理的更多相关文章

python中是否有单独的字符类型，通过下标的方式表示字符串中的字符
说明: 在python中,没有单独的字符类型,一个字符呢就是一个大小为1的字符串. 并且可以通过下标的方式,表示字符串中的字符. 操作过程: 1.通过[ ]的方式表示字符串中的第几个字符 >&g ...
Python中过滤HTML标签的函数
#用正则简单过滤html的<>标签 import re str = "<img /><a>srcd</a>hello</br>&l ...
Python爬虫解析网页的4种方式值得收藏
用Python写爬虫工具在现在是一种司空见惯的事情,每个人都希望能够写一段程序去互联网上扒一点资料下来,用于数据分析或者干点别的事情. 我们知道,爬虫的原理无非是把目标网址的内容下载下来存储到内存 ...
Python中使用正则表达式获取两个字符中间部分
问题背景:当我们爬取网页信息时,对于一些标签的提取是没有意义的,所以需要提取标签中间的信息. 解决办法:用到了re包下的函数方法1:用到了research()方法和group()方法方法2:用到了 ...
【整理】Python中实际上已经得到了正确的Unicode或某种编码的字符，但是看起来或打印出来却是乱码
转自:http://www.crifan.com/python_already_got_correct_encoding_string_but_seems_print_messy_code/ [背景] ...
Python学习笔记（2.2）Python中的字符编码问题及标准数据类型之String（字符串）
Python3中的String类型首先,Python中没有字符类型,只有字符串类型.单个字符按照长度为1的字符串处理,这对于曾是OIER的我来说有点不适应啊. 字符串的表示方法最常用的就是用一对双 ...
在Python中使用BeautifulSoup进行网页爬取
目录什么是网页抓取? 为什么我们要从互联网上抓取数据? 网站采集合法吗? HTTP请求/响应模型创建网络爬虫步骤1:浏览并检查网站/网页步骤2:创建用户代理步骤3:导入请求库检查状态码步 ...
Python中的字符串与字符编码
本节内容: 前言相关概念 Python中的默认编码 Python2与Python3中对字符串的支持字符编码转换一.前言 Python中的字符编码是个老生常谈的话题,同行们都写过很多这方面的文章. ...
HTML之：让网页中的<a>标签属性统一设置-如‘新窗口打开’
在开发过程中,我们往往想在页面中,给<a>设置一个统一的默认格式,例如我们想让链接:“在新窗口打开”,我们就可以使用<base>标签在网页中添加这段代码: <head& ...

随机推荐

通用 mapper
一.为什么需要通用 mapper 插件通用 mapper 插件可以自动的生成 sql 语句. 虽然 mybatis 有逆向工程,可以直接生成 XxxMapper.xml 文件,但是这种生成的方式存在 ...
Basic Memory Structures
Basic Memory Structures The basic memory structures associated with Oracle Database include: System ...
[bzoj1195][HNOI2006]最短母串_动态规划_状压dp
最短母串 bzoj-1195 HNOI-2006 题目大意:给一个包含n个字符串的字符集,求一个字典序最小的字符串使得字符集中所有的串都是该串的子串. 注释:$1\le n\le 12$,$1\le ...
Mycat分表分库
一.Mycat介绍 Mycat 是一个开源的分布式数据库系统,是一个实现了 MySQL 协议的的Server,前端用户可以把它看作是一个数据库代理,用 MySQL 客户端工具和命令行访问,而其后端可以 ...
Oracle中如何判断字符串是否全为数字
Oracle中如何判断字符串是否全为数字学习了:http://www.cnblogs.com/zrcoffee/archive/2012/12/11/2812744.html 本文介绍了判断字符串是 ...
spring学习笔记(22)声明式事务配置，readOnly无效写无异常
在上一节内容中.我们使用了编程式方法来配置事务,这种优点是我们对每一个方法的控制性非常强.比方我须要用到什么事务,在什么位置假设出现异常须要回滚等.能够进行非常细粒度的配置.但在实际开发中.我们可能并 ...
Android-68-Tomcat各种启动错误的解决的方法，如：Exception in thread "Thread-6" NoClassDefFoundError，Document base E:\
上午遇到一个棘手的事儿,导入一个project,结果把原有的Tomcatserver给导坏了.各种红的.黑的.蓝的错误满天飞啊,刚弄完一个项目,怕被毁了.我那个揪心呀! 还好.在走头无路的情况下 ...
兼容chrome和ie的音乐播放
兼容chrome和ie的音乐播放(Ie7 Ie8 Ie9 均測试过 ) <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitiona ...
C语言 - typedef struct 与struct
c语言中可以选择的数据类型太少了. Java中有一些高级的数据结构. 结构中能够存放基本的数据类型以及其他的结构. 结构定义,一般放在程序的开头部分. 一般放在include之后. #include ...
getElementById和querySelector区别
1.常见的获取元素的方法有3种,分别是通过元素ID document.getElementById('idName');.通过标签名字document.getElementsByTagName(tag ...

python中的网页标签等字符处理

python中的网页标签等字符处理的更多相关文章

随机推荐

热门专题