python中的网页标签等字符处理

# -*- coding: utf-8-*-

import re

##过滤HTML中的标签

#将HTML中标签等信息去掉

#@param htmlstr HTML字符串.

def filter_tags(htmlstr):

#先过滤CDATA

    re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA

    re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script

    re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style

    re_br=re.compile('<br\s*?/?>')#处理换行

    re_h=re.compile('</?\w+[^>]*>')#HTML标签

    re_comment=re.compile('<!--[^>]*-->')#HTML注释

    s=re_cdata.sub('',htmlstr)#去掉CDATA

    s=re_script.sub('',s) #去掉SCRIPT

    s=re_style.sub('',s)#去掉style

    s=re_br.sub('\n',s)#将br转换为换行

    s=re_h.sub('',s) #去掉HTML 标签

    s=re_comment.sub('',s)#去掉HTML注释

#去掉多余的空行

    blank_line=re.compile('\n+')

    s=blank_line.sub('\n',s)

    s=replaceCharEntity(s)#替换实体

return s

##替换常用HTML字符实体.

#使用正常的字符替换HTML中特殊的字符实体.

#你可以添加新的实体字符到CHAR_ENTITIES中,处理更多HTML字符实体.

#@param htmlstr HTML字符串.

def replaceCharEntity(htmlstr):

    CHAR_ENTITIES={'nbsp':' ','160':' ',

'lt':'<','60':'<',

'gt':'>','62':'>',

'amp':'&','38':'&',

'quot':'"','34':'"',}

    re_charEntity=re.compile(r'&#?(?P<name>\w+);')

    sz=re_charEntity.search(htmlstr)

while sz:

        entity=sz.group()#entity全称，如>

        key=sz.group('name')#去除&;后entity,如>为gt

try:

            htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)

            sz=re_charEntity.search(htmlstr)

except KeyError:

#以空串代替

            htmlstr=re_charEntity.sub('',htmlstr,1)

            sz=re_charEntity.search(htmlstr)

return htmlstr

def repalce(s,re_exp,repl_string):

return re_exp.sub(repl_string,s)

if __name__=='__main__':

    s=file('Google.htm').read()

    news=filter_tags(s)

print news

# -*- coding: utf--*-

import re

##过滤HTML中的标签

#将HTML中标签等信息去掉

#@param htmlstr HTML字符串.

def filter_tags(htmlstr):

#先过滤CDATA

    re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA

    re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script

    re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style

    re_br=re.compile('<br\s*?/?>')#处理换行

    re_h=re.compile('</?\w+[^>]*>')#HTML标签

    re_comment=re.compile('<!--[^>]*-->')#HTML注释

    s=re_cdata.sub('',htmlstr)#去掉CDATA

    s=re_script.sub('',s) #去掉SCRIPT

    s=re_style.sub('',s)#去掉style

    s=re_br.sub('\n',s)#将br转换为换行

    s=re_h.sub('',s) #去掉HTML 标签

    s=re_comment.sub('',s)#去掉HTML注释

#去掉多余的空行

    blank_line=re.compile('\n+')

    s=blank_line.sub('\n',s)

    s=replaceCharEntity(s)#替换实体

return s

##替换常用HTML字符实体.

#使用正常的字符替换HTML中特殊的字符实体.

#你可以添加新的实体字符到CHAR_ENTITIES中,处理更多HTML字符实体.

#@param htmlstr HTML字符串.

def replaceCharEntity(htmlstr):

    CHAR_ENTITIES={'nbsp':' ','':' ',

'lt':'<','':'<',

'gt':'>','':'>',

'amp':'&','':'&',

'quot':'"','':'"',}

    re_charEntity=re.compile(r'&#?(?P<name>\w+);')

    sz=re_charEntity.search(htmlstr)

while sz:

        entity=sz.group()#entity全称，如&gt;

        key=sz.group('name')#去除&;后entity,如&gt;为gt

try:

            htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,)

            sz=re_charEntity.search(htmlstr)

except KeyError:

#以空串代替

            htmlstr=re_charEntity.sub('',htmlstr,)

            sz=re_charEntity.search(htmlstr)

return htmlstr

def repalce(s,re_exp,repl_string):

return re_exp.sub(repl_string,s)

if __name__=='__main__':

    s=file('Google.htm').read()

    news=filter_tags(s)

print news

python中的网页标签等字符处理的更多相关文章

python中是否有单独的字符类型，通过下标的方式表示字符串中的字符
说明: 在python中,没有单独的字符类型,一个字符呢就是一个大小为1的字符串. 并且可以通过下标的方式,表示字符串中的字符. 操作过程: 1.通过[ ]的方式表示字符串中的第几个字符 >&g ...
Python中过滤HTML标签的函数
#用正则简单过滤html的<>标签 import re str = "<img /><a>srcd</a>hello</br>&l ...
Python爬虫解析网页的4种方式值得收藏
用Python写爬虫工具在现在是一种司空见惯的事情,每个人都希望能够写一段程序去互联网上扒一点资料下来,用于数据分析或者干点别的事情. 我们知道,爬虫的原理无非是把目标网址的内容下载下来存储到内存 ...
Python中使用正则表达式获取两个字符中间部分
问题背景:当我们爬取网页信息时,对于一些标签的提取是没有意义的,所以需要提取标签中间的信息. 解决办法:用到了re包下的函数方法1:用到了research()方法和group()方法方法2:用到了 ...
【整理】Python中实际上已经得到了正确的Unicode或某种编码的字符，但是看起来或打印出来却是乱码
转自:http://www.crifan.com/python_already_got_correct_encoding_string_but_seems_print_messy_code/ [背景] ...
Python学习笔记（2.2）Python中的字符编码问题及标准数据类型之String（字符串）
Python3中的String类型首先,Python中没有字符类型,只有字符串类型.单个字符按照长度为1的字符串处理,这对于曾是OIER的我来说有点不适应啊. 字符串的表示方法最常用的就是用一对双 ...
在Python中使用BeautifulSoup进行网页爬取
目录什么是网页抓取? 为什么我们要从互联网上抓取数据? 网站采集合法吗? HTTP请求/响应模型创建网络爬虫步骤1:浏览并检查网站/网页步骤2:创建用户代理步骤3:导入请求库检查状态码步 ...
Python中的字符串与字符编码
本节内容: 前言相关概念 Python中的默认编码 Python2与Python3中对字符串的支持字符编码转换一.前言 Python中的字符编码是个老生常谈的话题,同行们都写过很多这方面的文章. ...
HTML之：让网页中的<a>标签属性统一设置-如‘新窗口打开’
在开发过程中,我们往往想在页面中,给<a>设置一个统一的默认格式,例如我们想让链接:“在新窗口打开”,我们就可以使用<base>标签在网页中添加这段代码: <head& ...

随机推荐

Disruptor使用
Disruptor作者,介绍Disruptor能每秒处理600万订单.这是一个可怕的数字. disruptor之所以那么快,是因为内部采用环形队列和无锁设计.使用cas来进行并发控制.通过获取可用下标 ...
洛谷 P2728 纺车的轮子 Spinning Wheels
P2728 纺车的轮子 Spinning Wheels 题目背景一架纺车有五个纺轮(也就是五个同心圆),这五个不透明的轮子边缘上都有一些缺口.这些缺口必须被迅速而准确地排列好.每个轮子都有一个起始标 ...
Maven使用package打包Spring Boot时出现：Unable to find a single main class from the following candidates的问题解决
问题如下: [ERROR] Failed to execute goal org.springframework.boot:spring-boot-maven-plugin:1.3.5.RELEASE ...
UVa 10465 Homer Simpson(DP 全然背包)
题意霍默辛普森吃汉堡有两种汉堡一中吃一个须要m分钟还有一种吃一个须要n分钟他共同拥有t分钟时间要我们输出他在尽量用掉全部时间的前提下最多能吃多少个汉堡假设时间无法用 ...
OpenStack开发基础-oslo.config
The cfg Module cfg Module来自于OpenStack中的重要的基础组件oslo.config,通过cfg Module能够用来通过命令行或者是配置文件来配置一些options,对 ...
js动态创建表格------Day59
刚刚不知道怎么回事,CSDN博客一直打不开,就在博客园完毕了今天的记录,结果临关机,登录了下.发现又好了,就再多花个几分钟转下吧,也无论到底在意的是什么了,权当强迫症了... 前几天记录了动态的加入一 ...
杭电1879继续畅通project
继续畅通project Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Tota ...
kvc和kvo的使用情况的了解
了解cocoa:Cocoa是苹果公司为Mac OS X所创建的原生面向对象的API,是Mac OS X上五大API之中的一个(其他四个是Carbon.POSIX.X11和Java). 苹果的面向对象开 ...
luogu3111 [USACO14DEC]牛慢跑Cow Jog_Sliver
题目大意有N (1 <= N <= 100,000)头奶牛在一个单人的超长跑道上慢跑,每头牛的起点位置都不同.由于是单人跑道,所有他们之间不能相互超越.当一头速度快的奶牛追上另外一头奶牛 ...
ijkplayer视频播放
http://android-doc.com/androiddocs/2017/1018/5416.html https://www.2cto.com/kf/201801/714366.html ...

python中的网页标签等字符处理

python中的网页标签等字符处理的更多相关文章

随机推荐

热门专题