python去掉html标签
s
=
'<SPAN style="FONT- SIZE: 9pt">开始1~3<SPAN lang=EN-US>& lt;?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /><o:p></o:p></SPAN></SPAN>'
import
re
d
=
re.sub(
'<[^>]+>'
,'',s)
利用正则式处理,不知道会不会有性能问题,没有经过太多测试。
目前我有很多还是使用BeautifulSoup进行这种处理。
HTML实体处理的只是用于处理一些常用的实体。

1 # -*- coding: utf-8-*- 2 import re 3 ##过滤HTML中的标签 4 #将HTML中标签等信息去掉 5 #@param htmlstr HTML字符串. 6 def filter_tags(htmlstr): 7 #先过滤CDATA 8 re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA 9 re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script 10 re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style 11 re_br=re.compile('<br\s*?/?>')#处理换行 12 re_h=re.compile('</?\w+[^>]*>')#HTML标签 13 re_comment=re.compile('<!--[^>]*-->')#HTML注释 14 s=re_cdata.sub('',htmlstr)#去掉CDATA 15 s=re_script.sub('',s) #去掉SCRIPT 16 s=re_style.sub('',s)#去掉style 17 s=re_br.sub('\n',s)#将br转换为换行 18 s=re_h.sub('',s) #去掉HTML 标签 19 s=re_comment.sub('',s)#去掉HTML注释 20 #去掉多余的空行 21 blank_line=re.compile('\n+') 22 s=blank_line.sub('\n',s) 23 s=replaceCharEntity(s)#替换实体 24 return s 25 26 ##替换常用HTML字符实体. 27 #使用正常的字符替换HTML中特殊的字符实体. 28 #你可以添加新的实体字符到CHAR_ENTITIES中,处理更多HTML字符实体. 29 #@param htmlstr HTML字符串. 30 def replaceCharEntity(htmlstr): 31 CHAR_ENTITIES={'nbsp':' ','160':' ', 32 'lt':'<','60':'<', 33 'gt':'>','62':'>', 34 'amp':'&','38':'&', 35 'quot':'"','34':'"',} 36 37 re_charEntity=re.compile(r'&#?(?P<name>\w+);') 38 sz=re_charEntity.search(htmlstr) 39 while sz: 40 entity=sz.group()#entity全称,如> 41 key=sz.group('name')#去除&;后entity,如>为gt 42 try: 43 htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1) 44 sz=re_charEntity.search(htmlstr) 45 except KeyError: 46 #以空串代替 47 htmlstr=re_charEntity.sub('',htmlstr,1) 48 sz=re_charEntity.search(htmlstr) 49 return htmlstr 50 51 def repalce(s,re_exp,repl_string): 52 return re_exp.sub(repl_string,s) 53 54 if __name__=='__main__': 55 s=file('Google.htm').read() 56 news=filter_tags(s) 57 print news

输出结果:
Google网页 图片 地图 资讯 视频 财经 更多 博客 生活 热榜 网站导航 日历 照片 文档 协作平台 输入法 工具栏 软件精选 更多 个性化首页 | 登录
from
BeautifulSoup
import
BeautifulSoup
''.join(BeautifulSoup(page).findAll(text
=
True
))
利用正则式处理,不知道会不会有性能问题,没有经过太多测试。
目前我有很多还是使用BeautifulSoup进行这种处理。
HTML实体处理的只是用于处理一些常用的实体。
# -*- coding: utf-8-*-
import re
##过滤HTML中的标签
#将HTML中标签等信息去掉
#@param htmlstr HTML字符串.
def filter_tags(htmlstr):
#先过滤CDATA
re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA
re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script
re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style
re_br=re.compile('<br\s*?/?>')#处理换行
re_h=re.compile('</?\w+[^>]*>')#HTML标签
re_comment=re.compile('<!--[^>]*-->')#HTML注释
s=re_cdata.sub('',htmlstr)#去掉CDATA
s=re_script.sub('',s) #去掉SCRIPT
s=re_style.sub('',s)#去掉style
s=re_br.sub('\n',s)#将br转换为换行
s=re_h.sub('',s) #去掉HTML 标签
s=re_comment.sub('',s)#去掉HTML注释
#去掉多余的空行
blank_line=re.compile('\n+')
s=blank_line.sub('\n',s)
s=replaceCharEntity(s)#替换实体
return s
##替换常用HTML字符实体.
#使用正常的字符替换HTML中特殊的字符实体.
#你可以添加新的实体字符到CHAR_ENTITIES中,处理更多HTML字符实体.
#@param htmlstr HTML字符串.
def replaceCharEntity(htmlstr):
CHAR_ENTITIES={'nbsp':' ','160':' ',
'lt':'<','60':'<',
'gt':'>','62':'>',
'amp':'&','38':'&',
'quot':'"','34':'"',}
re_charEntity=re.compile(r'&#?(?P<name>\w+);')
sz=re_charEntity.search(htmlstr)
while sz:
entity=sz.group()#entity全称,如>
key=sz.group('name')#去除&;后entity,如>为gt
try:
htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)
sz=re_charEntity.search(htmlstr)
except KeyError:
#以空串代替
htmlstr=re_charEntity.sub('',htmlstr,1)
sz=re_charEntity.search(htmlstr)
return htmlstr
def repalce(s,re_exp,repl_string):
return re_exp.sub(repl_string,s)
if __name__=='__main__':
s=file('Google.htm').read()
news=filter_tags(s)
print news
——————————————————华丽的分割线——————————————————————————
import urllib2,re
x=urllib2.urlopen('http://www.csdn.net').read()
re_h=re.compile('</?\w+[^>]*>')
s=re_h.sub('',x)
print s
在这里只要将所有带<>去除即可:
- #!/usr/bin/env python
- # -*- coding:utf-8 -*-
- import MySQLdb
- import sys
- import re
- conn = MySQLdb.connect(host='127.0.0.1',user='user',passwd='123456',db='hospital',charset='utf8')
- cur = conn.cursor()
- def update_level():
- cur.execute("SELECT id,level FROM hospital where level like '(%)'")
- for row in cur.fetchall():
- sid=row[0]
- ii=re.sub('|','',row[1])
- sql = "update hospital set level=%s where id=%s"
- print sid,ii
- param = [ii,sid]
- cur.execute(sql,param)
- def update_detail():
- dr = re.compile(r'<[^>]+>',re.S)
- cur.execute("SELECT id,details FROM hospital")
- for row in cur.fetchall():
- did = row[0]
- detail=row[1]
- dd = dr.sub('',detail)
- sql="update hospital set details=%s where id=%s"
- param = (dd,did)
- cur.execute(sql,param)
- print "Finished",did
- def main():
- #update_level()
- update_detail()
- if __name__ == '__main__':
- main()
python去掉html标签的更多相关文章
- js去掉html标签和去掉字符串文本的所有的空格
去掉html标签的js <script> function delHtmlTag(str){ return str.replace(/<[^>]+>/g,"& ...
- java去掉jsp标签内容的方法
//去掉内容的标签 public static String removeTag(String count){ try { int tagCheck=-1; do { i ...
- python 去掉 pyc
python 去掉 .pyc 在开发的机器上(Ubuntu),python自动生成的pyc文件太影响心情,把下面的语句添加到 /etc/profile中: # do not produce .pyc ...
- python操作txt文件中数据教程[4]-python去掉txt文件行尾换行
python操作txt文件中数据教程[4]-python去掉txt文件行尾换行 觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考文章 python操作txt文件中数据教程[1]-使用pyt ...
- css去掉a标签点击后的虚线框,outline,this.blur()
css去掉a标签点击后的虚线框,outline,this.blur() outline是css3的一个属性,用的很少.声明,这是个不能兼容的css属性,在ie6.ie7.遨游浏览器都不兼容. outl ...
- <a>标签中的href="javascript:;"就是去掉a标签的默认行为
<a>标签中的href="javascript:;"是什么意思? 例子:<a href="javascript:;">我的大学</ ...
- 去掉a标签的虚线框,避免出现奇怪的选中区域
a{blr:expression(this.onFocus=this.blur())}/*去掉a标签的虚线框,避免出现奇怪的选中区域*/
- python去掉行尾的换行符
python去掉行尾的换行符 mystring.strip().replace(' ', '').replace('\n', '').replace('\t', '').replace('\r', ' ...
- 正则去掉html标签之间的空格、换行符、tab符,但是保留html标签内部的属性空格
今天遇到一个比较少见的去空格: 正则去掉html标签之间的空格.换行符.tab符,但是保留html标签内部的属性空格 JS 举例: "<a href='baidu.com' name= ...
随机推荐
- CSS的z-index(分层)
z-index是针对网页显示中的一个特殊属性.因为显示器是显示的图案是一个二维平面,拥有x轴和y轴来表示位置属性.为了表示三维立体的概念如显示元素的上下层的叠加顺序引入了z-index属性来表示z轴的 ...
- C++中(int&)和(int)的区别
在说这个问题之前,先说两个需要知道的背景知识: (1)语言的类型的强制转换不会修改原来的数据,会另外的开辟一个临时的或者程序中指定的空间来存储强制转换后的值. (2)C++引用的实现是在符号表中动了手 ...
- 安装Oracle,新建组、用户的时候的一个错误
[root@localhost /]# mkdir -p /u01/oracle[root@localhost /]# useradd -g oinstall -G dba -d /u01/oracl ...
- Android 开发笔记 “SQLite”
SQLite 入门与分析 1.SQLite介绍 自几十年前出现的商业应用程序以来,数据库就成为软件应用程序的主要组成部分.正与数据库管理系统非常关键一样,它们也变得非常庞大,并占用了相当多的系统资源, ...
- 启动(Startup)
Startup Chrome是一个单一的可执行程序.它清楚如何运行其它进程. 下面是chrome启动的概述: 1. 首先,chrome有一个平台相关的入口点:在windows上是wWinMain(): ...
- BZOJ 1619: [Usaco2008 Nov]Guarding the Farm 保卫牧场
题目 1619: [Usaco2008 Nov]Guarding the Farm 保卫牧场 Time Limit: 5 Sec Memory Limit: 64 MB Submit: 491 S ...
- Robotium之Android控件定位实践和建议(Appium/UIAutomator姊妹篇)
本人之前以前撰文描写叙述Appium和UIAutomator框架是怎样定位Android界面上的控件的. UIAutomator定位Android控件的方法实践和建议 Appium基于安卓的各种Fin ...
- UVA 1619 Feel Good(DP)
Bill is developing a new mathematical theory for human emotions. His recent investigations are dedic ...
- 【第一篇:C++与opencv】图片的读取和显示
这里介绍C++版本的opencv,和C语言版本有些不同,先看代码^_^ [编译环境:opencv2.4.4和VS2008] #include "stdafx.h" #include ...
- (Problem 3)Largest prime factor
The prime factors of 13195 are 5, 7, 13 and 29. What is the largest prime factor of the number 60085 ...