= '<SPAN style="FONT- SIZE: 9pt">开始1~3<SPAN lang=EN-US>& lt;?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /><o:p></o:p></SPAN></SPAN>'
import re

= re.sub('<[^>]+>','',s)

利用正则式处理,不知道会不会有性能问题,没有经过太多测试。
目前我有很多还是使用BeautifulSoup进行这种处理。
HTML实体处理的只是用于处理一些常用的实体。

 1 # -*- coding: utf-8-*-
 2 import re
 3 ##过滤HTML中的标签
 4 #将HTML中标签等信息去掉
 5 #@param htmlstr HTML字符串.
 6 def filter_tags(htmlstr):
 7 #先过滤CDATA
 8     re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA
 9     re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script
10     re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style
11     re_br=re.compile('<br\s*?/?>')#处理换行
12     re_h=re.compile('</?\w+[^>]*>')#HTML标签
13     re_comment=re.compile('<!--[^>]*-->')#HTML注释
14     s=re_cdata.sub('',htmlstr)#去掉CDATA
15     s=re_script.sub('',s) #去掉SCRIPT
16     s=re_style.sub('',s)#去掉style
17     s=re_br.sub('\n',s)#将br转换为换行
18     s=re_h.sub('',s) #去掉HTML 标签
19     s=re_comment.sub('',s)#去掉HTML注释
20 #去掉多余的空行
21     blank_line=re.compile('\n+')
22     s=blank_line.sub('\n',s)
23     s=replaceCharEntity(s)#替换实体
24 return s
25
26 ##替换常用HTML字符实体.
27 #使用正常的字符替换HTML中特殊的字符实体.
28 #你可以添加新的实体字符到CHAR_ENTITIES中,处理更多HTML字符实体.
29 #@param htmlstr HTML字符串.
30 def replaceCharEntity(htmlstr):
31     CHAR_ENTITIES={'nbsp':' ','160':' ',
32 'lt':'<','60':'<',
33 'gt':'>','62':'>',
34 'amp':'&','38':'&',
35 'quot':'"','34':'"',}
36
37     re_charEntity=re.compile(r'&#?(?P<name>\w+);')
38     sz=re_charEntity.search(htmlstr)
39 while sz:
40         entity=sz.group()#entity全称,如&gt;
41         key=sz.group('name')#去除&;后entity,如&gt;为gt
42 try:
43             htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)
44             sz=re_charEntity.search(htmlstr)
45 except KeyError:
46 #以空串代替
47             htmlstr=re_charEntity.sub('',htmlstr,1)
48             sz=re_charEntity.search(htmlstr)
49 return htmlstr
50
51 def repalce(s,re_exp,repl_string):
52 return re_exp.sub(repl_string,s)
53
54 if __name__=='__main__':
55     s=file('Google.htm').read()
56     news=filter_tags(s)
57 print news

输出结果:
Google网页 图片 地图 资讯 视频 财经 更多 博客 生活 热榜 网站导航 日历 照片 文档 协作平台 输入法 工具栏 软件精选 更多 个性化首页 | 登录

from BeautifulSoup import BeautifulSoup
''.join(BeautifulSoup(page).findAll(text=True))

利用正则式处理,不知道会不会有性能问题,没有经过太多测试。
目前我有很多还是使用BeautifulSoup进行这种处理。
HTML实体处理的只是用于处理一些常用的实体。

# -*- coding: utf-8-*-
import re
##过滤HTML中的标签
#将HTML中标签等信息去掉
#@param htmlstr HTML字符串.
def filter_tags(htmlstr):
    #先过滤CDATA
    re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA
    re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script
    re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style
    re_br=re.compile('<br\s*?/?>')#处理换行
    re_h=re.compile('</?\w+[^>]*>')#HTML标签
    re_comment=re.compile('<!--[^>]*-->')#HTML注释
    s=re_cdata.sub('',htmlstr)#去掉CDATA
    s=re_script.sub('',s) #去掉SCRIPT
    s=re_style.sub('',s)#去掉style
    s=re_br.sub('\n',s)#将br转换为换行
    s=re_h.sub('',s) #去掉HTML 标签
    s=re_comment.sub('',s)#去掉HTML注释
    #去掉多余的空行
    blank_line=re.compile('\n+')
    s=blank_line.sub('\n',s)
    s=replaceCharEntity(s)#替换实体
    return s

##替换常用HTML字符实体.
#使用正常的字符替换HTML中特殊的字符实体.
#你可以添加新的实体字符到CHAR_ENTITIES中,处理更多HTML字符实体.
#@param htmlstr HTML字符串.
def replaceCharEntity(htmlstr):
    CHAR_ENTITIES={'nbsp':' ','160':' ',
                'lt':'<','60':'<',
                'gt':'>','62':'>',
                'amp':'&','38':'&',
                'quot':'"','34':'"',}
   
    re_charEntity=re.compile(r'&#?(?P<name>\w+);')
    sz=re_charEntity.search(htmlstr)
    while sz:
        entity=sz.group()#entity全称,如&gt;
        key=sz.group('name')#去除&;后entity,如&gt;为gt
        try:
            htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)
            sz=re_charEntity.search(htmlstr)
        except KeyError:
            #以空串代替
            htmlstr=re_charEntity.sub('',htmlstr,1)
            sz=re_charEntity.search(htmlstr)
    return htmlstr

def repalce(s,re_exp,repl_string):
    return re_exp.sub(repl_string,s)

if __name__=='__main__':
    s=file('Google.htm').read()
    news=filter_tags(s)
    print news

——————————————————华丽的分割线——————————————————————————

import urllib2,re
x=urllib2.urlopen('http://www.csdn.net').read()
re_h=re.compile('</?\w+[^>]*>')
s=re_h.sub('',x)
print s

在这里只要将所有带<>去除即可:

dr = re.compile(r'<[^>]+>',re.S)
dd = dr.sub('',Html)
完整的python脚本:
第一个函数:将一个字段中的刮号去除
第二个函数:将html中的所有标签去除
    1. #!/usr/bin/env python
    2. # -*- coding:utf-8 -*-
    3. import MySQLdb
    4. import sys
    5. import re
    6. conn = MySQLdb.connect(host='127.0.0.1',user='user',passwd='123456',db='hospital',charset='utf8')
    7. cur = conn.cursor()
    8. def update_level():
    9. cur.execute("SELECT id,level FROM hospital where level like '(%)'")
    10. for row in cur.fetchall():
    11. sid=row[0]
    12. ii=re.sub('|','',row[1])
    13. sql = "update hospital set level=%s where id=%s"
    14. print sid,ii
    15. param = [ii,sid]
    16. cur.execute(sql,param)
    17. def update_detail():
    18. dr = re.compile(r'<[^>]+>',re.S)
    19. cur.execute("SELECT id,details FROM hospital")
    20. for row in cur.fetchall():
    21. did = row[0]
    22. detail=row[1]
    23. dd = dr.sub('',detail)
    24. sql="update hospital set details=%s where id=%s"
    25. param = (dd,did)
    26. cur.execute(sql,param)
    27. print "Finished",did
    28. def main():
    29. #update_level()
    30. update_detail()
    31. if __name__ == '__main__':
    32. main()

python去掉html标签的更多相关文章

  1. js去掉html标签和去掉字符串文本的所有的空格

    去掉html标签的js <script> function delHtmlTag(str){  return str.replace(/<[^>]+>/g,"& ...

  2. java去掉jsp标签内容的方法

    //去掉内容的标签   public static String removeTag(String count){    try {    int tagCheck=-1;    do {     i ...

  3. python 去掉 pyc

    python 去掉 .pyc 在开发的机器上(Ubuntu),python自动生成的pyc文件太影响心情,把下面的语句添加到 /etc/profile中: # do not produce .pyc ...

  4. python操作txt文件中数据教程[4]-python去掉txt文件行尾换行

    python操作txt文件中数据教程[4]-python去掉txt文件行尾换行 觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考文章 python操作txt文件中数据教程[1]-使用pyt ...

  5. css去掉a标签点击后的虚线框,outline,this.blur()

    css去掉a标签点击后的虚线框,outline,this.blur() outline是css3的一个属性,用的很少.声明,这是个不能兼容的css属性,在ie6.ie7.遨游浏览器都不兼容. outl ...

  6. <a>标签中的href="javascript:;"就是去掉a标签的默认行为

    <a>标签中的href="javascript:;"是什么意思? 例子:<a href="javascript:;">我的大学</ ...

  7. 去掉a标签的虚线框,避免出现奇怪的选中区域

    a{blr:expression(this.onFocus=this.blur())}/*去掉a标签的虚线框,避免出现奇怪的选中区域*/

  8. python去掉行尾的换行符

    python去掉行尾的换行符 mystring.strip().replace(' ', '').replace('\n', '').replace('\t', '').replace('\r', ' ...

  9. 正则去掉html标签之间的空格、换行符、tab符,但是保留html标签内部的属性空格

    今天遇到一个比较少见的去空格: 正则去掉html标签之间的空格.换行符.tab符,但是保留html标签内部的属性空格 JS 举例: "<a href='baidu.com' name= ...

随机推荐

  1. 初学MVC

    学习MVC基础:C#. ADO.NET .html.javascript.ASP.Net .WebFrom MVC模式两种理解:一种是表现模式,另一种是架构模式.它将应用程序分成三个主要的组件:视图( ...

  2. 「OC」内存管理

    一.基本原理 (一)为什么要进行内存管理. 由于移动设备的内存极其有限,所以每个APP所占的内存也是有限制的,当app所占用的内存较多时,系统就会发出内存警告,这时需要回收一些不需要再继续使用的内存空 ...

  3. 杭电oj find your present (2)

    <span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255) ...

  4. Oracle Split 函数

    为了让 PL/SQL 函数返回数据的多个行,必须通过返回一个 REF CURSOR 或一个数据集合来完成.REF CURSOR 的这种情况局限于可以从查询中选择的数据,而整个集合在可以返回前,必须进行 ...

  5. matlab之kmeans聚类用法

    kmeans函数用法如下: [IDX,C,sumd,D] = kmeans(X,2,'Distance','city','Replicates',5,'Options',opts); 参数含义如下:I ...

  6. C语言之猜数字游戏

    猜数字游戏 猜数字游戏是以前功能机上的一款益智游戏,计算机会根据输入的位数随机分配一个符合要求的数据,计算机输出guess后便可以输入数字,注意数字间需要用空格或回车符加以区分,计算机会根据输入信息给 ...

  7. RMAN多种备份脚本分享

    1.相关参数介绍: 命令行参数 描述 TARGET 为目标数据库定义的一个连接字符串,当连接到一个目标数据库时,该连续是SYSDBA连接.该用户拥有启动和关闭数据库的权利,必须属于OSDBA组,必须建 ...

  8. Fedora 17 安装 完全 指南

    一.了解Fedora 17先来了解一下Fedora吧.它是由Red Hat赞助的一个全球性开源项目,秉承“自由”.“友爱”.“杰出”.“前卫”宗旨. 1.Fedora 17的主要系统改进内核:采用3. ...

  9. linux下的压缩解压命令 tar 的简单描述

    命令名称:tar 命令所在路径:/bin/tar 语法:tar选项·「-zcf」·「压缩后文件名」「目录」 -c 打包 -v 显示详细信息 -f 指定文件名 -z 打包同时压缩 tar命令解压缩语法: ...

  10. 数据结构——链表(linkedlist)

    基本分类: 1.单向链表 2.带尾指针的单向链表 3.双向循环链表 以下分类进行说明 1.单向链表 基本元素:*front //头节点 *next //下一节点 声明:node<T>*p; ...