Python3正则去掉HTML标签

1.引用一段代码

import re

html = '<pre class="line mt-10 q-content" accuse="qContent">\

目的是通过第一次soup.find按class粗略筛选并通过soup.find_all筛选出列表中的a标签并读入href和title属性<br><br>\

但是由于目标链接可能有图片链接,而这是我不想要的.请问如何去除?<br></pre>'

reg = re.compile('<[^>]*>')

print(reg.sub('',html))

2.重点

reg = re.compile('<[^>]*>')

print(reg.sub('',html))

3.实例

开始

import requests

import re

from bs4 import BeautifulSoup

retxt=open('test.log','r')

for x in range(250,999):

    #rurl=rurl.strip('\n')

    url='http://ananas.mooc1.mti100.com/tologin?fid={0}'.format(x)

    #print(url)

    try:

        response=requests.get(url,timeout=1).text

        #print(response)

        soup=BeautifulSoup(response,features="lxml")

        result=soup.find_all('span',attrs={'class':'l_schoolName2'})

        print('学校：{0}'.format(result))

    except requests.exceptions.InvalidURL:

        pass

    except requests.exceptions.ConnectionError:

        pass

    except requests.exceptions.ReadTimeout:

        pass

输出

学校：[<span class="l_schoolName2" id="schoolName2">

                                杭州师范大学

                        </span>]

学校：[<span class="l_schoolName2" id="schoolName2">

去除标签之后

import requests

import re

from bs4 import BeautifulSoup

#retxt=open('test.log','r')

for x in range(250,999):

    #rurl=rurl.strip('\n')

    url='http://ananas.mooc1.mti100.com/tologin?fid={0}'.format(x)

    #print(url)

    try:

        response=requests.get(url,timeout=1).text

        #print(response)

        soup=BeautifulSoup(response,features="lxml")

        result=soup.find_all('span',attrs={'class':'l_schoolName2'})

        reg=re.compile('<[^>]*>',re.S)

        print('学校：{0}'.format(reg.sub('',str(result))))

    except requests.exceptions.InvalidURL:

        pass

    except requests.exceptions.ConnectionError:

        pass

    except requests.exceptions.ReadTimeout:

        pass

输出

学校：[]

学校：[]

学校：[

                                上海电子信息职业技术学院

                        ]

学校：[]

学校：[

                                超星大学

Python3正则去掉HTML标签的更多相关文章

正则去掉html标签之间的空格、换行符、tab符，但是保留html标签内部的属性空格
今天遇到一个比较少见的去空格: 正则去掉html标签之间的空格.换行符.tab符,但是保留html标签内部的属性空格 JS 举例: "<a href='baidu.com' name= ...
正则去掉img标签的style样式
$body = '<div style="width:100px; height:20px;"><img alt="test" src=&qu ...
正则去掉html标签
return System.Text.RegularExpressions.Regex.Replace(HTMLStr, "<[^>]*>", "&qu ...
正则去掉 html标签
var htmlStr='<p class="cjk" style="margin-bottom: 0cm; line-height: 16px;"> ...
python去掉html标签
s = '<SPAN style="FONT- SIZE: 9pt">开始1~3<SPAN lang=EN-US>& lt;?xml:namespa ...
Python:使用正则去除HTML标签(转)
利用正则式处理,不知道会不会有性能问题,没有经过太多测试. 目前我有很多还是使用BeautifulSoup进行这种处理. HTML实体处理的只是用于处理一些常用的实体. # -*- coding: u ...
js去掉html标签和去掉字符串文本的所有的空格
去掉html标签的js <script> function delHtmlTag(str){ return str.replace(/<[^>]+>/g,"& ...
java去掉jsp标签内容的方法
//去掉内容的标签 public static String removeTag(String count){ try { int tagCheck=-1; do { i ...
css去掉a标签点击后的虚线框,outline,this.blur()
css去掉a标签点击后的虚线框,outline,this.blur() outline是css3的一个属性,用的很少.声明,这是个不能兼容的css属性,在ie6.ie7.遨游浏览器都不兼容. outl ...

随机推荐

MySQL 行列相互转换
行列相互转换 /*创建表*/ CREATE TABLE ic ( NAME ), Product ), amount INT ); INSERT INTO ic VALUES (), (), (), ...
洛谷 P1463 [POI2002][HAOI2007]反素数
题目链接题目描述对于任何正整数x,其约数的个数记作g(x).例如g(1)=1.g(6)=4. 如果某个正整数x满足:g(x)>g(i) 0<i<x,则称x为反质数.例如,整数1, ...
Java单体应用 - 导读
原文地址:http://www.work100.net/training/monolithic 更多教程:光束云 - 免费课程 Java单体应用本阶段课程将学习如何进行Java单体Web应用开发,经 ...
CQBZOJ 【重庆市NOIP模拟赛】避难向导
题目描述 "特大新闻,特大新闻!全国爆发了一种极其可怕的病毒,已经开始在各个城市中传播开来!全国陷入了巨大的危机!大量居民陷入恐慌,想要逃到其它城市以避难!经调查显示,该病毒来自于C 市 ...
html恶搞之无限弹窗
啦啦啦啦啦恶搞别人吗? 把下面代码做成html文件发给别人,用浏览器打开就可以看见效果了 <!DOCTYPE html> <html><head><meta ...
用 F# 手写 TypeScript 转 C# 类型绑定生成器
前言我们经常会遇到这样的事情:有时候我们找到了一个库,但是这个库是用 TypeScript 写的,但是我们想在 C# 调用,于是我们需要设法将原来的 TypeScript 类型声明翻译成 C# 的代 ...
异想家Win7系统安装的软件与配置
C盘推荐一个硬盘,256G以上,安装好驱动,激活Win7,备份一次系统(纯净)! 1.Mac.Linux时间同步(双系统时配置): 开始->运行->CMD,打开命令行程序(以管理员方式打开 ...
HTTP权威指南之URL与资源
前言 web基础中介绍了URI.URL与URN: URI是一类更通用的资源标识符,URL是它的一个子集: URI是一个通用的概念,它主要由URL与URN组成: URL是通过描述资源的位置来标识资源的, ...
Spring注解开发系列Ⅴ --- 自动装配&Profile
自动装配: spring利用依赖注入和DI完成对IOC容器中各个组件的依赖关系赋值.自动装配的优点有: 自动装配可以大大地减少属性和构造器参数的指派. 自动装配也可以在解析对象时更新配置. 自动装配的 ...
并发队列之ConcurrentLinkedQueue
本来想着直接说线程池的,不过在说线程池之前,我们必须要知道并发安全队列:因为一般情况下线程池中的线程数量是一定的,肯定不会超过某个阈值,那么当任务太多了的时候,我们必须把多余的任务保存到并发安全队列中 ...

Python3正则去掉HTML标签

Python3正则去掉HTML标签

Python3正则去掉HTML标签的更多相关文章

随机推荐

热门专题